طراحی و ضبط پایگاه‌دادگان گفتاری برای سیستم‌های تبدیل متن به گفتار فارسی

نوع مقاله: مقاله علمی - پژوهشی

نویسندگان

1 استادیار گروه زبان انگلیسی دانشگاه شهرکرد

2 پژوهشگر/دانشگاه صنعتی شریف

3 استاد/پژوهشگاه علوم انسانی و مطالعات فرهنگی

4 استاد/دانشگاه صنعتی سریف

5 استاد/دانشگاه تهران

چکیده

مقالة حاضر به ارائة روشی برای طراحی و ساختِ پایگاه‌دادگانی مختص سیستم‌های تبدیل متن به گفتار با در نظر گرفتن ساخت نوایی فارسی می‌پردازد. این مجموعه به لحاظ آوایی و نوایی غنی و مشتمل بر 2826 نمونه جملة فارسی است. این نمونه جملات در شرایط استودیو و با تک‌صدای گویندة خانم که به صورت حرفه‌ای در زمینة صدا فعالیت می‌کند ضبط شده است. پوشش حالت‌های مختلف نوایی در کنار پوشش حالت‌های مختلف آوایی از نقاط قوت این پایگاه است که برای نخستین بار در سیستم‌های تبدیل متن به گفتارِ فارسی لحاظ می‌شود. این مجموعه در کنار فایل‌های صوتی، دارای برچسب‌های متن و صورت آوایی است که به صورت دستی اصلاح شده‌‌اند. در نهایت، با بکارگیری مجموعه دادگان مذکور و با استفاده از روش بازسازی گفتار آماری ـ پارامتری ساخت صدا انجام گرفت. آزمودنی‌ها کیفیت صدای ساخته‌شده را با استفاده از معیار میانگینِ امتیازاتِ نظردهی (MOS) 4.3 ارزیابی کردند.

کلیدواژه‌ها

موضوعات


-  اسلامی، محرم؛ شیخ‌زادگان، جواد؛ احمدی‌نیا، زهرا و بهرامی، علی (1388)، مراحل و نحوه تهیه دادگان‌های صوتی هجایی و دایفونی برای سامانه تبدیل متن به گفتار فارسی. دوفصل‌نامه علمی- پژوهشی پردازش علائم و داده‌ها، (۱۲)، ۳-۱۲.
-  آیت، سیدسعید (1389)، طراحی و پیاده‌سازی دادگان دایفون زبان فارسی برای کاربرد زبان‌شناسی رایانه‌ای، پژوهش‌های زبان‌شناسی دانشگاه اصفهان، سال دوم، پاییز و زمستان 1389، شماره 2 (پیاپی 3)، 1ـ11.
-  بی‌جن‌خان، محمود (1386)، مطالعه و تحقیق جهت تدوین پژوهشنامه عملیاتی دادگان: پیاده سازی استاندارد ایگلز در پیکرة متنی زبان فارسی معاصر، دبیرخانة شورای عالی اطلاع‌رسانی.
-  طاهری ‌اردلی، مرتضی و خرم، سهیل (1391)، مدل‌سازی نوای گفتار در سیستم‌های سنتز گفتار فارسی، مجموعه مقالات هشتمین همایش زبانشناسی ایران، به کوشش محمد دبیرمقدم، تهران: دانشگاه علامه طباطبایی، 480-492.
-  همایون‌پور، محمدمهدی (1391)، پژوهشنامة تبدیل متن به گفتار، تهران: شوراى عالى اطلاع رسانى، دبیرخانه.
-  Abolhasanizadeh, V., Bijankhan, M., & Gussenhoven, C. (2012), The Persian pitch accent and its retention after the focus. Lingua, 122(13), 1380-1394.
-  Black, A. (2006), CLUSTERGEN: A Statistical Parametric Synthesizer Using Trajectory Modeling. In: Proc. Interspeech, 1762–1765.
-  Black A. W., Zen H. & K. Tokuda (2007), Statistical Parametric Speech Synthesis, ICASSP'2007, pp. IV-1229-IV-1232, Honolulu, Hawai'i, USA.
-  Campbell, N. (2005), Developments in corpus-based speech synthesis: Approaching natural conversational speech. IEICE transactions on information and systems, 88(3), 376-383.
-  Heusinger, K. (1999), Intonation and information structure. Habilitationsschrift, University of Konstanz.
-  Hunt, A., & Black, A. (1996), Unit Selection in a Concatenative Speech Synthesis System Using a Large Speech Database. In: Proc. ICASSP, 373-376.
-  Jurafsky, D., & Martin, J. H. (2007), Speech and language processing. Pearson Education India.‏
-  Khorram, S., Sameti, H., Bahmaninezhad, F., King, S., & Drugman, T. (2014), Context-dependent acoustic modeling based on hidden maximum entropy model for statistical parametric speech synthesis. EURASIP Journal on Audio, Speech, and Music Processing, 2014(1), 12.
-  Kominek, J., & Black, A. (2003), CMU ARCTIC databases for speech synthesis. CMU Language Technologies Institute, Tech Report CMU-LTI-03-177.
-  Ling, Z.-H., Wang, R.-H. (2006), HMM-based unit selection using frame sized speech segments. In: Proc. Interspeech. 2034-2037.
-  Matoušek, J., Tihelka, D., & Romportl, J. (2008), Building of a speech corpus optimized for unit selection TTS synthesis. In Proceedings of LREC 2008, Marrakech, Morocco.
-  Moulines, E., Charpentier, F. (1990), Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication, 9, 453-467.
-  Nespor, M., & Vogel, I. (2007), Prosodic phonology: with a new foreword (Vol. 28). Walter de Gruyter.
-  Sadat-Tehrani, N. (2007), Intonational grammar of Persian, Doctoral dissertation. Manitoba: University of Manitoba.
-  Taheri-Ardali, M. & Y. Xu (2012), "Phonetic realization of prosodic focus in Persian". Speech Prosody 2012, Shanghai.
-  Taylor, P. (2009), Text-to-speech synthesis. Cambridge, Cambridge University Press.
-  Zen, H., Toda, T., Nakamura, M., Tokuda, T., (2007), Details of the Nitech HMM-based speech synthesis system for the Blizzard Challenge 2005. IEICE Trans. Inf. Syst, E90-D (1), 325-333.
-  Zen H., Tokuda K. and A. W. Black (2009), Statistical Parametric Speech Synthesis, Speech Communication Elsevier, 51(11), 1039-1064.