Designing and Recording a Speech Database for Persian TTS Systems

Document Type : Research Paper

Authors

1 Student/Institute for Humanities and Cultural Studies

2 Researcher/Sharif University of Technology

3 professor/IHCS

4 Professor/Sharif University of Technology

5 Professor/University of Tehran

Abstract

This paper presents a method for designing and building a speech database for Persian TTS systems taking account of Persian prosodic structure. This collection, containing 2826 phonetically and prosodically rich utterances, was recorded under studio conditions with a female voice talent speaker. In addition to common practice of covering phonetic units, the coverage of prosodic units has been considered in preparation of this collection as a novel procedure in building Persian databases. The current database consists of sound files and their corresponding manually-corrected orthographic and phonetic transcriptions. Finally, we used the prepared database to do speech synthesis using a statistical-parametric method. The subjects evaluated the generated voices 4.3 in terms of MOS criterion.

Keywords

Main Subjects


-  اسلامی، محرم؛ شیخ‌زادگان، جواد؛ احمدی‌نیا، زهرا و بهرامی، علی (1388)، مراحل و نحوه تهیه دادگان‌های صوتی هجایی و دایفونی برای سامانه تبدیل متن به گفتار فارسی. دوفصل‌نامه علمی- پژوهشی پردازش علائم و داده‌ها، (۱۲)، ۳-۱۲.
-  آیت، سیدسعید (1389)، طراحی و پیاده‌سازی دادگان دایفون زبان فارسی برای کاربرد زبان‌شناسی رایانه‌ای، پژوهش‌های زبان‌شناسی دانشگاه اصفهان، سال دوم، پاییز و زمستان 1389، شماره 2 (پیاپی 3)، 1ـ11.
-  بی‌جن‌خان، محمود (1386)، مطالعه و تحقیق جهت تدوین پژوهشنامه عملیاتی دادگان: پیاده سازی استاندارد ایگلز در پیکرة متنی زبان فارسی معاصر، دبیرخانة شورای عالی اطلاع‌رسانی.
-  طاهری ‌اردلی، مرتضی و خرم، سهیل (1391)، مدل‌سازی نوای گفتار در سیستم‌های سنتز گفتار فارسی، مجموعه مقالات هشتمین همایش زبانشناسی ایران، به کوشش محمد دبیرمقدم، تهران: دانشگاه علامه طباطبایی، 480-492.
-  همایون‌پور، محمدمهدی (1391)، پژوهشنامة تبدیل متن به گفتار، تهران: شوراى عالى اطلاع رسانى، دبیرخانه.
-  Abolhasanizadeh, V., Bijankhan, M., & Gussenhoven, C. (2012), The Persian pitch accent and its retention after the focus. Lingua, 122(13), 1380-1394.
-  Black, A. (2006), CLUSTERGEN: A Statistical Parametric Synthesizer Using Trajectory Modeling. In: Proc. Interspeech, 1762–1765.
-  Black A. W., Zen H. & K. Tokuda (2007), Statistical Parametric Speech Synthesis, ICASSP'2007, pp. IV-1229-IV-1232, Honolulu, Hawai'i, USA.
-  Campbell, N. (2005), Developments in corpus-based speech synthesis: Approaching natural conversational speech. IEICE transactions on information and systems, 88(3), 376-383.
-  Heusinger, K. (1999), Intonation and information structure. Habilitationsschrift, University of Konstanz.
-  Hunt, A., & Black, A. (1996), Unit Selection in a Concatenative Speech Synthesis System Using a Large Speech Database. In: Proc. ICASSP, 373-376.
-  Jurafsky, D., & Martin, J. H. (2007), Speech and language processing. Pearson Education India.‏
-  Khorram, S., Sameti, H., Bahmaninezhad, F., King, S., & Drugman, T. (2014), Context-dependent acoustic modeling based on hidden maximum entropy model for statistical parametric speech synthesis. EURASIP Journal on Audio, Speech, and Music Processing, 2014(1), 12.
-  Kominek, J., & Black, A. (2003), CMU ARCTIC databases for speech synthesis. CMU Language Technologies Institute, Tech Report CMU-LTI-03-177.
-  Ling, Z.-H., Wang, R.-H. (2006), HMM-based unit selection using frame sized speech segments. In: Proc. Interspeech. 2034-2037.
-  Matoušek, J., Tihelka, D., & Romportl, J. (2008), Building of a speech corpus optimized for unit selection TTS synthesis. In Proceedings of LREC 2008, Marrakech, Morocco.
-  Moulines, E., Charpentier, F. (1990), Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication, 9, 453-467.
-  Nespor, M., & Vogel, I. (2007), Prosodic phonology: with a new foreword (Vol. 28). Walter de Gruyter.
-  Sadat-Tehrani, N. (2007), Intonational grammar of Persian, Doctoral dissertation. Manitoba: University of Manitoba.
-  Taheri-Ardali, M. & Y. Xu (2012), "Phonetic realization of prosodic focus in Persian". Speech Prosody 2012, Shanghai.
-  Taylor, P. (2009), Text-to-speech synthesis. Cambridge, Cambridge University Press.
-  Zen, H., Toda, T., Nakamura, M., Tokuda, T., (2007), Details of the Nitech HMM-based speech synthesis system for the Blizzard Challenge 2005. IEICE Trans. Inf. Syst, E90-D (1), 325-333.
-  Zen H., Tokuda K. and A. W. Black (2009), Statistical Parametric Speech Synthesis, Speech Communication Elsevier, 51(11), 1039-1064.