مدل‌سازیِ نوای گفتارِ کانونی در فارسی: رویکردی تولیدی ـ نقش‌گرا

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری پژوهشگاه علوم انسانی و مطالعات فرهنگی

2 استاد پژوهشگاه علوم انسانی و مطالعات فرهنگی

3 دانشیار دانشگاه صنعتی شریف

4 استاد دانشگاه تهران

چکیده

مقالة حاضر تلاشی است در جهت مدل‌سازیِ نوای گفتارِ کانونیِ فارسی که با اتخاذ رویکردی تولیدی ـ نقش‌گرا یعنی رمزگذاری موازی و تقریبِ هدف (PENTA) انجام شده است. داده‌های مورد استفاده برای مدل‌سازی شامل 150 پاره‌گفتار است که در شرایط مختلف کانونی و غیرکانونی تولید شده‌اند. در راستای رسیدن به این هدف، از بازسازی‌کنندة PENTAtrainer2 تحتِ نرم‌افزار پِرَت (Praat) استفاده شده است. این بازسازی‌کننده در قالبِ رویکرد PENTA، اهدافِ زیروبمیِ مقوله‌ای را بهینه می‌کند که هر یک از این اهداف با نقش‌های ارتباطی خاصی مرتبط هستند. ارزیابی عینی از مقایسة منحنی بسامدپایة بازسازی‌شده با منحنی بسامدپایة طبیعی حاکی از آن است که منحنی بازسازی‌شده با خطای جذرِ میانگینِ مربعات 94/1 و میزان ضریب همبستگی 84/0، به منحنی طبیعی شباهت بسیار دارد. همچنین ارزیابی ذهنی از جایگاه کانون و همچنین قضاوت آزمودنی‌ها از میزان طبیعی‌بودن صداهای بازسازی‌شده، نشان‌دهندة شباهت بسیار زیاد هر دو منحنیِ طبیعی و بازسازی‌شده است.    

کلیدواژه‌ها

موضوعات


-  اسلامی، محرم (1384)، واج‌شناسی، نظام تحلیل آهنگ زبان فارسی. تهران، انتشارات سمت.
-  طاهری ‌اردلی، مرتضی و سهیل خرم (1391)، «مدل‌سازی نوای گفتار در سیستم‌های سنتز گفتار فارسی»، مجموعه مقالات هشتمین همایش زبانشناسی ایران، به کوشش محمد دبیرمقدم، تهران: دانشگاه علامه طباطبایی، صفحات 480-492.
-  طاهری ‌اردلی، مرتضی، خرم، سهیل، عاصی، مصطفی، صامتی، حسین و محمود بی‌جن‌خان (زیر چاپ)، «طراحی و ضبط پایگاه‌دادگان گفتاری برای سیستم‌های تبدیل متن به گفتار فارسی»، دو فصلنامه علمی- پژوهشی پژوهش‌های زبان‌شناسی تطبیقی.
-  نم­نبات مجید و عباس کوچاری (1385)، «تخمین منحنی گام در زبان فارسی برای یک سیستم تبدیل متن به گفتار با کمک درخت کلاس­بندی و رگرسیون»، مجموعه مقالات دوازدهمین کنفرانس ملی انجمن کامپیوتر ایران.
-  نم­نبات مجید و عباس کوچاری (1386)، «استخراج اتوماتیک پارامترهای مدل فوجی‌ساکی برای زبان فارسی»، مجموعه مقالات پانزدهیمن کنفرانس مهندسی برق ایران.
-  Abolhasanizadeh, V., Bijankhan, M., & Gussenhoven, C. (2012), "The Persian pitch accent and its retention after the focus", Lingua, 122(13), 1380-1394.
-  Bijankhan, M., Sheikhzadegan, M. J., Roohani, J., Samareh, Y., Lucas, C., & Tebyani, M. (1994), "FARSDAT-the Farsi spoken language database", Paper presented at the Proceedings of International Conference on Speech Sciences and Technology.
-  Boersma, P. & D. Weenink (2001), "Praat, a system for doing phonetics by computer." Glot international (5): 341–345.
-  Chen, Y., Guion-Anderson, S., & Xu, Y. (2012), "Post-Focus compression in second language Mandarin". Speech Prosody 2012, Shanghai.
-  Ferguson, C. (1957), "Word stress in Persian". Language 33, 123-135.
-  Fujisaki, H. & K. Hirose (1984), "Analysis of voice fundamental frequency contours for declarative sentences of Japanese." Journal of the Acoustical Society of America 5(4): 233-242.
-  Fujisaki, H. & S. Nagashima (1969), "A model for the synthesis of pitch contours of connected speech." Annual Report of the Engineering Research Institute 28: 53-60.
-  Jun, S.-A. (2005), Prosodic Typology: The Phonology of Intonation and Phrasing. Oxford: Oxford University Press.
-  Kahnemuyipour, A. (2003), "Syntactic categories and Persian stress." Natural Language & Linguistic Theory, 21(2), 333-379.
-  Ladd, R. (2008). Intonational Phonology. Cambridge, Cambridge University Press.
-  Lazard, G. (1957), Grammaire du Persan Contemporain. Klincksieck, Paris, New Edition published by Peeters, Paris, 2006.
-  Lee, A., Xu, Y., & Prom-on, S. (2014), "Modeling Japanese F0 contours using the PENTAtrainers and AMtrainer". Fourth International Symposium on Tonal Aspects of Languages. Nijmegen, Netherlands.
-  Mahjani, B. (2003), An Instrumental Study of Prosodic Features and Intonation in Modern Farsi (Persian), M.Sc. thesis, retrieved from:
-  Pierrehumbert, J. B. (1980), The phonology and phonetics of English intonation. (PhD dissertation), Massachusetts Institute of Technology.
-  Prom-on, S., Xu, Y., Thipakorn, B. (2009), "Modeling tone and intonation in Mandarin and English as a process of target approximation." The Journal of the Acoustical Society of America 125(1): 405–424.
-  Sadat-Tehrani, N. (2007), The Intonational Grammar of Persian. (PhD dissertation), University of Manitoba, Manitoba. 
-  Silverman, K. E., Beckman, M. E., Pitrelli, J. F., Ostendorf, M., Wightman, C. W., Price, P., & Hirschberg, J. (1992), "TOBI: a standard for labeling English prosody". In The Second International Conference on Spoken Language Processing, ICSLP 1992, Banff, Alberta, Canada, October 13-16.
-  Taheri-Ardali, M., Rahmani, H., & Xu, Y. (2014), "The perception of prosodic focus in Persian". Speech Prosody 2014. Dublin: 515-519.
-  Taheri-Ardali, M. & Y. Xu (2012), "Phonetic realization of prosodic focus in Persian". Speech Prosody 2012, Shanghai.
-  Taylor, P. (1992), A Phonetic Model of English Intonation. (PhD dissertation), University of Edinburgh, Edinburgh.
-  Taylor, P. (2000), "Analysis and synthesis of intonation using the tilt model." Journal of the Acoustical Society of America 107(4): 1697–1714.
-  Xu, Y. (2005), "Speech melody as articulatorily implemented communicative functions." Speech Communication 46(3–4): 220–251.
-  Xu, Y. & S. Prom-on (2014), "Toward invariant functional representations of variable surface fundamental frequency contours: Synthesizing speech melody via model-based stochastic learning." Speech Communication 57: 181–208.
-  Xu, Y. & E. Q. Wang (2001), "Pitch targets and their realization: Evidence from Mandarin Chinese." Speech Communication 33: 319-337.