معرفی یک پیکرة متنی تخصصی: پیکرة پژوهش‌نامه

علایی ابوذر, الهام; پاک‌نیت, نصراله; حجت‌پناه, علی‌اصغر; زالی, مجتبی; آقالویی آغمیونی, محمدهادی

doi:10.22084/rjhll.2021.24209.2136

معرفی یک پیکرة متنی تخصصی: پیکرة پژوهش‌نامه

نوع مقاله : مقاله پژوهشی

نویسندگان

الهام علایی ابوذر ¹

نصراله پاک‌نیت ¹

علی‌اصغر حجت‌پناه ²

مجتبی زالی ³

محمدهادی آقالویی آغمیونی ³

¹ استادیار پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

² رئیس اداره سامانه‌های اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

³ پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

10.22084/rjhll.2021.24209.2136

چکیده

بسیاری از پژوهش‌های زبان‌شناسی و برنامه‌ریزی‌های زبانی با استفاده از پیکره‌های زبانی انجام می‌شود. در این پژوهش پیکره‌ای با استفاده از متون مقاله‌های پژوهش‌نامة پردازش و مدیریت اطلاعات ساخته شده است. این پیکره شامل بیش از 600 مقاله (بیش از چهار میلیون واژه) است. موضوع این مقاله‌ها کتابداری و اطلاع‌رسانی، علم اطلاعات و دانش‌شناسی، فناوری اطلاعات، زبان‌شناسی، زبان‌شناسی رایانشی، اصطلاح‌شناسی، هستان‌شناسی و سایر حوزه‌های پردازش اطلاعات است. متون مقاله‌ها تخصصی و میان‌رشته‌ای است و برای پردازش‌هایی که مستلزم بهره‌گیری از متون تخصصی است، ارزشمند است. برای ساخت پیکره پس از نمونه‌گیری و وارد کردن داده‌ها در پیکره، فرادادة مقاله‌ها وارد پیکره شد. سپس نرمال‌سازی ماشینی و به دنبال آن برچسب‌گذاری ماشینی (نوعاً برچسب‌گذاری اجزای واژگانی کلام) انجام شد. در نهایت تعداد قابل توجهی از فایل‌های برچسب‌خورده در پیکره به صورت رندوم انتخاب شد و الگوهای زبانی برای اصلاح ماشینی و دستی برچسب‌ها استخراج و در پیکره به کار برده شد.

کلیدواژه‌ها

پیکره

نرمال‌سازی

برچسب‌گذاری اجزای واژگانی کلام

اسلامی،محرم؛ شریفی آتشگاه، مسعود؛ علیزاده لمجیری، صدیقه؛ زندی، طاهره (۱۳۸۳). «واژگان زایای زبان فارسی»، مجموعه مقالات اولین کارگاه پژوهشی زبان فارسی و رایانه.
اسلامی، محرم؛شیخ‌زادگان، جواد؛ احمدی‌نیا، زهرا؛ بهرامی راد، علی (۱۳۸۸). «مراحل و نحوة تهیة دادگان‌های صوتی هجایی و دایفونی برای سامانة تبدیل متن به گفتار فارسی»، دوفصل‌نامه علمی-پژوهشی پردازش علائم و داده‌ها، 2: ۳–۱۲.
دشتبانی، شکوفه؛ منصوریزاده، محرم؛ نصیری، محمد (1393). «پیکرة متنی تطبیقی فارسی-انگلیسی حوزة تخصصی فاوا»، پژوهشهای زبانشناسی تطبیقی. سال چهارم. 8: 141-121.
صادقی، علیاشرف (1370). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (1 )»، نشر دانش، شمارة 64.
صادقی، علیاشرف (1370). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر ( 2)»، نشر دانش، شمارة 65.
صادقی، علیاشرف (1370). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر ( 3 )»، نشر دانش، شمارة 67.
صادقی، علیاشرف (1371). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (4 )»، نشر دانش، شمارة 69.
صادقی، علیاشرف (1371). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (5 )»، نشر دانش، شمارة 70.
صادقی، علیاشرف (1371). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (6 )»، نشر دانش، شمارة 71.
صادقی، علیاشرف (1371). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (7 »، نشر دانش، شمارة 72.
صادقی، علیاشرف (1371). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (8) »، نشر دانش، شمارة 74.
صادقی، علیاشرف (1372). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (9 )»، نشر دانش، شمارة 75.
صادقی، علیاشرف (1372). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (10 )»، نشر دانش، شمارة 76.
صادقی، علیاشرف (1372). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (11 )»، نشر دانش، شمارة 77.
صادقی، علیاشرف (1372). «شیوهها و امکانات واژهسازی در زبان فارسی معاصر (12 )»، نشر دانش، شمارة 79 و 80.
عاصی، مصطفی (1384). «گزارش کوتاهی از شکلگیری پایگاه دادههای زبان فارسی در اینترنت»، مجله پژوهشگران شماره 2، صفحه 13.
علایی، الهام؛ علیدوستی، سیروس (1399). «ساخت پیکرة متنی: طراحی مدل امکانسنجی»، پژوهشهای زبانشناسی تطبیقی، سال دهم. 20: 309-279.
قطره، فریبا (1386). «مشخصههای تصریفی در زبان فارسی امروز»، دستور. 3: 81-52.
کشانی، خسرو (1371). اشتقاق پسوندی در زبان فارسی امروز، تهران، مرکز نشر دانشگاهی.
لازار، ژیلبر (1389). دستور زبان فارسی معاصر. ترجمة مهستی بحرینی و توضیحات و حواشی هرمز میلانیان، تهران، انتشارات هرمس. چاپ دوم.
میرزایی، آزاده؛ مولودی، امیرسعید (1393). «نخستین پیکرة نقشهای معنایی در زبان فارسی»، علم زبان، 2 (3): 48-29.
هضم برای پردازش زبان فارسی در پایتون: https://www.sobhe.ir/hazm/
AleAhmad, A; Amiri, H; Darrudi, E; Rahgozar, M; Oroumchian. F (2009). “Hamshahri: A Standard Persian Text Collection”, Knowledge-Based Systems, Elsevier, Dubai, 22(5): 382–387.
Atkins, S; Clear, J; Ostler, N (1992). “Corpus design criteria”, Literary and Linguistic Computing. 7 (1): 1-16
Bijankhan, M.; Sheykhzadegan, J; Bahrani, M; Ghayoomi, M (2011). “Lesson from building a Persian written corpus: Peykare”, Language resources and evolution 45 (2): 143-164. Springer.
Bijankhan, M.‎; Sheykhzadegan, J; Roohani, M. R; Zarrintare, R; Ghasemi, S. Z; Ghasedi, M. E (2003).‎ “Tfarsdat - The Telephone Farsi Speech Database”,‎ In Proceeding of EUROSPEECH, 1525-1528,Geneva, Switzerland.
Claude Toriida, M (2016). “Steps for creating specialized corpus and developing an annotated frequence-based vocabulary list”, TESL Canada journal/ revue TESL du Canada 34 (11): 87-105.
Durand, J; Gut, U; Kristoffersen, G (2014). The handbook of corpus phonology, Oxford University Press (OUP).
Ghayoomi, M.; Momtazi, S; Bijankhan, M (2013). “A study of corpus development for Persian”, International journal on Asian language processing 20 (1): 17-33.
Leech, G (2004). Developing Linguistic Corpora: a Guide to Good Practice. adding linguistic annotaion. Edited by Martin Wynne .ahds.literature, languages and linguistics. The Oxford Text Archive.
Megerdoomian, K (2004). “Developing a Persian part-of-speech tagger”, Proceedings of the 1^st workshop on Persian language and computer. 99-105.
Rasooli, M.; Kouhestani, M.; Moloodi, A (2013). “Development of a Persian Syntactic Dependency Treebank”, In The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT): 306-314. Atlanta, USA.
Samvelian, P; Faghiri, P (2013)‎.‎ “Introducing PersPred, A Syntactic and Semantic Database for Persian Complex Predicates”,‎ In Proceedings of the 9th Workshop on Multiword Expressions, Atlanta, Georgia, USA.‎ Association for Computational Linguistics, 11-20.
Shamsfard, M.; Hesabi, A; Fadaei, H; Mansoory, N; Famian, A; Bagherbeigi, S; Fekri, E; et al (2010). “Semi-Automatic Development of Farsnet; the Persian Wordnet”, Proceedings of 5th Global WordNet Conference (GWA). Mumbai, India.
Waynne, M (2005). Developing linguistic corpora: a guide to good practice. Oxbow books. Literary and linguistic computing 22 (1).

دوره 11، شماره 22 - شماره پیاپی 22
دی 1400
صفحه 271-289

XML

اصل مقاله 1.6 M

تعداد مشاهده مقاله 693
تعداد دریافت فایل اصل مقاله 638

پژوهش های زبان شناسی تطبیقی

معرفی یک پیکرة متنی تخصصی: پیکرة پژوهش‌نامه

دوره 11، شماره 22 - شماره پیاپی 22دی 1400صفحه 271-289

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

دوره 11، شماره 22 - شماره پیاپی 22
دی 1400
صفحه 271-289