معرفی یک پیکرة متنی تخصصی: پیکرة پژوهش‌نامه

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

2 رئیس اداره سامانه‌های اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

3 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

چکیده

بسیاری از پژوهش‌های زبان‌شناسی و برنامه‌ریزی‌های زبانی با استفاده از پیکره‌های زبانی انجام می‌شود. در این پژوهش پیکره‌ای با استفاده از متون مقاله‌های پژوهش‌نامة پردازش و مدیریت اطلاعات ساخته شده است. این پیکره شامل بیش از 600 مقاله (بیش از چهار میلیون واژه) است. موضوع این مقاله‌ها کتابداری و اطلاع‌رسانی، علم اطلاعات و دانش‌شناسی، فناوری اطلاعات، زبان‌شناسی، زبان‌شناسی رایانشی، اصطلاح‌شناسی، هستان‌شناسی و سایر حوزه‌های پردازش اطلاعات است. متون مقاله‌ها تخصصی و میان‌رشته‌ای است و برای پردازش‌هایی که مستلزم بهره‌گیری از متون تخصصی است، ارزشمند است. برای ساخت پیکره پس از نمونه‌گیری و وارد کردن داده‌ها در پیکره، فرادادة مقاله‌ها وارد پیکره شد. سپس نرمال‌سازی ماشینی و به دنبال آن برچسب‌گذاری ماشینی (نوعاً برچسب‌گذاری اجزای واژگانی کلام) انجام شد. در نهایت تعداد قابل توجهی از فایل‌های برچسب‌خورده در پیکره به صورت رندوم انتخاب شد و الگوهای زبانی برای اصلاح ماشینی و دستی برچسب‌ها استخراج و در پیکره به کار برده شد.

کلیدواژه‌ها


  • اسلامی،محرم؛  شریفی­ آتشگاه، مسعود؛ علیزاده لمجیری، صدیقه؛ زندی، طاهره (۱۳۸۳). «واژگان زایای زبان فارسی»، مجموعه مقالات اولین کارگاه پژوهشی زبان فارسی و رایانه.
  • اسلامی، محرم؛شیخ‌زادگان، جواد؛ احمدی‌نیا، زهرا؛ بهرامی راد، علی (۱۳۸۸). «مراحل و نحوة تهیة دادگان‌های صوتی هجایی و دایفونی برای سامانة تبدیل متن به گفتار فارسی»، دوفصل‌نامه علمی-پژوهشی پردازش علائم و داده‌ها، 2: ۳–۱۲.
  • دشتبانی، شکوفه؛ منصوری­زاده، محرم؛ نصیری، محمد (1393). «پیکرة متنی تطبیقی فارسی-انگلیسی حوزة تخصصی فاوا»، پژوهش­های زبان­شناسی تطبیقی. سال چهارم. 8: 141-121.
  • صادقی، علی­اشرف (1370). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (1 )»، نشر دانش، شمارة 64.
  • صادقی، علی­اشرف (1370). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر ( 2)»، نشر دانش، شمارة 65.
  • صادقی، علی­اشرف (1370). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر ( 3 )»، نشر دانش، شمارة 67.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (4 )»، نشر دانش، شمارة 69.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (5 )»، نشر دانش، شمارة 70.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (6 )»، نشر دانش، شمارة 71.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (7 »، نشر دانش، شمارة 72.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (8) »، نشر دانش، شمارة 74.
  • صادقی، علی­اشرف (1372). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (9 )»، نشر دانش، شمارة 75.
  • صادقی، علی­اشرف (1372). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (10 )»،  نشر دانش، شمارة 76.
  • صادقی، علی­اشرف (1372). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (11 )»، نشر دانش، شمارة 77.
  • صادقی، علی­اشرف (1372). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (12 )»، نشر دانش، شمارة 79 و 80.
  • عاصی، مصطفی (1384). «گزارش کوتاهی از شکل­گیری پایگاه داده­های زبان فارسی در اینترنت»، مجله پژوهشگران شماره 2، صفحه 13.
  • علایی، الهام؛ علیدوستی، سیروس (1399). «ساخت پیکرة متنی: طراحی مدل امکان­سنجی»، پژوهش­های زبان­شناسی تطبیقی، سال دهم. 20: 309-279.
  • قطره، فریبا (1386). «مشخصه­های تصریفی در زبان فارسی امروز»، دستور. 3: 81-52.
  • کشانی، خسرو (1371). اشتقاق پسوندی در زبان فارسی امروز، تهران، مرکز نشر دانشگاهی.
  • لازار، ژیلبر (1389). دستور زبان فارسی معاصر. ترجمة مهستی بحرینی و توضیحات و حواشی هرمز میلانیان، تهران، انتشارات هرمس. چاپ دوم.
  • میرزایی، آزاده؛ مولودی، امیرسعید (1393). «نخستین پیکرة نقش­های معنایی در زبان فارسی»، علم زبان، 2 (3): 48-29.
  • هضم برای پردازش زبان فارسی در پایتون: https://www.sobhe.ir/hazm/
  • AleAhmad, A; Amiri, H; Darrudi, E; Rahgozar, M; Oroumchian. F (2009). “Hamshahri: A Standard Persian Text Collection”, Knowledge-Based Systems, Elsevier, Dubai, 22(5): 382–387.
  • Atkins, S; Clear, J; Ostler, N (1992). “Corpus design criteria”, Literary and Linguistic Computing. 7 (1): 1-16
  • Bijankhan, M.; Sheykhzadegan, J; Bahrani, M; Ghayoomi, M (2011). “Lesson from building a Persian written corpus: Peykare”, Language resources and evolution 45 (2): 143-164. Springer.
  • Bijankhan, M.‎; Sheykhzadegan, J; Roohani, M. R; Zarrintare, R; Ghasemi, S. Z; Ghasedi, M. E (2003).‎ “Tfarsdat - The Telephone Farsi Speech Database”,‎ In Proceeding of EUROSPEECH, 1525-1528,Geneva, Switzerland.
  • Claude Toriida, M (2016). “Steps for creating specialized corpus and developing an annotated frequence-based vocabulary list”, TESL Canada journal/ revue TESL du Canada 34 (11): 87-105.
  • Durand, J; Gut, U; Kristoffersen, G (2014). The handbook of corpus phonology, Oxford University Press (OUP).
  • Ghayoomi, M.; Momtazi, S; Bijankhan, M (2013). “A study of corpus development for Persian”, International journal on Asian language processing 20 (1): 17-33.
  • Leech, G (2004). Developing Linguistic Corpora: a Guide to Good Practice. adding linguistic annotaion. Edited by Martin Wynne .ahds.literature, languages and linguistics. The Oxford Text Archive.
  • Megerdoomian, K (2004). “Developing a Persian part-of-speech tagger”, Proceedings of the 1st workshop on Persian language and computer. 99-105.
  • Rasooli, M.; Kouhestani, M.; Moloodi, A (2013). “Development of a Persian Syntactic Dependency Treebank”, In The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT): 306-314. Atlanta, USA.
  • Samvelian, P; Faghiri, P (2013)‎.‎ “Introducing PersPred, A Syntactic and Semantic Database for Persian Complex Predicates”,‎ In Proceedings of the 9th Workshop on Multiword Expressions, Atlanta, Georgia, USA. Association for Computational Linguistics, 11-20.
  • Shamsfard, M.; Hesabi, A; Fadaei, H; Mansoory, N; Famian, A; Bagherbeigi, S; Fekri, E; et al (2010). “Semi-Automatic Development of Farsnet; the Persian Wordnet”, Proceedings of 5th Global WordNet Conference (GWA). Mumbai, India.
  • Waynne, M (2005). Developing linguistic corpora: a guide to good practice. Oxbow books. Literary and linguistic computing 22 (1).