introducing a specialized corpus: Pazhooheshname

Document Type : Research Paper

Authors

1 Information Science Research Department, Iranian Research Institute for Information Science and Technology (IranDoc)

2 Information science Research Department, Iranian Research Institute for Information Science and Technology (IranDoc)

3 Iranian Research Institute for Information Science and Technology (Irandoc)

4 Iranian Research Institute for Information Science and Technology (IranDoc)

Abstract

Numerous linguistic studies as well as language planning involves the use of corpus to analyze different aspects of language. In present study a corpus was built from published articles of the journal of information processing and management. The corpus include more than 600 articles and 4000000 words. The articles cover hot topics including information science, information technology,, linguistics, computational linguistics, terminology, ontology and the like; so, actually the corpus is the specialized one which could be considered as a prerequisite for specific language processing. After sampling, in present study, data as well as metadata was inserted to corpus, Then, normalization and POS tagging were done via available software and finally some files were randomly chosen for checking their POS tags which led to extracting some rules for correcting wrong tags. Then the rules were applied to corpus.

Keywords


  • اسلامی،محرم؛  شریفی­ آتشگاه، مسعود؛ علیزاده لمجیری، صدیقه؛ زندی، طاهره (۱۳۸۳). «واژگان زایای زبان فارسی»، مجموعه مقالات اولین کارگاه پژوهشی زبان فارسی و رایانه.
  • اسلامی، محرم؛شیخ‌زادگان، جواد؛ احمدی‌نیا، زهرا؛ بهرامی راد، علی (۱۳۸۸). «مراحل و نحوة تهیة دادگان‌های صوتی هجایی و دایفونی برای سامانة تبدیل متن به گفتار فارسی»، دوفصل‌نامه علمی-پژوهشی پردازش علائم و داده‌ها، 2: ۳–۱۲.
  • دشتبانی، شکوفه؛ منصوری­زاده، محرم؛ نصیری، محمد (1393). «پیکرة متنی تطبیقی فارسی-انگلیسی حوزة تخصصی فاوا»، پژوهش­های زبان­شناسی تطبیقی. سال چهارم. 8: 141-121.
  • صادقی، علی­اشرف (1370). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (1 )»، نشر دانش، شمارة 64.
  • صادقی، علی­اشرف (1370). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر ( 2)»، نشر دانش، شمارة 65.
  • صادقی، علی­اشرف (1370). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر ( 3 )»، نشر دانش، شمارة 67.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (4 )»، نشر دانش، شمارة 69.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (5 )»، نشر دانش، شمارة 70.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (6 )»، نشر دانش، شمارة 71.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (7 »، نشر دانش، شمارة 72.
  • صادقی، علی­اشرف (1371). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (8) »، نشر دانش، شمارة 74.
  • صادقی، علی­اشرف (1372). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (9 )»، نشر دانش، شمارة 75.
  • صادقی، علی­اشرف (1372). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (10 )»،  نشر دانش، شمارة 76.
  • صادقی، علی­اشرف (1372). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (11 )»، نشر دانش، شمارة 77.
  • صادقی، علی­اشرف (1372). «شیوه­ها و امکانات واژه­سازی در زبان فارسی معاصر (12 )»، نشر دانش، شمارة 79 و 80.
  • عاصی، مصطفی (1384). «گزارش کوتاهی از شکل­گیری پایگاه داده­های زبان فارسی در اینترنت»، مجله پژوهشگران شماره 2، صفحه 13.
  • علایی، الهام؛ علیدوستی، سیروس (1399). «ساخت پیکرة متنی: طراحی مدل امکان­سنجی»، پژوهش­های زبان­شناسی تطبیقی، سال دهم. 20: 309-279.
  • قطره، فریبا (1386). «مشخصه­های تصریفی در زبان فارسی امروز»، دستور. 3: 81-52.
  • کشانی، خسرو (1371). اشتقاق پسوندی در زبان فارسی امروز، تهران، مرکز نشر دانشگاهی.
  • لازار، ژیلبر (1389). دستور زبان فارسی معاصر. ترجمة مهستی بحرینی و توضیحات و حواشی هرمز میلانیان، تهران، انتشارات هرمس. چاپ دوم.
  • میرزایی، آزاده؛ مولودی، امیرسعید (1393). «نخستین پیکرة نقش­های معنایی در زبان فارسی»، علم زبان، 2 (3): 48-29.
  • هضم برای پردازش زبان فارسی در پایتون: https://www.sobhe.ir/hazm/
  • AleAhmad, A; Amiri, H; Darrudi, E; Rahgozar, M; Oroumchian. F (2009). “Hamshahri: A Standard Persian Text Collection”, Knowledge-Based Systems, Elsevier, Dubai, 22(5): 382–387.
  • Atkins, S; Clear, J; Ostler, N (1992). “Corpus design criteria”, Literary and Linguistic Computing. 7 (1): 1-16
  • Bijankhan, M.; Sheykhzadegan, J; Bahrani, M; Ghayoomi, M (2011). “Lesson from building a Persian written corpus: Peykare”, Language resources and evolution 45 (2): 143-164. Springer.
  • Bijankhan, M.‎; Sheykhzadegan, J; Roohani, M. R; Zarrintare, R; Ghasemi, S. Z; Ghasedi, M. E (2003).‎ “Tfarsdat - The Telephone Farsi Speech Database”,‎ In Proceeding of EUROSPEECH, 1525-1528,Geneva, Switzerland.
  • Claude Toriida, M (2016). “Steps for creating specialized corpus and developing an annotated frequence-based vocabulary list”, TESL Canada journal/ revue TESL du Canada 34 (11): 87-105.
  • Durand, J; Gut, U; Kristoffersen, G (2014). The handbook of corpus phonology, Oxford University Press (OUP).
  • Ghayoomi, M.; Momtazi, S; Bijankhan, M (2013). “A study of corpus development for Persian”, International journal on Asian language processing 20 (1): 17-33.
  • Leech, G (2004). Developing Linguistic Corpora: a Guide to Good Practice. adding linguistic annotaion. Edited by Martin Wynne .ahds.literature, languages and linguistics. The Oxford Text Archive.
  • Megerdoomian, K (2004). “Developing a Persian part-of-speech tagger”, Proceedings of the 1st workshop on Persian language and computer. 99-105.
  • Rasooli, M.; Kouhestani, M.; Moloodi, A (2013). “Development of a Persian Syntactic Dependency Treebank”, In The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT): 306-314. Atlanta, USA.
  • Samvelian, P; Faghiri, P (2013)‎.‎ “Introducing PersPred, A Syntactic and Semantic Database for Persian Complex Predicates”,‎ In Proceedings of the 9th Workshop on Multiword Expressions, Atlanta, Georgia, USA. Association for Computational Linguistics, 11-20.
  • Shamsfard, M.; Hesabi, A; Fadaei, H; Mansoory, N; Famian, A; Bagherbeigi, S; Fekri, E; et al (2010). “Semi-Automatic Development of Farsnet; the Persian Wordnet”, Proceedings of 5th Global WordNet Conference (GWA). Mumbai, India.
  • Waynne, M (2005). Developing linguistic corpora: a guide to good practice. Oxbow books. Literary and linguistic computing 22 (1).