بسیاری از پژوهشهای زبانشناسی و برنامهریزیهای زبانی با استفاده از پیکرههای زبانی انجام میشود. در این پژوهش پیکرهای با استفاده از متون مقالههای پژوهشنامة پردازش و مدیریت اطلاعات ساخته شده است. این پیکره شامل بیش از 600 مقاله (بیش از چهار میلیون واژه) است. موضوع این مقالهها کتابداری و اطلاعرسانی، علم اطلاعات و دانششناسی، فناوری اطلاعات، زبانشناسی، زبانشناسی رایانشی، اصطلاحشناسی، هستانشناسی و سایر حوزههای پردازش اطلاعات است. متون مقالهها تخصصی و میانرشتهای است و برای پردازشهایی که مستلزم بهرهگیری از متون تخصصی است، ارزشمند است. برای ساخت پیکره پس از نمونهگیری و وارد کردن دادهها در پیکره، فرادادة مقالهها وارد پیکره شد. سپس نرمالسازی ماشینی و به دنبال آن برچسبگذاری ماشینی (نوعاً برچسبگذاری اجزای واژگانی کلام) انجام شد. در نهایت تعداد قابل توجهی از فایلهای برچسبخورده در پیکره به صورت رندوم انتخاب شد و الگوهای زبانی برای اصلاح ماشینی و دستی برچسبها استخراج و در پیکره به کار برده شد.
اسلامی،محرم؛ شریفی آتشگاه، مسعود؛ علیزاده لمجیری، صدیقه؛ زندی، طاهره (۱۳۸۳). «واژگان زایای زبان فارسی»، مجموعه مقالات اولین کارگاه پژوهشی زبان فارسی و رایانه.
اسلامی، محرم؛شیخزادگان، جواد؛ احمدینیا، زهرا؛ بهرامی راد، علی (۱۳۸۸). «مراحل و نحوة تهیة دادگانهای صوتی هجایی و دایفونی برای سامانة تبدیل متن به گفتار فارسی»، دوفصلنامه علمی-پژوهشی پردازش علائم و دادهها، 2: ۳–۱۲.
AleAhmad, A; Amiri, H; Darrudi, E; Rahgozar, M; Oroumchian. F (2009). “Hamshahri: A Standard Persian Text Collection”, Knowledge-Based Systems, Elsevier, Dubai, 22(5): 382–387.
Atkins, S; Clear, J; Ostler, N (1992). “Corpus design criteria”, Literary and Linguistic Computing. 7 (1): 1-16
Bijankhan, M.; Sheykhzadegan, J; Bahrani, M; Ghayoomi, M (2011). “Lesson from building a Persian written corpus: Peykare”, Language resources and evolution 45 (2): 143-164. Springer.
Bijankhan, M.; Sheykhzadegan, J; Roohani, M. R; Zarrintare, R; Ghasemi, S. Z; Ghasedi, M. E (2003). “Tfarsdat - The Telephone Farsi Speech Database”, In Proceedingof EUROSPEECH, 1525-1528,Geneva, Switzerland.
Claude Toriida, M (2016). “Steps for creating specialized corpus and developing an annotated frequence-based vocabulary list”, TESL Canada journal/ revue TESL du Canada 34 (11): 87-105.
Durand, J; Gut, U; Kristoffersen, G (2014). The handbook of corpus phonology, Oxford University Press (OUP).
Ghayoomi, M.; Momtazi, S; Bijankhan, M (2013). “A study of corpus development for Persian”, International journal on Asian language processing 20 (1): 17-33.
Leech, G (2004). Developing Linguistic Corpora: a Guide to Good Practice. adding linguistic annotaion. Edited by Martin Wynne .ahds.literature, languages and linguistics. The Oxford Text Archive.
Megerdoomian, K (2004). “Developing a Persian part-of-speech tagger”, Proceedings of the 1st workshop on Persian language and computer. 99-105.
Rasooli, M.; Kouhestani, M.; Moloodi, A (2013). “Development of a Persian Syntactic Dependency Treebank”, In The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT): 306-314. Atlanta, USA.
Samvelian, P; Faghiri, P (2013). “Introducing PersPred, A Syntactic and Semantic Database for Persian Complex Predicates”, In Proceedings of the 9th Workshop on Multiword Expressions, Atlanta, Georgia, USA. Association for Computational Linguistics, 11-20.
Shamsfard, M.; Hesabi, A; Fadaei, H; Mansoory, N; Famian, A; Bagherbeigi, S; Fekri, E; et al (2010). “Semi-Automatic Development of Farsnet; the Persian Wordnet”, Proceedings of 5th Global WordNet Conference (GWA). Mumbai, India.
Waynne, M (2005). Developing linguistic corpora: a guide to good practice. Oxbow books. Literary and linguistic computing 22 (1).