How to make text corpus: Designing feasibility study model

Document Type : Research Paper

Authors

Iranian Research Institute for Information Science and Technology (IranDoc)

Abstract

A well-designed corpus is one in which the process of feasibility study is done prior to starting the project. Feasibility study tries to illuminate different aspects of the project including various stages, cost, human resources, legal rights and the like. Review of the literature showed that there exists no study in this field. The present study aimed to introduce a comprehensive model for the feasibility study of corpus design. First, the general criteria for corpus design were extracted from related studies. Then, the process of corpus design was explained. Review of the literature in the field of feasibility studies led to extracting different aspects and features pertaining to corpus design. Finally, a model was proposed. Then, the proposed model was evaluated by specialists using Delphi method. The final comprehensive model has seven aspects (including technical, economical, schedule, legal, operational, resource and marketing) as well as 33 features.

Keywords


-  ادیب­منش، مرزبان؛ عسگری، محمدعلی و موسی­پور، نعمت­الله (1390). «امکان‌سنجی اجرای برنامه‌ریزی درسی مدرسه محور در دبیرستان‌های شهر کرمانشاه»، پژوهش­های برنامة درسی،1(2): 104-81.

-  بی‌جن‌خان، محمود (1383). «نقش پیکره‌های زبانی در نوشتن دستور زبان: معرفی یک نرم‌افزار رایانه‌ای»، مجلة زبان‌شناسی، 19(2): ۴۸-۶۷.
-  پورفرج، اکبر؛ کرمی، مهرداد؛ نکویی، زهرا و طالب­بیدختی، زهرا (1391). «امکان­سنجی فرصت­های سرمایه­گذاری صنعت گردشگری. مطالعة موردی: شهرک تفریحی - توریستی طارم استان زنجان»، فصل­نامة مطالعات مدیریت صنعتی، 9(25): 214-189.
-  تابع‌بردبار، علیرضا (1393). ایجاد پیکره زبانی موازی به وسیله پیکره‌های قیاس‌پذیر، کارشناسی ارشد. شیراز: دانشگاه شیراز.
-  جواهری، حسن (۱۳۸۳). مطالعات امکان­سنجی پروژه­های تفریحی و گردشگری، اولین کنفرانس بین‌المللی مدیریت پروژه، تهران: گروه پژوهشی آریانا.
-  دشتبانی، شکوفه (1391). ساخت پیکرة متنی فارسی حوزة فاوا، دانشگاه بوعلی سینا، دانشکدة فنی و مهندسی.
-  سالاری، سمیه (1395). امکان­سنجی پیاده­سازی منتورینگ در صلاحیت حرفه­ای معلمان دوره ابتدایی، تهران: دانشگاه علامه طباطبائی، دانشکده علوم تربیتی و روانشناسی.
-  صرافی­زاده، اصغر و علیپور، وحیده (1390). «امکان­سنجی ارائة محصول بیمه­ای موجود به صورت الکترونیک در شرکت­های بیمه پارسیان، آسیا، البرز، رازی، توسعه، سینا و معلم»، فصل­نامه مدیریت توسعه و تحول، 7: 48-39.
-  عاصی، مصطفی (1384). «گزارش کوتاهی از شکل­گیری پایگاه داده­های زبان فارسی در اینترنت»، مجله پژوهشگران، شماره 2: 13. قابل دسترسی در:
-  عاصی، مصطفی (1382). از پیکرة زبانی تا زبان­شناسی پیکره­ای، مجموعه مقالات پنجمین کنفرانس زبان­شناسی، دانشگاه علامه طباطبائی.
-  علیدوستی، سیروس (1385). «روش دلفی: مبانی، مراحل و نمونه­هایی از کاربرد»، مدیریت و توسعه، 8 (31): 23-8.
-  قاسمی‌زاده، بهرنگ؛ رحیمی، سعید؛ سلاریان، مرتضی و بهاری­سلیم، علی (۱۳۸۵). گزارشی از ساخت نخستین پیکره چندزبانه برای زبان فارسی، دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران: دانشگاه شهید بهشتی.

-  کامیابی­گل، عطیه؛ اخلاقی باقوجری، الهام؛ عسگریان، احسان و حبیبی، هانیه (1397). «استخراج اطلاعات از پیکره زبانی: معرفی پیکره مقالات علمی-پژوهشی دانشگاه فردوسی مشهد»، مقالات آماده انتشار، فصل­نامه کتابداری و اطلاع­رسانی، سازمان کتابخانه­ها، موزه­ها و مرکز اسناد آستان قدس رضوی.

-  کوهستانی، منوچهر (1389). بررسی خطاهای املایی و نگارشی در وبلاگ‌های فارسی و ماهیت زبان‌شناختی آنها، کارشناسی ارشد، تهران، دانشگاه تهران.
-  مرادی، مهدی و بحرانی، محمد (1394). «تشخیص خودکار جنسیت نویسنده در متون فارسی»، پردازش علائم و داده‌ها، ۱۲ (۴): 94-83.
-  میرزایی، آزاده و مولودی، امیرسعید (1393). «نخستین پیکرة نقش­های معنایی در زبان فارسی»، علم زبان، 2 (3): 48-29.
-  نجفی­خواه، رقیه؛ جلالی دیزجی، علی و مومنی، عصمت (1395). «امکان­سنجی ارائة خدمات مرجع مجازی در کتابخانه­های عمومی استان گیلان»، فصل­نامة مطالعات دانش­شناسی، 3(9): 80-61.
-  همتی، عبدالناصر؛ مهدوی کلیشمی، قدیر و یاری، حمید (1393). «امکان­سنجی ارائة بیمة عمر متصل به سهام در بازار بیمة کشور از دیدگاه خبرگان»، دوفصل­نامه جستارهای اقتصادی ایران، 11 (22): 116-95.
-  یاری، علیرضا (1394). بررسی پیکره­ها و ابزارهای پردازش زبان فارسی، پژوهشگاه ارتباطات و فناوری اطلاعات، پژوهشکده ارتباطات و فناوری اطلاعات.
-  AleAhmad, A; Amiri, H.; Darrudi, E.; Rahgozar, M; & Oroumchian, F. (2009). “Hamshahri: A Standard Persian Text Collection”, Knowledge-Based Systems, Dubai, 22(5): 382–387. Elsevier.
-  Al-Sulaiti, L; & Atwell, E. (2006). “The design of a corpus of contemporary Arabic”, International journal of corpus linguistics, 11(2): 135-171. John Benjamins publishing company.
-  Anderson, J; Beavan, D; & Kay, Ch. (2007). The Scottish corpus of texts and speech. In: Beal, J.C., Corrigan, K.P. and Moisl, H.L. (eds.) Creating and Digitizing Language Corpora, 17-34. Palgrave, New York, USA.
-  Aston, G; & Burnard, L. (1997). The NBC handbook exploring the British National Corpus with SARA, Edinburgh University Press.
-  Atkins, S; Clear, J; & Ostler, N. (1992). “Corpus design criteria”. Literary and Linguistic Computing, 7 (1): 1-16. Oxford University Press (OUP).
-  Baumard, Ph; and Jerome Ibert. (2001). What approach with which data. In Doing Management Research: A Comprehensive Guide, London, Sage.
-  Baus, K; Radimersky, A; Iwanicki, M; & Albers, A. (2014). “Feasibility studies in the product development process”, 24th CIRP design conference, Procedia CIRP, 21: 473-478. Elsevier.
-  Bianchi, F. (2012). Culture corpora and semantics: methodological issues in using elicited and corpus data for cultural comparison, Chapter 3: corpora and corpus linguistics, University of Salento.
-  Biber, D. (1993). “Representativeness in corpus design”, Literaray and linguistic computing, 8(4): 243-257. Oxford University Press (OUP).
-  Bijankhan, M; Sheykhzadegan, J; Bahrani, M; & Ghayoomi, M. (2011). “Lesson from building a Persian written corpus: Peykare”, Language resources and evolution, 45(2): 143-164. Springer.
-  Burnard, L. (2007). Reference guide for the British National Corpus. Research technologies service, Oxford University Computing Services.
-  Cavaglia, G. (2002). “Measuring corpus homogeneity using a range of measures for inter-document distance”, Proceedings of the Third International Conference on Language Resources and Evaluation (LREC'02): 426-431. European Language Resources Association (ELRA). Spain.
-  Claude Toriida, M. (2016). “Steps for creating specialized corpus and developing an annotated frequence-based vocabulary list”, TESL Canada journal/ revue TESL du Canada, 34 (11): 87-105.
-  Dehghani, M; Shakery, A; Asadpour, M; & Koushkestani, A. (2013). “A learning approach for email conversation thread reconstruction”, Journal of Information Science (JIS), 39(6): 846-863.
-  Durand, J; Gut, U; & Gjert K. (2014). The handbook of corpus phonology, Oxford University Press (OUP).
-  Fridrichova Klimova, Blanka (2014). “Using corpus linguistics in the development of writing”, Procedia- Social and behavioral sciences, 141 (25): 124-128. Elsevier.
-  Kernaghan, S. (2012). Technical feasibility assessment, ISET-international.
-  Laurence, A. (2017). Vocabulary learning and instruction, 6 (2).
-  Leech, G. (2004). Developing Linguistic Corpora: a Guide to Good Practice. adding linguistic annotaion. Edited by Martin Wynne, ahds.literature, languages and linguistics, The Oxford Text Archive.
-  McEnery, T; & Wilson, A. (2001). Corpus Linguistics: An Introduction, Edinburgh University Press.
-  McEnery, T; Xiao, R; & Tono, Y. (2006). Corpus-based language studies: and advanced resource book, Routledge, London and New York.
-  Megerdoomian, K. (2004). “Developing a Persian part-of-speech tagger”, Proceedings of the 1st workshop on Persian language and computer: 99-105.
-  Mukherjee, M; & Roy, S. (2017). “Feasibility studies and important aspect of project management”, International journal of advanced engineering and management, 2 (4): 98-100.
-  Powers, M. J; Cheney, P. H; & Crow, G. (1990). Structure system development. Analysis, design, implementation, Boyd and Fraser publishing company.
-  Roberts, A; Gaizauskas, R; Hepple, M.; Demetriou, G; Guo, Y; Roberts, I; & Setzer, A. (2009). “Building a semantically annotated corpus of clinical texts”, Journal of Biomedical Informatics, 42(5): 950-966.
-  Scheid, J. (2013). An Example of Operational Feasibility. edited by: Michele McDonough, Bright Hub Inc. at: https://www.brighthubpm.com/project-planning/72872-an-example-of-operational-feasibility
-  Shamsfard, M; Hesabi, A; Fadaei, H; Mansoory, N; Famian, A; Bagherbeigi, S; Fekri, E. et al. (2010). "Semi Automatic Development of Farsnet; the Persian Wordnet", Proceedings of 5th Global WordNet Conference (GWA), Mumbai, India.
-  Sinclair, J. (2004). Developing Linguistic Corpora: a Guide to Good Practice. Chapter 1: Corpus and Text - Basic Principles, Edited by Martin Wynne, ahds, literature, languages and linguistics, The Oxford Text Archive.
-  Teubert, W. (2005). “My version of Corpus linguistics”, International journal of Corpus linguistics, 10 (1): 1-13.
-  Wattam, S. M. (2015). Technological Advances in Corpus Sampling ethodology, Mathematics and Statistics School of Computing and Communications Lancaster University.
-  Waynne, M. (2005). Developing linguistic corpora: a guide to good practice, Oxbow books, Literary and linguistic computing, 22 (1).
-  Yang, J; Chen, W; Chen, B; & Jia, Y. (2012). “Economic feasibility analysis of a renewable energy project in the rural China”, The 18th Biennaial conference of International society for ecological modeling, Procedia environmental sciences 13: 2280-2283. Elsevier.