برچسب‌گذاری خودکار فراگفتمان موضع‌گیری مقالات علمی فارسی با استفاده از یادگیری عمیق

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار پژوهشگاه علوم انسانی و مطالعات فرهنگی

2 دانشجوی کارشناسی دانشکده مهندسی‌کامپیوتر، دانشگاه صنعتی امیرکبیر

چکیده

در تحلیل فراگفتمانی روابط بین نویسنده، خواننده و خود متن بررسی می‌شود. هایلند (2005) شیوه‌ای از تحلیل را مطرح کرد که نوعی رابطه تعاملی بین این سه رکن متن ایجاد می‌کند. روابط فراگفتمان تعاملی به دو دسته موضع‌گیری و مشارکتی تقسیم می‌شود. فراگفتمان موضع‌گیری با پنج نوع نشانگر نشانه‌گذاری می‌شود. هدف از انجام این پژوهش این است که به مدل رایانشی دست یافت تا به‌صورت خودکار امکان برچسب‌گذاری فراگفتمانی نشانگرها، خواه واژه‌ها یا عبارات، میسر گردد. برای رسیدن به هدف، ابتدا به‌واسطه خزش پیکره‌ای از چکیده مقالات موجود در پرتال جامع علوم انسانی به‌دست آمد و کار نشانه‌گذاری فراگفتمان موضع‌گیری چکیده‌ها که متعلق به 16 حوزه علوم انسانی بود بر اساس نظر فراگفتمان تعاملی هایلند (2005) نشانه‌گذاری شد. در این فرایند 50 چکیده برای هر حوزه نشانه‌گذاری شد. از این داده برای آموزش مدل پردازشی استفاده شد. در این پژوهش، یک مدل با استفاده از بازنمایی معنایی واژه‌ها در فضای برداری ساخته ‌شده توسط ورد2وک تهیه شده ‌است و در دو مدل دیگر از بازنمایی معنایی مبتنی‌ بر برت به‌نام‌ها پارس‌برت و ایکس.ال.ام-روبرتا استفاده شده ‌است تا بافت‌های جایگاهی متنوع‌تری از واژه‌ها در بردارها لحاظ گردد. مدل‌ها در سطح واژه یا عبارت کار برچسب‌گذاری را انجام داده ‌است. براساس نتایج عملی به‌دست‌آمده، مدل مبتنی‌بر بازنمایی برت با تفاوت معناداری بهتر از مدل مبتنی ‌بر بازنمایی ورد2وک عمل نمود. از میان دو مدل مبتنی ‌بر بازنمایی برت، در مجموع برچسب‌گذاری در سطح واژه و عبارت، مدل ایکس.ال.ام-روبرتا با 82/82 درصد امتیاز F در سطح واژه و 81/51 درصد امتیاز F در سطح عبارت کارایی بهتری نسبت‌به مدل پارس‌برت به‌دست آورد.

کلیدواژه‌ها


  • تاجر، پگاه؛ جوکار، عبدالرسول؛ فخراحمد، سید مصطفی؛ خرمایی، علیرضا؛ و ستوده، هاجر (1396). «کاربرد تحلیل گفتمان در خلاصه‌سازی خودکار متون علمی،» در مجموعه مقالات نخستین همایش ملی رویکردهای نوین در مطالعات زبان و ادبیات، مؤسسه آموزش عالی زند، شیراز، ایران.
  • تاجر، پگاه؛ جوکار، عبدالرسول؛ فخراحمد، سید مصطفی؛ ستوده، هاجر؛ و خرمایی، علیرضا (1398). «تحلیل کاربرد الگوی فراگفتمان هایلند در خلاصه‌سازی خودکار استناد مدار: پیشنهاد طرح حاشیه‌نویسی بافتارهای استنادی»، کتابداری و اطلاع‌رسانی، 22(3): 91-111.
  • طارمی، طاهره؛ تاکی، گیتی و یوسفیان، پاکزاد (1397). «جنسیت در مقالات علمی فارسی زبان: مطالعه پیکره ‌بنیاد نشانگرهای فراگفتمان تعاملی بر اساس انگاره هایلند»، پژوهش‌های زبان‌شناسی، 10(1): 23-41.
  • طارمی، طاهره؛ تاکی، گیتی؛ و یوسفیان، پاکزاد (1398). «واکاوی پیکره‌بنیاد فراگفتمان تعاملی در مقالات علمی پژوهشی فارسی: انگاره هایلند (2005)»، پژوهش‌های زبانی، 10(2): 129-151.
  • رضاقلی‌فامیان، علی (1393). «موضع‌گیری و مشارکت‌جویی در مقالات نقد کتاب‌های ادبیات فارسی»، فصلنامه تخصصی نقد ادبی، 26: 49-66.
  • Abdi, R.; & Ahmadi, P. (2015). “Research article introductions and disciplinary influences based on interactive metadiscourse markers”, Journal of Modern Research in English Language Studies, 2(1): 99-85.
  • AleAhmad, A.; Amiri, H.; Darrudi, E.; Rahgozar, M.; & Oroumchian, F. (2009). “Hamshahri: A standard Persian text collection”, Knowledge-based Systems, 2: 382–387.
  • AleAhmad, A.; Zahedi, M. S.; Rahgozar, M.; & Moshiri, B. (2016). “IrBlogs: A standard collection for studying Persian bloggers”, Computers in Human Behavior, 57: 195–207.
  • Alharbi, G. (2016). Metadiscourse Tagging in Academic Lectures, PhD Dissertation, University of Sheffield.
  • Conneau, A.; Khandelwal, K.; Goyal, N.; Chaudhary, V.; Wenzek, G.; Guzmán, F.; Grave, E.; Ott, M.; Zettlemoyer, L.; & Stoyanov, V. (2020). “Unsupervised cross-lingual representation learning at scale”, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 8440–8451.
  • Crismore, A; Markkanen R.; & Steffensen, M. (1993). “Metadiscourse in persuasive writing: a study of texts written by American and Finnish university students”, Written Communication, 10: 39-71.
  • Devlin, J.; Chang, M.W.; Lee, K.; & Toutanova, K. (2019). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp: 4171–4186, Minneapolis: Association for Computational Linguistics.
  • Dos Santos Correia, R. P. (2018). Automatic Classification of Metadiscourse. PhD Dissertation, School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA.
  • Farahani, M.; Gharachorloo, M.; Farahani, M.; & Manthouri, M. (2020). “ParsBERT: Transformer-based Model for Persian Language Understanding,” arXiv preprint arXiv: 2005. 12515.
  • Hadifar, A.; & Momtazi, S. (2018). “The impact of corpus domain on word representation: A study on Persian word embeddings”, Lang Resources & Evaluation, 52(4): 997-1019.
  • Heng, C. S.; & Tan, H. (2010). "Extracting and comparing the intricacies of metadiscourse of two written persuasive corpora", International Journal of Education and Development Using Information and Communication Technology, 6 (3): 124-146.
  • Harris, Z. S. (1970). “Linguistic transformations for information retrieval,” in Papers in Structural and Transformational Linguistics. Dordrecht: Springer.
  • Hyland, K. (2005). Metadiscourse: Exploring Interaction in Writing. London: Continuum.
  • Lafferty, J.; McCallum, A.; & Pereira, F. C. N. (2001). “Conditional random fields: Probabilistic models for segmenting and labelling sequence data”, in Proceedings of the 18th International Conference on Machine Learning. Morgan Kaufmann.
  • Lyons, J. (1977). Semantics. vol. 2. Cambridge University Press.
  • Madnani, N.; Heilman, M.; Tetreault, J.; & Chodorow, M. (2012). “Identifying high-level organizational elements in argumentative discourse”, in Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp: 20–28. Association for Computational Linguistics.
  • Mann, W. C.; & Thompson, S. A. (1988). “Rhetorical structure theory: Toward a functional theory of text organization”, Text: Interdisciplinary Journal for the Study of Discourse, 8 (3): 243–281.
  • Marcu, D. (2000). The Theory and Practice of Discourse Parsing and Summarization. The MITpress.
  • Marcus, M. P; Marcinkiewicz, M. A; & Santorini, B. (1993) “Building a large annotated corpus of English: The Penn treebank”, Computational Linguistics, 19(2): 313–330.
  • Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G. S.; & Dean, J. (2013). “Distributed representations of words and phrases and their compositionality”, in Advances in Neural Information Processing Systems 26, eds. Burges, C. J. C., Bottou, L., Welling, M., Ghahramani, Z., and Weinberger, K. Q., Curran Associates, Inc., pp. 3111–3119.
  • Pennington, J; Socher, R; & Manning; C.D. (2014). “Glove: Global Vectors for word representation”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, vol. 14: 1532–1543.
  • Rezaei, S; Estaji, M; & Hasanpour, M. (2015). “Examining the interactional metadiscourse markers in Iranian MA applied linguistics theses”, Journal of Modern Research in English Language Studies, 2(1): 71-43.
  • Shokouhi, H; & Talati Baghsiahi, A. (2009). "Metadiscourse functions in English and Persian sociology articles: A study in contrastive rhetoric", Studies in Contemporary Linguistics, 45(4): 549-568.
  • Vapnik, V. N. (1998). Statistical Learning Theory, Wiley-Interscience.
  • Vaswani, A; Shazeer, N; Parmar, N; Uszkoreit, J; Jones, L; Gomez, A. N; Kaiser, L & Polosukhin, I. (2017). "Attention is all you need", in Proceedings of the 31st Conference on Neural Information Processing Systems, pp: 5998-6008.
  • Webber, B; & Joshi, A. (1998). “Anchoring a lexicalized tree-adjoining grammar for discourse”, in Proceedings of the Joint Conference on Computational Linguistics and the Association for Computational Linguistics Workshop on Discourse Relations and Discourse Markers, pp: 86–92.
  • Wilson, S. (2010). “Distinguishing use and mention in natural language”, in Proceedings of the Student Research Workshop at 2010 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technology, pp: 29–33. Association for Computational Linguistics.
  • Wilson, S. (2012). “The creation of a corpus of English metalanguage”, in Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp: 638–646. Association for Computational Linguistics.
  • Wilson, S. (2013). “Toward automatic processing of English metalanguage”, in Proceedings of International Joint Conference on Natural Language Processing, 760-766.
  • Yan, L. (2015). "Comparative analysis of Russian news reporting and news commentary in metadiscourse applications", in Proceedings of the International Conference on Informatization in Education, Management and Business. 1089-1089.