TY - JOUR ID - 4360 TI - معرفی یک پیکرة متنی تخصصی: پیکرة پژوهش‌نامه JO - پژوهش های زبان شناسی تطبیقی JA - RJHLL LA - fa SN - 2252-0740 AU - علایی ابوذر, الهام AU - پاک‌نیت, نصراله AU - حجت‌پناه, علی‌اصغر AU - زالی, مجتبی AU - آقالویی آغمیونی, محمدهادی AD - استادیار پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) AD - رئیس اداره سامانه‌های اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) AD - پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) Y1 - 2021 PY - 2021 VL - 11 IS - 22 SP - 271 EP - 289 KW - پیکره KW - نرمال‌سازی KW - برچسب‌گذاری اجزای واژگانی کلام DO - 10.22084/rjhll.2021.24209.2136 N2 - بسیاری از پژوهش‌های زبان‌شناسی و برنامه‌ریزی‌های زبانی با استفاده از پیکره‌های زبانی انجام می‌شود. در این پژوهش پیکره‌ای با استفاده از متون مقاله‌های پژوهش‌نامة پردازش و مدیریت اطلاعات ساخته شده است. این پیکره شامل بیش از 600 مقاله (بیش از چهار میلیون واژه) است. موضوع این مقاله‌ها کتابداری و اطلاع‌رسانی، علم اطلاعات و دانش‌شناسی، فناوری اطلاعات، زبان‌شناسی، زبان‌شناسی رایانشی، اصطلاح‌شناسی، هستان‌شناسی و سایر حوزه‌های پردازش اطلاعات است. متون مقاله‌ها تخصصی و میان‌رشته‌ای است و برای پردازش‌هایی که مستلزم بهره‌گیری از متون تخصصی است، ارزشمند است. برای ساخت پیکره پس از نمونه‌گیری و وارد کردن داده‌ها در پیکره، فرادادة مقاله‌ها وارد پیکره شد. سپس نرمال‌سازی ماشینی و به دنبال آن برچسب‌گذاری ماشینی (نوعاً برچسب‌گذاری اجزای واژگانی کلام) انجام شد. در نهایت تعداد قابل توجهی از فایل‌های برچسب‌خورده در پیکره به صورت رندوم انتخاب شد و الگوهای زبانی برای اصلاح ماشینی و دستی برچسب‌ها استخراج و در پیکره به کار برده شد. UR - https://rjhll.basu.ac.ir/article_4360.html L1 - https://rjhll.basu.ac.ir/article_4360_a11bdbb224d90143d8ffd5a3a5eb6371.pdf ER -