معرفی یک پیکرة متنی تخصصی: پیکرة پژوهش‌نامه

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

2 رئیس اداره سامانه‌های اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

3 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

چکیده

بسیاری از پژوهش‌های زبان‌شناسی و برنامه‌ریزی‌های زبانی با استفاده از پیکره‌های زبانی انجام می‌شود. در این پژوهش پیکره‌ای با استفاده از متون مقاله‌های پژوهش‌نامة پردازش و مدیریت اطلاعات ساخته شده است. این پیکره شامل بیش از 600 مقاله (بیش از چهار میلیون واژه) است. موضوع این مقاله‌ها کتابداری و اطلاع‌رسانی، علم اطلاعات و دانش‌شناسی، فناوری اطلاعات، زبان‌شناسی، زبان‌شناسی رایانشی، اصطلاح‌شناسی، هستان‌شناسی و سایر حوزه‌های پردازش اطلاعات است. متون مقاله‌ها تخصصی و میان‌رشته‌ای است و برای پردازش‌هایی که مستلزم بهره‌گیری از متون تخصصی است، ارزشمند است. برای ساخت پیکره پس از نمونه‌گیری و وارد کردن داده‌ها در پیکره، فرادادة مقاله‌ها وارد پیکره شد. سپس نرمال‌سازی ماشینی و به دنبال آن برچسب‌گذاری ماشینی (نوعاً برچسب‌گذاری اجزای واژگانی کلام) انجام شد. در نهایت تعداد قابل توجهی از فایل‌های برچسب‌خورده در پیکره به صورت رندوم انتخاب شد و الگوهای زبانی برای اصلاح ماشینی و دستی برچسب‌ها استخراج و در پیکره به کار برده شد.

کلیدواژه‌ها