نهایی شدن 30 هزار جمله پیکره گفتمان
مرکز علوم و تحقیقات کامپیوتری علوم اسلامی به سفارش سازمان فناوری اطلاعات ایران، طبق استاندارد پیکره گفتمان PENN (Pensilvania)، به تهیه پیکرههای زبانی پرداخته و به عنوان خروجی نهایی طرح، 30 هزار جمله پیکره گفتمان که علاوه بر برچسبهای گفتمانی شامل برچسبهای اجزای کلام، نحوی و معنایی نیز هست، ارائه داده است.
به گزارش سیتنا به نقل از روابط عمومی و اموربین الملل سازمان فناوری اطلاعات ایران، دادههای بزرگ به فناوریهای فوقالعادهای برای پردازش دادههای عظیم در مجموعههای بزرگ نیازمند است تا بتواند در زمانی معقول پاسخگوی نیازها و اهداف تحلیل و پردازش دادهها باشد. این دادهها نحوه کار سازمانها و افراد را تحت تأثیر قرار میدهد.
پردازش زبانهای طبیعی یکی از زیرشاخههای بااهمیت در حوزهی گستردهی علوم رایانه، هوش مصنوعی و نیز دانش زبانشناسی محاسباتی است که به تعامل بین کامپیوتر و زبانهای طبیعی میپردازد. بازیابی اطلاعات مبحث مهمی در پردازش زبانهای طبیعی به شمار میرود.
مدلسازی توانایی زبانی انسان در مقاصد بسیاری از جمله موارد زیر کاربرد دارد: مهندسی زبان، هوش مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، فناوری اطلاعات، فناوری ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگانهای زبانی بزرگ یا در اینترنت برای یافتن پاسخهای لازم به پرسشهای متفاوت، پردازش متن و گفتار، دریافت فرمانهای صوتی توسط ماشین و اجرای دقیق آنها، تبدیل متن به گفتار، تبدیل گفتار به متن، خلاصهسازی متون، تهیه بانکهای اطلاعاتی، تهیه بانکهای اصطلاحات علمی و ...
درک چگونگی عملکرد زبان و مدلسازی آن برای رایانه از موارد مهم و حیاتی است. رایانه میتواند با برخورداری از دانش زبانی اهل زبان و نیز ویژگی پردازش سریع، دادههای زبانی را با دقت و سرعت بسیار بالایی تجزیهوتحلیل کند.
به عبارتی میتوان برای بخشهای مختلف زبان که ابزار موجود در فضای مجازی است مشخصه و شناسنامه یا بهتر بگوییم پیکرهای تعریف کرد که در فضای مجازی و برای اهداف مختلف قابل استفاده باشد به طور مثال برای نرمافزار STT یا «تبدیل گفتار به متن» ابتدا باید یک پیکره آوایی و واجی از آن زبان و بر اساس مدلهایی که رایانه قادر به درک آن باشد تهیه نمود (تصور کنید در یک جلسه تخصصی حقوقی برای اینکه گفتار افراد حاضر در جلسه توسط نرمافزار STT به متن تبدیل شود باید دادهها یا پیکرههای آوایی و واژگانی تخصصی رشته حقوق موجود باشد. شایان ذکر است برای تبدیل متن به گفتار یا TTS نیز نیاز به پیکرههای متنی آن موضوع است).
بنابراین برای تحلیل، بازیابی و پردازش زبان مورد استفاده در فضای مجازی، نیاز به دادهها یا پیکرههای موردنیاز آن زبان است. این پیکرهها دادههای پایهای تحلیل ماشینی خواهند بود. که در سطح واج، آوا، هجا، واژه، جمله و سطح بالاتر از جمله یعنی گفتمان قابل تقسیمبندی هستند.
به طور مثال در مباحث مربوط به ترجمههای ماشینی پیکرههای متنی و معنایی در سطح کلمه و جمله خواهیم داشت. در تحلیلهایی که نیاز به پردازش سطحی بالاتر از جمله باشد، با گفتمان و برچسبهای گفتمانی که برای رایانه قابل فهم باشد، سر و کار خواهیم داشت.
(تصور کنید شما تمایل داشته باشد تا ابزار الکترونیکی شما (مثلاً رایانه) بدون حضور شما به پستهای الکترونیکی شما پاسخ بدهد در این صورت ماشین نیاز دارد تا به درک جملات و پاراگرافها بپردازد. به عبارتی نیاز به دادههای برچسب خورده آن زبان دارد (یعنی جملات و گفتمان) تا بتواند از آن طریق به تحلیل پست الکترونیکی شما و در نتیجه تهیه پاسخ برای آن ( با توجه به اطلاعاتی که از وضعیت جلسات، وضعیت روانشناختی شما در آن هفته نوع رابطه شما و فردی که به شما ای میل زده است و بسیاری موارد دیگر... ) بپردازد.
در همین راستا در بررسیها و دادهکاویهای مربوط به زبان فارسی در هر حوزه مثلا کسب و کار نیز می توانیم از پیکره های مربوط به آن استفاده کرد.
مزیت داشتن پیکره ها در یک زبان علاوه بر موارد ذکر شده این است که با وجود پیکره ها پردازش و تحلیل آسانتر شده و سرعت آن افزایش می یابد.
علاقه مندان می توانند، خروجی کامل طرح را از اینجا دریافت کنند.
انتهای پیام
افزودن دیدگاه جدید