دادگان زبان فارسی
پیکره و دادگان یکی از زیرساختهای ضروری برای انجام تحقیقها و پژوهشهای حوزه هوش مصنوعی و پردازش زبان طبیعی است.در ارائه ابزارهای هوشمند مبتنی بر گفتار و زبان، امروزه نیاز به داده زیاد و مناسب است تا با ابزارهای یادگیری ژرف بتوان مدلهای هوشمند گفتاری را آماده نمود.
زبان فارسی از جمله زبانهایی است که دسترسی به دادگان متنی، صوتی و… کامل و تمیز آن معمولا با دشواری همراه بوده و منابع جامع و گستردهای در اختیار پژوهشگران حوزه پردازش زبان و هوش مصنوعی، برای این زبان وجود ندارد.از جمله فعالیتهایی که شرکت عصر گویش پرداز برای دسترسی آسان و راحتتر تمامی پژوهشگران به دادگان مناسب و مختص زبان فارسی انجام میدهد، تهیه و جمعآوری دادگان زبان فارسی بهصورت تخصصی و مناسب برای استفاده تمامی محققان است.
پیکره متنی ناب
این پیکره شامل حدود 130 گیگابایت متن تمیز شده کاملا فارسی که متشکل از 250 میلیون پاراگراف و 15 میلیارد کلمه است. پیکره متنی ناب به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی میتوانند به راحتی از آن بهره جویند. از مزیتهای پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، بهاین ترتیب میتوانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.پیکره ناب توسط تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف (به سرپرستی دکتر حسین صامتی) به همراه محققان مرکز نوآوری شرکت عصرگویشپرداز جمعآوری شده است.
جزئیات ناب
پیکره PesianNLP
این پیکره شامل مجموعهای از حدود 70 گیگابایت متن خام را شامل میشود
پیکره OSCAR-fa
شامل زبانهای مختلفی از جمله فارسی است. که نسخه اصلی آن شامل 38 گیگابایت دیتای فارسی است که در ناب از نسخه به هم نخورده با حذف جملات تکراری استفاده میکنیم که شامل متون رسمی و محاورهای میباشد.
پیکره AGP
پیکره عصرگویش پرداز که حدود ۲۵ گیگابایت متون رسمی و غیر رسمی است. این پیکره ابتدا بهصورت کاملا خصوصی مورد استفاده شرکت عصرگویشپرداز بود که از این پس به عنوان بخشی از پیکره ناب در دسترس عموم قرار گرفته است.
پیکره LSCP
دیتاست محاوره ای LSCP که شامل 5 گیگابایت دیتا محاورهای است. این پیکره جزو معدود دادگان غیر رسمی حجم بالای زبان فارسی است.
پیکره Telegram
حدود ۱ گیگابایت داده غیررسمی که توسط تیم تهیهکننده ناب از شبکه پیامرسانی تلگرام جمعآوری شدهاست که شامل متون محاورهای و غیررسمی میباشد.
دادگان FarsSpon
فارس اسپان، دادگان بزرگ و با تعداد زیادی گوینده است که به منظور تامین داده کافی در کاربردهای پردازش گفتار از قبیل بازشناسی گفتار و گوینده، تشخیص کلمات کلیدی و شبیه به آن جمعآوری شدهاست. این دادگان از جمله بزرگترین دادگانهای صوتی زبان فارسی در گفتار محاورهای است.
ویژگیهای فارساسپان
بزرگترین دادگان صوتی زبان فارسی
شامل بیش از 530 ساعت داده صوتی، 5300 گوینده، 11هزار جمله محاورهای
پالایش صداهای ضبط شده
پالایش چندمرحلهای صداهای ضبط شده و اصلاح دقیق گفتههای مجموعههای توسعه و آزمون
استخراج واژگان جملات
استخراج واژگان کل جملات و واجنویسی دستی آن و دارای تنوع تلفظی تمام واژگان
تنوع بالا و گزینههای مختلف
تنوع در سطح سواد و جنسیت گویندگان، تنوع در لهجه و شرایط بیان جملات گویندگان
جملات مجموعه آموزش
شامل حدود 10هزار جمله مجموعه آموزش: 500جمله مجموعه توسعه و آزمون به تفکیک
دادگان DeepMine-SPL
پروژه DeepMine SPL، با هدف جمع آوری یک دادگان جدید برای تشخیص گوینده وابسته به متن، مستقل از متن، با متن انتخابی و همچنین برای تشخیص گفتار فارسی است. این محصول یک دادگان بزرگ در فارسی و انگلیسی است که نسخه فعلی آن حاوی صدای بیش از 1400 گوینده و در کل 370000 جلسه ضبط صداست.
ویژگیهای دیپ ماین
دادگانی برای تشخیص گوینده به زبان فارسی
نخستین دادگان در مقیاس بزرگ برای تشخیص گوینده به زبان فارسی است که امکان ایجاد برنامههای کاربردی بازشناسی گفتار و تشخیص گوینده را به زبان مادری حدود ۱۱۰ میلیون نفر فراهم میکند.
دادگانی برای تشخیص گوینده به زبان انگلیسی
بزرگترین دادگان تشخیص گوینده وابسته به متن و با متن انتخابی است که به زبان انگلیسی، تحقیق در زمینه یادگیری ژرف و سایر رویکردهای نیازمند به داده را تسهیل می کند.
کاوش رویکردهای تطبیق دامنه و یادگیری انتقالی
این دادگان با ترکیب منحصر به فرد آن از فارسی و انگلیسی، برای کاوش رویکردهای تطبیق دامنه و یادگیری انتقالی، که برخی از کاربردهای نوظهور در تشخیص گفتار هستند، بسیار مناسب است.
امکان برچسبدهی متنوع برای کاربردهای متفاوت
دارا بودن امکان تشخیص و برچسبدهی گسترده با توجه به سن، جنس، استان و سطح تحصیلات، همراه با تغییرپذیری ذاتی زبان فارسی از نظر لهجههای مختلف.
تشخیص گوینده در سه حالت متفاوت
این دادگان بهصورت جمعسپاری در سه بخش وابسته به متن، مستقل از متن و متن انتخابی برای کاربردهای بازشناسی گفتاری، تشخیص و تصدیق هویت گوینده تهیه شده است.