دادگان زبان فارسی

پیکره و دادگان یکی از زیرساخت‌های ضروری برای انجام تحقیق‌ها و پژوهش‌های حوزه هوش مصنوعی و پردازش زبان طبیعی است.در ارائه ابزارهای هوشمند مبتنی بر گفتار و زبان، امروزه نیاز به داده زیاد و مناسب است تا با ابزارهای یادگیری ژرف بتوان مدل‌های هوشمند گفتاری را آماده نمود.

زبان فارسی از جمله زبان‌هایی است که دسترسی به دادگان متنی، صوتی و… کامل و تمیز آن معمولا با دشواری همراه بوده و منابع جامع و گسترده‌ای در اختیار پژوهشگران حوزه پردازش زبان و هوش مصنوعی، برای این زبان وجود ندارد.از جمله فعالیت‌هایی که شرکت عصر گویش پرداز برای دسترسی آسان و راحت‌تر تمامی پژوهشگران به دادگان مناسب و مختص زبان فارسی انجام می‌دهد، تهیه و جمع‌آوری دادگان زبان فارسی به‌صورت تخصصی و مناسب برای استفاده تمامی محققان است.

پیکره متنی ناب

این پیکره شامل حدود 130 گیگابایت متن تمیز شده کاملا فارسی که متشکل از 250 میلیون پاراگراف و 15 میلیارد کلمه است. پیکره متنی ناب به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی می‌توانند به راحتی از آن بهره جویند. از مزیت‌های پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، به‌این ترتیب می‌توانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.پیکره ناب توسط تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف (به سرپرستی دکتر حسین صامتی) به همراه محققان مرکز نوآوری شرکت عصرگویش‌پرداز جمع‌آوری شده است.

جزئیات ناب

پیکره PesianNLP

این پیکره شامل مجموعه‌ای از حدود 70 گیگابایت متن خام را شامل می‌شود

پیکره OSCAR-fa

شامل زبان‌های مختلفی از جمله فارسی است. که نسخه اصلی آن شامل 38 گیگابایت دیتای فارسی است که در ناب از نسخه به هم نخورده با حذف جملات تکراری استفاده می‌کنیم که شامل متون رسمی و محاوره‌ای می‌باشد.

پیکره AGP

پیکره عصرگویش پرداز که حدود ۲۵ گیگابایت متون رسمی و غیر رسمی است. این پیکره ابتدا به‌صورت کاملا خصوصی مورد استفاده شرکت عصرگویش‌پرداز بود که از این پس به عنوان بخشی از پیکره ناب در دسترس عموم قرار گرفته است.

پیکره LSCP

دیتاست محاوره ای LSCP که شامل 5 گیگابایت دیتا محاوره‌ای است. این پیکره جزو معدود دادگان غیر‌ رسمی حجم بالای زبان فارسی است.

پیکره Telegram

حدود ۱ گیگابایت داده غیررسمی که توسط تیم تهیه‌کننده ناب از شبکه پیام‌رسانی تلگرام جمع‌آوری شده‌است که شامل متون محاوره‌ای و غیر‌رسمی می‌باشد.

دادگان FarsSpon

فارس اسپان، دادگان بزرگ و با تعداد زیادی گوینده است که به منظور تامین داده کافی در کاربردهای پردازش گفتار از قبیل بازشناسی گفتار و گوینده، تشخیص کلمات کلیدی و شبیه به آن جمع‌آوری شده‌است. این دادگان از جمله بزرگترین دادگان‌های صوتی زبان فارسی در گفتار محاوره‌ای است.

دانلود نمونه FARSSPON

ویژگی‌های فارس‌اسپان

بزرگ‌ترین دادگان صوتی زبان فارسی

شامل بیش از 530 ساعت داده صوتی، 5300 گوینده، 11هزار جمله محاوره‌ای

پالایش صداهای ضبط شده

پالایش چندمرحله‌ای صداهای ضبط شده و اصلاح دقیق گفته‌های مجموعه‌های توسعه و آزمون

استخراج واژگان جملات

استخراج واژگان کل جملات و واج‌نویسی دستی آن و دارای تنوع تلفظی تمام واژگان

تنوع بالا و گزینه‌های مختلف

تنوع در سطح سواد و جنسیت گویندگان، تنوع در لهجه و شرایط بیان جملات گویندگان

جملات مجموعه آموزش

شامل حدود 10هزار جمله مجموعه آموزش: 500جمله مجموعه توسعه و آزمون به تفکیک

دادگان DeepMine-SPL

پروژه DeepMine SPL، با هدف جمع آوری یک دادگان جدید برای تشخیص گوینده وابسته به متن، مستقل از متن،‌ با متن انتخابی و هم‌چنین برای تشخیص گفتار فارسی است. این محصول یک دادگان بزرگ در فارسی و انگلیسی است که نسخه فعلی آن حاوی صدای بیش از 1400 گوینده و در کل 370000 جلسه ضبط صداست.

دانلود نمونه DEEPMINE-SPL

ویژگی‌های دیپ‌ ماین

دادگانی برای تشخیص گوینده به زبان فارسی

نخستین دادگان در مقیاس بزرگ برای تشخیص گوینده به زبان فارسی است که امکان ایجاد برنامه‌های کاربردی بازشناسی گفتار و تشخیص گوینده را به زبان مادری حدود ۱۱۰ میلیون نفر فراهم می‌کند.

دادگانی برای تشخیص گوینده به زبان انگلیسی

بزرگترین دادگان تشخیص گوینده وابسته به متن و با متن انتخابی است که به زبان انگلیسی، تحقیق در زمینه یادگیری ژرف و سایر رویکردهای نیازمند به داده را تسهیل می کند.

کاوش رویکردهای تطبیق دامنه و یادگیری انتقالی

این دادگان با ترکیب منحصر به فرد آن از فارسی و انگلیسی، برای کاوش رویکردهای تطبیق دامنه و یادگیری انتقالی، که برخی از کاربردهای نوظهور در تشخیص گفتار هستند، بسیار مناسب است.

امکان برچسب‎‌دهی‌ متنوع برای کاربردهای متفاوت

دارا بودن امکان تشخیص و برچسب‌دهی گسترده با توجه به سن، جنس، استان و سطح تحصیلات، همراه با تغییرپذیری ذاتی زبان فارسی از نظر لهجه‌های مختلف.

تشخیص گوینده در سه حالت متفاوت

این دادگان به‌صورت جمع‌سپاری در سه بخش وابسته به متن، مستقل از متن و متن انتخابی برای کاربردهای بازشناسی گفتاری، تشخیص و تصدیق هویت گوینده تهیه شده است.