هدف از پروژه DeepMine SPL، جمع آوری یک دادگان جدید برای تشخیص گوینده وابسته به متن، مستقل از متن، با متن انتخابی و همچنین برای تشخیص گفتار فارسی است. این محصول یک دادگان بزرگ در فارسی و انگلیسی است که نسخه فعلی آن حاوی صدای بیش از 1400 گوینده و در کل 370 هزار جلسه ضبط صداست. همچنین این محصول دارای چندین ویژگی جذاب است که آن را در نوع خود بینظیر می کند.
- این نخستین دادگان در مقیاس بزرگ برای تشخیص گوینده به زبان فارسی است که امکان ایجاد برنامههای کاربردی بازشناسی گفتار و تشخیص گوینده را به زبان مادری حدود 110 میلیون نفر فراهم میکند.
- این بزرگترین دادگان تشخیص گوینده وابسته به متن و با متن انتخابی است که به زبان انگلیسی، تحقیق در زمینه یادگیری ژرف و سایر رویکردهای نیازمند به داده را تسهیل می کند.
- این دادگان با ترکیبی منحصر به فرد آن از فارسی و انگلیسی، برای کاوش رویکردهای تطبیق دامنه و یادگیری انتقالی، که برخی از کاربردهای نوظهور در تشخیص گفتار و سخنرانان هستند ، بسیار مناسب است.
- برچسبدهی گسترده با توجه به سن، جنس، استان و سطح تحصیلات، همراه با تغییرپذیری ذاتی زبان فارسی از نظر لهجه های مختلف، برای کاوش در استفاده از اطلاعات ویژگیها در بازشناسی گفتار و تشخیص گوینده ایدهآل است.
این دادگان با الهام از پروژه RedDots برای کاربردهای چند منظوره و شامل تعداد بالای گویندگان ایجاد شده است. هدف اصلی پروژه جمع آوری گفتار از حداقل چند هزار گوینده و ایجاد امکان تحقیق و توسعه روشهای یادگیری عمیق است. داده های گفتاری از طریق شرکت کنندگان بصورت برخط با رابط های کاربری مانند برنامه های وب یا تلفن همراه ضبط شده است. این دادگان به شیوه جمعسپاری برای کاربردهای بازشناسی گفتار، شناسایی گوینده و تایید هویت گوینده جمع آوری شده است.
این دادگان در سه بخش 1) وابسته به متن 2) با متن انتخابی و 3) مستقل از متن تهیه شده است. مشخصات دادگان به طور فهرست وار به شرح زیر است:
متن معادل فارسی: دارد
متن معادل آوایی: دارد
دنباله آوایی برای کلمات فارسی (Lexicon): دارد
مدت زمان تقریبی: 490 ساعت
حجم دادگان: 56.5 گیگابایت
فرمت: wave
نرخ نمونه برداری: k16
عمق بیت: 16
نقد و بررسیها
هنوز بررسیای ثبت نشده است.