این پیکره شامل حدود 130 گیگابایت متن تمیز شده کاملا فارسی که متشکل از 250 میلیون پاراگراف و 15 میلیارد کلمه است. پیکره متنی ناب به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی میتوانند به راحتی از آن بهره جویند. از مزیتهای پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، بهاین ترتیب میتوانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.پیکره ناب توسط تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف (به سرپرستی دکتر حسین صامتی) به همراه محققان مرکز نوآوری شرکت عصرگویشپرداز جمعآوری شده است.
جزئیات ناب
- پیکره PesianNLP: این پیکره شامل مجموعهای از حدود ۷۰ گیگابایت متن خام را شامل میشود.
- پیکره OSCAR-fa: شامل زبانهای مختلفی از جمله فارسی است. که نسخه اصلی آن شامل ۳۸ گیگابایت دیتای فارسی است که در ناب از نسخه به هم نخورده با حذف جملات تکراری استفاده میکنیم که شامل متون رسمی و محاورهای میباشد.
- پیکره AGP: پیکره عصرگویش پرداز که حدود ۲۵ گیگابایت متون رسمی و غیر رسمی است. این پیکره ابتدا بهصورت کاملا خصوصی مورد استفاده شرکت عصرگویشپرداز بود که از این پس به عنوان بخشی از پیکره ناب در دسترس عموم قرار گرفته است.
- پیکره LSCP: دیتاست محاوره ای LSCP که شامل 5 گیگابایت دیتا محاورهای است. این پیکره جزو معدود دادگان غیر رسمی حجم بالای زبان فارسی است.
- پیکره Telegram: حدود ۱ گیگابایت داده غیررسمی که توسط تیم تهیهکننده ناب از شبکه پیامرسانی تلگرام جمعآوری شدهاست که شامل متون محاورهای و غیررسمی میباشد.
نقد و بررسیها
هیچ دیدگاهی برای این محصول نوشته نشده است.