پیکره متنی ناب

توضیحات

این پیکره شامل حدود 130 گیگابایت متن تمیز شده کاملا فارسی که متشکل از 250 میلیون پاراگراف و 15 میلیارد کلمه است. پیکره متنی ناب به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی می‌توانند به راحتی از آن بهره جویند. از مزیت‌های پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، به‌این ترتیب می‌توانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.پیکره ناب توسط تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف (به سرپرستی دکتر حسین صامتی) به همراه محققان مرکز نوآوری شرکت عصرگویش‌پرداز جمع‌آوری شده است.

جزئیات ناب

پیکره PesianNLP: این پیکره شامل مجموعه‌ای از حدود ۷۰ گیگابایت متن خام را شامل می‌شود.
پیکره OSCAR-fa: شامل زبان‌های مختلفی از جمله فارسی است. که نسخه اصلی آن شامل ۳۸ گیگابایت دیتای فارسی است که در ناب از نسخه به هم نخورده با حذف جملات تکراری استفاده می‌کنیم که شامل متون رسمی و محاوره‌ای می‌باشد.
پیکره AGP: پیکره عصرگویش پرداز که حدود ۲۵ گیگابایت متون رسمی و غیر رسمی است. این پیکره ابتدا به‌صورت کاملا خصوصی مورد استفاده شرکت عصرگویش‌پرداز بود که از این پس به عنوان بخشی از پیکره ناب در دسترس عموم قرار گرفته است.
پیکره LSCP: دیتاست محاوره ای LSCP که شامل 5 گیگابایت دیتا محاوره‌ای است. این پیکره جزو معدود دادگان غیر‌ رسمی حجم بالای زبان فارسی است.
پیکره Telegram: حدود ۱ گیگابایت داده غیررسمی که توسط تیم تهیه‌کننده ناب از شبکه پیام‌رسانی تلگرام جمع‌آوری شده‌است که شامل متون محاوره‌ای و غیر‌رسمی می‌باشد.

نظرات (0)

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “پیکره متنی ناب”

برای ثبت نقد و بررسی وارد حساب کاربری خود شوید.

حمل و نقل

جزئیات ناب

دیدگاهها

محصولات مشابه

دادگان FarsSpon

دادگان DeepMine-SPL