مدلی چندزبانه و چندوظیفهای برای تعبیه متن که برای انواع کاربردهای پردازش زبان طبیعی طراحی شده است.
مدلهای تعبیه متن به یک پایه اساسی در پردازش زبان طبیعی (NLP) تبدیل شدهاند. این مدلها متن را به بردارهای با ابعاد بالا تبدیل میکنند که روابط معنایی را به تصویر میکشند و وظایفی مانند بازیابی اسناد، طبقهبندی، خوشهبندی و غیره را ممکن میسازند. تعبیهها بهویژه در سیستمهای پیشرفته مانند مدلهای تولید تقویتشده با بازیابی (RAG) حیاتی هستند، جایی که تعبیهها به بازیابی اسناد مرتبط کمک میکنند. با افزایش نیاز به مدلهایی که بتوانند چندین زبان و توالیهای طولانی متن را مدیریت کنند، مدلهای مبتنی بر ترانسفورمر انقلاب بزرگی در نحوه تولید تعبیهها به وجود آوردهاند. با این حال، در حالی که این مدلها دارای قابلیتهای پیشرفتهای هستند، در کاربردهای دنیای واقعی، به ویژه در مدیریت دادههای چندزبانه گسترده و اسناد با محتوای طولانی، محدودیتهایی دارند.
مدلهای تعبیه متن در سالهای اخیر با چالشهای متعددی مواجه شدهاند. در حالی که بهعنوان مدلهای همهمنظوره معرفی میشوند، یک مسئله کلیدی این است که بسیاری از مدلها اغلب نیاز به تنظیم خاصی دارند تا در وظایف مختلف عملکرد خوبی داشته باشند. این مدلها معمولاً در ایجاد تعادل در عملکرد در زبانهای مختلف و مدیریت توالیهای طولانی متن دچار مشکل میشوند. در کاربردهای چندزبانه، مدلهای تعبیه باید با پیچیدگی رمزگذاری روابط بین زبانهای مختلف که هر کدام ساختارهای زبانی منحصربهفردی دارند، مواجه شوند. این مشکل در وظایفی که نیاز به پردازش توالیهای طولانی متن دارند، بیشتر میشود، زیرا معمولاً از ظرفیت اکثر مدلهای فعلی فراتر میروند. علاوه بر این، پیادهسازی چنین مدلهای بزرگمقیاس که اغلب دارای میلیاردها پارامتر هستند، چالشهای زیادی از نظر هزینه محاسباتی و مقیاسپذیری ایجاد میکند، به ویژه زمانی که بهبودهای جزئی نمیتوانند مصرف منابع را توجیه کنند.
تلاشهای قبلی برای حل این چالشها عمدتاً به مدلهای بزرگ زبان (LLM) متکی بودهاند که تعداد پارامترهای آنها گاهی به بیش از ۷ میلیارد میرسد. این مدلها توانایی خود را در مدیریت وظایف مختلف در زبانهای گوناگون، از جمله طبقهبندی متن تا بازیابی اسناد، نشان دادهاند. با این حال، علیرغم اندازه بزرگ پارامترهای این مدلها، پیشرفتهای عملکردی در مقایسه با مدلهای فقط رمزگذار، مانند XLM-RoBERTa و mBERT، اندک بوده است. پیچیدگی این مدلها همچنین آنها را برای بسیاری از کاربردهای دنیای واقعی که منابع محدودی دارند، غیرعملی میکند. تلاشها برای کارآمدتر کردن تعبیهها شامل نوآوریهایی مانند تنظیم دستورالعمل و روشهای موقعیتیابی مانند تعبیههای موقعیتی چرخشی (RoPE) بوده است که به مدلها کمک میکنند توالیهای طولانیتری از متن را پردازش کنند. با این حال، حتی با این پیشرفتها، مدلها اغلب در برآورده کردن نیازهای وظایف بازیابی چندزبانه در دنیای واقعی با کارایی مطلوب ناکام میمانند.
محققان شرکت Jina AI GmbH مدل جدیدی به نام Jina-embeddings-v3 معرفی کردهاند که بهطور خاص برای رفع ناکارآمدیهای مدلهای تعبیه قبلی طراحی شده است. این مدل که شامل ۵۷۰ میلیون پارامتر است، عملکرد بهینهای را در وظایف مختلف ارائه میدهد و از اسناد با متن طولانی تا ۸۱۹۲ توکن پشتیبانی میکند. این مدل یک نوآوری کلیدی را در خود دارد: آداپتورهای Low-Rank Adaptation (LoRA) مخصوص وظایف. این آداپتورها به مدل اجازه میدهند که بهطور کارآمد تعبیههای باکیفیتی برای وظایف مختلف از جمله بازیابی پرسش-سند، طبقهبندی، خوشهبندی و تطبیق متن تولید کند. توانایی Jina-embeddings-v3 در ارائه بهینهسازیهای خاص برای این وظایف، امکان مدیریت مؤثرتر دادههای چندزبانه، اسناد طولانی و سناریوهای پیچیده بازیابی را فراهم میکند و تعادلی بین عملکرد و مقیاسپذیری برقرار میسازد.