دستیارهای صوتی مبتنی بر هوش مصنوعی
اهمیت وجود دستیارهای صوتی[1] مبتنی بر هوش مصنوعی[2] (AI) در جامعه امروزی بر هیچکس پوشیده نیست. امروزه دستیارهای صوتی مبتنی بر هوش مصنوعی در مصارف شخصی، بسیاری از کسب و کارها و حتی سازمانها کاربرد دارند، از گوشیهای هوشمند تا موسسات پزشکی، وجود یک دستیار صوتی برای کمک به انسانها ضروری است. تعداد دستیارهای صوتی در بازار روز به روز در حال افزایش است و هرروز بیشتر با زندگی ما ادغام خواهند شد.
دستیار هوشمند صوتی یک برنامه نرمافزاریست که بر فناوریهایی مانند پردازش زبان طبیعی[3] (NLP) برای پیروی از فرمانهای صوتی و متنی متکی است. دستیارهای هوشمند صوتی قادر به انجام بسیاری از وظایف مشابه دستیاران انسانی هستند، مانند خواندن متن، دریافت پیام، برقراری تماس و بسیاری موارد دیگر. این دستیاران هوشمند به صورت آنلاین به جستجوی پاسخی برای سوال کاربر میپردازند و با متن یا صوت به کاربر پاسخ میدهند. دستیار هوشمند از ماژولهای بازشناسی گفتار[4] خودکار (ASR)، تبدیل گفتار به متن[5] (TTS) یا سنتز گفتار و پردازش زبان طبیعی برای ارائه خدمات استفاده می کند.
نرم افزار دستیار صوتی را میتوان در اسپیکرهای هوشمند، ساعتهای هوشمند، تلفنهای همراه، تبلتها و سایر دستگاهها یافت. این فناوری نخستین بار در سال ۱۹۹۶ به کمک وبسایتها آمد و سپس در سال ۲۰۰۵ اپلیکیشنها نیز به دستیار صوتی هوشمند مجهز شدند. بسیاری از دستگاههایی که هر روز از آنها استفاده میکنیم، از ماژولهای چتبات محاورهای[6] استفاده میکنند. بنابراین بسیاری از اپلیکیشنهای تلفن همراه و سیستمعاملها، اتومبیلها، پلتفرمهای آموزشی، مراقبت بهداشتی و ارتباطات از راه دور از این فناوری استفاده میکنند. از شناخته شده ترین این نرمافزارها میتوان از الکسا (آمازون)، سیری (اپل)، دستیار گوگل (گوگل) و بیکسبی (سامسونگ) یاد کرد، که به لطف سازگاری با ماشین لباسشویی، لامپ، اجاق گاز، واحدهای تهویه مطبوع، و … محیط پیرامون انسانها را در بر گرفته اند.
همانطور که پیشتر بیان شد از الزامات وجود دستیارهای صوتی، چت بات های محاورهای هوشمند هستند که هسته این چت بات ها جز مهم دستیار صوتی یعنی NLP را در خود جای میدهد. شبکه های عصبی عمیق[7]، به ویژه ترنسفورمرها، انقلابی در پردازش زبان طبیعی، از جمله توسعه مدل های ادراک زبان طبیعی[8] (NLP) برای چت بات های هوشمند، ایجاد کرده اند. ترنسفورمرها نوعی شبکه عصبی عمیق هستند که نشان داده شده است در بسیاری از وظایف پردازش زبان طبیعی، از جمله ترجمه زبان، خلاصه سازی متن و تحلیل احساسات، از رویکردهای قبلی بهتر عمل می کنند.
[1] Voice Assistant
[2] Artificial Intelligence
[3] Natural Language Processing
[4] Automatic Speech Recognition
[5] Text to Speech
[6] Conversional AI Chatbots
[7] Deep Neural Network
[8] Natural Language Understanding
محبوبترین مدل NLU مبتنی بر ترنسفورمر برای چت بات ها، مدل OpenAI GPT است. مدل GPT یک مدل زبانی از پیش آموزشدیده است که روی حجم زیادی از دادههای مکالمه ای به خوبی تنظیم شده است. این مدل ها با فناوری هوش مصنوعی مولد توسعه یافته اند. هوش مصنوعی مولد به مدلهای یادگیری عمیق اطلاق میشود که میتوانند متن، تصاویر و سایر محتوای باکیفیت را بر اساس دادههایی که بر روی آنها آموزش دیدهاند تولید کنند.
هوش مصنوعی چرخههای زیادی از تبلیغات را پشت سر گذاشته است، اما حتی برای افراد شکاک، به نظر می رسد انتشار ChatGPT نقطه عطفی باشد. چتبات OpenAI، با آخرین مدل زبانی بزرگ خود، میتواند شعر بنویسد، جوک بگوید و مقالاتی بسازد که به نظر میرسد انسان آنها را خلق کرده است.
آخرین باری که هوش مصنوعی مولد با این قدرت ظاهر شد، نمود پیشرفت آن در بینایی ماشین بود. سلفیهایی که به پرترههایی به سبک رنسانس تبدیل شدند و چهرههای پیر شده زودرسی که فید رسانههای اجتماعی را پر میکردند. پنج سال بعد، جهش رو به جلو در پردازش زبان طبیعی، و توانایی مدلهای زبانی بزرگ برای استفاده از هر موضوعی است، که توجه عمومی را به خود جلب کرده است. و این فقط در مورد زبان نیست، مدلهای مولد همچنین میتوانند دستور زبان کد نرمافزار، مولکولها، تصاویر طبیعی و انواع مختلف دادههای دیگر را بیاموزند.
مدل GPT از یک معماری ترنسفورمری چند لایه استفاده میکند که میتواند توالیهای متنی را پردازش و تولید کند. این مدل میتواند با پیشبینی کلمه بعدی یا دنبالهای از کلماتی که به احتمال زیاد بر اساس زمینه مکالمه دنبال میشوند، پاسخی برای پرسش کاربر ایجاد کند.
مدلهای ChatGPT و GPT- 4مرزهای علم را جابجا کردند هستند و عموم جامعه به واسطه آنها با قدرت هوش مصنوعی روبه رو شدند. این مدلها از روش تقویت یادگیری از بازخورد انسانی آموزش داده شدهاند. در این روش در واقع سعی بر آن است تا از بازخوردهای یک عامل انسانی در آموزش یک مدل استفاده شود که از نظر تعامل انسان و مدل یک گام رو به جلو محسوب میشود.
به طور خلاصه، مدلهای NLU مبتنی بر ترنسفورمر با امکان درک دقیقتر و کارآمدتر پرسشهای کاربر و ایجاد پاسخهای مناسب بر اساس زمینه گفتگو، تحولی در توسعه چتبات ها ایجاد کردهاند.
سه ماژول اصلی تشکیل دهنده دستیارهای صوتی، ماژولهای بازشناسی گفتار خودکار، پردازش زبان طبیعی و تبدیل گفتار به متن میباشد.
شرکت عصر گویش پرداز از دیرباز در طراحی و توسعه هر کدام از این ماژول ها پیشرو بوده است. و در حال حاضر نرمافزار هایی مبتنی بر هر یک از این فناوریها را به ثبت رسانده است. تبدیل گفتار به متن از جمله نرم افزارهایی است که شرکت عصر گویش پرداز به عنوان اولین نرم افزار تبدیل گفتار به متن فارسی طراحی و به بازار عرضه کرد. این شرکت همواره با روش های به روز دنیا این نرمافزار را ارتقا و بهبود بخشیده که در سال گذشته به بهترین دقت برای گفتار تلفنی و میکروفونی در میان رقیبان خود دست یافت. نرمافزار آریانا-۴ از جمله دیگر نرمافزارهایی است که بر اساس فناوری تبدیل متن به گفتار توسط شرکت عصر گویش پرداز به بازار عرضه شده است.
جدیدترین محصول شرکت عصر گویش پرداز دانابات است. دانا یک دستیار هوشمند صوتی مبتنی بر API Chat-GPT است که با به کار گیری دیگر محصولات شرکت به یک دستیار هوشمند فارسی تمام عیار در حوزه دستیارهای صوتی تبدیل شده است. این ربات قادر است پیام صوتی شما را به زبان فارسی دریافت کند، بشنود، پاسخ مناسب و مرتبط تولید کند و با ماژول تبدیل گفتار به متن با صدای رسا و به زبان فارسی برای شما بخواند.
همچنین قابلیت سفارشی سازی این چتبات از مزایاییست که میتواند جهت استفاده در حوزه های مختلف، مقاصد آموزشی، پزشکی، سازمانی و … بکار گرفته شود. شرکت عصر گویش پرداز آمادگی همکاری برای طراحی و سفارشی سازی این محصول را در حوزه های مختلف دارد.