دستیارهای صوتی مبتنی بر هوش مصنوعی

اهمیت وجود دستیارهای صوتی[1] مبتنی بر هوش مصنوعی[2] (AI) در جامعه امروزی بر هیچکس پوشیده نیست. امروزه دستیارهای صوتی مبتنی بر هوش مصنوعی در مصارف شخصی، بسیاری از کسب و کارها و حتی سازمان­‌ها کاربرد دارند، از گوشی‌­های هوشمند تا موسسات پزشکی، وجود یک دستیار صوتی برای کمک به انسان­‌ها ضروری است. تعداد دستیارهای صوتی در بازار روز به روز در حال افزایش است و هرروز بیشتر با زندگی ما ادغام خواهند شد.

دستیار هوشمند صوتی یک برنامه نرم‌­افزاریست که بر فناوری­‌هایی مانند پردازش زبان طبیعی[3] (NLP) برای پیروی از فرمان­‌های صوتی و متنی متکی است. دستیارهای هوشمند صوتی قادر به انجام بسیاری از وظایف مشابه دستیاران انسانی هستند، مانند خواندن متن، دریافت پیام، برقراری تماس و بسیاری موارد دیگر. این دستیاران هوشمند به صورت آنلاین به جستجوی پاسخی برای سوال کاربر می­‌پردازند و با متن یا صوت به کاربر پاسخ می­دهند. دستیار هوشمند از ماژول­‌های بازشناسی گفتار[4] خودکار (ASR)، تبدیل گفتار به متن[5] (TTS) یا سنتز گفتار و پردازش زبان طبیعی برای ارائه خدمات استفاده می کند.

نرم افزار دستیار صوتی را می­‌توان در اسپیکر­های هوشمند، ساعت­‌های هوشمند، تلفن‌­های همراه، تبلت­‌ها و سایر دستگاه­‌ها یافت. این فناوری نخستین بار در سال ۱۹۹۶ به کمک وبسایت­‌ها  آمد و  سپس در سال ۲۰۰۵ اپلیکیشن­‌ها نیز به دستیار صوتی هوشمند مجهز شدند. بسیاری از دستگاه‌هایی که هر روز از آن­ها استفاده می‌کنیم، از ماژول­‌های چت­بات محاوره‌ای[6] استفاده می­کنند. بنابراین بسیاری از اپلیکیشن‌های تلفن همراه و سیستم­‌عامل­‌ها، اتومبیل‌ها، پلتفرم‌های آموزشی، مراقبت بهداشتی و ارتباطات از راه دور از این فناوری استفاده می‌کنند. از شناخته­ شده ­ترین این نرم­‌افزارها می­‌توان از الکسا (آمازون)، سیری (اپل)، دستیار گوگل (گوگل) و بیکسبی (سامسونگ) یاد کرد، که به لطف سازگاری با ماشین لباسشویی، لامپ، اجاق گاز، واحدهای تهویه مطبوع، و … محیط پیرامون انسان­ها را در بر گرفته­ اند.

همانطور که پیش­تر بیان شد از الزامات وجود دستیارهای صوتی، چت ­بات­ های محاوره‌­ای هوشمند هستند که هسته این چت­ بات­ ها جز مهم دستیار صوتی یعنی NLP را در خود جای می­‌دهد. شبکه­ های عصبی عمیق[7]، به ویژه ترنسفورمرها، انقلابی در پردازش زبان طبیعی، از جمله توسعه مدل ­های ادراک زبان طبیعی[8] (NLP) برای چت­ بات­ های هوشمند، ایجاد کرده­ اند. ترنسفورمرها نوعی شبکه عصبی عمیق هستند که نشان داده شده است در بسیاری از وظایف پردازش زبان طبیعی، از جمله ترجمه زبان، خلاصه سازی متن و تحلیل احساسات، از رویکردهای قبلی بهتر عمل می­ کنند.

[1] Voice Assistant

[2] Artificial Intelligence

[3] Natural Language Processing

[4] Automatic Speech Recognition

[5] Text to Speech

[6] Conversional AI Chatbots

[7] Deep Neural Network

[8] Natural Language Understanding

محبوب‌ترین مدل NLU مبتنی بر ترنسفورمر برای چت ­بات ­ها، مدل OpenAI GPT  است. مدل GPT یک مدل زبانی از پیش آموزش‌دیده است که روی حجم زیادی از داده‌های مکالمه­ ای به ‌خوبی تنظیم شده است. این مدل­ ها با فناوری هوش مصنوعی مولد توسعه یافته ­اند. هوش مصنوعی مولد به مدل‌های یادگیری عمیق اطلاق می‌شود که می‌توانند متن، تصاویر و سایر محتوای باکیفیت را بر اساس داده‌هایی که بر روی آنها آموزش دیده‌اند تولید کنند.

هوش مصنوعی چرخه­‌های زیادی از تبلیغات را پشت سر گذاشته است، اما حتی برای افراد شکاک، به نظر می رسد انتشار ChatGPT نقطه عطفی باشد. چت­‌بات OpenAI، با آخرین مدل زبانی بزرگ خود، می‌تواند شعر بنویسد، جوک بگوید و مقالاتی بسازد که به نظر می‌رسد انسان آنها را خلق کرده است.

آخرین باری که هوش مصنوعی مولد با این قدرت ظاهر شد، نمود پیشرفت­ آن در بینایی ماشین بود. سلفی‌هایی که به پرتره‌هایی به سبک رنسانس تبدیل شدند و چهره‌های پیر شده زودرسی که فید رسانه‌های اجتماعی را پر می‌کردند. پنج سال بعد، جهش رو به جلو در پردازش زبان طبیعی، و توانایی مدل‌های زبانی بزرگ برای استفاده از هر موضوعی است، که توجه عمومی را به خود جلب کرده است. و این فقط در مورد زبان نیست، مدل‌های مولد همچنین می‌توانند دستور زبان کد نرم‌افزار، مولکول‌ها، تصاویر طبیعی و انواع مختلف داده‌های دیگر را بیاموزند.

مدل GPT از یک معماری ترنسفورمری چند لایه استفاده می‌کند که می‌تواند توالی‌های متنی را پردازش و تولید کند. این مدل می‌تواند با پیش‌بینی کلمه بعدی یا دنباله‌ای از کلماتی که به احتمال زیاد بر اساس زمینه مکالمه دنبال می‌شوند، پاسخی برای پرسش کاربر ایجاد کند.

مدل‌های ChatGPT و  GPT- 4مرزهای علم را جابجا کردند هستند و عموم جامعه به واسطه آن­ها با قدرت هوش مصنوعی رو‌به رو شدند. این مدل­ها از روش تقویت یادگیری از بازخورد انسانی آموزش داده شده­اند. در این روش در واقع سعی بر آن است تا از بازخوردهای یک عامل انسانی در آموزش یک مدل استفاده شود که از نظر تعامل انسان و مدل یک گام رو به جلو محسوب می­‌شود.

به طور خلاصه، مدل‌های NLU مبتنی بر ترنسفورمر با امکان درک دقیق‌تر و کارآمدتر پرسش‌های کاربر و ایجاد پاسخ‌های مناسب بر اساس زمینه گفتگو، تحولی در توسعه چت‌بات­ ها ایجاد کرده‌اند.

سه ماژول اصلی تشکیل دهنده دستیارهای صوتی، ماژول‌­های بازشناسی گفتار خودکار، پردازش زبان طبیعی و تبدیل گفتار به متن می‌­باشد.

شرکت عصر گویش پرداز از دیرباز در طراحی و توسعه هر کدام از این ماژول­ ها پیشرو بوده است. و در حال حاضر نرم‌افزار هایی مبتنی بر هر یک از این فناوری­‌ها را به ثبت رسانده است. تبدیل گفتار به متن از جمله نرم ­افزارهایی است که شرکت عصر گویش پرداز به عنوان اولین نرم­ افزار تبدیل گفتار به متن فارسی طراحی و به بازار عرضه کرد. این شرکت همواره با روش­ های به روز دنیا این نرم‌­افزار را ارتقا و بهبود بخشیده که در سال گذشته به بهترین دقت برای گفتار تلفنی و میکروفونی در میان رقیبان خود دست یافت. نرم­‌افزار آریانا-۴ از جمله دیگر نرم­افزارهایی است که بر اساس فناوری تبدیل متن به گفتار توسط شرکت عصر گویش پرداز به بازار عرضه شده است.

جدیدترین محصول شرکت عصر گویش پرداز دانابات است. دانا یک دستیار هوشمند صوتی مبتنی بر API Chat-GPT است که با به کار گیری دیگر محصولات شرکت به یک دستیار هوشمند فارسی تمام عیار در حوزه دستیارهای صوتی تبدیل شده است. این ربات قادر است پیام صوتی شما را به زبان فارسی دریافت کند، بشنود، پاسخ مناسب و مرتبط تولید کند و با ماژول تبدیل گفتار به متن با صدای رسا و به زبان فارسی برای شما بخواند.

همچنین قابلیت سفارشی­ سازی این چت‌­بات از مزایایی‌ست که می­‌تواند جهت استفاده در حوزه ­های مختلف، مقاصد آموزشی، پزشکی، سازمانی و … بکار گرفته شود. شرکت عصر گویش پرداز آمادگی همکاری برای طراحی و سفارشی­ سازی این محصول را در حوزه­ های مختلف دارد.

بازگشت به لیست