مقدمه
كنترلرهای ترافیك هوایی نقش مهمی در جداسازی هواپیماها در حریم هوایی و سطح فرودگاه دارند و مقدار قابل توجهی از مكالمات بین كنترلرها و خلبانان از طریق كانالهای رادیویی است. لذا رونویسی خودكار این مكالمات نه تنها باعث بهبود امنیت سیستم بلكه باعث پیشرفت عملكردهای عملیاتی و نظارت بر انطباق اطلاعات میشود.
با این حال سیستمهای بازشناسی گفتار خودكاری كه تا به امروز پیشنهاد شده اند دقت لازم برای استفادههای عملی را دارا نبوده اند.عواملی مانند كانال های رادیویی نویز دار ، سرعت تكلم بالا و لهجههای متنوع چالشهایی را برای توسعه بازشناسی گفتار برای كنتلرهای ترافیك هوایی به وجود میاورند اما از سوی دیگر این مكالمات دارای واژگان خاص و مشخص و همینطور عبارتهای استانداردی هستند كه میتوان از آنها برای جهت دهی به الگوریتمها و تقویت آنها در این زمینه استفاده كرد.
تشخیص گفتار خودكار برای كنترل ترافیك هوایی
پیشینه پژوهش
جدید ترین مدلهای تشخیص گفتار خودكار، برای دامنه لغات وسیع، از مدلهای اچ ام ام استفاده كرده اند. اخیرا از مدلهای تركیبی اچ ام ام با مدلهای جی ام ام و یا شبكه های عصبی عمیق استفاده كرده اند و به تازگی، مدلهای سر به سر تشخیص گفتاری كه از شبكه های عصبی عمیق استفاده میكنند پیشرفت های قابل توجهی در افزایش دقت مدلهای تشخیص گفتار داشته اند.
یكی از مزایای كلیدی مدلهای سر به سر در مقابل راهكار های كلاسیك مانند مدلهایی كه بر پایه اچ ام ام هستند سهولت آموزش مدل است، زیرا آنها به خط لوله های پیچیده و مراحل پردازش فوق مهندسی شده نیاز ندارند. با وجود چندین تولكیت متن باز تشخیص گفتارخودكار محققان میتوانند مدلهای متنوعی را بر پایه مدلهای یادگیری عمیق نوشته و با آن تطبیق دهند.
دقت مدلهای تشخیص گفتار خودكار به میزان دادههای برچسب گذاری شده بستگی دارد. میزان دادههای صوتی رونوشت شده عرصه مكالمات خلبان در مقابل دیگر عرصه های تشخیص گفتار خودكار بسیار ناچیز است. پس برای حل این موضوع ما از روش نیمه نظارت شده استفاده میكنیم كه باعث كاهش بیست و پنج درصدی نرخ خطای كلمه میشود. همچنین محققان از مسیر های هوایی پرواز نیز برای افزایش متن نوشته به مدلها استفاده كرده اند كه باعث كاهش پنجاه درصدی میزان خطای فرمان شد اما تغییر چشم گیری در میزان خطای كلمه حاصل نشد.
كار های پیشین همچنین از فرهنگ لغت كوچك تری نسبت به بقیه عرصه ها استفاده كرده اند تا بتوانند مدلهای زبانی بهتری را توسعه بدهند كه نتیجه این امر افزایش بیست درصدی دقت مدل را در پی داشته است.
سهم این مقاله
در این مقاله ما مدل تشخیص گفتار خودكاری را توسعه میدهیم كه مكالمات خلبان با برج مراقبت را به صورت متن رونویسی میكند. مدل پیشنهاد شده بر اساس ساختار سر به سر تشخیص گفتار به همراه یك شبكه عصبی عمیق است كه نسبت به مدلهای مرسومی كه بر پایه رویكرد های اچ ام ام هستند مزایایی را داراست. مدلهایی كه بر پایه اچ ام ام هستند متشكل از چندین ماژول مختلف ) مدل زبانی ، مدل تلفظی ، و غیره ( هستند كه هر ماژول به صورت جداگانه بهینه سازی میشود و تابعی كه این ماژول هارا مرتبط میكند لزوما بهینه بودن روابط را تضمین نمیكند.
در مقابل ، یك مدل سر به سر چندین ماژول متفاوت را فقط با یك شبكه عصبی عمیق جایگزین میكند كه بدون نیاز به تنظیم دستی پیشرفته حالات، نگاشت مستقیم سیگنالهای زبانی را به زنجیرهای از كاراكترها مقدور میسازد و همینطور آموزش یك مدل سر به سر بسیار آسانتر از روشهای مرسوم قدیمی است. علاوه بر آموزش مدل با رونوشت ها ما دقت مدل را با آموزش انتقالی و تنظیم دقیق پارامترها كه از قبل بر روی دادههای زبان گفتاری آموزش داده شده اند مقایسه میكنیم.
به دلیل وابستگی دقت مدل به میزان دادههای ورودی ،ما مجموعه دادگان مختلفی را از منابع گوناگون جمع آوری و در مدلها استفاده كردهایم تا تاثیر مجموعه دادگان مختلف را برروی آموزش مدل درك كنیم. به محض رونویسی شدن فایلهای صوتی ،بیشتر برنامه ها نیاز به استخراج اطلاعات از رونوشت ها دارند؛ برای حل این موضوع و جداسازی دقیق اطلاعات عملیاتی از رونوشت ها ما روشی را به كمك جدید ترین تكنیك های پردازش زبان طبیعی در پیش خواهیم گرفت. ما همچنین در نبود داده مرجع برای تعیین معیارعملكردمان كه پایه و نیاز گرفتن تصمیمات در استفاده از دادههای رونوشت شده است روشی به نام عدم قطعیت نمره نرمال شده را پیشنهاد میدهیم.
مدل تشخیص گفتار خودكار
مدل تشخیص گفتاری كه از آن استفاده میكنیم مدلی بر پایه دیپ اسپیچ است و برای انالیز خود از پیاده سازی دیپ اسپیچ موزیلا استفاده خواهیم كرد.
نمای كلی مدل
شكل ۱ ساختار كلی سیستم تشخیص گقتار را نمایش میدهد. این شكل متشكل از ماژول استخراج ویژگی ، مدل صوتی ، مدل زبانی و ماژول رمزگشایی هست. ماژول استخراج ویژگی سیگنال های صوتی را به عنوان ورودی دریافت میكند و مضاربی وابسته به طیف فركانسی اش را به عنوان خروجی به این صورت میدهد: تمامی زنجیره زمانی صوتی به بخش های كوچكتر سی و دو میلی ثانیه ای با بیست میلی ثانیه همپوشانی تقسیم شده و هر بخش وابسته به بردار ویژگی اش با ام اف سی سی اش در ارتباط خواهد بود.
ام اف سی سی هر بخش بردار ویژگی ای را میسازد كه به عنوان ورودی مدل صوتی استفاده خواهد شد. مدل صوتی، یك شبكه عصبی بازگشتی است كه آموزش میبیند تا بر اساس دنباله ورودی بردار ویژگی، دنباله ای از احتمالات كاراكتر هارا به عنوان خروجی تولید كند. مدل زبانی احتمال دنباله ای از كاراكتر هارا بر پایه داده آموزشی مستقل از سیگنال صوتی به عنوان خروجی میدهد. و در نهایت ماژول رمزگشایی خروجی مدل صوتی را با مدل زبانی تركیب كرده تا متن رونوشت شده را تعیین بكند.
مدل صوتی
مدل صوتی ،یك شبكه عصبی بازگشتی است.این شبكه كه متشكل از پنج لایه پنهان است سه لایه اول آن غیر بازگشتی بوده كه لایه اول ورودی ام اف سی سی را برای بازه زمانی خاصی دریافت میكند. برای همه لایه ها غیر از لایه آخر از تابع فعال سازی رلو استفاده شده است.
برای چهارمین لایه از لایه فید فوروارد بازگشتی به جای لایه عصبی دوطرفه بازگشتی برای كاهش زمان محاسبات استفاده شده است. لایه آخر لایه ی غیر بازگشتی خروجی است كه احتمالات كاراكترها را بر اساس تابع سافت مكس نتیجه میدهد. از تابع فقدان سی تی سی نیز برای حدس زدن اشتباهات در حین آموزش استفاده میشود.
شكل ۱: ساختار مدل سيستم تشخيص گفتار خودكار
مدل زبانی
آموزش مدل صوتی برای مكالمات خلبان با برج مراقبت به دلیل كمبود دادههای رونوشت شده كاری پر از چالش است. برای همین ما از مدل زبانی ای كه برای این مكالمات طراحی شده استفاده میكنیم. مدل زبانی، توزیع احتمال رشته ای از كلمات است كه در مرحله رمزگشایی استفاده میشود. برای این منظور ما از مدل زبانی اِن گرام استفاده میكنیم زیرا با استفاده از كتابخانه هایی مثل KenLM به راحتی و با دقت بالا میتواند آموزش ببیند.
مرحله رمزگشایی
مرحله رمزگشایی بر حسب احتمالات خروجی حاصل از مدلهای زبانی و صوتی، محتمل ترین دنبالهای از كلمات را به خروجی میدهد. فرض كنید PA(c | x) نشان دهنده احتمال رشته ای كاراكترها مانند رشته c برحسب ورودی x برای مدل صوتی، و PL(c) نشان دهنده احتمال رشته از كاراكترها بر حسب مدل زبانی باشد. هدف مرحله رمزگشایی ماكسیمم كردن نمره اطمینان (Q(c)) برای رشته ای از كاراكترها خواهد بود :
كه در اینجا آلفا و بتا وزنهایی هستند كه تاثیر مدلهای صوتی و زبانی و تعداد كلمات را متعادل میكنند. (c(Q با استفاده از الگوریتم search beam تعیین میشود. و مقدار بهینه آلفا و بتا با استفاده از آنالیز پارامتری به طوری كه نرخ خطای كلمه مینیمم شود، مشخص میشود.
مدل برای مكالمات خلبان با برج مراقبت
منابع داده
براي آموزش مدل از تركيب چهار منبع داده زير استفاده شده است:
معيار عملكرد
نرخ خطای كلمه از پركابردترین معیار های اندازهگیری مدلهای تشخیص گفتار خودكار است. و با توجه به مجموع تعداد كلمات متن رونویسی شده در مقایسه با متن مرجع كه به اشتباه جایگذاری ، حذف و یا وارد شده اند، تقسیم بر تعداد تمام كلمات متن مرجع تعریف میشود:
سرعت رونویسی نیز از دیگر معیارهای مهم عملكرد مدل محسوب شده و بر حسب (RTF) كه حاصل تقسیم مدت زمان صوت ورودی بر مقدار زمانی كه نیاز است تا داده پردازش شود است، اندازه گیری میشود. RTF حاصل از مدل تولید شده تقریبا 0/3 بوده كه به این معناست كه میتواند در مكالمات زنده نیز مورد استفاده قرار گیرد.
انواع مدل
از سه مدل زير براي انجام پژوهش استفاده ميكنيم:
مدل- ۱ : مدل زبانی و مدل صوتی كه در مدل صوتی بهینه تعداد نورون های هر یك از لایههای پنهان با استفاده از آنالیز پارامتری ۶۵۰ نورون و مقدار بهینه آلفا و بتا در مدل زبانی با امتحان كردن همه تركیبهای مقادیر ممكن بین بازه ای خاص از اعداد كه كمترین نرخ خطای كلمه را دارا باشد با توجه به شكل ۲ براورد شد. و با انالیز پارامتری ای مشابه مقدار N برای gram-N مدل زبانی، ۴ بدست آمد.
مدل- ۲ :پالایش پارامترهای یك مدل از قبل آموزش داده شده ما از مدل صوتی ای كه برای مكالمات معمولی آموزش داده شده بود استفاده كرده و پارامترهای شبكه عصبی اش را با استفاده از منبع داده Speech ATC پالایش كردیم. در این مدل هر لایه دارای ۲۰۴۸ نورون بوده و نرخ خطای كلمه بر روی مكالمات معمولی ۸/۰ است. عملیات بهینه سازی طی چهار epoch با نرخ یادگیری ای كوچك (ده به توان منفی پنج) برای گرادیان دیسنت انجام شد. و مانند مدل قبل از مدل زبانیای كه قبلا بر روی منبع داده ATC آموزش داده شده بود استفاده كردیم.
مدل- ۳ :یادگیری انتقالی با یك مدل آموزش دیده شده از قبل یادگیری انتقالی كمك زیادی به برنامههای مرتبط با یادگیری ماشین مخصوصا زمانی كه حجم دادههای برچسب گذاری شده كم است میكند. در این زمینه ما از مدل از قبل آموزش دیده شده ای استفاده كردیم كه برای مكالمات گفتاری معمولی استفاده میشده است. ما پارامترهای سه لایه اول مدل از قبل آموزش دیده شده را فریز كرده و پارامترهای دولایه باقی مانده را با استفاده از منبع داده Speech ATC دوباره آموزش دادیم.
عملكرد مدلها
خلاصه ای از نرخ خطای كلمه مدلها در جدول زیر نمایش داده شده است:
استخراج اطلاعات عملياتی
مكالمات خلبان با برج مراقبت دارای اطلاعات عملیاتی مهمی مانند اطلاعات باند و شناسه پرواز هستند كه در تصمیم گیری نقش مهمی را ایفا میكنند. در این بخش از یك مدل آماری برای استخراج شناسه و یك مدل قاعده مند گرامری برای استخراج اطلاعات باند فرودگاه استفاده میشود. برای استخراج شناسه از روشی به نام (NER) كه یك تكنیك استاندارد پردازش زبان طبیعی است استفاده كرده و هدف از استفاده از آن تشخیص و گروه بندی شناسه در صورت وجود میباشد. برای پیاده سازی مدل NER از كتابخانه Spacy استقاده میكنیم كه نكته كلیدی در استفاده از این كتابخانه تشخیص شناسهها در صورت وجود خطا در متن رونویسی شده خواهد بود.
معیارهای عملکرد
دقت مدل با استفاده از سه معیار اندازه گیری میشود: score 1-F, Recall و Precision. ما چند نكته را در تعریف این سه معیار لحاظ میكنیم: اگر A تعداد دفعاتی باشد كه در داده تست شناسهای وجود داشته نداشته و مدل نیز شناسهای تشخیص نداده باشد و B تعداد دفعاتی باشد كه در داده تست شناسهای وجود داشته اما مدل چیزی را تشخیص ندهد و C تعداد دفعاتی باشد كه در متن داده شده شناسهای وجود نداشته اما مدل به اشتباه شناسهای را تشخیص دهد و D .و E .تعداد دفعاتی باشند كه شناسه درست و نادرست در متنی كه در آن شناسه وجود دارد تشخیص داده شده باشد. بیان ریاضی آن به این صورت خواهدبود:
نتيجهگيری
استفاده از مدل زبانی ان گرام بعلاوه مدل صوتی میتواند دقت را تا ۲۶ درصد افزایش بدهد. استفاده از منبع دادههای مختلف و گسترده در آموزش مدل میتواند به مدل قابل تعمیم تری منجر شود. score 1-F مدل استخراج شناسه بر روی متن اصلی ۹۵/۰ و بر روی متن تولید شده توسط مدل ۶۹/۰ بوده است و به همین ترتیب score 1-F مدل استخراج اطلاعات باند فرودگاه بر روی متن اصلی ۱ و بر روی متن تولید شده توسط مدل ۹۵/۰ خواهد بود. این پیشرفت ها به طور بالقوه می توانند دقت رونویسی را بهبود بخشند و كاربردهای عملی را از نظارت بر ایمنی در زمان واقعی تا دستیارهای گفتاری برای كنترل كنندههای ترافیك هوایی را ممكن سازند.
مراجع
Automatic Speech Recognition for AirTraffic Control Communications