مدل AV-HuBERT، یک گام جلوتر برای درک محتوای صوتی با استفاده از داده های بصری
مقدمه
صوت، یکی از مهمترین حالات انرژی در جهان اطراف ما و همچنین عاملی مهم در برقراری ارتباط میان ما، انسانها، و همچنین سایر موجودات میباشد. با این حال، با وجود پیشرفتهای فعلی، کامپیوترهای امروزی توانایی درک کامل محتوای معنایی صوت را دارا نمیباشند. پردازش صوت، حوزهای است که در تلاش است با ارائه روشهای مناسب و بهینه، این امر را محقق کند.
یکی از مسائل مهم در این حوزه، مساله تشخیص خودکار گفتار میباشد.
در این مساله، به دنبال راهحلی برای تبدیل صوت ورودی دارای گفتار به متن خواندهشده میباشیم. راهحلهای یافتشده برای این مساله، در شرایطی که گفتار ورودی واضح باشد، به نسبت خوب عمل میکند این درحالی است که در صورت وجود نویز در ورودی عملکرد این روشها، شاهد افت خواهد بود.
در جهت حل این مشکل، رویکردهای زیر مطرح میباشند:
- تقویت گفتار
- استفاده از دادههای بصری علاوه بر گفتار
در این مقاله، ما شاهد راهحلی مبتنی بر رویکرد دوم میباشیم. یکی از شهود مهم در جهت عملکرد مثبت این رویکرد، مکانیزم طبیعی تشخیص گفتار در انسان میباشد که علاوه بر استفاده از سیستم شنیداری برای درک گفتار، با نگاه به حرکت لبهای گوینده، تلاش میکند تا در صورت عدم درک قسمتی از گفتار فرد، آن را حدس بزند.
مدل ارائهشده در این مقاله، نسبت به دیگر مقالات ارائه شده دارای دو نکته برجسته میباشد:
- استفاده از یک بازنمایی کلی مبتنی بر صوت و تصویر
- یادگیری با رویکرد خود-ناظر و نیمه-ناظر
این در حالی است که غالب روشهای ارائهشده برای حل این مساله، مبتنی بر یادگیری نظارتشده بوده است. برتری روشهای خود-ناظر نسبت به روشهای نظارتشده، عملکرد بهتر در موقعیتهایی است که دادههای برچسبگذاریشده به میزان کافی وجود نداشته باشد. مدلهای مبتنی بر یادگیری نظارتشده، محدود به تعداد دادههای برچسبگذاریشده میباشند و تنها در صورتی میتوانند عملکرد بهتری داشته باشند که حجم داده برچسبگذاریشده بیشتری را در فرایند آموزش استفاده کرده باشند.
پيش پردازش دادهها
در این قسمت، به بررسی پیش پردازش مورد نیاز هر یك از انواع ورودی خواهیم پرداخت.
پيش پردازش تصوير ورودی
در این قسمت، در ابتدا با استفاده از مدل dlib به ازای هر كلیپ، ۶۸ نقطه كلیدی چهره فرد تشخیص داده شده و سپس به واسطه یك تبدیل خطی، هر فریم را به یك فریم مرجع حول چهره به ابعاد 96 × 96 به مركزیت دهان فرد، جدا منتقل می كنیم. سپس یك محدوده مورد علاقه می كنیم. پس از آن، تصویر را به سطح خاكستری منتقل میكنیم. سپس به صورت رندوم، یك محدوده به ابعاد 88 × 88 از محدود موردعلاقه انتخاب شده و با احتمال %۵۰ به صورت افقی وارونه میشود. البته باید توجه داشت، وارونگی افقی، در زمان تست، انجام نخواهد شد.
پيش پردازش صوت ورودی
برای پیش پردازش دادههای صوتی، ویژگیهای ۲۶ بعدی energy filterbank log با فاصله 10ms از صوت خام استخراج شده و به عنوان ورودی به مدل داده میشود. باید توجه داشت به دلیل این كه نرخ فریم در ویدیو، 25Hz میباشد (این درحالی است كه نرخ فریمهای صوتی، 100Hz میباشد)، می بایست به ازای هر یك فریم تصویر، ۴ فریم صوتی مجاور را با یكدیگر در نظر گرفت تا هماهنگی میان دو نوع داده ورودی حفظ شود.
معماری مدل
در تصویر زیر معماری مدل HuBERT-AV را مشاهده میكنید.
شكل1:معماری مدل AV-HuBERT
رویكرد این مدل، مشابه با مدل HuBERT میباشد كه مدلی خود-ناظر در جهت حل مساله تشخیص خودكار گفتار میباشد. فرایند آموزش مدل دارای دو فاز میباشد:
- پيش-آموزش
- كوك كردن
پيش-آموزش
یكی از ویژگیهای مهم در فرایند پیش-آموزش این مدل، استفاده از مفهوم حذف تصادفی نوع ورودی میباشد. یكی از دلایل اصلی وجود این مفهوم، برای جلوگیری از وابستگی بیش از حد مدل، به ورودی صوتی میباشد. چراكه در صورت نبود چنین مكانیزمی، به دلیل سادگی درك ساختار های لغوی با استفاده از ورودی صوتی، مدل بیش از حد به ورودی صوتی وابسته شده و ویژگیهای بصری تاثیر خود را از دست خواهند داد.
جدول ۱ :مكانیزم حذف تصادفی نوع ورودی
برای پیاده سازی این مكانیزم، از دو احتمال pm و pa استفاده میشود. با احتمال pm از هر دو نوع ورودی (صوت و فریم های ویدیو) به عنوان ورودی استفاده شده و با احتمال pm − 1 تنها از یكی از دو نوع ورودی استفاده میشود. در حالتی كه تنها از یكی از انواع ورودی استفاده میشود، با احتمال pa تنها از دادههای صوتی و با احتمال pa−1 تنها از دادههای بصری استفاده میشود. در جدول ۱ خلاصه ای از نكات ذكر شده، بیان شده است.
هر دور از فرایند پیش-آموزش، شامل دو مرحله میباشد:
- خوشه بندی ویژگیها
- حدس ورودی پوشیده شده
خوشهبندی ويژگیها
در حوزه هایی نظیر پردازش زبان طبیعی ، ورودی قابل شكستن به واحدهای گسسته از یكدیگر (كلمات و توكنها) میباشد و همین عامل باعث می شود مدلهای زبانی همانند مدل زبانی BERT ،از این ویژگیها برای آموزش مدل خود بهره ببرند. اما در حوزه صوت، ورودی از جنس سیگنال پیوسته میباشد و برای ایجاد شرایطی مشابه به حوزه پردازش زبان طبیعی، نیاز است كه رویكردی برای استخراج ویژگیهای واحد گسسته برای صوت همانند هجا و آوا پیشنهاد و استفاده شود.
رویكردی كه در این مقاله ارائه شده است، رویكردی مشابه مقاله مربوط به مدل HuBERT میباشد. در این رویكرد، در اولین دور از فرایند پیش-آموزش، صرفا از ویژگیهای صوتی استفاده میشود. برای اینكار، از استخراج كننده ویژگی MFCC استفاده میشود.
این استخراج كننده ویژگی، توانایی استخراج ویژگیهای صوتی مرتبط با گفتار را دارا میباشد و گزینه مناسبی برای شروع فرایند استخراج ویژگیها میباشد. یكی از دلایلی كه در این مرحله صرفا از ویژگیهای صوتی استفاده میشود، تاثیر بیشتر این نوع از ویژگیها نسبت به ویژگیهای بصری میباشد.
این درحالی است كه در دور های پس از دور اول، از ویژگیهای استخراج شده توسط یكی از لایه های میانی بلوكهایtransformer استفاده میشود. این ویژگیها، برخلاف ویژگیهای استخراج شده در دور اول، ویژگیهایی است كه توامان دارای اطلاعات بصری و صوتی ورودی میباشد.
پس از استخراج این ویژگیها، با استفاده از یك الگوریتم خوشه بندی همانند means-K، ویژگیهای استخراج شده در خوشه هایی جمع می شوند. بسته به تعداد خوشه های تعیین شده پیش از شروع فرایند خوشه بندی، خوشه های نهایی میتواند از لحاظ مفهومی، مفاهیم مختلفی را از جمله آوا، هجا و غیره را در خود داشته باشد. در ادامه از شماره هر یك از این خوشه ها به عنوان یك واحد گسسته در جهت پیش-آموزش مدل استفاده میشود.
حدس ورودی پوشيده شده
پس از تعیین خوشهها در مرحله قبل و نسبت دادن هر یك از ورودیها به یكی از این خوشهها، مرحله دوم پیش-آموزش انجام میشود. در این مرحله در رویكردی مشابه رویكرد مدل BERTدر پیش-آموزش، بخشی از ورودی ها پوشیده میشود. در این مرحله، مدل می بایست با استفاده از ویژگیهای استخراج شده از ورودی های پوشیده نشده، ویژگیهای زمانی مربوطه میان ویژگیهای صوتی و تصویری را پیدا كرده و از آن برای تشخیص شماره خوشه مربوط به ورودی پوشیده شده استفاده كند.
در این مرحله، پوشش برای ورودی صوتی و بصری، به صورت مستقل رخ میدهد و این احتمال پوشش برای ورودی صوتی بیشتر میباشد. چرا كه تشخیص ورودی پوشیده شده به واسطه ویژگیهای صوتی، ساده تر میباشد.
همچنین در این مرحله، برای افزایش دشواری فرایند تشخیص قسمت پوشش داده شده، به صورت رندوم، قسمت هایی از همان ویدیو انتخاب و سپس در نقاطی كه به طور رندوم انتخاب شده است، جایگزین میشود. این عمل، علاوه بر افزایش دشواری فرایند تشخیص قسمت پوشش داده شده، موجب روانی زمانی ویدیو میشود.
با توجه به توضیحات داده شده و رابطه ۱ ، مقدار تابع زیان در مرحله پیش-آموزش برای ورودی هایی كه حداقل یكی از ورودی صوتی یا ورودی بصری آنها پوشیده شده اند، محاسبه میشود. در این رابطه، T:p1 توزیع احتمال خروجی مدل و T:z1 شماره خوشه هدف tام میباشد. همچنین Ma مجموعه تمامی ورودی های صوتی پوشیده شده و Mv مجموعه تمامی ورودی های بصری پوشیده شده می باشند.
كوك كردن
با توجه به مقاله، در فاز كوك كردن و استنتاج، تنها از ورودی بصری استفاده می شود و كدكننده مربوط به ورودی صوتی از مدل حذف میشود. دلیل این كار، یادگیری ویژگیهای صوتی در كد كننده بصری میباشد و به همین دلیل نیازی به وجود كدكننده صوتی نخواهد بود. با این حال، در مقاله در فاز كوك كردن، همچنان از كدكننده صوتی استفاده شده و این مولفه از مدل حذف نمیشود.
در مرحله كوك كردن مدل، از زوج مرتب (text, video) به عنوان ورودی استفاده میشود. برای محاسبه مقدار بهینه، از الگوریتم بهینه سازی Adam استفاده شده است. همچنین مقدار ضریب یادگیری به ازای % P به روزرسانی اول برابر 001.0 بوده و سپس به صورت خطی كاهش پیدا می كند. مقدار P میتواند از میان مقادیر {50, 30, 10} انتخاب شود. همچنین تمامی ابرپارامتر ها به واسطه دادههای ارزیابی تعیین میشود.
در این گام، از دو مدل تابع زیان میتوان استفاده كرد:
- زیان تابع CTC
- زیان تابع S2S
زيان تابع CTC
در این قسمت، كدكننده صوت حذف شده و یك بردار صفر جایگزین آن میشود. پس از آن، همانطور كه در رابطه ۲ مشاهده میشود، یك لایه خطی برای تصویر كردن خروجی et خروجی مدل از پیش بلوك های transformer به واج ها استفاده میشود. در این رابطه، آموزش داده شده و pt توزیع احتمال پس از گذر از لایه تصویركردن میباشد.
(۲)
سپس واژگان به واسطه CMUDict ساخته میشود. در این قسمت، مدل از پیش آموزش داده شده، بدون فریز كردن، از همان دور اولیه، به روز میشود. با توجه به حجم دادههای مربوط به كوك كردن، در صورت استفاده از ۳۰ ساعت/۴۳۳ ساعت داده، نیاز است كه مدل ۳۰هزار/۱۰۰هزار مرحله طی كند.
علاوه بر این، در این حالت، برای برگرداندن و تفسیر خروجی مدل، نیاز است تا از یك مدل زبانی gram-4 كه بر روی دادههای متنی دادگان LRS3 آموزش داده شده است، استفاده شود. برای محاسبه تابع زیان، میتوان از رابطه ۳ استفاده كرد. در این رابطه، π دنباله ای است كه میتواند به واسطه تبدیل B به دنباله هدف w تبدیل شود.
(۳)
زيان تابع S2S
در این قسمت نیز، كدكننده صوت حذف شده و یك بردار صفر جایگزین آن می شود [۲.[ پس از آن، از یك كدبرگردان transformer با ۶ لایه/۹ لایه برای مدل هایBASE/LARGE استفاده می شود تا ویژگیهای استخراج شده توسط كدكننده transformer را به واحد های تك كلمه ای تبدیل كند. مدل از پیش آموزش داده شده، برای %N از به روزرسانی های اولیه، فریز میشود. مقدار N بسته به حجم داده ۳۰ ساعت/۴۳۳ ساعت، ۱۰۰/۵۰ میباشد. همچنین مدل بسته به حجم داده ۳۰ ساعت/۴۳۳ ساعت، ۱۸هزار/۴۵هزار مرحله را می بایست طی كند.
علاوه بر نكات ذكر شده، به دلیل استفاده از ساختار كدبرگردان transformer ،در این حالت، نیازی به استفاده از یك مدل زبانی وجود نخواهد داشت. در این رویكرد محاسبه تابع زیان، كدبرگردان استفاده شده، با دریافت خروجی مدل از پیش آموزش دیده ( T:e1 ،(احتمالات wt(p )را به عنوان خروجی بازمی گرداند. سپس، برای محاسبه تابع |w1:T , e1:T ) هدف دنباله زیان در این مرحله، میتوان از رابطه ۴ استفاده كرد.
(۴)
دادگان ها
در این قسمت، به بررسی دادگان های استفاده شده برای آموزش این مدل می پردازیم.
LRS3-TED دادگان
این دادگان، بزرگترین دادگان برچسب گذاری شده در حوزه تشخیص گفتار به واسطه صوت و تصویر میباشد. این دادگان شامل بیش از چهارصد ساعت ویدیو از صحبت های مربوط به برنامه های TED و TEDx میباشد. این دادگان، به دو قسمت اصلی تقسیم میشود:
- پیش-آموزش (۴۰۳ ساعت)
- ارزیابی-آموزش (۳۰ ساعت)
هر دو قسمت، دارای زیرنویس در سطح جمله بوده و منبع هر یك، با منبع دادههای تست، یكسان است. دادههای موجود در قسمت پیش-آموزش به دلیل وجود كلیپ هایی با طول متفاوت و كمتر یا بیشتر از یك جمله كامل، از دادههای موجود در قسمت ارزیابی-آموزش متمایز میشوند.
از این دادگان در كنار دادگان VoxCeleb2 برای فرایند پیش-آموزش استفاده میشود. همچنین در فرایند كوك كردن مدل، در صورتی كه در حالت منابع كم قرار داشته باشیم، تنها از دادههای ارزیابی-آموزش استفاده میشود این در حالی است كه در غیر اینصورت از تمامی دادههای این دادگان استفاده خواهد شد.
VoxCeleb2 دادگان
این دادگان، یك دادگان چندزبانه است كه در ابتدا برای مساله تشخیص گوینده چندزبانه با استفاده از دادههای صوتی و بصری ارائه شده است. بر روی هم، این دادگان شامل بیش ۲۴۴۲ ساعت گفتار از بیش از ۶هزار گوینده كه از یوتیوب استخراج شده است، میباشد. همچنین این دادگان شامل زیرنویس و متن اصلی كه در ویدیوها بیان میشود نمیباشد.
مزیت این دادگان نسبت به دادگان TED-LRS3 ،تنوع بیشتر موقعیتها و صحنههایی است كه وجود دارد. در فرایند پیش-آموزش مدل، از تمامی دادههای این قسمت استفاده نشده است بلكه تنها قسمت انگلیسی این دادگان مورد استفاده قرار گرفته است.
برای جداسازی ویدیوهای انگلیسی زبان از غیرانگلیسی زبان، از یك مدل تشخیص خودكار گفتار به واسطه صوت مبتنی بر حروف، كه بر روی دادگان Librispeech آموزش دیده است، استفاده شده است. این مدل بر روی تمامی ویدیو ها اعمال شده و تنها ویدیو هایی را كه دارای بیش از %۶۰ گفتار انگلیسی باشند، در نهایت باقی خواهند ماند. حجم دادههای انگلیسی پس از اعمال این فیلتر، ۱۳۲۶ ساعت ویدیو میباشد.
MUSAN دادگان
این دادگان شامل ۱۰۹ ساعت صوت میباشد. این دادگان شامل اصواتی از نوع طبیعی، موسیقی و همهمه میباشد. از این اصوات در جهت تركیب كردن صوت ورودی با نویز، استفاده میشود. علاوه بر انواع نویز ذكر شده كه از این دادگان به دست میآید، نوع دیگری از نویز با نام گفتار به واسطه دادگان LRS3 به دست آمده و در فرایند تركیب نویز شركت میكند.
نتايج و ارزيابی مدل HuBERT-AV
نتایج این مدل را یكبار با ساختار مشخص شده در مقاله كه ساختار پایه این مدل میباشد و بار دیگر به واسطه ساختار مشخص شده در مقاله ارزیابی خواهیم كرد. مبنای ارزیابی در این قسمت، معیار نرخ خطای كلمه میباشد. این معیار، بنا به رابطه ۵ محاسبه میشود.
(۵)
ارزيابی مدل پايه
در تصویر ۲ نتایج مربوط به مدل خود-ناظر HuBERT-AV را همراه با نتایج مدل های پیشنهادی پیش از آن، مشاهده می كنید. همانگونه كه مشهود است، این مدل با استفاده از این رویكرد جدید، توانسته با استفاده از دادههای پرچسب گذاری شده كمتر، به نتایج برابر یا بهتری نسبت به مدلهای پیشنهادی مبتنی بر رویكرد نظارت شده برسد.
در این روش، نسبت به روشهای مبتنی بر یادگیری نظارت شده، حجم داده كمتری نیاز است با این حال، هر چه حجم داده بیشتری در اختیار باشد، این نوع مدل دقت بیشتری از خود نشان داده و در نهایت نرخ خطای كلمه كمتری خواهد داشت.
تاثير پيش-آموزش بر روی داده های غيرانگليسی
یكی از نكات مطرح شده در مقاله بررسی تاثیر انجام فرایند پیش-آموزش بر روی دادههای تماما انگلیسی و یا تركیب با دادههای غیرانگلیسی میباشد. از آنجایی كه آوا ها و واج ها در زبان های مختلف مشابه می باشند، بنابراین می بایست مستقل از زبان باشند. با این حال، فرایند پوشاندن كلمات در فرایند پیش-آموزش، در جهت یادگیری زبان میباشد و یك فرایند وابسته به زبان میباشد. به همین دلیل در صورت استفاده از دادههای زبان دیگر، میتواند منجر به افزایش اختلاف حوزه زبانی شود.
شكل ۲ :مقایسه نتایج مدل HuBERT-AV با مدل های پیشنهادی پیش از آن
برای بررسی بیشتر این مساله، فرایند پیش-آموزش این مدل را با حجم ثابتی از دادههای غیرانگلیسی (۱۱۱۶ ساعت) و حجم متغیری از دادههای انگلیسی آموزش داده و مدل نهایی را ارزیابی كرده اند. نتایج ارزیابی در تصویر ۳ قابل مشاهده است.
شكل ۳ :مقایسه تاثیر دادههای غیرانگلیسی در فرایند پیش-آموزش مدل
همانگونه كه در تصویر ۳ مشاهده میشود، زمانی كه حجم دادههای مرتبط با زبان هدف محدود باشد، دادههای زبان دیگر، مفید بوده و باعث كاهش خطای مدل و درك بهتر ویژگیهای كلی آوایی شده است. با این حال، با افزایش دادههای مرتبط با زبان هدف، به دلیل افزایش اختلاف حوزه زبانی، دقت مدل افت كرده و منجر به افزایش خطای آن شده است. با این تفاسیر، میتوان نتیجه گرفت استفاده از دادههای زبانهای دیگر زمانی مفید واقع خواهد شد كه دادههای زبان هدف، محدود باشند.
ارزيابی مدل پايدار
در این مدل، تمركز ارزیابی بر روی تاثیر ویژگیهای بصری بر تشخیص بهتر و همچنین تاثیر تركیب صوت ورودی با نویز میباشد. نتایج مربوط به این مدل را در تصویر ۴ مشاهده می كنید. همچنین برای درك شهود بیشتر، نمودار های مربوط به نتایج این مدل در دو حالت فقط صوت (A) و تركیب صوت و تصویر (AV) نیز در تصویر ۵ مشاهده میشود.
شكل ۴ :نتایج مدل استوار HuBERT-AV در دو حالت فقط صوت (A) و تركیب صوت و تصویر (AV) و مقایسه با مدل های پیشنهادی پیش از آن
شكل ۵ :نمودار های مقایسه مدل در دو حالت فقط صوت (A) و تركیب صوت و تصویر (AV) بر اساس میزان نویز و نوع نویز
پیش از بررسی نتایج مربوط به تاثیر تركیب نویز با صوت ورودی، نیاز است تا مفهوم SNR شرح داده شود. این مفهوم، به صورت نسبت توان سیگنال معنی دار به توان سیگنال نویز تعریف می شود و به واسطه رابطه ۶ محاسبه میشود. این مقدار، همچنین میتواند بر حسب واحد دسی بل نیز محاسبه شود كه برای این كار میتوان از رابطه ۷ استفاده نمود.
(۶)
(۷)
با توجه به این فرمول، زمانی كه مقدار SNR برابر با ∞ باشد، تمام سیگنال معنی دار است و نویزی در آن وجود نخواهد داشت و با كاهش این مقدار، تاثیر نویز در این سیگنال، بیشتر میشود.
با این تعبیرات، همانطور كه در تصویر ۵ مشاهده میشود، زمانی كه صوت ورودی بدون نویز میباشد، تاثیر ویژگیهای تصویری زیاد نخواهد بود و دقت دو مدل فقط صوت (A) و تركیب صوت و تصویر (AV )، به هم نزدیك خواهد بود. اما با افزایش شدت نویز در صوت ورودی مشاهده می شود كه خطای مدل مبتنی بر تركیب صوت و تصویر (AV) كمتر میشود. این كاهش، مستقل از نوع فرایند پیش-آموزشی است كه مدل طی می كند.
علاوه بر این، در این تصویر، تاثیر مثبت ویژگیهای بصری بر روی صوت های دارای نویز هایی از جنس همهمه و گفتار، مشهود میباشد. هرچند وجود ویژگیهای بصری در كل، تاثیر مثبتی بر روی كاهش خطای مدل در مواجهه با انواع مختلف نویز را همراه دارد، اما با این حال این تاثیر در نویز هایی از جنس همهمه و گفتار بیشینه است و این نشان دهنده این است كه ویژگیهای بصری به خوبی توانایی جبران كاستی های اطلاعاتی دادههای صوتی را در این نوع موقعیت ها دارا می باشند.
نتيجه گيری
در این گزارش به بررسی جزییات مربوط به مدل خود-ناظر HuBERT-AV پرداختیم. این مدل با استفاده از رویكرد خود-ناظر، توانایی یادگیری ویژگیهای صوتی و بصری به صورت همزمان با استفاده از حجم داده برچسب گذاری شده كمتر را داراست. همچنین، میتوان با تركیب داده صوتی ورودی با نویز به صورت تصادفی، پایداری و استواری مدل را نسبت به شرایط و موقعیت های نویزی افزایش داد.
مراجع
- Shi, Bowen, Hsu, Wei-Ning, and Mohamed, Abdelrahman. Robust selfsupervised audio-visual speech recognition. arXiv preprint arXiv:2201.01763, 2022
- Shi, Bowen, Hsu, Wei-Ning, Lakhotia, Kushal, and Mohamed, Abdelrahman. Learning audio-visual speech representation by masked multimodal cluster prediction. arXiv preprint arXiv:2201.02184, 2022.