مدل AV-HuBERT، یک گام جلوتر برای درک محتوای صوتی با استفاده از داده های بصری

 

مقدمه

صوت، یکی از مهم‌ترین حالات انرژی در جهان اطراف ما و همچنین عاملی مهم در برقراری ارتباط میان ما، انسان‌ها، و همچنین سایر موجودات می‌باشد. با این حال، با وجود پیشرفت‌های فعلی، کامپیوتر‌های امروزی توانایی درک کامل محتوای معنایی صوت را دارا نمی‌باشند. پردازش صوت، حوزه‌ای است که در تلاش است با ارائه روش‌های مناسب و بهینه، این امر را محقق کند.

یکی از مسائل مهم در این حوزه، مساله تشخیص خودکار گفتار می‌باشد.
در این مساله، به دنبال راه‌حلی برای تبدیل صوت ورودی دارای گفتار به متن خوانده‌شده می‌باشیم. راه‌حل‌های یافت‌شده برای این مساله، در شرایطی که گفتار ورودی واضح باشد، به نسبت خوب عمل می‌کند این درحالی است که در صورت وجود نویز در ورودی عملکرد این روش‌ها، شاهد افت خواهد بود.

در جهت حل این مشکل، رویکرد‌های زیر مطرح می‌باشند:

  • تقویت گفتار
  • استفاده از داده‌های بصری علاوه بر گفتار

در این مقاله، ما شاهد راه‌حلی مبتنی بر رویکرد دوم می‌باشیم. یکی از شهود مهم در جهت عملکرد مثبت این رویکرد، مکانیزم طبیعی تشخیص گفتار در انسان می‌باشد که علاوه بر استفاده از سیستم شنیداری برای درک گفتار، با نگاه به حرکت لب‌های گوینده، تلاش می‌کند تا در صورت عدم درک قسمتی از گفتار فرد، آن را حدس بزند.

مدل ارائه‌شده در این مقاله، نسبت به دیگر مقالات ارائه شده دارای دو نکته برجسته می‌باشد:

  1. استفاده از یک بازنمایی کلی مبتنی بر صوت و تصویر
  2. یادگیری با رویکرد خود-ناظر و نیمه-ناظر

این در حالی است که غالب روش‌های ارائه‌شده برای حل این مساله، مبتنی بر یادگیری نظارت‌شده بوده است. برتری روش‌های خود-ناظر نسبت به روش‌های نظارت‌شده، عملکرد بهتر در موقعیت‌هایی است که داده‌های برچسب‌گذاری‌شده به میزان کافی وجود نداشته باشد. مدل‌های مبتنی بر یادگیری نظارت‌شده، محدود به تعداد داده‌های برچسب‌گذاری‌شده می‌باشند و تنها در صورتی می‌توانند عملکرد بهتری داشته باشند که حجم داده برچسب‌گذاری‌شده بیشتری را در فرایند آموزش استفاده کرده باشند.

پيش پردازش داده‌ها

در این قسمت، به بررسی پیش پردازش مورد نیاز هر یك از انواع ورودی خواهیم پرداخت.

پيش پردازش تصوير ورودی

در این قسمت، در ابتدا با استفاده از مدل dlib به ازای هر كلیپ، ۶۸ نقطه كلیدی چهره فرد تشخیص داده شده و سپس به واسطه یك تبدیل خطی، هر فریم را به یك فریم مرجع حول چهره به ابعاد 96 × 96 به مركزیت دهان فرد، جدا منتقل می كنیم. سپس یك محدوده مورد علاقه می كنیم. پس از آن، تصویر را به سطح خاكستری منتقل می‌كنیم. سپس به صورت رندوم، یك محدوده به ابعاد 88 × 88 از محدود موردعلاقه انتخاب شده و با احتمال %۵۰ به صورت افقی وارونه می‌شود. البته باید توجه داشت، وارونگی افقی، در زمان تست، انجام نخواهد شد.

پيش پردازش صوت ورودی

برای پیش پردازش داده‌های صوتی، ویژگی‌های ۲۶ بعدی energy filterbank log با فاصله 10ms از صوت خام استخراج شده و به عنوان ورودی به مدل داده می‌شود. باید توجه داشت به دلیل این كه نرخ فریم در ویدیو، 25Hz می‌باشد (این درحالی است كه نرخ فریم‌های صوتی، 100Hz می‌باشد)، می بایست به ازای هر یك فریم تصویر، ۴ فریم صوتی مجاور را با یكدیگر در نظر گرفت تا هماهنگی میان دو نوع داده ورودی حفظ شود.

معماری مدل

در تصویر زیر معماری مدل HuBERT-AV را مشاهده می‌كنید.

AV-HuBERT مدل معماری

شكل1:معماری مدل AV-HuBERT

رویكرد این مدل، مشابه با مدل HuBERT می‌باشد كه مدلی خود-ناظر در جهت حل مساله تشخیص خودكار گفتار می‌باشد. فرایند آموزش مدل دارای دو فاز می‌باشد:

  • پيش-آموزش
  • كوك كردن

پيش-آموزش

یكی از ویژگی‌های مهم در فرایند پیش-آموزش این مدل، استفاده از مفهوم حذف تصادفی نوع ورودی می‌باشد. یكی از دلایل اصلی وجود این مفهوم، برای جلوگیری از وابستگی بیش از حد مدل، به ورودی صوتی می‌باشد. چراكه در صورت نبود چنین مكانیزمی، به دلیل سادگی درك ساختار های لغوی با استفاده از ورودی صوتی، مدل بیش از حد به ورودی صوتی وابسته شده و ویژگی‌های بصری تاثیر خود را از دست خواهند داد.

جدول ۱ :مكانیزم حذف تصادفی نوع ورودی

 

برای پیاده سازی این مكانیزم، از دو احتمال pm و pa استفاده می‌شود. با احتمال pm از هر دو نوع ورودی (صوت و فریم های ویدیو) به عنوان ورودی استفاده شده و با احتمال pm − 1 تنها از یكی از دو نوع ورودی استفاده می‌شود. در حالتی كه تنها از یكی از انواع ورودی استفاده می‌شود، با احتمال pa تنها از داده‌های صوتی و با احتمال pa−1 تنها از داده‌های بصری استفاده می‌شود. در جدول ۱ خلاصه ای از نكات ذكر شده، بیان شده است.

هر دور از فرایند پیش-آموزش، شامل دو مرحله می‌باشد:

  • خوشه بندی ویژگی‌ها
  • حدس ورودی پوشیده شده

 

خوشه‌بندی ويژگی‌ها

در حوزه هایی نظیر پردازش زبان طبیعی ، ورودی قابل شكستن به واحدهای گسسته از یكدیگر (كلمات و توكن‌ها) می‌باشد و همین عامل باعث می شود مدل‌های زبانی همانند مدل زبانی BERT ،از این ویژگی‌ها برای آموزش مدل خود بهره ببرند. اما در حوزه صوت، ورودی از جنس سیگنال پیوسته می‌باشد و برای ایجاد شرایطی مشابه به حوزه پردازش زبان طبیعی، نیاز است كه رویكردی برای استخراج ویژگی‌های واحد گسسته برای صوت همانند هجا و آوا پیشنهاد و استفاده شود.

رویكردی كه در این مقاله ارائه شده است، رویكردی مشابه مقاله مربوط به مدل HuBERT می‌باشد. در این رویكرد، در اولین دور از فرایند پیش-آموزش، صرفا از ویژگی‌های صوتی استفاده می‌شود. برای اینكار، از استخراج كننده ویژگی MFCC استفاده می‌شود.

این استخراج كننده ویژگی، توانایی استخراج ویژگی‌های صوتی مرتبط با گفتار را دارا می‌باشد و گزینه مناسبی برای شروع فرایند استخراج ویژگی‌ها می‌باشد. یكی از دلایلی كه در این مرحله صرفا از ویژگی‌های صوتی استفاده می‌شود، تاثیر بیشتر این نوع از ویژگی‌ها نسبت به ویژگی‌های بصری می‌باشد.

این درحالی است كه در دور های پس از دور اول، از ویژگی‌های استخراج شده توسط یكی از لایه های میانی بلوك‌هایtransformer استفاده می‌شود. این ویژگی‌ها، برخلاف ویژگی‌های استخراج شده در دور اول، ویژگی‌هایی است كه توامان دارای اطلاعات بصری و صوتی ورودی می‌باشد.

پس از استخراج این ویژگی‌ها، با استفاده از یك الگوریتم خوشه بندی همانند means-K، ویژگی‌های استخراج شده در خوشه هایی جمع می شوند. بسته به تعداد خوشه های تعیین شده پیش از شروع فرایند خوشه بندی، خوشه های نهایی می‌تواند از لحاظ مفهومی، مفاهیم مختلفی را از جمله آوا، هجا و غیره را در خود داشته باشد. در ادامه از شماره هر یك از این خوشه ها به عنوان یك واحد گسسته در جهت پیش-آموزش مدل استفاده می‌شود.

حدس ورودی پوشيده شده

پس از تعیین خوشه‌ها در مرحله قبل و نسبت دادن هر یك از ورودی‌ها به یكی از این خوشه‌ها، مرحله دوم پیش-آموزش انجام می‌شود. در این مرحله در رویكردی مشابه رویكرد مدل BERTدر پیش-آموزش، بخشی از ورودی ها پوشیده می‌شود. در این مرحله، مدل می بایست با استفاده از ویژگی‌های استخراج شده از ورودی های پوشیده نشده، ویژگی‌های زمانی مربوطه میان ویژگی‌های صوتی و تصویری را پیدا كرده و از آن برای تشخیص شماره خوشه مربوط به ورودی پوشیده شده استفاده كند.

در این مرحله، پوشش برای ورودی صوتی و بصری، به صورت مستقل رخ می‌دهد و این احتمال پوشش برای ورودی صوتی بیشتر می‌باشد. چرا كه تشخیص ورودی پوشیده شده به واسطه ویژگی‌های صوتی، ساده تر می‌باشد.

همچنین در این مرحله، برای افزایش دشواری فرایند تشخیص قسمت پوشش داده شده، به صورت رندوم، قسمت هایی از همان ویدیو انتخاب و سپس در نقاطی كه به طور رندوم انتخاب شده است، جایگزین می‌شود. این عمل، علاوه بر افزایش دشواری فرایند تشخیص قسمت پوشش داده شده، موجب روانی زمانی ویدیو می‌شود.

با توجه به توضیحات داده شده و رابطه ۱ ، مقدار تابع زیان در مرحله پیش-آموزش برای ورودی هایی كه حداقل یكی از ورودی صوتی یا ورودی بصری آنها پوشیده شده اند، محاسبه می‌شود. در این رابطه، T:p1 توزیع احتمال خروجی مدل و T:z1 شماره خوشه هدف tام می‌باشد. همچنین Ma مجموعه تمامی ورودی های صوتی پوشیده شده و Mv  مجموعه تمامی ورودی های بصری پوشیده شده می باشند.

كوك كردن

با توجه به مقاله، در فاز كوك كردن و استنتاج، تنها از ورودی بصری استفاده می شود و كدكننده مربوط به ورودی صوتی از مدل حذف می‌شود. دلیل این كار، یادگیری ویژگی‌های صوتی در كد كننده بصری می‌باشد و به همین دلیل نیازی به وجود كدكننده صوتی نخواهد بود. با این حال، در مقاله در فاز كوك كردن، همچنان از كدكننده صوتی استفاده شده و این مولفه از مدل حذف نمی‌شود.

در مرحله كوك كردن مدل، از زوج مرتب (text, video) به عنوان ورودی استفاده می‌شود. برای محاسبه مقدار بهینه، از الگوریتم بهینه سازی Adam استفاده شده است. همچنین مقدار ضریب یادگیری به ازای % P به روزرسانی اول برابر 001.0 بوده و سپس به صورت خطی كاهش پیدا می كند. مقدار P می‌تواند از میان مقادیر {50, 30, 10} انتخاب شود. همچنین تمامی ابرپارامتر ها به واسطه داده‌های ارزیابی تعیین می‌شود.

در این گام، از دو مدل تابع زیان می‌توان استفاده كرد:

  1. زیان تابع CTC
  2. زیان تابع S2S

زيان تابع CTC

در این قسمت، كدكننده صوت حذف شده و یك بردار صفر جایگزین آن می‌شود. پس از آن، همانطور كه در رابطه ۲ مشاهده می‌شود، یك لایه خطی برای تصویر كردن خروجی et خروجی مدل از پیش بلوك های transformer به واج ها استفاده می‌شود. در این رابطه، آموزش داده شده و pt توزیع احتمال پس از گذر از لایه تصویركردن می‌باشد.

(۲)

 

سپس واژگان به واسطه CMUDict ساخته می‌شود. در این قسمت، مدل از پیش آموزش داده شده، بدون فریز كردن، از همان دور اولیه، به روز می‌شود. با توجه به حجم داده‌های مربوط به كوك كردن، در صورت استفاده از ۳۰ ساعت/۴۳۳ ساعت داده، نیاز است كه مدل ۳۰هزار/۱۰۰هزار مرحله طی كند.

علاوه بر این، در این حالت، برای برگرداندن و تفسیر خروجی مدل، نیاز است تا از یك مدل زبانی gram-4 كه بر روی داده‌های متنی دادگان LRS3 آموزش داده شده است، استفاده شود. برای محاسبه تابع زیان، می‌توان از رابطه ۳ استفاده كرد. در این رابطه، π دنباله ای است كه می‌تواند به واسطه تبدیل B به دنباله هدف w تبدیل شود.

(۳)

زيان تابع S2S

در این قسمت نیز، كدكننده صوت حذف شده و یك بردار صفر جایگزین آن می شود [۲.[ پس از آن، از یك كدبرگردان transformer با ۶ لایه/۹ لایه برای مدل هایBASE/LARGE استفاده می شود تا ویژگی‌های استخراج شده توسط كدكننده transformer را به واحد های تك كلمه ای تبدیل كند. مدل از پیش آموزش داده شده، برای %N از به روزرسانی های اولیه، فریز می‌شود. مقدار N بسته به حجم داده ۳۰ ساعت/۴۳۳ ساعت، ۱۰۰/۵۰ می‌باشد. همچنین مدل بسته به حجم داده ۳۰ ساعت/۴۳۳ ساعت، ۱۸هزار/۴۵هزار مرحله را می بایست طی كند.

علاوه بر نكات ذكر شده، به دلیل استفاده از ساختار كدبرگردان transformer ،در این حالت، نیازی به استفاده از یك مدل زبانی وجود نخواهد داشت. در این رویكرد محاسبه تابع زیان، كدبرگردان استفاده شده، با دریافت خروجی مدل از پیش آموزش دیده ( T:e1 ،(احتمالات wt(p )را به عنوان خروجی بازمی گرداند. سپس، برای محاسبه تابع |w1:T , e1:T ) هدف دنباله زیان در این مرحله، می‌توان از رابطه ۴ استفاده كرد.

(۴)

دادگان ها

در این قسمت، به بررسی دادگان های استفاده شده برای آموزش این مدل می پردازیم.

LRS3-TED دادگان

این دادگان، بزرگترین دادگان برچسب گذاری شده در حوزه تشخیص گفتار به واسطه صوت و تصویر می‌باشد. این دادگان شامل بیش از چهارصد ساعت ویدیو از صحبت های مربوط به برنامه های TED و TEDx می‌باشد. این دادگان، به دو قسمت اصلی تقسیم می‌شود:

  1. پیش-آموزش (۴۰۳ ساعت)
  2. ارزیابی-آموزش (۳۰ ساعت)

هر دو قسمت، دارای زیرنویس در سطح جمله بوده و منبع هر یك، با منبع داده‌های تست، یكسان است. داده‌های موجود در قسمت پیش-آموزش به دلیل وجود كلیپ هایی با طول متفاوت و كمتر یا بیشتر از یك جمله كامل، از داده‌های موجود در قسمت ارزیابی-آموزش متمایز می‌شوند.

از این دادگان در كنار دادگان VoxCeleb2 برای فرایند پیش-آموزش استفاده می‌شود. همچنین در فرایند كوك كردن مدل، در صورتی كه در حالت منابع كم قرار داشته باشیم، تنها از داده‌های ارزیابی-آموزش استفاده می‌شود این در حالی است كه در غیر اینصورت از تمامی داده‌های این دادگان استفاده خواهد شد.

VoxCeleb2 دادگان

این دادگان، یك دادگان چندزبانه است كه در ابتدا برای مساله تشخیص گوینده چندزبانه با استفاده از داده‌های صوتی و بصری ارائه شده است. بر روی هم، این دادگان شامل بیش ۲۴۴۲ ساعت گفتار از بیش از ۶هزار گوینده كه از یوتیوب استخراج شده است، می‌باشد. همچنین این دادگان شامل زیرنویس و متن اصلی كه در ویدیوها بیان می‌شود نمی‌باشد.

مزیت این دادگان نسبت به دادگان TED-LRS3 ،تنوع بیشتر موقعیت‌ها و صحنه‌هایی است كه وجود دارد. در فرایند پیش-آموزش مدل، از تمامی داده‌های این قسمت استفاده نشده است بلكه تنها قسمت انگلیسی این دادگان مورد استفاده قرار گرفته است.

برای جداسازی ویدیوهای انگلیسی زبان از غیرانگلیسی زبان، از یك مدل تشخیص خودكار گفتار به واسطه صوت مبتنی بر حروف، كه بر روی دادگان Librispeech آموزش دیده است، استفاده شده است. این مدل بر روی تمامی ویدیو ها اعمال شده و تنها ویدیو هایی را كه دارای بیش از %۶۰ گفتار انگلیسی باشند، در نهایت باقی خواهند ماند. حجم داده‌های انگلیسی پس از اعمال این فیلتر، ۱۳۲۶ ساعت ویدیو می‌باشد.

MUSAN دادگان

این دادگان شامل ۱۰۹ ساعت صوت می‌باشد. این دادگان شامل اصواتی از نوع طبیعی، موسیقی و همهمه می‌باشد. از این اصوات در جهت تركیب كردن صوت ورودی با نویز، استفاده می‌شود. علاوه بر انواع نویز ذكر شده كه از این دادگان به دست می‌آید، نوع دیگری از نویز با نام گفتار به واسطه دادگان LRS3 به دست آمده و در فرایند تركیب نویز شركت می‌كند.

نتايج و ارزيابی مدل HuBERT-AV

نتایج این مدل را یكبار با ساختار مشخص شده در مقاله كه ساختار پایه این مدل می‌باشد و بار دیگر به واسطه ساختار مشخص شده در مقاله ارزیابی خواهیم كرد. مبنای ارزیابی در این قسمت، معیار نرخ خطای كلمه می‌باشد. این معیار، بنا به رابطه ۵ محاسبه می‌شود.

(۵)

ارزيابی مدل پايه

در تصویر ۲ نتایج مربوط به مدل خود-ناظر HuBERT-AV را همراه با نتایج مدل های پیشنهادی پیش از آن، مشاهده می كنید. همانگونه كه مشهود است، این مدل با استفاده از این رویكرد جدید، توانسته با استفاده از داده‌های پرچسب گذاری شده كمتر، به نتایج برابر یا بهتری نسبت به مدل‌های پیشنهادی مبتنی بر رویكرد نظارت شده برسد.

در این روش، نسبت به روش‌های مبتنی بر یادگیری نظارت شده، حجم داده كمتری نیاز است با این حال، هر چه حجم داده بیشتری در اختیار باشد، این نوع مدل دقت بیشتری از خود نشان داده و در نهایت نرخ خطای كلمه كمتری خواهد داشت.

تاثير پيش-آموزش بر روی داده های غيرانگليسی

یكی از نكات مطرح شده در مقاله بررسی تاثیر انجام فرایند پیش-آموزش بر روی داده‌های تماما انگلیسی و یا تركیب با داده‌های غیرانگلیسی می‌باشد. از آنجایی كه آوا ها و واج ها در زبان های مختلف مشابه می باشند، بنابراین می بایست مستقل از زبان باشند. با این حال، فرایند پوشاندن كلمات در فرایند پیش-آموزش، در جهت یادگیری زبان می‌باشد و یك فرایند وابسته به زبان می‌باشد. به همین دلیل در صورت استفاده از داده‌های زبان دیگر، می‌تواند منجر به افزایش اختلاف حوزه زبانی شود.

شكل ۲ :مقايسه نتايج مدل HuBERT-AV با مدل هاي پيشنهادي پيش از آن

شكل ۲ :مقایسه نتایج مدل HuBERT-AV با مدل های پیشنهادی پیش از آن

برای بررسی بیشتر این مساله، فرایند پیش-آموزش این مدل را با حجم ثابتی از داده‌های غیرانگلیسی (۱۱۱۶ ساعت) و حجم متغیری از داده‌های انگلیسی آموزش داده و مدل نهایی را ارزیابی كرده اند. نتایج ارزیابی در تصویر ۳ قابل مشاهده است.

شكل ۳ :مقايسه تاثير داده هاي غيرانگليسي در فرايند پيش-آموزش مدل

شكل ۳ :مقایسه تاثیر داده‌های غیرانگلیسی در فرایند پیش-آموزش مدل

همانگونه كه در تصویر ۳ مشاهده می‌شود، زمانی كه حجم داده‌های مرتبط با زبان هدف محدود باشد، داده‌های زبان دیگر، مفید بوده و باعث كاهش خطای مدل و درك بهتر ویژگی‌های كلی آوایی شده است. با این حال، با افزایش داده‌های مرتبط با زبان هدف، به دلیل افزایش اختلاف حوزه زبانی، دقت مدل افت كرده و منجر به افزایش خطای آن شده است. با این تفاسیر، می‌توان نتیجه گرفت استفاده از داده‌های زبان‌های دیگر زمانی مفید واقع خواهد شد كه داده‌های زبان هدف، محدود باشند.

ارزيابی مدل پايدار

در این مدل، تمركز ارزیابی بر روی تاثیر ویژگی‌های بصری بر تشخیص بهتر و همچنین تاثیر تركیب صوت ورودی با نویز می‌باشد. نتایج مربوط به این مدل را در تصویر ۴ مشاهده می كنید. همچنین برای درك شهود بیشتر، نمودار های مربوط به نتایج این مدل در دو حالت فقط صوت (A) و تركیب صوت و تصویر (AV) نیز در تصویر ۵ مشاهده می‌شود.

شكل ۴ :نتایج مدل استوار HuBERT-AV در دو حالت فقط صوت (A) و تركیب صوت و تصویر (AV) و مقایسه با مدل های پیشنهادی پیش از آن

 

شكل ۵ :نمودار هاي مقايسه مدل در دو حالت فقط صوت (A) و تركيب صوت و تصوير (AV) بر اساس ميزان نويز و نوع نويز

شكل ۵ :نمودار های مقایسه مدل در دو حالت فقط صوت (A) و تركیب صوت و تصویر (AV) بر اساس میزان نویز و نوع نویز

پیش از بررسی نتایج مربوط به تاثیر تركیب نویز با صوت ورودی، نیاز است تا مفهوم SNR شرح داده شود. این مفهوم، به صورت نسبت توان سیگنال معنی دار به توان سیگنال نویز تعریف می شود و به واسطه رابطه ۶ محاسبه می‌شود. این مقدار، همچنین می‌تواند بر حسب واحد دسی بل نیز محاسبه شود كه برای این كار می‌توان از رابطه ۷ استفاده نمود.

(۶)

    (۷)

با توجه به این فرمول، زمانی كه مقدار SNR برابر با ∞ باشد، تمام سیگنال معنی دار است و نویزی در آن وجود نخواهد داشت و با كاهش این مقدار، تاثیر نویز در این سیگنال، بیشتر می‌شود.

با این تعبیرات، همانطور كه در تصویر ۵ مشاهده می‌شود، زمانی كه صوت ورودی بدون نویز می‌باشد، تاثیر ویژگی‌های تصویری زیاد نخواهد بود و دقت دو مدل فقط صوت (A) و تركیب صوت و تصویر (AV )، به هم نزدیك خواهد بود. اما با افزایش شدت نویز در صوت ورودی مشاهده می شود كه خطای مدل مبتنی بر تركیب صوت و تصویر (AV) كمتر می‌شود. این كاهش، مستقل از نوع فرایند پیش-آموزشی است كه مدل طی می كند.

علاوه بر این، در این تصویر، تاثیر مثبت ویژگی‌های بصری بر روی صوت های دارای نویز هایی از جنس همهمه و گفتار، مشهود می‌باشد. هرچند وجود ویژگی‌های بصری در كل، تاثیر مثبتی بر روی كاهش خطای مدل در مواجهه با انواع مختلف نویز را همراه دارد، اما با این حال این تاثیر در نویز هایی از جنس همهمه و گفتار بیشینه است و این نشان دهنده این است كه ویژگی‌های بصری به خوبی توانایی جبران كاستی های اطلاعاتی داده‌های صوتی را در این نوع موقعیت ها دارا می باشند.

نتيجه گيری

در این گزارش به بررسی جزییات مربوط به مدل خود-ناظر HuBERT-AV پرداختیم. این مدل با استفاده از رویكرد خود-ناظر، توانایی یادگیری ویژگی‌های صوتی و بصری به صورت همزمان با استفاده از حجم داده برچسب گذاری شده كمتر را داراست. همچنین، می‌توان با تركیب داده صوتی ورودی با نویز به صورت تصادفی، پایداری و استواری مدل را نسبت به شرایط و موقعیت های نویزی افزایش داد.

مراجع

  1. Shi, Bowen, Hsu, Wei-Ning, and Mohamed, Abdelrahman. Robust selfsupervised audio-visual speech recognition. arXiv preprint arXiv:2201.01763, 2022
  2. Shi, Bowen, Hsu, Wei-Ning, Lakhotia, Kushal, and Mohamed, Abdelrahman. Learning audio-visual speech representation by masked multimodal cluster prediction. arXiv preprint arXiv:2201.02184, 2022.