جداسازی گفتار

مقدمه

در این گزارش در ابتدا به بیان مسئله پرداخته شده است و با بررسی مقاله هاي مرتبط در زمینه Separation Speech سعی شده است که مقالاتی که عملکرد بهتري داشتند بررسی شوند. معماري و نتایج هر یک از روش ها در ادامه توضییح داده شده است. همچنین در نهایت دیتاست هاي استفاده شده در این گزارش در بخش هاي بعدي معرفی شده اند.

تعریف مسئله

تشخیص صدا افراد و فهیمدن مفاهیم در مکان هاي شلوغ و یا زمانی که چندین فرد در یک محیط در حال صحبت کردن هستند یک چالش بوده است. اینکه بتوان در یک مکان شلوغ که همگی افراد همزمان در حال صحبت کردن هستند بتوان صداي هر فرد را تفکیک کرد و تشخیص داد بدون هیچ ابزاري کار سختی است و عملا در بیشتر مواقع غیر ممکن است. امروزه با استفاده از هوش مصنوعی و استفاده از تکنینک هاي یادگیري عمیق سعی شده است که راه حل هایی براي این چالش پیدا کنند. مقالات بسیاري در این زمینه کار شده است که به بررسی تفکیک صداي افراد در یک صوت که چندین صداي انسان به صورت همزمان صحبت می کنند پرداخته است و یا به بررسی حذف نویز بک گراند و و جداسازي صداي گوینده پرداخته است. همه این ها می توانند موضوعات و چالش هاي مهمی باشند. صحبت کردند افراد به صورت همزمان و تشخیص و جداسازي صداهاي هر قرد، یا صحبت کردن افراد در مکان شلوغ و پرسرو صدا مثل مترو و مکان هاي عمومی و حذف صداي پس زمینه و یا صحبت نمایندگان در یک صحن شلوغ و پرسرو صدا همه این ها با استفاده از هوش مصنوعی قابل حل است. با توجه به اهمیت این موضوع ما اول به بررسی مقالات جدید در این حوزه پرداخته ایم. در ادامه سعی کرده ایم که مقالاتی که عملکرد خوبی داشته اند و به کد آن ها دسترسی داریم را انتخاب کنیم و در ادامه به بررسی این مقالات و ارزیابی عملکرد این شبکه ها بپردازیم. در بخش اول فقط به بررسی مقالات Separation Voice مربوط به تشخیص صدا پرداخته ایم و در بخش دوم به بررسی مقالات Separation Speech Visual-Audio پرداخته ایم و نتایج هر یک از شبکه ها را بررسی کرده ایم.

مقاله بررسی: Voice Separation with an Unknown Number of Multiple Speakers

مقدمه

معماري مدل پیشنهادي

حل این مسئله، خود نیاز به بررسی زیر مسئله ي تعیین تعداد منابع صوتی فعال در داده ي صوتی مورد نظر و حل آن دارد که بوسیله ي چندین مرحله پردازش داده ها و آموزش مدل مربوطه صورت می گیرد. نتیجه ي نهایی عملکرد بهتري را نسبت به کارهاي فعلی نشان داد. مدل به کار گرفته شده در مقاله [11] ، روي داده هاي صوتی، عملیات هاي انکودینگ، تکه تکه سازي را انجام داده و نهایتا به معماري دوسویه می دهد. در این بخش، یک تابع چند بخشی تابع هزینه بوده که در پایان هر بخش، بازسازي داده ي صوتی ورودي آن بلاك انجام می شود. در شکل 1 معماري شبکه ارائه شده نشان داده شده است.

شکل 1 :معماري روش ارائه شده

چالشی که حل آن، مزیت روش ارائه شده در این مقاله نسبت به موارد مشابه است، مواجهه با تعداد زیادي منبع صوتی همزمان است. براي حل این مشکل، به کمک الگوریتم تشخیص فعالیت 4 توان میانگین هر کانال خروجی محاسبه شده و از بالاتر بودن آن از یک حد از پیش اطمینان حاصل شده است. حال از مدلی که از قبل بر روي دیتاستی با تعداد بالایی از تعیین شده گویندگان آموزش داده شده، استفاده گردیده و بر روي هر یک از کانال هاي خروجی آزمایش گردیده است. مواجهه با سکوت در کانال ها، موجب تکرار این فرآیند تا دریافت نخستین داده هاي صوتی فاقد سکوت ادامه دارد. مشاهده می شود که استفاده از الگوریتم مذکور انعطاف پذیري بالایی در مواجهه با تعداد منابع صوتی بالا به ما داده است. در نهایت می توان گفت که روش ارائه شده در این مقاله عملکرد بهتري در مقابل دیگر روش هاي ارائه شده فعلی، چه در محیط هاي با تعداد منابع صوتی معین و چه متغیر داشته است و این مزیت به لطف به کارگیري بلوك هاي بازگشتی شامل دو شبکه ي دوسویه و هزینه هاي چندگانه بدست آمده تابع هزینه بکارگرفته شده در این شبکه یک تابع چندبخشی است که در پایان هر بخش بازسازي داده هاي صوتی آن بلوك انجام می شود که در شکل 2 نشان داده شده است.

شکل 2 :تابع هزینه

ارزیابی مدل یشنهادي

با توجه به اینکه مدل این شبکه براي آموزش وجود نداشته بوده است و ما نیاز به آموزش این شبکه داشتیم و دیتاستی که ترکیب صداها باشند نداشته این ما از دیتاستی که وجود داشت استفاده کرده ایم. در این شبکه از دو دیتاست استفاده شده است. دیتاستی که براي تولید صداهاي چندنفره در مسئله صوت بکار گرفته شده است دیتاست صوتی چندنفره است.این مجموعه داده همراه با یک کد متلب منتشر شده بوده است که این قابلیت این را دارد که با بکارگیري هر داده اي مجموهه داده هاي صوت هاي چند گوینده را ایجاد کند . مجموعه داده ایی که خود این مقاله و دیتاست ایجاد کرده است براي تولید صداهاي 1 تا چندنفره استفاده کرده است مجموعه داده wham است. که این مجموعه داده در بخش دیتاست به طور کامل تشریح شده است.

به منظور ارزیابی مدل پیشنهادي، مقیاس نسبت سیگنال به نویز (SNRi-SI ) گزارش شده است. که در مجموعه تست، به صورت زیر محاسبه می شود:

براي یک صوت با دو گوینده، x سیگنال ترکیب شده، s١ و s٢ دو صوت گوینده است. همچنین sb١ و sb٢ کانالی هاي صوتی جداشده توسط مدل پیشنهادي است. عملکرد مدل هاي مختلف و مدل منتشر شده در این مقاله به عنوان تابعی از تعداد گوینده ها در جدول 1 آورده شده است.

جدول 1 :عملکرد مدل هاي مختلف و مدل منتشر شده

منحنی آموزش مدل براي 60 ساعت آموزش شبکه در شکل 3 نشان داده شده است.

شکل 3 :منحنی آموزش مدل پیشنهادي

در شکل 4 عملکرد خروجی مدل هاي مختلف را بر روي یک دیتاست با دو گوینده نشان می‌دهد.

شکل 4 :عملکرد خروجی مدل هاي مختلف بر روي یک دیتاست با دو گوینده

پیاده سازي کدهاي مقاله

دیتاست wham دانلود شد این دیتاست شامل 18 گیگ فایل فشرده صوت از 1 نفر تا 5 نفره بوده است که با استفاده از کدي که در شکل 5 نشان داده شده است از سایت بر روري درایو دانلود شده است.

شکل 5 :نحوه دانلود دیتاست از سایت به درایو

به منظور بکارگیري این دیتاست سپس با استفاده از دستور 6 صوت ها unzip شده اند.

شکل 6 :نحوه خارج کردن فایل هاي دیتاست از زیپ

سپس پکیج هاي مورد نیاز براي شبکه svoice به صورت همزمان با استفاده از کدي که در شکل 7 نشان داده شده است نصب شده اند.

شکل 7 :پکیج هاي مورد نیاز براي شبکه svoice

و سپس شبکه براي 100 ایپوك آموزش دیده شده است. که در شکل 8 فرآیند آموزش براي چند ایپوك آخر شبکه نشان داده شده است .

شکل 9 :نحوه نصب کتابخانه torch

در تابع separate در ابتدا مدل آموزش داده شده با دستور (path-model(load.torch لود می کنیم. که در شکل 10 بخشی از این کد نشان داده شده است.

شکل 10 :بخشی از کد تابع separate به منظور لود کردن شبکه

سپس داده هاي ورودي را به مدل آموزش داده شده می دهیم. و سپس بعد از جداسازي صداهاي افراد از صوت توسط شبکه با استفاده از تابع wavs-save هر یک از صداها به صورت جداگانه از هم تفکیک داده می شود و هر یک با اسامی مختلف در پوشه out ذخیره می شوند. در شکل 11 نشان داده شده است.

شکل 11 :بخشی از کد تابع separate براي ذخیره کردن فایل خروجی

همچنین در مرحله تست مواردي بوده است که حتما باید رعایت شود یکی از این موارد این بوده است که حتما باید صداي ورودي فرمت wav .باشد. و همچنین مسئله دوم هم این بوده است که شبکه با نرخ فرکانس نمونه برداري (فاصله نمونه برداري) 16000 آموزش دیده شده بوده است. که ما در این قسمت هم در ابتدا طول نمونه برداري ها را براي صوت به 16000 تبدیل کرده ایم که این مشکل حل شود. با استفاده از کد در شکل 12 ما این موارد را برطرف کرده ایم.

شکل 12 :لود کردن Librosa به منظور گرفتن صوت ورودي براي تست و همچنین حل مشکل نرخ نمونه برداري و مشکل فرمت ورودي صدا

در نهایت شبکه براي صوت ورودي براي تست، توانست همه کانال هاي صوتی براي هر فرد را به صورت جداگانه استخراج کند و هر یک را به صورت جداگانه در فولدر براي ما ذخیره کند. با این کار علاوه بر اینکه ما تعداد افرادي که در صدا به صورت همزان در حال صحبت کردند بودند را داریم بلکه صوت هر یک از افراد را نیز به صورت جداگانه استخراج کرده ایم. همانطور که در شکل 13 رابط گرافیکی مشاهده می کنید براي یک نمونه داده تست صوت با نام wav.seda خروجی به دست آمده از صوت هر یک از افراد به ترتیب در فولدر out4 آورده شده است. به عبارتی در واقع در صداي wav.seda 3 نفر همزمان با هم در حال صحبت کردند بوده اند.

شکل 13 :رابط گرافیکی

نتیجه گیري و پیشنهادات

شبکه svoice یکی از شبکه هاي خوبی بوده است که نتایج بدست آمده از این شبکه را بررسی کردیم و به نظر شبکه خوبی بوده است که توانسته است علاوه بر شمارش صوت افراد در جمعیت، صداهاي هر یک از افراد شرکت کننده در صوت را تشخیص و تفکیک کند. یکی از مهم ترین مزیت هاي این شبکه این است که می تواند تعداد نامشخص و نامحدودي از صداها را که به طور همزمان در حال صحبت هستند را تشخیص و جدا کند. چالشی که حل آن، مزیت روش ارائه شده در این مقاله نسبت به موارد مشابه است، مواجهه با تعداد زیادي منبع صوتی همزمان است. روش پیشنهادي در این مقاله بخوبی توانسته است برر روي صوت هاي تست نتایج خوبی بگیرد نتایج این کد بر روي نمونه اي از دیتاست ها در لینک گیت هاب: https://enk100.github.io/speaker_separation قابل مشاهده است.

متاسفانه براي تست نتایج بر روي نمونه صوت فارسی مدل شبکه موجود نبوده است. و ما فقط براي چند ایپوك شبکه را آموزش داده ایم. براي آموزش شبکه نیاز به 60 ساعت آموزش است. ما سعی کرده ایم که شبکه را براي دیتاست هاي wham و یا libri2mix آموزش دهیم ولی آنطور که پیش بینی می شود براي هر ایپوك آموزش تقریبا 5 ساعت زمان خواهد برد.