Audio Source Separation

مقدمه

جداسازي منابع صوتي يكي از مباحثي است كه در طي چندين سال گذشته تحقيقات زيادي بر روي آنها صورت گرفته است. پيش از ۱۰ سال گذشته بيشتر تحقيقات و ابزار هاي توسعه يافته بر مبناي مدل هاي احتمالاتي بودند اما در دهه گذشته با گسترش هوش مصنوعي و ماشين لرنينگ بيشتر شبكه ها به سمت استفاده از شبكه هاي عصبي آمده اند. حال آنكه شبكه هاي عصبي مدرن نيز مشكلات متعددي داشتند كه Astroid با تمركز بر اين مشكلات و بهبود آنها شبكه خود را عرضه كرد. در ادامه اين گزارش به توضيح آنها مي پردازيم.

Astroid:Audio Source Separation

آسترويد ابزاري بر مبناي pytorch است كه براي جداسازي منابع صوتي كاربرد دارد. اين مقاله صرفا براي سيگنال هاي تك كاناله نيست اما ما در اين گزارش و مقاله سعي در بررسي سيگنال هاي تك كاناله داريم.

General framework

بيشتر شبكه هاي مدرن از روش decoder-masker-encoder استفاده مي كنند و آسترويد نيز باتوجه به تصوير ۱ از اين روش استفاده كرده است.

encoder

در اين قسمت Transform Fourier Time Short سيگنال ورودي محاسبه مي شود. در واقع اين عمل با يك convolution ساده به وسيله Filterbank Analysis صورت مي گيرد.

masker

آسترويد از maskerهاي متنوعي مي تواند استفاده كند كه اين باعث بهره وري بيشتر كد شده است.

decoder

ساختار ديكودر نيز تا حد زيادي مشابهencoder است و با كانولوشن سيگنال در حوزه STFT با يك Filterbank Synthesis سيگنال جدا سازي شده در خروجي به نمايش در مي آيد.

شکل 1: Typical encoder-masker-decoder architecture

Loss functions

براي بررسي و مشاهده دقيق تر توابع هزينه مربوط به جداسازي منابع ابتدا فرض مي كنيم كه سيگنال تخمين زده شده به صورت زير از ۴ بخش تشكيل شده باشد:

SDR SI-SDR

اين معيار از مهم ترين معيار هايي است كه در جداسازي منابع براي سنجش به كار مي رود كه به نوعي نسبت انرژي منبع واقعي به اعوجاج را حساب مي كند هر چه اين معيار بزرگتر باشد نشان مي دهد كه مدل توانسته است جداسازي را بهتر انجام دهد. همچنين معيار (SDR Invariant Scale (SDR-SI هم مشابه معيار قبل است اما با اين تفاوت كه به دامنه منابع وابسته نيست يعني اگر دامنه منابع را با يك نسبت بزرگ كنيم معيار SDR ممكن است تغيير كند اما معيار SDR-SI ثابت مي ماند.

SAR

اين معيار مقدار مولفه هاي نا خواسته جمع شده با منبع را مورد بررسي قرار مي دهد و هر چه اين معيار بزرگتر باشد يعني مولفه هاي ناخواسته كمتري بر منبع تخميني تاثير گذاشته اند.

SIR

اين معيار در واقع تاثير منابع ديگر را ديگر را در منبع تخميني مي سنجد طوري كه اگر مقدار اين معيار زياد باشد يعني مدل جداسازي را بهتر انجام داده است.

Datasets

آسترويد تقريبا تمام ديتاست هاي مربوط به حوزه جداسازي منابع را پشتيباني مي كند مخصوصا 2mix-wsj0 و MUSDB18 كه به ترتيب از ديتاست هاي مرجع براي پردازش صحبت و موسيقي اند. اطلاعات دقيق تر ديتاست هاي پشتيباني شده توسط آسترويد در جدول زير آمده است:

نحوه پياده سازي

نحوه پياده سازي آسترويد مانند اكثر پروژه هايي از اين قبيل به اين صورت هست كه ابتدا داده هاي مورد نياز دانلود مي شوند و بعد آن ها را با هم تركيب كرده و سپس اين اطلاعات را به صورت فايل متني در مي آوريم و در آخر يك سيستم را براي جداسازي منابع آموزش مي دهيم و آن را با داده هاي تست ارزيابي مي كنيم. خلاصه پياده سازي در شكل زير آمده است :

نتايج

در مورد نتايج بررسي داده هاي تست مي توان ذكر كرد كه در حضور آسترويد به معيار هاي بهتري مي رسيم براي مثال در جدول زير معيار SDR-SI براي داده هاي تست ديتاست -wsj0 2mix در صورت استفاده و عدم استفاده از آسترويد ثبت شده است :

همچنين در جدول زير هم معيار SDR-SI بر روي ۴ عمل اصلي ديتاست WHAMR و روي شبكه TasNet در صورت استفاده و عدم استفاده از آسترويد ثبت شده است :

مراجع

E. Vincent, T. Virtanen, and S. Gannot, Audio Source Separation and Speech Enhancement, 1st ed. Wiley, 2018.
D. Yu, M. Kolbæk, Z. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multi-talker speech separation,” in ICASSP, 2017, pp. 241–245
Y. Luo and N. Mesgarani, “TasNet: Time-domain audio separation network for real-time, single-channel speech separation,” in ICASSP, 2018, pp. 696– 700.
L. Drude, J. Heitkaemper, C. Boeddeker, and R. Haeb-Umbach,“SMS- WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition,” arXiv preprint arXiv:1910.13934, 2019.
https://sourceseparation.github.io/tutorial/basics/evaluation.html
https://github.com/asteroid-team/asteroid

مقالات