روش های مورد بررسی

یا: از منبعی تولید می شود که در محیط نویزی قرار دارد،
یا: تحت تاثیر کانال انتشار و در اثرنویز یا انعکاس دچار تخریب می شود،
یا: در گیرنده به نویز آلوده می گردد.
(البته منشاء عوامل تخریبی وارد شونده در مساله می تواند ترکیبی از این سه حالت نیز باشد.)
منظور از بهبود بخشیدن در تعریف فوق را می توان با اشاره به عملکرد اصلاحی فرآیند بهسازی گفتار درنمونه های کاربردی زیر تشریح نمود:
سیستم های تلفن: در آنها گفتار اصلی به وسیله نویز زمینه یا نویز موجود در مسیر مخابره و نیز در اثر انعکاس صدای طرفین مکالمه، خراب می شود.
تلفن های عمومی: که در محیط های پر سروصدا و شلوغ واقعند.
سیستم های مخابرات هوا به زمین: که در آنها نویز اتاقک خلبان، پیام ارسال شده از سوی خلبان را خراب می کند.
سمعک: که به عنوان تقویت کننده، هم سیگنال گفتار و هم نویز موجود در محیط را تقویت نموده و موجب ناراحتی فرد استفاده کننده می گردد.
سیستم های باز شناسی گفتار یا گوینده: که معمولا برای سیگنال های تمیز(بدون نویز) آموزش یافته و در شرایط نویزی، با افتی شدید در بازدهی و کارایی مواجه می شود.
و موارد کاربردی دیگر…
کاربرد های متنوع بهسازی گفتار، اهداف متفاوتی را برای این فرآیند به دنبال آورده است. در حالی که در برخی موارد، افزایش قابلیت درک گفتار منظور نظر می باشد، در کابردهای دیگر، کاهش خستگی شنونده، هدف غایی از اعمال فرآیند بهسازی گفتار است. شاید بتوان بهبود(کیفیت عمومی گفتار) را به عنوان جامع ترین عبارت برای بیان هدف و منظور از بهسازی گفتار استفاده نموده و در کاربرد های مختلف، تعریف مناسبی از کلمه(کیفیت) ارایه داد: کاری که درعمل تا حدودی پیچیده می باشد.
قابل توجه است که بسیاری از منبع و مراجع در بحث بهسازی گفتار، نویز را به عنوان اصلی ترین عامل تخریبی سیگنال گفتار در نظر گرفته و به بررسی راهکارهای پاکسازی گفتار نویزی پرداخته اند. در این پایان نامه نیز از میان عوامل مختلف سیگنال گفتار، توجه ما بر روی نویز متمرکز می باشد. البته همان گونه که خواهیم دید برخی از روش های مورد بررسی(فیلترهای وفقی) به طور معادل هم در پاکسازی نویز و هم در حذف انعکاس قابل استفاده می باشند.
مسائل بهسازی گفتار، خانواده ای گسترده از مباحث را شامل می شود که به واسطهی:
نوع منبع نویز
چگونگی بر هم کنش نویز یا سیگنال اصلی
تعداد کانال یا میکروفون در دسترس
مشخص میگردد. نویز یا سیگنال تداخل کننده ممکن از ناشی از همهمه، موسیقی، باد، ترافیک یا… بوده و یا به بیان دقیق تر از لحاظ طیف توان دارای شکل های مختلفی باشد. هر یک از این انواع نویز، می تواند به نحوی متفاوت با دیگری، اثر تخریبی خود را بر روی سیگنال های گفتار اعمال نماید؛ مثلا در حالی که نویز های با محتوای فرکانسی 500-400 هرتزتا 5-4 کیلوهرتز به شدت قابلیت درک گفتار را کاهش می دهند، نویز های با انرژی در فرکانس های بالای 5-4 کیلوهرتز، اگرچه باعث خستگی شنونده می گردند ولی اثر آنها در قابلیت درک گفتار ناچیز است. در واقع، هرچند در بسیاری از شبیه سازی ها و کارهای تحقیقاتی، طیفی سفید برای نویز اثر کننده بر سیگنال گفتار در نظر گرفته میشود، ولی در عمل کمتر نویزی واقعی دارای طیفی سفید میباشد.از سوی دیگر، منشا ورود نویز به سیستم می تواند در محل منبع سیگنال اصلی، یا در مسیر مخابره یا در محل گیرنده باشد. نویز ممکن است با سیگنال اصلی، جمع،ضرب یا کانوالو شود. همین طور امکان مستقل یا وابسته بودن نویز به سیگنال اصلی نیز وجود دارد.
دیگر مساله مشکل ساز، ماهیت ناایستان بسیاری از منابع نویزی و تغییر شرایط محیط می باشد؛ مساله ای که سیستم بهسازی گفتار را ملزم به نوعی تطبیق زمانی مینماید.
پارامتر مهم دیگر، تعداد کانال ها یا میکروفون هایی است که سیستم بهسازی گفتار از آنها به عنوان ورودی استفاده خواهد نمود. به عنوان مثال، وجود یک میکروفون دوم برای داشتن سیگنال نویز مرجع در کنار میکروفون اول که سیگنال گفتار نویزی را دریافت می دارد موجب می گردد سیستم از خواص آماری و طیفی نویز مطلع گشته و در ضمن بتواند ناایستایی نویز را به خوبی دنبال نماید.
1-3 تعریف مسئله و تقسیم بندی روش ها
بهسازی گفتار بسته به مساله، هدف آن، ویژگی های نویز و امکانات موجود قابل بررسی است. از این رو، راه های متفاوتی برای طبقه بندی سیستم های بهسازی گفتار وجود دارد. یکی از طرق تفکیک روش ها، بر اساس پارامتری و غیر پارامتری بودن می باشد؛ در حالی که تکنیک هایی نظیرتفریق طیفی و زیر فضای سیگنال به دلیل کار بر روی خود سیگنال، الگوریتم غیر پارامتری محسوب می گردند. روش هایی نظیر HMM و MMSE به دلیل استفاده از مدل های آماری و تصادفی برای سیگنال گفتار و نویز، در خانواده روش های پارامتری قرار می گیرند.
روش های بهسازی گفتار بر پایه تعداد کانال(میکروفون)ورودی نیز قابل تقسیم بندی می باشند؛ بر این اساس دو خانواده تک کاناله و چند کاناله برای گروه بندی روش های مختلف منظور می گردند. در روش های یک کاناله، تنها یک میکروفون ورودی در دسترس بوده و اندازه گیری مشخصات نویز می باید در بخش های غیر گفتار (سکوت) همان کانال صورت بگیرد. اساس کار این گروه از روش ها، مبتنی بر فرض ایستان بودن موضعی نویز می باشد؛ فرضی که در مواجهه با نویزهای با دینامیک زیاد، زیر سوال رفته و عملکرد روش را دچار خدشه می نماید. در روش های چند کاناله، دو یا چند گیرند
ه در ورودی سیستم بهسازی گفتار مورد استفاده واقع می شوند. افزایش تعداد میکروفون ها و یا کانال های ورودی، قدرت روش را در پاکسازی سیگنال نویزی بالا می برد، ولی در مقابل هزینه و پیچیدگی پیاده سازی سیستم نیز افزوده می گردد. روش دو کاناله فیلتر وفقی به عنوان متداول ترین عضو از این گروه روش ها مطرح می باشد. در این روش،یکی از دو ورودی، نویز مرجع و دیگری سیگنال نویزی است.
در هر یک از روش های تک کاناله معایبی وجود دارد. هدف از این پایاننامه، ارائه ی روشی بر مبنای روش تککانال با استفاده از سیستم ترکیبی است که بتواند عیب های روش ها و نسبت سیگنال به نویز و کیفیت شنیداری سیگنال گفتار آغشته به نویز را بهبود ببخشد.