لینک دانلود و خرید پایین توضیحات
دسته بندی : وورد
نوع فایل : word (..doc) ( قابل ویرایش و آماده پرینت )
تعداد صفحه : 138 صفحه
قسمتی از متن word (..doc) :
2
فصل اول مقدمه:
صحت و گفتار نقش اساسی در ارتباط انسانها ایفا میکنند و یکی از دلایل پیشرفت انسانها است.
برای برقراری ارتباط کامپیوتر با انسان بوسیلة گفتار در کار لازم است انجام شود. یکی سنتزل گفتار است. و دیگری بازشناسی گفتار، سنتز گفتار بیان گفتار بوسیلة کامپیوتر میباشد و بازشناسی یعنی فهمیدن گفتار در بازشناسی گفتار. هدف بدست آوردن دنبالة آوایی یک گفتار میباشد و این دنبالة آوایی میتواند بر اساس واج، سیلاب، کلمه، جمله و ... باشد. بازشناسی گفتار عکس عمل سنتز است و گفتار را به متن تبدیل میکند. اما انجام بازشناسی گفتار به دلیل خاصیت صدای انسانها، دارای پیچیدگیهای زیادی است. اما اغلب بازشناسی کامل و درست غیر ممکن است. حتی خود انسانها هم نمیتوانند به طور کامل همه صداها را بفهمند و میزان، درک گوش انسانها حدود 70% میباشد. شکل 1-1 ارتباط گفتاری بین انسانها و کامپیوتر را نشان میدهد. به دلیل نقش مهم و کاربردهای فراوانی که بازشناسی گفتار دارد، تحقیقات و مقالههای زیادی در این زمینه انجام شده و راه حلهای متفاوتی پیشنهاد شده است، ولی بازشناسی گفتار کاملاً درست هنوز امکانپذیر نمیباشد.
بازشناسی گفتار دارای کاربردهای زیادی است. از جمله کاربردهای بازشناسی گفتار، حل مشکل تایپ است، با کمک بازشناسی گفتار میتوان جملهها را یکی پس از دیگری خواند و کامپیوتر آنها را تایپ کند. یکی دیگر از کاربردهای بازشناسی گفتار، حل مشکل صحبت دو فرد مختلف همزبان است. یکی از مشکلات انسانها ارتباط با افرادی است که با زبانهای متفاوت صحبت میکنند. ارتباط بدون دانستن زبان مشکل است. و یادگیری یک زبان دیگر کار وقت گیر و پر زحمتی است ولی به کمک بازشناسی گفتار به یادگیری زبانهای مختلف احتیاجی نخواهد بود و میتوان با یک دستگاه کوچک با فردی که با زبان دیگری صحبت میکند، صحبت نمود. یک کامپیوتر کوچک صدای شما را گرفته و به تعدادی از کلمات تبدیل مینماید. سپس این کلمات به زبان دیگر ترجمه شده و در نهایت با زبان جدید گفته میشوند. دو مرحلة آخر این سیستم جزو مسایل انجام شده گفتار هستند و با کامل نمودن مسئله بازشناسی گفتار بدون دانستن زبان
2
های دیگر به آنها تکلم نمود.
شکل 1-2 نشان دهنده ارتباط دو فرد با زبانهای مختلف است. یکی از کاربردهای دیگر بازشناسی گفتار، برقراری ارتباط با کامپیوتر است. همان گونه که به انسانهای دیگر دسترس میدهید، به کامپیوتر هم میتوان دستور داد و با آن صحبت کرد. یا حتی میتوانید از او بخواهید کاری برایتان انجام دهد.
حتی با کمک بازشناسی گفتار میتوان به انسانهای نابینا و ناشنوا کمک کرد. به طور مثال نابینایان میتوانند با صحبت کردن و دادن دستور به کامپیوتر با آن کار کنند.
از دستاوردهای جدید بازشناسی گفتار و پردازش مدت کاربرد آن در آموزشهای زبان دوم میباشد. بدین ترتیب که با ایجاد سیستمیکه قابلیت آشکارسازی خطای تلفظ بین لهجههای زبان اصلی و لهجة یک فردی که به زبان دوم فرد سخن میگوید، وی را در یادگیری و تصحیح تلفظ و لهجه آن زبان کمک نمیکنند.
بازشناسی گفتار میتواند برای شرایط مختلفی انجام گیرد. هر کدام از این شرایط میتوانند باعث مشکل شدن، پیچیدگی بازشناسی شوند. یکی از این شرایط، وابسته بودن بازشناسی به یک گوینده یا مستقل بودن آن از گوینده است. مستقل بودن از گوینده به معنای آن است که بتوان کار بازشناسی را برای هر فرد انجام داد. از دیگر شرایط بازشناسی گسسته یا پیوسته بودن گفتار است. راحتی بازشناسی گفتار گسسته، داشتن ابتدا و انتهای عصر کلمه یا اساساً خود کلمه یا همان واحد آوایی میباشد. همچنین از دیگر شرایطی که در بازشناسی مطرح است،تعداد واژگان میباشد. یعنی بازشناسی گفتار برای چه تعداد کلمهای صورت میپذیرد.
هدف از انجام پروژة فوق در ابتدا بازشناسی کلمات گسسته قرانی و در مرحلة دوم ارزیابی نحوة بیان و تلفظ کلمات قرآنی میباشد. از آنجائیکه برای مقایسه بین کلمة ادا شده توسط کاربر و صدای استاد باید یک سیستم بهینه وجود داشته باشد. در مرحلة اول سعی میکنیم، سیستم را به حالت بهینه خود برسانیم و سپس پارامترهای این سیستم جهت انجام مرحلة دوم استفاده کنیم.
3
اما چون در هنگام ارزیابی نحوة بیان کلمه قرآنی، کلمه مورد نظر از قبل مشخص است، بناباین در مرحله دوم احتیاجی به بازشناسی گفتار نمیباشد.
در بخش اول برای بهتر درک کردن مفهوم بازشناسی به بررسی سیستم تولید صوت و شنوایی انسان میپردازیم. سپس وارد مفاهیم بازشناسی گفتار خواهیم شد. در این مرحله روشهای جداسازی سیگنال زمینه از روی سیگنال صحبت مورد بررسی قرار میگیرد. سپس نحوة استخراج ماتری ضرائب کپستروم و در نهایت بازشناسی گفتار بوسیلة الگوریتم انحراف زمانی پویا (DTU) و مدل مخفی مارکوف مورد بررسی قرار میگیرد.
پس از آشنایی با ابزارهای بازشناسی گفتار، نحوة پیاده سازی الگوریتمهای فوق ذکر خواهد شد. بعد از راهاندازی سیستم بازشناسی گفتار کلمات مقطع، بوسیلة الگوریتم DTN مشاهده شد نرخ بازشناسی گفتار پائینی است و حدود %47 میباشد. از این رو در جهت بهبود پارامترهای سیستم و بهینه کردن آن در مراحل بازشناسی و پارامترهای آن تغییراتی داده شد، که به ذکر آنها پرداخته خواهد شد.
پس از بهینه کردن پارامترهای سیستم بازشناسی گفتار و رسانیدن نرخ بازشناسی گفتار به 99% برای 20 کلمه قرآنی الگوریتمهای ارزیابی نحوة بیان بوسیلة روش DTA بحث خواهد شد.
در بخش انتهایی به بررسی مدل مخفی مارکوف خواهیم پرداخت. سپس مراحل پیاده سازی الگوریتم فوق بوسیلة نرم افزار و نکات عملی آن گفته خواهد شد. در نهایت سیستم بازشناسی گفتار کلمات مقطع قرآنی و نحوة پیاده سازی آن مورد بررسی قرار خواهد گرفت و در مرحلة بعدی الگوریتم ارزیابی نحوة بیان بوسیلة ذکر خواهد شد.
تغییر محیط اکوستیکی روی نتیجه بازشناسی اثر خواهد گذاشت. از آنجائیکه سیستم فوق برای نمونههای آزمایشگاهی آموزش داده شده با تغییر محیط اکوستیکی مطمئناً نتایج بازشناسی تغییر خواهد کرد و نمونههای واقعی دارای نوین میکروفن، محیط و همچنین برگشت صدا خواهند بود.
5
در انتها به بررسی سیستمهای بهبود گفتار خواهیم پرداخت، هدف از این بخش حذف هزینه ورودی از طریق میکروفن و از بین بردن تأثیرهای محیط بر روی سیگنال صدا میباشد.
در این بخش به دو روش اشاره خواهیم: ابتدا روش spectral subtraction
که به میزان یک روش عمدی برای حذف نویز میرود ذکر خواهد شد.
سپس به معرفی یک الگوریتم جدید در حذف نویز میکروفن خواهیم پرداخت.
مدل اعضای صوتی انسان
در شکل (1-2) یک دیاگرام شماتیک از مکانیزم تولید صحبت انسان نشان داده شده است. هنگام صحبت معمولی، قفسه سین با فشار وارد کردن به ششها باعث میشود که هوای فشرده از ششها از طریق حنجره بیرون رانده شود. تارهای صوتی که درست در پشت غدة تیروئید قرار گرفتهاند، اگر تحت تنش قرار گیرند، با عبور هوا مرتعش میشوند و بدین ترتیب هوا نیز متناسب با فرکانس ارتعاش تارهای صوتی مرتعش شده و در این حالت حروف صدادار تولید میگردند.
اگر تارهای صوتی از هم جدا شوند، جریان هوا از درون فاصلة بین تارهای صوتی عبور میکند و تأثیر آن ایجاد نمیشود. جریان هوا سپس از فضای حلق عبور نموده و بسته به موقعیت دریچة تنظیم عبور هوا از دهان یا بینی از فضای این دو عبور مینماید. جریان هوا از طریق دهان و بینی یا هر دو مشترکاً به بیرون داده میشود و هنگام صحبت این کاملاً قابل حس کردن است.
در حالت تولید حرف بی صدا مانند «س» یا «پ» تارهای صوتی در هم باز میشوند و یکی از دو حالت زیر غالب است. یا یک جریان مغشوش هوا تولید میشود، هنگامیکه هوا از درون فضای نیمه بسته باریک در نقطهای از اعضای صوتی عبور میکند (مانری) و یا یک تحریک گذری مختصر بدنبال ایجاد فشار پشت یک نقطة کاملاً بسته در اعضای صوتی انسان اتفاق میافتد (مانند p).
وقتیکه جز جز کنندههای مختلف مانند زبان، لبها، آروارهها و پردة تفکیک بینی و دهان در حین صحبت مدام حالتشان عوض میشود. شکل قسمتهای مختلف فضای داخل ناخیه صوتی تغییر می
لینک دانلود و خرید پایین توضیحات
دسته بندی : پاورپوینت
نوع فایل : powerpoint (..ppt) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید : 63 اسلاید
قسمتی از متن powerpoint (..ppt) :
بنام خدا
تکنولوژی بازشناسی گفتار فارسی با رویکردی به صنعت بانکداری
بازشناسی گفتار (فارسی) در صنعت بانکداری
فهرست
معرفی تکنولوژی بازشناسی گفتار
مروری بر کاربردهای بازشناسی گفتار
نمایش عملی سامانه تایپ گفتاری فارسی نویسا
نمایش عملی یک سیستم دیالوگ تلفنی ویژه بانکداری
پرسش و پاسخ
عصر گویش پرداز ( ASR Gooyesh Pardaz )
مروری بر بازشناسی خودکار گفتار (Automatic Speech Recognition- A Review)
بازشناسی گفتار (فارسی) در صنعت بانکداری
سیستمهای بازشناسی خودکار گفتار-معرفی
گفتار سادهترین و کارآمدترین راه ارتباط انسان هاست
هدف بازشناسی خودکار گفتار Automatic Speech Recognition (ASR)
تبدیل گفتار انسان به متن یا دستورالعمل معادل
گفتار میتواند یک فایل صوتی، ورودی با میکروفون، از طریق خط تلفن و یا فرمان از راه دور باشد.
لینک دانلود و خرید پایین توضیحات
دسته بندی : پاورپوینت
نوع فایل : powerpoint (..ppt) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید : 28 اسلاید
قسمتی از متن powerpoint (..ppt) :
بنام خدا
بازشناسی گفتار ( Speech Recognition )
بازشناسی گفتار ( Speech Recognition )
تشخیص گفتار انسان توسط ماشین و تبدیل آن به متن یا دستورالعمل معادل
نکات مطرح در بازشناسی گفتار
تعداد کلمات مورد بازشناسی
پیوسته یا گسسته بودن ادای کلمات
وابستگی یا استقلال از گوینده
بازشناسی گفتار
یک سیستم بازشناسی کامل :
قادر به بازشناسی گفتار پیوسته و محاورهای باشد.
گفتار افراد مختلف، حتی با لهجههای متفاوت را بازشناسی نماید.
در محیطهای شلوغ و نویزی هم جوابگو باشد.
بصورت بلادرنگ عمل کند.
قادر به فراگیری اطلاعات جدید نظیر کلمات، قوانین زبانی و . . . باشد.
سیستمهای کاربردی امروزی:
گفتار بایستی به صورت کتابی باشد.
گفتار بایستی بر اساس حالت استاندارد زبان باشد و تغییرات مربوط به لهجهها منجر به کاهش کارایی میشود.
استفاده از آنها در محیط و شرایط نویزی منجر به افت کارایی و دقت آنها میشود.
اغلب سیستم های کاربردی امروزی تقریبا بلادرنگ هستند.
سیستمهای موجود محدود به کلمات موجود در واژگان هستند و از اطلاعات زبانی و معنایی به صورت محدود استفاده میکنند.
بازشناسی گفتار
انواع سیستم های بازشناسی گفتار بر اساس تعداد کلمات
واژگان کوچک( Small Vocabulary ): 1 تا 100 کلمه
واژگان متوسط ( Medium Vocabulary ): بین 100 تا 1000 کلمه
واژگان بزرگ ( Large Vocabulary ) : بین 1000 تا 60000 کلمه
واژگان خیلی بزرگ ( Very Large Vocabulary ): بیشتر از 60000 کلمه
انواع سیستم های بازشناسی گفتار بر اساس وابستگی یا استقلال از گوینده
وابسته به گوینده ( SD: Speaker Dependent ): به یک و یا چند گوینده خاص پاسخ میدهد.
مستقل از گوینده ( SI: Speaker Independent ) به تمام گویندگان یک زبان پاسخ میدهد.
لینک دانلود و خرید پایین توضیحات
دسته بندی : پاورپوینت
نوع فایل : powerpoint (..PPT) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید : 44 اسلاید
قسمتی از متن powerpoint (..PPT) :
بنام خدا
2
تقدم گفتار بر نوشتار
3
تعریف
نوعی انتقال داده که رسانه اصلی آن کلام یا گفتار است.
بعضی از جملات از پیش اندیشیده و بعضی موردی و فی البداهه هستند به همین دلیل در معنای عام به آن انشای خطابی نیز گفته می شود.
برخی از پژوهشگران زبان را دنباله و متمّم تکامل فکر در انسان می دانند و برخی معتقدند که زبان اساساً ذاتی و فطری است.
گفتار اولین صورت زبان است و دستگاهی است که از نمادهای آوایی تشکیل شده است.
به عقیده زبان شناسان گفتار مقدم بر نوشتار است.
4
تاریخچه ارائه
یونان و روم
ایران
خاور دور
اعراب بیابانگرد
5
خصوصیات
حضوری است.
قابل استناد نیست.
به خاطر محدودیت زمانی به اندازه ارائه کتبی مشروح نیست.
کنترل کیفی و کمی آن دشوار است.
ارائه کننده می تواند از چند سبک بیانی استفاده کند.
تاثیرگذاریش می تواند سریع باشد،هر چند اثرش در مخاطب دیرپای نیست.
نوعی انتقال اطلاعات دو سویه است ) شکل1).
از نظر مجموعه امکانات از ارائه کتبی غنی تر است.
ممکن است با هدف آگاه سازی و یا جلب نظر موافق مخاطب انجام شود. از این نظر ممکن است آگاه ساز یا مجاب کننده باشد.
لینک دانلود و خرید پایین توضیحات
دسته بندی : پاورپوینت
نوع فایل : powerpoint (..ppt) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید : 63 اسلاید
قسمتی از متن powerpoint (..ppt) :
بنام خدا
Page 1
پاورپوینت بررسی تکنولوژی بازشناسی گفتار فارسی با رویکردی به صنعت بانکداری
Page 2
فهرست
معرفی تکنولوژی بازشناسی گفتار
مروری بر کاربردهای بازشناسی گفتار
نمایش عملی سامانه تایپ گفتاری فارسی نویسا
نمایش عملی یک سیستم دیالوگ تلفنی ویژه بانکداری
پرسش و پاسخ
مروری بر بازشناسی خودکار گفتار (Automatic Speech Recognition- A Review)
Page 4
سیستمهای بازشناسی خودکار گفتار-معرفی
گفتار سادهترین و کارآمدترین راه ارتباط انسان هاست
هدف بازشناسی خودکار گفتار Automatic Speech Recognition (ASR)
تبدیل گفتار انسان به متن یا دستورالعمل معادل
گفتار میتواند یک فایل صوتی، ورودی با میکروفون، از طریق خط تلفن و یا فرمان از راه دور باشد.
لینک دانلود و خرید پایین توضیحات
دسته بندی : وورد
نوع فایل : word (..doc) ( قابل ویرایش و آماده پرینت )
تعداد صفحه : 138 صفحه
قسمتی از متن word (..doc) :
2
فصل اول مقدمه:
صحت و گفتار نقش اساسی در ارتباط انسانها ایفا میکنند و یکی از دلایل پیشرفت انسانها است.
برای برقراری ارتباط کامپیوتر با انسان بوسیلة گفتار در کار لازم است انجام شود. یکی سنتزل گفتار است. و دیگری بازشناسی گفتار، سنتز گفتار بیان گفتار بوسیلة کامپیوتر میباشد و بازشناسی یعنی فهمیدن گفتار در بازشناسی گفتار. هدف بدست آوردن دنبالة آوایی یک گفتار میباشد و این دنبالة آوایی میتواند بر اساس واج، سیلاب، کلمه، جمله و ... باشد. بازشناسی گفتار عکس عمل سنتز است و گفتار را به متن تبدیل میکند. اما انجام بازشناسی گفتار به دلیل خاصیت صدای انسانها، دارای پیچیدگیهای زیادی است. اما اغلب بازشناسی کامل و درست غیر ممکن است. حتی خود انسانها هم نمیتوانند به طور کامل همه صداها را بفهمند و میزان، درک گوش انسانها حدود 70% میباشد. شکل 1-1 ارتباط گفتاری بین انسانها و کامپیوتر را نشان میدهد. به دلیل نقش مهم و کاربردهای فراوانی که بازشناسی گفتار دارد، تحقیقات و مقالههای زیادی در این زمینه انجام شده و راه حلهای متفاوتی پیشنهاد شده است، ولی بازشناسی گفتار کاملاً درست هنوز امکانپذیر نمیباشد.
بازشناسی گفتار دارای کاربردهای زیادی است. از جمله کاربردهای بازشناسی گفتار، حل مشکل تایپ است، با کمک بازشناسی گفتار میتوان جملهها را یکی پس از دیگری خواند و کامپیوتر آنها را تایپ کند. یکی دیگر از کاربردهای بازشناسی گفتار، حل مشکل صحبت دو فرد مختلف همزبان است. یکی از مشکلات انسانها ارتباط با افرادی است که با زبانهای متفاوت صحبت میکنند. ارتباط بدون دانستن زبان مشکل است. و یادگیری یک زبان دیگر کار وقت گیر و پر زحمتی است ولی به کمک بازشناسی گفتار به یادگیری زبانهای مختلف احتیاجی نخواهد بود و میتوان با یک دستگاه کوچک با فردی که با زبان دیگری صحبت میکند، صحبت نمود. یک کامپیوتر کوچک صدای شما را گرفته و به تعدادی از کلمات تبدیل مینماید. سپس این کلمات به زبان دیگر ترجمه شده و در نهایت با زبان جدید گفته میشوند. دو مرحلة آخر این سیستم جزو مسایل انجام شده گفتار هستند و با کامل نمودن مسئله بازشناسی گفتار بدون دانستن زبان
2
های دیگر به آنها تکلم نمود.
شکل 1-2 نشان دهنده ارتباط دو فرد با زبانهای مختلف است. یکی از کاربردهای دیگر بازشناسی گفتار، برقراری ارتباط با کامپیوتر است. همان گونه که به انسانهای دیگر دسترس میدهید، به کامپیوتر هم میتوان دستور داد و با آن صحبت کرد. یا حتی میتوانید از او بخواهید کاری برایتان انجام دهد.
حتی با کمک بازشناسی گفتار میتوان به انسانهای نابینا و ناشنوا کمک کرد. به طور مثال نابینایان میتوانند با صحبت کردن و دادن دستور به کامپیوتر با آن کار کنند.
از دستاوردهای جدید بازشناسی گفتار و پردازش مدت کاربرد آن در آموزشهای زبان دوم میباشد. بدین ترتیب که با ایجاد سیستمیکه قابلیت آشکارسازی خطای تلفظ بین لهجههای زبان اصلی و لهجة یک فردی که به زبان دوم فرد سخن میگوید، وی را در یادگیری و تصحیح تلفظ و لهجه آن زبان کمک نمیکنند.
بازشناسی گفتار میتواند برای شرایط مختلفی انجام گیرد. هر کدام از این شرایط میتوانند باعث مشکل شدن، پیچیدگی بازشناسی شوند. یکی از این شرایط، وابسته بودن بازشناسی به یک گوینده یا مستقل بودن آن از گوینده است. مستقل بودن از گوینده به معنای آن است که بتوان کار بازشناسی را برای هر فرد انجام داد. از دیگر شرایط بازشناسی گسسته یا پیوسته بودن گفتار است. راحتی بازشناسی گفتار گسسته، داشتن ابتدا و انتهای عصر کلمه یا اساساً خود کلمه یا همان واحد آوایی میباشد. همچنین از دیگر شرایطی که در بازشناسی مطرح است،تعداد واژگان میباشد. یعنی بازشناسی گفتار برای چه تعداد کلمهای صورت میپذیرد.
هدف از انجام پروژة فوق در ابتدا بازشناسی کلمات گسسته قرانی و در مرحلة دوم ارزیابی نحوة بیان و تلفظ کلمات قرآنی میباشد. از آنجائیکه برای مقایسه بین کلمة ادا شده توسط کاربر و صدای استاد باید یک سیستم بهینه وجود داشته باشد. در مرحلة اول سعی میکنیم، سیستم را به حالت بهینه خود برسانیم و سپس پارامترهای این سیستم جهت انجام مرحلة دوم استفاده کنیم.
3
اما چون در هنگام ارزیابی نحوة بیان کلمه قرآنی، کلمه مورد نظر از قبل مشخص است، بناباین در مرحله دوم احتیاجی به بازشناسی گفتار نمیباشد.
در بخش اول برای بهتر درک کردن مفهوم بازشناسی به بررسی سیستم تولید صوت و شنوایی انسان میپردازیم. سپس وارد مفاهیم بازشناسی گفتار خواهیم شد. در این مرحله روشهای جداسازی سیگنال زمینه از روی سیگنال صحبت مورد بررسی قرار میگیرد. سپس نحوة استخراج ماتری ضرائب کپستروم و در نهایت بازشناسی گفتار بوسیلة الگوریتم انحراف زمانی پویا (DTU) و مدل مخفی مارکوف مورد بررسی قرار میگیرد.
پس از آشنایی با ابزارهای بازشناسی گفتار، نحوة پیاده سازی الگوریتمهای فوق ذکر خواهد شد. بعد از راهاندازی سیستم بازشناسی گفتار کلمات مقطع، بوسیلة الگوریتم DTN مشاهده شد نرخ بازشناسی گفتار پائینی است و حدود %47 میباشد. از این رو در جهت بهبود پارامترهای سیستم و بهینه کردن آن در مراحل بازشناسی و پارامترهای آن تغییراتی داده شد، که به ذکر آنها پرداخته خواهد شد.
پس از بهینه کردن پارامترهای سیستم بازشناسی گفتار و رسانیدن نرخ بازشناسی گفتار به 99% برای 20 کلمه قرآنی الگوریتمهای ارزیابی نحوة بیان بوسیلة روش DTA بحث خواهد شد.
در بخش انتهایی به بررسی مدل مخفی مارکوف خواهیم پرداخت. سپس مراحل پیاده سازی الگوریتم فوق بوسیلة نرم افزار و نکات عملی آن گفته خواهد شد. در نهایت سیستم بازشناسی گفتار کلمات مقطع قرآنی و نحوة پیاده سازی آن مورد بررسی قرار خواهد گرفت و در مرحلة بعدی الگوریتم ارزیابی نحوة بیان بوسیلة ذکر خواهد شد.
تغییر محیط اکوستیکی روی نتیجه بازشناسی اثر خواهد گذاشت. از آنجائیکه سیستم فوق برای نمونههای آزمایشگاهی آموزش داده شده با تغییر محیط اکوستیکی مطمئناً نتایج بازشناسی تغییر خواهد کرد و نمونههای واقعی دارای نوین میکروفن، محیط و همچنین برگشت صدا خواهند بود.
5
در انتها به بررسی سیستمهای بهبود گفتار خواهیم پرداخت، هدف از این بخش حذف هزینه ورودی از طریق میکروفن و از بین بردن تأثیرهای محیط بر روی سیگنال صدا میباشد.
در این بخش به دو روش اشاره خواهیم: ابتدا روش spectral subtraction
که به میزان یک روش عمدی برای حذف نویز میرود ذکر خواهد شد.
سپس به معرفی یک الگوریتم جدید در حذف نویز میکروفن خواهیم پرداخت.
مدل اعضای صوتی انسان
در شکل (1-2) یک دیاگرام شماتیک از مکانیزم تولید صحبت انسان نشان داده شده است. هنگام صحبت معمولی، قفسه سین با فشار وارد کردن به ششها باعث میشود که هوای فشرده از ششها از طریق حنجره بیرون رانده شود. تارهای صوتی که درست در پشت غدة تیروئید قرار گرفتهاند، اگر تحت تنش قرار گیرند، با عبور هوا مرتعش میشوند و بدین ترتیب هوا نیز متناسب با فرکانس ارتعاش تارهای صوتی مرتعش شده و در این حالت حروف صدادار تولید میگردند.
اگر تارهای صوتی از هم جدا شوند، جریان هوا از درون فاصلة بین تارهای صوتی عبور میکند و تأثیر آن ایجاد نمیشود. جریان هوا سپس از فضای حلق عبور نموده و بسته به موقعیت دریچة تنظیم عبور هوا از دهان یا بینی از فضای این دو عبور مینماید. جریان هوا از طریق دهان و بینی یا هر دو مشترکاً به بیرون داده میشود و هنگام صحبت این کاملاً قابل حس کردن است.
در حالت تولید حرف بی صدا مانند «س» یا «پ» تارهای صوتی در هم باز میشوند و یکی از دو حالت زیر غالب است. یا یک جریان مغشوش هوا تولید میشود، هنگامیکه هوا از درون فضای نیمه بسته باریک در نقطهای از اعضای صوتی عبور میکند (مانری) و یا یک تحریک گذری مختصر بدنبال ایجاد فشار پشت یک نقطة کاملاً بسته در اعضای صوتی انسان اتفاق میافتد (مانند p).
وقتیکه جز جز کنندههای مختلف مانند زبان، لبها، آروارهها و پردة تفکیک بینی و دهان در حین صحبت مدام حالتشان عوض میشود. شکل قسمتهای مختلف فضای داخل ناخیه صوتی تغییر می