عنوان :استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی
برای رعایت حریم خصوصی نام نگارنده درج نمی شود
استاد راهنما:
آقای دکتر مروی
استاد مشاور:
آقای دکتر احمدی فرد
پایان نامه ارشد جهت اخذ درجه کارشناسی ارشد
تکه هایی از متن به عنوان نمونه :
چکیده
در این پایاننامه روشی برای شناسایی مصوتهای فارسی در کلمات تک سیلابی ارائه میشود. برای این منظور پس از جداسازی فریمهای تصویر و انتخاب فریمهایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیهای پیرامون لبها، ویژگیهای مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوتها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگیها را کاهش داده و سایز ویژگیها را به 25 تغییر دادیم. در نهایت موثرترین ویژگیها برای شناسایی مشخص گردید. در این تحقیق از پایگاه دادهای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگیهای استخراجی به عنوان ورودی به شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.
کلمات کلیدی:
لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی
1 مقدمه
از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار میتواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی میشود، به حرکات لب گوینده توجه بیشتری میکنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار میباشد. ضمناً حرکات لب یا سیگنال تصویری گفتار میتواند به طور قابل ملاحظهای دقت سیستمهای تشخیص گفتار صوتی را خصوصاً در محیطهای نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله میباشد.
افرادی زیادی هستند که دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایدهآل میتوان با انجام لبخوانی به مقصود آنها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچههایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده میشود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده میشود که کوچکترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابهای گروهبندی شده که یک ویزم را نشان میدهد. یک نگاشت چند به یک بین واجها و ویزمها هست یعنی میتوان مجموعهای از واجها را در نظر گرفت که تأثیر مشابهای بر روی شکل دهان دارند. در جدولهای زیر گروهبندی ویزمها در زبان انگلیسی و فارسی آورده شده است [1] , [2].
جدول 1- 1 گروهبندی ویزمها در انگلیسی
n,l |
8 |
p,b,m |
1 |
R |
9 |
f,v |
2 |
A |
10 |
th,dh |
3 |
E |
11 |
t,d |
4 |
I |
12 |
k,g |
5 |
O |
13 |
sh,zh |
6 |
U |
14 |
s,z |
7 |
جدول 1- 2 گروهبندی ویزمها در زبان فارسی
1. ف، و |
5. ر |
9. آ |
2. ث، س، ص، ز، ذ، ظ، ض |
6.ج، چ، گ، ک، ن، ت، د، ی، ط |
10. ٳ |
3. ژ، ش |
7. ای |
11. ٱ |
4. ب، پ، م |
8. ٲ |
12. او |
به طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[3]، شناسایی تصویری صحبت[4]، شناسایی صوتی و تصویری صحبت[5]، که در این تحقیق به شناسایی تصویری صحبت پرداخته میشود.
برای دانلود متن کامل پایان نامه اینجا کلیک کنید.
لینک بالا اشتباه است
:: بازدید از این مطلب : 526
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0