لینک دانلود و خرید پایین توضیحات
فرمت فایل word و قابل ویرایش و پرینت
تعداد صفحات: 13
روش جدید برای لبخوانی با استفاده از پردازش تصویر
وحیده نیکفرجام هفتآسیا
گروه کامپیوتر- دانشگاه آزاد اسلامی مشهد
Vahideh_nikfarjam@yahoo.com
چکیده :
بازشناسی تصویری گفتار به عنوان فرآیندی برای کمک به افرادی که دچار آسیب در سیستم صوتی شدهاند، در سالهای اخیر مورد توجه محققین قرار گرفته است. در این مقاله سعی در این بوده که سه روش برای استخراج ویژگی شکل لب ارائه شود : استخراج کانتور لب ، قطعهبندیWatershed ، پارامترهای پویانمایی چهره . سپس برای شناسایی گفتار از روی حرکات لب از الگوریتم HMM و شبکههای عصبی پرسپترون دولایه با ساختاری ساده استفاده شده است.
واژههای کلیدی : بازشناسی تصویری گفتار ،استخراج کانتور لب ، قطعهبندی Watershed ، پویانمایی چهره ، ردیابی علائم .
1- مقدمه :
سامانهی لبخوانی رایانهای به معلولینی کمک می کند که دچار آسیب در سیستم صوتی بوده و قادر به برقراری ارتباط با دیگران نیستند. این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایدهآل میتوان با انجام لبخوانی به مقصود آنها پی برد. این نرمافزار به معلولینی که از صندلی چرخدار استفاده میکنند و فقط توانایی انجام صحیح حرکات لبشان را دارند کمک میکند؛ بدین ترتیب که با کمک دوربین فیلمبرداری حرکات لب آنها ثبت میشود و پس از آنالیز ، فرامین لازم به ویلچر داده میشود.
از جمله کاربرد های این سامانه میتوان به تشخیص فرامین ناتوانان گفتاری ،تشخیص برخی کلمات خاص، مکمل بازشناسی گفتار صوتی و همچنین کاربردهای نظامی و اطلاعاتی ذکر کرد .در کاربرد حفاظتی ، این سامانه میتواند با بهرهگیری از حرکات لب و بدون ثبت سیگنال صوتی ،کلمات خاصی را شناسایی و تصویر گویندهی آن را در مراکز عمومی و محلهای تردد ثبت کند.
فرآیند بازشناسی تصویری گفتار شامل دو مرحلهی استخراج ویژگی از دنباله تصاویر لب و طبقهبندی ویژگیهای بدست آمده است. ویژگی گفتاری تصویر حرکات لب معلولین که دارای رنگ پوست و ظاهر متفاوتی هستند ، به کمک طراحی یک الگوریتم جدید استخراج شده و در مرحلهی بعد با استفاده از الگوریتم مدل مخفی مارکوف ، حرکات و گفتار تصویری تشخیص داده میشود . بهرهگیری از اطلاعات تصویری از شکلهای لب و حرکات آن ، دقت و اطمینان سیستمهای تشخیص اتوماتیک گفتار صوتی را ـ خصوصا در محیطهای نویزی ـ بطور قابل توجهی بهبود می بخشد .
آزمایش این نرمفزار بر روی مجموعهی دادگان جمعآوری شده ،شامل 20 نفر زن و مردِ 20 تا50 سال صورت گرفته و روی 6 واژه گفتاری 1،2،3،4،5،6 با 91درصد موفقیت ، بازشناسی گفتار انجام شده است . این پژوهشها در مراحل تکمیلی می توانند با افزایش تعداد کلماتِ قابل شناسایی ، محدودهی تشخیص را هر چه بیشتر افزایش دهند .
2- استخراج کانتورلب
به منظوراستخراج ویژگیهای تصویری مربوط به تولید گفتار،استخراج دقیق شکل لب حیاتی می باشد.استفاده ازرویکردهای مبتنی برلبه برای استخراج لب دارای مشکلات فراوانی می باشد؛ زیرانگاشتهای بدست آمده براساس ویژگی لبه معمولأ دارای نویزواشتباهات فراوانی می باشد. به علاوه لبه هااغلب درمرزلب مفقود بوده یاازنظردامنه خیلی ضعیف هستند.باتوجه به این مشکلات، رویکرد استخراج کانتورلب مابه آشکارسازی لبه هادرلب استناد نکرده است، بلکه هدف ماتقسیم بندی تصاویرلب داده شده به ناحیه لب وغیرلب براساس شدت روشنایی ورنگ پیکسلهامی باشد.دراین روش،فرض نمی شود که لب دارای یک رنگ خاص باشد بلکه جستجو بر اساس تفاوت شدت روشنایی ورنگ بین نواحی لب وغیرلب صورت می گیرد.درادامه درابتدا مدل پیشنهادی باجزئیات شرح داده می شود.سپس تابع هزینه برای پیداکردن بهینه مرزبین ناحیه لب وغیرلب ولگوریتم بهینه سازی پارامترهای مدل توضیح داده می شود.
3-2- مدل لب
ازمدلهای انعطاف پذیرهندسی برای مدل کردن شکل لب استفاده شده است .مدل هندسی به شکل لب اجازه می دهد که بوسیله یک مجموعه کوچکی ازپارامترهاباتفسیرفیزیکی توصیف شود. مدل هندسی لب درشکل (1) نشان داده شده است وبامعادلات(1) و(2) توصیف می شود:
(1) و (2)
تفسیرفیزیکی پارامترهادرشکل نشان داده شده است.پارامترs انحراف شکل لب رانشان می دهد. پارمترs انحراف منحنی ازحالت چهارگوش راتوصیف می کند.s به توان دورسیده وبایک جمع شده تاهمیشه مثبت باشد.همچنین پارامترs اجازه می دهد که مدل لب برروی تصاویرلب بادرجه متفاوت خمیدگی منطبق شود.اگرچه لب گوینده وحرکات لب به طورکلی متقارن نمی باشد اما انحراف ازحالت متقارن بودن معمولأ دارای اهمیت نمی باشد.
شکل1-مدل لب هندسی
2-2- فرمول بندی تابع هزینه
برای بدست آوردن یک مدل دقیق،تابع هزینه برای تعیین پارامترهای مدل به طریقه ای که پیکسلهای دارای ناحیه لب دارای احتمال پایین باشند،تعریف می شود وفرض می شود که ناحیه لب وخارج لب هم پوشانی نداشته باشند.مرزاین ناحیه زمانی بدست می آید که این تابع هزینه مینیمم شود.تابع هزینه بصورت (3) تعریف می شود:
(3)
که ) B) 1R و) B)R 2 به ترتیب ناحیه لب وغیرلب می باشند و Prob1 (m,n) احتمال اینکه پیکسل درمکان (m,n) ،پیکسل غیرلب باشد رامشخص می کند. مرز بهینه B با مینیم سازی C(B)به طریقهای که R1(B) شامل پیکسلهایی با Prob1(m,n) بالا و R2(B) شامل پیکسلهایی با Prob2( m,n) بالا باشد،مشخص می شود.با لگاریتم گرفتن ازمعادله بالا وساده سازی رابطه (4) بدست می آید:
(4)
که
(5)
ازآنجاکه درمعادلات(3)و(4)،m وn گسسته هستند بنابراین مرزB نیزگسسته بدست می آید. اما این موضوع برای مامطلوب نیست زیرامایک مرزپیوسته نیازداریم.بنابراین برای حل این مشکل معادله (4) رادرحوزه پیوسته بسط می دهیم.درابتداm وn به x وy پیوسته بسط داده می شود. اکنون مرزB پیوسته شده است ومی تواند هرشکل دلخواهی رافرض کند.سپس ،ما داریم:
(6)
(m,n)f باانتگرال گیری از(x,y)g روی سطح واحد (m,n)مرکزآن می باشد)بدست می آید. سپس معادله (4) بصورت زیربسط داده می شود:
(7)
که مرزB پیوسته می باشد و بوسیله مدل لب مامشخص می شود.سپس پارامترهای بهینه مدل با مینیمم سازی تابع هزینه زیر بدست می آید :
(8) g(x,y)dydx
که x2 (p)=xc+wcos wcos + xc = (P) x2 نقاط گوشه راست وچپ لب، P ، مجموعه پارامترهای مدل می باشند .(p,x) y1 و y2(p;x) دو نقطه مرز عمودی خطx هستند.
پس با داشتن نگاشت احتمال Prob(m,n) ، f(m,n) بوسیله معادله (5) بدست میآید. سپس سطح هزینه پیوسته g(x,y) درمعادله (8) باید ایجاد شود.اگرچهارنقطه zjk , zj +1k, zj +1,k+1,zjk+1 راداشته باشیم. سطح درون یابی دوسویه شده بطریقه زیربدست می آید:
(9) gjk (x,y) = (1+j-x) (1+k-y) zjk+(x-j)(1+k-y) zj+1k+(x-j)(y-k)zj+1k+1+(1+j-x)(y-k)zjk+1
بنابراین ایجاد سطح (x,y)g به مسئله تعیین } zm,n { تبدیل می شود.بااستفاده ازمعادله (6) و(9) وبعد ازتعدادی محاسبات جبری ، می توان نشان داد که f(m,n) و zm,n بوسیله معادله کانولوشن گسسته زیر هم باهم ارتباط دارند :
(10)
که ماسک کانولوشن(m,n)h، باماتریس زیربیان می شود:
(11)
درحوزه فرکانس معادله (10) بصورت زیرمی باشد :
(12)
بنابراین } m,n{ بامعکوس تبدیل فوریه بدست می آید :
(13) Z(w1,w2) = f(w1,w2) /H (w1,w2)
2-3- نگاشت احتمال تصاویرلب
ارزیابی (P)E نیازبه نگاشت احتمال تصاویرلب دارد که این نگاشت ،احتمال این رامشخص می کند که پیکسل،پیکسل لب هست یانه؟ الگوریتم خوشه بندی فازی]11[ برای ایجاد چنین نگاشت احتمالی استفاده می شود .این یک روش یادگیری بدون سرپرستی می باشد ونه فرض اولیه ای درمورد توضیع ویژگیهادرنظرمی گیرد ونه آموزش مورد نیازمی باشد.الگوریتم تلاش می کند برای هرپیکسل براساس توزیع بردارهای ویژگی هرپیکسل درفضای ویژگی واثرمتقابل هرپیکسل با8 تاازهمسایگی اش، یک مقداراحتمال مناسب برای هرپیکسل مشخص کند.
استفاده تنهاازشدت روشنایی درتصاویرلب،کنتراست کافی برای تفاوت قائل شدن یک پیکسل لب وغیرلب راندارد.بنابراین ازشدت روشنایی ورنگ به عنوان ورودی برای الگوریتمهای خوشه بندی استفاده می شود.ابتداتصاویردرفضای رنگ غیریکنواخت RGB تبدیل به فضای رنگ یکنواخت CIELAB می شود[12] . این فضای رنگی یک دیاگرام رنگی یکنواختی دارد بنابراین هردورنگ یک تفاوت ادراکی دارد ودراین فضای رنگ ، اطلاعات روشنایی از اطلاعات رنگ جدامی باشند.
درشکل (2- الف) تصویراولیه ازلب نشان داده شده است همانطورکه مشاهده می شود کنتراست بین ناحیه لب وغیرلبب بسیارپایین می باشد.خوشه بندی بااستفاده ازویژگیهای رنگ (L*.a*,b*) ماراقادرمی سازد که یک نگاشت احتمال قابل قبولی بدست آوریم.درشکل (2- ب)
نگاشت احتمال نشان داده شده است .
دانلود تحقیق کامل درباره روش جدید برای لبخوانی با استفاده از پردازش تصویر 13 ص