فرمت فایل :word (قابل ویرایش) تعداد صفحات : 34 صفحه
چکیده :
ساخت سیستم های اتوماتیک تبدیل حرف به صدا برای استفاده در سیستم های تبدیل متن به گفتار در زبان فارسی، به دلیل عدم استفاده از اعراب در نوشتار و در نتیجه مستوربودن بعضی از واژه ها مشکل می باشد و عموماً این سیستم ها برای زبان فارسی کارآیی پایینی دارند . در این مقاله ساختار یک سیستم تبدیل حرف به صدا با معماری سه لایه بررسی شده است. لایه اول این سیستم قانون گرا می باشد و لایه دوم از پنج شبکه عصبی پرسپترون چندلایه ای و یک بخش کنترلر برای تعیین دنباله واژه های متناظر با حروف تشکیل شده است. برای تعیین دنباله واژه های متناظر با حروف، از شبکه های عصبی استفاده می شود. بخش کنترلر نیز، خروجی شبکه ها را کنترل می کند تا دنباله واژه های نهایی متناظر با کلمات با ساختار هجابندی فارسی مطابقت داشته باشد.در لایه سوم نیز یک شبکه عصبی برای تعیین حروف مشدد، با استفاده از نتایج مراحل قبل وجود دارد. اجزاء مختلف این سیستم به گونه ای طراحی شده اند که در نهایت برای هر کلمه، یک دنباله واژه منطقی تولید گردد منظور از دنباله واژه منطقی، دنباله واژه می باشد که در آن اصول بدیهی واژه نگاری و ساختار هجابندی زبان فارسی رعایت شده باشد. میزان درستی به دست آمده برای حروف 88 % و برای کلمات %61 می باشد که برای تبدیل حرف به صدای زبان فارسی کارآی بسیارخوبی می باشد.
کلید واژه: تبدیل حرف به صدا، شبکه عصبی پرسپترون چندلایه، الگوریت مترازبندی حرف صدا، زبان فارسی.
1 - مقدمه:
یکی از بخش های اصلی سیستم های تبدیل متن به گفتار، تعیین طرز خواندن کلمات یا دنباله واژه آنها می باشد. این سیستم ها عموماً از یک واژگان یا دادگان لغت برای استخراج دنباله واژه کلمات استفاده می کنند. این روش نیاز به حافظه زیادی دارد ولی به دلیل قابلیت اطمینان بالای آن نسبت به روش های دیگرترجیح داده می شود. ولی جمع آوری تمامی لغات یک زبان همچون اسامی خاص، کلمات وارداتی از زبا ن های دیگر در یک واژگان از نظر عملی غیر ممکن می باشد. بنابراین این سیستم ها در کنار واژگان، از یک سیستم تبدیل حرف به صدا برای حدس زدن دنباله واژه کلمات ناموجود در واژگان استفاده می کنند .
[ 1] البته نا م های دیگری و یا نگاشت (GPC)[1] نیز برای این سیستم همچون مبدل نویسه به واژه متن به واژه[2] 2 انتخاب شده است.
[ 2]سیستم های تبدیل حرف به صدا بسته به زبان مورد نظر می توانند به طور ساده قانون گرا و یا از الگوریتم های هوشمند یادگیری ماشینی و یا روش های آماری بهره ببرند. این سیستم ها قابلیت اطمینان بالایی ندارند ولی امکان تحت پوشش قراردادن تمامی لغات ممکن برای یک زبان را دارند و همچنین حافظه کمی نیز مصرف می کنند. به طور کلی میزان دقت سیستم های تبدیل حرف به صدا وابسته به زبان می باشد. به طور مثال در زبان اسپانیایی، املای کلمات خود طرز خواندن آنها را مشخص می نماید. در بعضی از زبان های دیگر همچون انگلیسی ابهام بیشتری وجود دارد. برای این زبان ها، به صورت قانون گرا سیستم هایی با کارآیی مناسب می توان ساخت، ولی در بعضی از زبان های به /a, e, o/ دیگر همچون عربی و فارسی به دلیل نمایش واژه های صورت اعراب و عدم اعراب گذاری متون هنگام نگارش، طراحی این سیستم ها دشوار و عموماً کارآیی این سیستم ها پایین می باشد. طراحی سیستم های تبدیل حرف به صدا برای این زبا نها، نیازمند استفاده از مدل های هوشمند یادگیری ماشینی می باشد. در این حالت به طور ساده، مدل ها برای تعیین دنباله واژه یک کلمه، تک تک حروف آنها را به همراه یک سری ویژگی ها به عنوان ورودی پذیرفته و دنباله واژه هر حرف را به عنوان خروجی تولید می نمایند در انتها دنباله واژه کلمه، با ترکیب دنباله های واژه به دست آمده برای هر حرف آن به دست می آید. ویژگی های ورودی عموماً در بیشتر سیستم ها مشابه و حروف موجود در یک همسایگی از حرف اصلی در نظر گرفته می شود. هر چند ویژگی های دیگری همچون طول کلمه، موقعیت حرف در کلمه و مانند آن را نیزمی توان در نظر گرفت. نحوه کدکردن حروف و ارائه آنها به مدل به عنوان ورودی، از جمله پارامترهای مهم و تأثیرگذار در کارآیی این مدل ها می باشد. برای ارزیابی سیستم های حرف به صدا از دو معیار میزان درستی حروف و میزان درستی کلمات [3] استفاده می شود. میزان درستی حروف برابر با درصد حروفی از مجموعه تست هستند که معادل واژه آنها توسط سیستم حرف به صدا درست تعیین شده باشد. همچنین معیار میزان درستی کلمات نیز مشخص کننده درصد کلماتی هستند که دنباله واژه تمامی حروف آنها به درستی پیشگویی شده باشد
[1] . Grapheme to Phoneme Conversion
[2] . Text to Phoneme Mapping
[3] . Correct Letters and Correct Words Measure