سيستم‌هاي تشخيص گفتار چگونه عمل مي‌کنند؟

رويکردهاي مختلفي براي بازشناسي گفتار وجود دارد که موفق‌ترين آنها رويکرد مبتني تشخيص الگو است و تقريباً تمامي سيستم‌هاي موفق امروزي بر اساس آن عمل مي‌کنند. در اين رويکرد گفتار به کمک تعدادي واحد آوايي (مانند کلمه ، هجا ، سه واجي يا واج ) مدل مي‌شود و براي بازشناسي نيز از تشخيص اين واحدها و کنار هم قرار دادن آنها، متن متناسب با گفتار تشخيص داده مي‌شود. در شکل 1 ساختار مرسوم براي يک سيستم بازشناسي گفتار (با رويکرد تشخيص الگو) نشان داده شده است. سيستم‌هاي بازشناسي گفتاري که از اين رويکرد استفاده مي‌کنند، داراي دو فاز آموزش و آزمون مي‌باشند. در فاز آموزش الگوهاي مربوط به هرکلاس که همان واحدهاي آوايي هستند، با استفاده از روش‌هايي مدل‌سازي مي‌شوند. مقايسه گفتار ورودي با الگوهاي آموزش داده شده جهت تشخيص واحدهاي آوايي موجود درگفتار ورودي، در فاز آزمون انجام مي‌گردد. همانگونه که در اين شکل نشان داده شده است، يک سيستم بازشناسي گفتار شامل دو جزء اصلي استخراج ويژگي‌ها و واحد مدل کردن (براي فاز آموزش) و به کارگيري مدل يا جستجو (براي فاز آزمون و استفاده) مي‌باشد. در اين ساختار هر کدام از واحدهاي مربوطه نيز خود به روش‌هاي مختلفي قابل انجام هستند. واحد استخراج ويژگي که گاهي آن را پيش‌پردازش نيز مي‌گويند، يکي از واحدهاي مورد نياز اغلب کاربردهاي بازشناسي الگو مي‌باشد. هدف اين واحد در سيستم‌هاي بازشناسي گفتار کاهش حجم محاسبات و حذف افزونگي‌هاي موجود در سيگنال گفتار با استخراج تعداد محدودي پارامتر از آن است. پارامترهاي استخراج شده توسط اين واحد بايستي متناسب با کاربرد مورد نظر باشد به اين معني که براي کاربرد بازشناسي گفتار مستقل از گوينده سعي شود پارامترهايي استخراج شود که حداقل حساسيت را به نحوه اداي آواهاي مختلف يک گفتار خاص از نظر کلام و گوينده داشته باشند. از طرفي براي کاربردهاي وابسته به گوينده مانند تشخيص هويت گوينده به کمک گفتار بهتر است واحد استخراج ويژگي پارامترهاي وابسته به گوينده مانند وابستگي به لحن، شکل و طول مسير صوتي ، طول گام و غيره را استخراج نمايد. از آنجا که کليه عمليات بعدي روي اين ويژگي‌ها انجام مي‌شود، بکارگيري يک روش توانا از عوامل موفقيت يک سيستم بازشناسي خواهد بود. با استفاده از روش‌هاي استخراج ويژگي سيگنال به پارامترهايي که آنها را بردارويژگي مي‌نامند تبديل مي‌شوند و کلاسه‌بندي روي اين پارامترها صورت مي‌گيرد. پارامترهاي مورد استفاده عمدتاً از طيف کوتاه و پنجره بندي شده سيگنال گفتار که همان فريم‌ها يا قاب‌ها هستند، بدست مي‌آيند. روش‌هاي مختلفي براي استخراج ويژگي وجود دارند که برخي از ايده توليد گفتار در سيستم صوتي انسان و برخي ديگر از ايده سيستم شنوايي بهره مي‌گيرند. از ميان روش‌هاي مختلف براي استخراج ويژگي، دو روش آناليز پيشگويي خطي (PLP) و ضرايب کپسترال فرکانسي در مقياس مل (MFCC) به نسبت ساير روش‌ها موفق‌تر و پرکاربردتر هستند.

در فاز آموزش معمولاً دو نوع مدل‌ آماده مي‌شود که در فاز آزمون از آنها استفاده شود، مدل‌هاي آوايي و مدل‌هاي زباني . استخراج مدل‌هاي آوايي از روي دادگان گفتاري و با استفاده از روش‌هاي مختلفي امکان‌پذير است که از مهمترين آنها مي‌توان روش‌هاي مدل انطباق زماني پويا يا DTW (که در گوشي‌هاي تلفن همراه براي شماره‌گيري صوتي با بيان نام فرد به کار مي‌رود)، شبکة عصبي مصنوعي (ANN) و مدل مخفي مارکوف (HMM) را نام برد. از ميان اين روش‌ها، مدل مخفي مارکوف به نسبت سايرين موفق‌تر عمل کرده و عمده سيستم‌هاي کاربردي امروزي از آن استفاده مي‌نمايند. به علاوه ترکيب روش‌هاي فوق نيز در برخي از سيستم‌ها استفاده شده است. مدل‌هاي زباني معمول مورد استفاده در سيستم‌هاي تشخيص گفتار امروزي شامل روش‌هاي گرامري و آماري هستند. در روش گرامري سعي مي‌شود که به جملات خروجي ساختار گرامري آن زبان (يا آن کاربرد خاص) اعمال شود و در روش آماري احتمال پشت سرهم آمدن کلمات (مثل مونوگرام يا احتمال وقوع کلمات در زبان، بايگرام يا آمار وقوع دو کلمه پشت سر هم در زبان و …) به عنوان مدل‌هاي زباني استخراج شده و مورد استفاده قرار مي‌گيرند. واژگان نيز از اجزاي اصلي مورد استفاده در سيستم‌هاي بازشناسي گفتار هستند که شامل ليست کلماتي است که توسط سيستم بازشناسي مي‌گردند. در واژگان‌هاي مورد استفاده در سيستم‌هاي بازشناسي گفتار پيوسته با تعداد واژگان زياد، علاوه بر ليست خود کلمات، اطلاعات مختلفي در مورد هر کلمه مانند احتمال وقوع آن در زبان، احتمال وقوع آن بعد از ساير کلمات، نقش (هاي) گرامري در جمله و … را نيز شامل مي‌شود. به اين گونه واژگان‌ها، واژگان محاسباتي گفته مي‌شود.
بعد از آموزش مدل‌ها و هنگام آزمون يا استفاده، بايستي از روي ويژگي‌هاي سيگنال، دنباله‌اي از آواهاي مرتبط تشخيص داده شود و سپس بايد براي دنباله آوايي پيدا شده بهترين دنباله کلمات مرتبط را پيدا کرد. به اين فرايند جستجو گفته مي‌شود. در يک سيستم بازشناسي گفتار پيوسته، با در اختيار داشتن مدل‌هاي آکوستيک واحدهاي آوايي، يافتن واحدهاي آوايي گفتار ورودي به يك مسألة جستجو تبديل مي‌شود، به طوري كه بهترين انطباق ممكن بين دنباله آوايي سيگنال ورودي و مدل‌هاي آکوستيک ايجاد شود. در هنگام جستجو، احتمال تعلق يا ميزان شباهت بردارهاي ويژگي گفتار ورودي، با مدل‌هاي مربوط به واحدهاي آوايي، محاسبه شده و از ميان محتمل‌ترين جواب‌ها دنباله‌هايي از واحدهاي آوايي به عنوان فرضيه شکل مي‌گيرد. فرضيه‌اي كه بيشترين امتياز را داشته باشد، ‌بهترين جواب خواهد بود. در يك جستجوي كامل كه همة فرضيه‌هاي ممکن مورد بررسي قرار مي‌گيرند، تعداد فرضيه‌ها با افزايش تعداد بردارهاي ويژگي گفتار ورودي، به طور نمايي افزايش پيدا مي‌كند، ار اينرو معمولاً از روش‌هاي جستجويي استفاده‌ مي‌شود که قادرند به جاي بررسي کل فضاي جستجو، تنها با بررسي قسمتي از فضاي جستجو، جواب خوبي بدهند. در بازشناسي گفتار پيوسته، روش‌هاي مختلفي براي جستجو وجود دارد. مشهورترين روش‌هاي جستجو عبارتند از: جستجوي ويتربي که بر مبناي الگوريتم ويتربي عمل مي‌کند، جستجوي ويتربي شعاعي که شکل کاراتري از جستجوي ويتربي است و جستجو بر مبناي پشته که بر مبناي الگوريتم جستجويA* عمل مي‌کند. در سيستم‌هاي با واژگان بزرگ و سيستم‌هايي که واحد آوايي آنها واحدهايي کوچک مثل واج يا هجا هستند، بايستي دنباله آنها به دنباله کلمات تبديل شود. از آن‌جايي که خروجي رمزگشاي آکوستيک، دنباله‌اي ناقص و خطادار از واج‌ها مي‌باشد، براي تبديل دنبالة واجي به دنبالة کلمات، نياز به يک مدل زباني و يک رمزگشاي زباني داريم. در تبديل دنبالة واجي به کلمات مي‌توان از دو رويکرد استفاده کرد. در حالت اول دنبالة واجي حاصل از رمزگشاي آکوستيکي به طور کامل تشکيل مي‌شود، سپس با استفاده از در خت واژگان و الگوريتم‌هاي جستجوي گراف، بهترين دنبالة کلمات متناظر با دنبالة واجي تشکيل مي‌گردد. در ريکرد دوم، همزمان با شکل‌گيري دنبالة واجي، بهترين دنبالة کلمه نيز با جستجو در يک درخت واژگان به دست مي‌آيد. استفاده از اطلاعات بيشتر زباني مانند اطلاعات آماري سطح بالاتر و استفاده از گرامر مي‌تواند نتايج بهتري را منجر شود. اين اطلاعات مي‌تواند هم روي دنباله کلمات نهايي براي امتياز دهي مجدد فرضيه‌ها استفاده شود و هم در حين ايجاد دنباله کلمات از روي دنباله واجي جهت جلوگيري از رشد فرضيه‌هاي نادرست و ضعيف بکار گرفته شود.
در آزمودن يک سيستم بازشناسي گفتار، ممکن است يکي از سه نوع خطاي حذف ، درج و جايگزيني اتفاق بيافتد. خطاي حذف زماني اتفاق مي‌افتد كه يك واحد آوايي (کلمه يا واج) در سيگنال گفتار وجود دارد ولي بازشناسي نمي‌شود. درخطاي درج، واحد آوايي بازشناسي شده در سيگنال گفتار وجود ندارد. اين نوع خطا معمولا در هنگام تشخيص نويز به جاي يک واحد آوايي پيش مي‌آيد. وقتي كه يك واحد آوايي به اشتباه به جاي يک واحد آوايي ديگري بازشناسي مي‌شود، خطاي جايگزيني رخ داده است. با توجه به اين خطاها، براي ارزيابي عملکرد سيستم‌هاي بازشناسي گفتار از چند معيار كارايي مي توان استفاده کرد که دقت و يا به طور معادل نرخ خطاي کلمات رايج‌ترين آنهاست. دقت بازشناسي معادل درصد تعداد کلماتي (براي واحد آوايي کلمه) است که سيستم بازشناسي آنها به درستي تشخيص داده است.

درباره رضا بخشی لاکتاسرائی

این جانب رضا بخشی متولد 14 تیر سال 1372 از شهرستان رضوانشهر استان گیلان می باشم. در یک خانواده فرهنگی رشد کرده ام و پدر و مادرم و اکثر اعضای فامیل پدریم مشغول به کار در آموزش و پرورش می باشند. دوره ابتدایی را در مدرسه شهید اندرزگو شهرستان رضوانشهر، راهنمایی را در مدرسه بیاضیان شهر قزوین و دوره دبیرستانم را نیز در مدرسه شهید محبی تهران گذرانده ام و فارق التحصیل رشته مترجمی زبان انگلیسی از دانشگاه آزاد واحد رشت هستم و هم اکنون نیز مشغول به تحصیل در رشته آموزش زبان انگلیسی در دانشگاه آزاد تهران مرکز می باشم. آشنایی من با رایانه و تلفن همراه با خرید گوشی Nokia 6103 مادرم در دوره راهنمایی آغاز شد و با خرید گوشی Nokia 6120 classic در سال دوم دبیرستان به اوج خودش رسید. در دوره پیش‌دانشگاهی دارای رایانه شخصی شدم و نحوه کار با رایانه را با خودآموز های مختلف از جمله انجمن موج نور اصفهان، جستجو در موتور جستجوگر گوگل و پرسش و پاسخ از دوستان نزدیک فرا گرفته ام. در حال حاضر دارای مدرک ICDL درجه 2 از سازمان فنی و حرفه‌ای کشور و مدارکی نظیر آشنایی با رایانه (EqualSkills)، استفاده از رایانه و مدیریت پرونده ها(Using the Computers and Managing Files)، آشنایی با مفاهیم فنآوری ارتباطات و اطلاعات (Concepts of Information and Communication Technology (ICT))از بنیاد ICDL ایران و مدرک تایپ با صفحه کلید (Typing & Keyboarding)و نحوه استفاده از نرم افزار صفحه گسترده Excel (Using Excel) از مؤسسه Hadley آمریکا می باشم. از علاقه مندی های من می توان به گوش دادن به موسیقی های پاپ کلاسیک و سنتی، خواندن خبر های مربوط به حوزه فنآوری، خواندن داستان و رمان های انگلیسی اشاره کرد. علاقه مند به آموزش دادن و یاد گرفتن هستم و از آموزش دادن به شدت لذت می برم چون در آموزش دادن، بیشتر از آن که آموزش بدهم، یاد می گیرم. به امید زندگی لذت بخش و آسانتر رضا بخشی لاکتاسرائی
این نوشته در مقاله ها ارسال و , , , , برچسب شده است. افزودن پیوند یکتا به علاقه‌مندی‌ها.

دیدگاهتان را بنویسید