سيستم‌هاي تشخيص گفتار چگونه عمل مي‌کنند؟

رويکردهاي مختلفي براي بازشناسي گفتار وجود دارد که موفق‌ترين آنها رويکرد مبتني تشخيص الگو است و تقريباً تمامي سيستم‌هاي موفق امروزي بر اساس آن عمل مي‌کنند. در اين رويکرد گفتار به کمک تعدادي واحد آوايي (مانند کلمه ، هجا ، سه واجي يا واج ) مدل مي‌شود و براي بازشناسي نيز از تشخيص اين واحدها و کنار هم قرار دادن آنها، متن متناسب با گفتار تشخيص داده مي‌شود. در شکل 1 ساختار مرسوم براي يک سيستم بازشناسي گفتار (با رويکرد تشخيص الگو) نشان داده شده است. سيستم‌هاي بازشناسي گفتاري که از اين رويکرد استفاده مي‌کنند، داراي دو فاز آموزش و آزمون مي‌باشند. در فاز آموزش الگوهاي مربوط به هرکلاس که همان واحدهاي آوايي هستند، با استفاده از روش‌هايي مدل‌سازي مي‌شوند. مقايسه گفتار ورودي با الگوهاي آموزش داده شده جهت تشخيص واحدهاي آوايي موجود درگفتار ورودي، در فاز آزمون انجام مي‌گردد. همانگونه که در اين شکل نشان داده شده است، يک سيستم بازشناسي گفتار شامل دو جزء اصلي استخراج ويژگي‌ها و واحد مدل کردن (براي فاز آموزش) و به کارگيري مدل يا جستجو (براي فاز آزمون و استفاده) مي‌باشد. در اين ساختار هر کدام از واحدهاي مربوطه نيز خود به روش‌هاي مختلفي قابل انجام هستند. واحد استخراج ويژگي که گاهي آن را پيش‌پردازش نيز مي‌گويند، يکي از واحدهاي مورد نياز اغلب کاربردهاي بازشناسي الگو مي‌باشد. هدف اين واحد در سيستم‌هاي بازشناسي گفتار کاهش حجم محاسبات و حذف افزونگي‌هاي موجود در سيگنال گفتار با استخراج تعداد محدودي پارامتر از آن است. پارامترهاي استخراج شده توسط اين واحد بايستي متناسب با کاربرد مورد نظر باشد به اين معني که براي کاربرد بازشناسي گفتار مستقل از گوينده سعي شود پارامترهايي استخراج شود که حداقل حساسيت را به نحوه اداي آواهاي مختلف يک گفتار خاص از نظر کلام و گوينده داشته باشند. از طرفي براي کاربردهاي وابسته به گوينده مانند تشخيص هويت گوينده به کمک گفتار بهتر است واحد استخراج ويژگي پارامترهاي وابسته به گوينده مانند وابستگي به لحن، شکل و طول مسير صوتي ، طول گام و غيره را استخراج نمايد. از آنجا که کليه عمليات بعدي روي اين ويژگي‌ها انجام مي‌شود، بکارگيري يک روش توانا از عوامل موفقيت يک سيستم بازشناسي خواهد بود. با استفاده از روش‌هاي استخراج ويژگي سيگنال به پارامترهايي که آنها را بردارويژگي مي‌نامند تبديل مي‌شوند و کلاسه‌بندي روي اين پارامترها صورت مي‌گيرد. پارامترهاي مورد استفاده عمدتاً از طيف کوتاه و پنجره بندي شده سيگنال گفتار که همان فريم‌ها يا قاب‌ها هستند، بدست مي‌آيند. روش‌هاي مختلفي براي استخراج ويژگي وجود دارند که برخي از ايده توليد گفتار در سيستم صوتي انسان و برخي ديگر از ايده سيستم شنوايي بهره مي‌گيرند. از ميان روش‌هاي مختلف براي استخراج ويژگي، دو روش آناليز پيشگويي خطي (PLP) و ضرايب کپسترال فرکانسي در مقياس مل (MFCC) به نسبت ساير روش‌ها موفق‌تر و پرکاربردتر هستند.

در فاز آموزش معمولاً دو نوع مدل‌ آماده مي‌شود که در فاز آزمون از آنها استفاده شود، مدل‌هاي آوايي و مدل‌هاي زباني . استخراج مدل‌هاي آوايي از روي دادگان گفتاري و با استفاده از روش‌هاي مختلفي امکان‌پذير است که از مهمترين آنها مي‌توان روش‌هاي مدل انطباق زماني پويا يا DTW (که در گوشي‌هاي تلفن همراه براي شماره‌گيري صوتي با بيان نام فرد به کار مي‌رود)، شبکة عصبي مصنوعي (ANN) و مدل مخفي مارکوف (HMM) را نام برد. از ميان اين روش‌ها، مدل مخفي مارکوف به نسبت سايرين موفق‌تر عمل کرده و عمده سيستم‌هاي کاربردي امروزي از آن استفاده مي‌نمايند. به علاوه ترکيب روش‌هاي فوق نيز در برخي از سيستم‌ها استفاده شده است. مدل‌هاي زباني معمول مورد استفاده در سيستم‌هاي تشخيص گفتار امروزي شامل روش‌هاي گرامري و آماري هستند. در روش گرامري سعي مي‌شود که به جملات خروجي ساختار گرامري آن زبان (يا آن کاربرد خاص) اعمال شود و در روش آماري احتمال پشت سرهم آمدن کلمات (مثل مونوگرام يا احتمال وقوع کلمات در زبان، بايگرام يا آمار وقوع دو کلمه پشت سر هم در زبان و …) به عنوان مدل‌هاي زباني استخراج شده و مورد استفاده قرار مي‌گيرند. واژگان نيز از اجزاي اصلي مورد استفاده در سيستم‌هاي بازشناسي گفتار هستند که شامل ليست کلماتي است که توسط سيستم بازشناسي مي‌گردند. در واژگان‌هاي مورد استفاده در سيستم‌هاي بازشناسي گفتار پيوسته با تعداد واژگان زياد، علاوه بر ليست خود کلمات، اطلاعات مختلفي در مورد هر کلمه مانند احتمال وقوع آن در زبان، احتمال وقوع آن بعد از ساير کلمات، نقش (هاي) گرامري در جمله و … را نيز شامل مي‌شود. به اين گونه واژگان‌ها، واژگان محاسباتي گفته مي‌شود.
بعد از آموزش مدل‌ها و هنگام آزمون يا استفاده، بايستي از روي ويژگي‌هاي سيگنال، دنباله‌اي از آواهاي مرتبط تشخيص داده شود و سپس بايد براي دنباله آوايي پيدا شده بهترين دنباله کلمات مرتبط را پيدا کرد. به اين فرايند جستجو گفته مي‌شود. در يک سيستم بازشناسي گفتار پيوسته، با در اختيار داشتن مدل‌هاي آکوستيک واحدهاي آوايي، يافتن واحدهاي آوايي گفتار ورودي به يك مسألة جستجو تبديل مي‌شود، به طوري كه بهترين انطباق ممكن بين دنباله آوايي سيگنال ورودي و مدل‌هاي آکوستيک ايجاد شود. در هنگام جستجو، احتمال تعلق يا ميزان شباهت بردارهاي ويژگي گفتار ورودي، با مدل‌هاي مربوط به واحدهاي آوايي، محاسبه شده و از ميان محتمل‌ترين جواب‌ها دنباله‌هايي از واحدهاي آوايي به عنوان فرضيه شکل مي‌گيرد. فرضيه‌اي كه بيشترين امتياز را داشته باشد، ‌بهترين جواب خواهد بود. در يك جستجوي كامل كه همة فرضيه‌هاي ممکن مورد بررسي قرار مي‌گيرند، تعداد فرضيه‌ها با افزايش تعداد بردارهاي ويژگي گفتار ورودي، به طور نمايي افزايش پيدا مي‌كند، ار اينرو معمولاً از روش‌هاي جستجويي استفاده‌ مي‌شود که قادرند به جاي بررسي کل فضاي جستجو، تنها با بررسي قسمتي از فضاي جستجو، جواب خوبي بدهند. در بازشناسي گفتار پيوسته، روش‌هاي مختلفي براي جستجو وجود دارد. مشهورترين روش‌هاي جستجو عبارتند از: جستجوي ويتربي که بر مبناي الگوريتم ويتربي عمل مي‌کند، جستجوي ويتربي شعاعي که شکل کاراتري از جستجوي ويتربي است و جستجو بر مبناي پشته که بر مبناي الگوريتم جستجويA* عمل مي‌کند. در سيستم‌هاي با واژگان بزرگ و سيستم‌هايي که واحد آوايي آنها واحدهايي کوچک مثل واج يا هجا هستند، بايستي دنباله آنها به دنباله کلمات تبديل شود. از آن‌جايي که خروجي رمزگشاي آکوستيک، دنباله‌اي ناقص و خطادار از واج‌ها مي‌باشد، براي تبديل دنبالة واجي به دنبالة کلمات، نياز به يک مدل زباني و يک رمزگشاي زباني داريم. در تبديل دنبالة واجي به کلمات مي‌توان از دو رويکرد استفاده کرد. در حالت اول دنبالة واجي حاصل از رمزگشاي آکوستيکي به طور کامل تشکيل مي‌شود، سپس با استفاده از در خت واژگان و الگوريتم‌هاي جستجوي گراف، بهترين دنبالة کلمات متناظر با دنبالة واجي تشکيل مي‌گردد. در ريکرد دوم، همزمان با شکل‌گيري دنبالة واجي، بهترين دنبالة کلمه نيز با جستجو در يک درخت واژگان به دست مي‌آيد. استفاده از اطلاعات بيشتر زباني مانند اطلاعات آماري سطح بالاتر و استفاده از گرامر مي‌تواند نتايج بهتري را منجر شود. اين اطلاعات مي‌تواند هم روي دنباله کلمات نهايي براي امتياز دهي مجدد فرضيه‌ها استفاده شود و هم در حين ايجاد دنباله کلمات از روي دنباله واجي جهت جلوگيري از رشد فرضيه‌هاي نادرست و ضعيف بکار گرفته شود.
در آزمودن يک سيستم بازشناسي گفتار، ممکن است يکي از سه نوع خطاي حذف ، درج و جايگزيني اتفاق بيافتد. خطاي حذف زماني اتفاق مي‌افتد كه يك واحد آوايي (کلمه يا واج) در سيگنال گفتار وجود دارد ولي بازشناسي نمي‌شود. درخطاي درج، واحد آوايي بازشناسي شده در سيگنال گفتار وجود ندارد. اين نوع خطا معمولا در هنگام تشخيص نويز به جاي يک واحد آوايي پيش مي‌آيد. وقتي كه يك واحد آوايي به اشتباه به جاي يک واحد آوايي ديگري بازشناسي مي‌شود، خطاي جايگزيني رخ داده است. با توجه به اين خطاها، براي ارزيابي عملکرد سيستم‌هاي بازشناسي گفتار از چند معيار كارايي مي توان استفاده کرد که دقت و يا به طور معادل نرخ خطاي کلمات رايج‌ترين آنهاست. دقت بازشناسي معادل درصد تعداد کلماتي (براي واحد آوايي کلمه) است که سيستم بازشناسي آنها به درستي تشخيص داده است.

رضا بخشی لاکتاسرائی

درباره رضا بخشی لاکتاسرائی

سلام، من متولد 14/04/1372 در شهرستان رضوانشهر استان گیلان هستم. من دوره های تحصیلی مدرسه ام را در شهر های رضوانشهر، قزوین، تهران گذرانده ام. من در دوره دبیرستان، با تلفن همراه و رایانه آشنا شدم.
این نوشته در مقاله ها ارسال و , , , , برچسب شده است. افزودن پیوند یکتا به علاقه‌مندی‌ها.

دیدگاهتان را بنویسید