رويکردهاي مختلفي براي بازشناسي گفتار وجود دارد که موفقترين آنها رويکرد مبتني تشخيص الگو است و تقريباً تمامي سيستمهاي موفق امروزي بر اساس آن عمل ميکنند. در اين رويکرد گفتار به کمک تعدادي واحد آوايي (مانند کلمه ، هجا ، سه واجي يا واج ) مدل ميشود و براي بازشناسي نيز از تشخيص اين واحدها و کنار هم قرار دادن آنها، متن متناسب با گفتار تشخيص داده ميشود. در شکل 1 ساختار مرسوم براي يک سيستم بازشناسي گفتار (با رويکرد تشخيص الگو) نشان داده شده است. سيستمهاي بازشناسي گفتاري که از اين رويکرد استفاده ميکنند، داراي دو فاز آموزش و آزمون ميباشند. در فاز آموزش الگوهاي مربوط به هرکلاس که همان واحدهاي آوايي هستند، با استفاده از روشهايي مدلسازي ميشوند. مقايسه گفتار ورودي با الگوهاي آموزش داده شده جهت تشخيص واحدهاي آوايي موجود درگفتار ورودي، در فاز آزمون انجام ميگردد. همانگونه که در اين شکل نشان داده شده است، يک سيستم بازشناسي گفتار شامل دو جزء اصلي استخراج ويژگيها و واحد مدل کردن (براي فاز آموزش) و به کارگيري مدل يا جستجو (براي فاز آزمون و استفاده) ميباشد. در اين ساختار هر کدام از واحدهاي مربوطه نيز خود به روشهاي مختلفي قابل انجام هستند. واحد استخراج ويژگي که گاهي آن را پيشپردازش نيز ميگويند، يکي از واحدهاي مورد نياز اغلب کاربردهاي بازشناسي الگو ميباشد. هدف اين واحد در سيستمهاي بازشناسي گفتار کاهش حجم محاسبات و حذف افزونگيهاي موجود در سيگنال گفتار با استخراج تعداد محدودي پارامتر از آن است. پارامترهاي استخراج شده توسط اين واحد بايستي متناسب با کاربرد مورد نظر باشد به اين معني که براي کاربرد بازشناسي گفتار مستقل از گوينده سعي شود پارامترهايي استخراج شود که حداقل حساسيت را به نحوه اداي آواهاي مختلف يک گفتار خاص از نظر کلام و گوينده داشته باشند. از طرفي براي کاربردهاي وابسته به گوينده مانند تشخيص هويت گوينده به کمک گفتار بهتر است واحد استخراج ويژگي پارامترهاي وابسته به گوينده مانند وابستگي به لحن، شکل و طول مسير صوتي ، طول گام و غيره را استخراج نمايد. از آنجا که کليه عمليات بعدي روي اين ويژگيها انجام ميشود، بکارگيري يک روش توانا از عوامل موفقيت يک سيستم بازشناسي خواهد بود. با استفاده از روشهاي استخراج ويژگي سيگنال به پارامترهايي که آنها را بردارويژگي مينامند تبديل ميشوند و کلاسهبندي روي اين پارامترها صورت ميگيرد. پارامترهاي مورد استفاده عمدتاً از طيف کوتاه و پنجره بندي شده سيگنال گفتار که همان فريمها يا قابها هستند، بدست ميآيند. روشهاي مختلفي براي استخراج ويژگي وجود دارند که برخي از ايده توليد گفتار در سيستم صوتي انسان و برخي ديگر از ايده سيستم شنوايي بهره ميگيرند. از ميان روشهاي مختلف براي استخراج ويژگي، دو روش آناليز پيشگويي خطي (PLP) و ضرايب کپسترال فرکانسي در مقياس مل (MFCC) به نسبت ساير روشها موفقتر و پرکاربردتر هستند.
در فاز آموزش معمولاً دو نوع مدل آماده ميشود که در فاز آزمون از آنها استفاده شود، مدلهاي آوايي و مدلهاي زباني . استخراج مدلهاي آوايي از روي دادگان گفتاري و با استفاده از روشهاي مختلفي امکانپذير است که از مهمترين آنها ميتوان روشهاي مدل انطباق زماني پويا يا DTW (که در گوشيهاي تلفن همراه براي شمارهگيري صوتي با بيان نام فرد به کار ميرود)، شبکة عصبي مصنوعي (ANN) و مدل مخفي مارکوف (HMM) را نام برد. از ميان اين روشها، مدل مخفي مارکوف به نسبت سايرين موفقتر عمل کرده و عمده سيستمهاي کاربردي امروزي از آن استفاده مينمايند. به علاوه ترکيب روشهاي فوق نيز در برخي از سيستمها استفاده شده است. مدلهاي زباني معمول مورد استفاده در سيستمهاي تشخيص گفتار امروزي شامل روشهاي گرامري و آماري هستند. در روش گرامري سعي ميشود که به جملات خروجي ساختار گرامري آن زبان (يا آن کاربرد خاص) اعمال شود و در روش آماري احتمال پشت سرهم آمدن کلمات (مثل مونوگرام يا احتمال وقوع کلمات در زبان، بايگرام يا آمار وقوع دو کلمه پشت سر هم در زبان و …) به عنوان مدلهاي زباني استخراج شده و مورد استفاده قرار ميگيرند. واژگان نيز از اجزاي اصلي مورد استفاده در سيستمهاي بازشناسي گفتار هستند که شامل ليست کلماتي است که توسط سيستم بازشناسي ميگردند. در واژگانهاي مورد استفاده در سيستمهاي بازشناسي گفتار پيوسته با تعداد واژگان زياد، علاوه بر ليست خود کلمات، اطلاعات مختلفي در مورد هر کلمه مانند احتمال وقوع آن در زبان، احتمال وقوع آن بعد از ساير کلمات، نقش (هاي) گرامري در جمله و … را نيز شامل ميشود. به اين گونه واژگانها، واژگان محاسباتي گفته ميشود.
بعد از آموزش مدلها و هنگام آزمون يا استفاده، بايستي از روي ويژگيهاي سيگنال، دنبالهاي از آواهاي مرتبط تشخيص داده شود و سپس بايد براي دنباله آوايي پيدا شده بهترين دنباله کلمات مرتبط را پيدا کرد. به اين فرايند جستجو گفته ميشود. در يک سيستم بازشناسي گفتار پيوسته، با در اختيار داشتن مدلهاي آکوستيک واحدهاي آوايي، يافتن واحدهاي آوايي گفتار ورودي به يك مسألة جستجو تبديل ميشود، به طوري كه بهترين انطباق ممكن بين دنباله آوايي سيگنال ورودي و مدلهاي آکوستيک ايجاد شود. در هنگام جستجو، احتمال تعلق يا ميزان شباهت بردارهاي ويژگي گفتار ورودي، با مدلهاي مربوط به واحدهاي آوايي، محاسبه شده و از ميان محتملترين جوابها دنبالههايي از واحدهاي آوايي به عنوان فرضيه شکل ميگيرد. فرضيهاي كه بيشترين امتياز را داشته باشد، بهترين جواب خواهد بود. در يك جستجوي كامل كه همة فرضيههاي ممکن مورد بررسي قرار ميگيرند، تعداد فرضيهها با افزايش تعداد بردارهاي ويژگي گفتار ورودي، به طور نمايي افزايش پيدا ميكند، ار اينرو معمولاً از روشهاي جستجويي استفاده ميشود که قادرند به جاي بررسي کل فضاي جستجو، تنها با بررسي قسمتي از فضاي جستجو، جواب خوبي بدهند. در بازشناسي گفتار پيوسته، روشهاي مختلفي براي جستجو وجود دارد. مشهورترين روشهاي جستجو عبارتند از: جستجوي ويتربي که بر مبناي الگوريتم ويتربي عمل ميکند، جستجوي ويتربي شعاعي که شکل کاراتري از جستجوي ويتربي است و جستجو بر مبناي پشته که بر مبناي الگوريتم جستجويA* عمل ميکند. در سيستمهاي با واژگان بزرگ و سيستمهايي که واحد آوايي آنها واحدهايي کوچک مثل واج يا هجا هستند، بايستي دنباله آنها به دنباله کلمات تبديل شود. از آنجايي که خروجي رمزگشاي آکوستيک، دنبالهاي ناقص و خطادار از واجها ميباشد، براي تبديل دنبالة واجي به دنبالة کلمات، نياز به يک مدل زباني و يک رمزگشاي زباني داريم. در تبديل دنبالة واجي به کلمات ميتوان از دو رويکرد استفاده کرد. در حالت اول دنبالة واجي حاصل از رمزگشاي آکوستيکي به طور کامل تشکيل ميشود، سپس با استفاده از در خت واژگان و الگوريتمهاي جستجوي گراف، بهترين دنبالة کلمات متناظر با دنبالة واجي تشکيل ميگردد. در ريکرد دوم، همزمان با شکلگيري دنبالة واجي، بهترين دنبالة کلمه نيز با جستجو در يک درخت واژگان به دست ميآيد. استفاده از اطلاعات بيشتر زباني مانند اطلاعات آماري سطح بالاتر و استفاده از گرامر ميتواند نتايج بهتري را منجر شود. اين اطلاعات ميتواند هم روي دنباله کلمات نهايي براي امتياز دهي مجدد فرضيهها استفاده شود و هم در حين ايجاد دنباله کلمات از روي دنباله واجي جهت جلوگيري از رشد فرضيههاي نادرست و ضعيف بکار گرفته شود.
در آزمودن يک سيستم بازشناسي گفتار، ممکن است يکي از سه نوع خطاي حذف ، درج و جايگزيني اتفاق بيافتد. خطاي حذف زماني اتفاق ميافتد كه يك واحد آوايي (کلمه يا واج) در سيگنال گفتار وجود دارد ولي بازشناسي نميشود. درخطاي درج، واحد آوايي بازشناسي شده در سيگنال گفتار وجود ندارد. اين نوع خطا معمولا در هنگام تشخيص نويز به جاي يک واحد آوايي پيش ميآيد. وقتي كه يك واحد آوايي به اشتباه به جاي يک واحد آوايي ديگري بازشناسي ميشود، خطاي جايگزيني رخ داده است. با توجه به اين خطاها، براي ارزيابي عملکرد سيستمهاي بازشناسي گفتار از چند معيار كارايي مي توان استفاده کرد که دقت و يا به طور معادل نرخ خطاي کلمات رايجترين آنهاست. دقت بازشناسي معادل درصد تعداد کلماتي (براي واحد آوايي کلمه) است که سيستم بازشناسي آنها به درستي تشخيص داده است.