توليد گفتار از روي متن و سيستمهاي تبديل متن به گفتار(TTS: Text-to-Speech)يكي از زمينههاي مهم و بسيار کاربردي در پردازش سيگنال گفتار ميباشد. سيستم تبديل متن به گفتار يا سنتز گفتار يك سيستم خودكار كامپيوتري است كه قابليت قرائت هر متني را به صورت طبيعي داشته باشد. اين سيستمها که کاربردهاي زيادي دارند، ميتوانند براي نابينايان بسيار مفيد باشند. سيستمهاي TTSافراد نابينا را قادر ميسازند تا بتوانند به منابع مختلف اطلاعاتي دسترسي پيدا کنند، منابعي مانند کتابها، نشريات و روزنامهها، سايتهاي اينترنتي، منابع آموزشي مختلف و … . اين مساله باعث ميشود که دنياي نابينايان متحول گردد و بتوانند با دسترسي به منابع مختلف هم مشکل انزواي خود را حل نمايند و هم در بعد آموزش و يادگيري نيز پيشرفت بيشتري داشته باشند.
براي توليد گفتار در TTSبايستي از روشها و الگوريتمهايي جهت خواندن متون استفاده شود چراکه ذخيرهسازي تمامي كلمات يك زبان (با توجه به تعداد بسيار زياد كلمات و رشد هميشگي آن) غيرممكن و در راستاي توليد گفتار طبيعي بيفايده خواهد بود. “زير و بمي” يا تغييرات فركانس گام، “ديرش”، “شدت” و نيز “درنگ” چهار عنصر نوايي گفتار هستند كه معمولاً در سطوح مختلف اعم از هجا، واژه يا جمله اثر خود را نشان ميدهند و در سيستمهاي TTSبايستي گنجانده شوند.
. اساساً تمامي سيستمهاي تبديل متن به گفتار داراي دو بخش اصلي هستند که عبارتند از:
۱- استخراج اطلاعات آوايي و ساير اطلاعات زباني مانند تکيه و نوا از متن ورودي. (مبدل متن به دنبالة آوايي)
2- تبديل اين اطلاعات آوايي به شکل موج گفتار. (سنتز گفتار)
دو رويکرد رايج براي توليد گفتار وجود دارد، اولي روش سنتز مبتني بر قاعده است كه در آن پارامترهاي مشخصه گفتار در هر بازة زماني توسط مجموعهاي از قواعد توليد ميشوند و بعدي روش اتصال قطعات گفتار كه در آن واحدهاي از پيش ذخيره شده صوتي براي توليد عبارتي دلخواه در كنار هم چيده ميشوند. نمونه مشهور سنتز كنندههاي مبتني بر قاعده، Klattو مدل تجاريتر آن DECTalk ميباشد.
در زبان فارسي نيز کارهاي تحقيقاتي و پروژههاي مختلفي در زمينه TTSانجام شده است. نتيجه يکي از اين فعاليتها، طراحي و ساخت نرمافزار تبديل متون فارسي به گفتار توسط متخصصين هوش مصنوعي از شرکت عصر گويش پرداز (آزمايشگاه پردازش گفتار در دانشگاه صنعتي شريف) است. اين نرمافزار نخستين نرمافزار قدرتمند تبديل متن به گفتار (Text-to-Speech) در زبان فارسي است که قادر است متون فارسي را با تبديل به گفتار طبيعي بخواند. اگرچه اين نرمافزار ميتواند با اهداف مختلفي به کار رود اما يکي از مهمترين کاربردهاي آن، خواندن متون رايانهاي براي افراد نابينا و کمبينا است که آنها را قادر به ايجاد تعامل با رايانهها ميکند. اين نرمافزار به عنوان يک قابليت به نرمافزار صفحهخوان جاوز (Jaws) که ويژه نابينايان است، اضافه شده است که باعث ميشود کليه متون کتابها، اخبار، نشريات و روزنامهها، نامههاي الکترونيکي، سايتهاي اينترنتي، منابع آموزشي مختلف و … خوانده شود. اين قابليت امکان مطالعه منايع مختلف را براي نابينايان فراهم نموده، آنها را قادر به استفاده از رايانه کرده و امکان آموزش و يادگيري را براي آنها فراهم مينمايد.
از قابليتهاي اين نرمافزار ميتوان به مواردي زير اشاره کرد: توليد گفتار طبيعي با کيفيت بالا، سرعت بالا در توليد گفتار، قابليت خواندن کليه انواع متون از جمله اعداد و کلمات غيرفارسي، سازگاري کامل با نرمافزار صفحهخوان JAWS(با قابليت خواندن متون در فرمتهاي مختلف مانند HTML، Word، PDFو …)، قابل استفاده به صورت ماژول و SDKدر نرمافزارهاي ديگر و قابليت اختصاصي شدن براي کاربردهاي خاص به منظور افزايش کيفيت.
همچنين، افراد عادي نيز ميتوانند از اين قابليت در خواندن متون مختلف الکترونيکي مانند صفحات سايتها، کتابهاي الکترونيکي، نامههاي اکترونيکي و … (بدون آنکه به صفحه نمايش نگاه کنند) استفاده نمايند. شرکتهاي ارائه دهندگان سرويسهاي اطلاعرساني (مانند تلفنهاي گويا، سايتهاي خبري و …) و توليدکنندگان کتابهاي الکترونيکي ميتوانند با کمک اين نرمافزار، متون خود به صوت تبديل نمايند و از انعطاف تغيير دادن متون (به جاي صداهاي از قبل ضبط شده) و کاهش هزينههاي ناشي از ضبط صدا بهرهمند گردند.
يادآور ميشود که متخصصين خلاق اين شرکت، قبلاً نرمافزار مکمل اين سامانه را که براي تبديل گفتار به نوشتار فارسي بود طراحي و عرضه کردهاند که با استفاده از آن، کاربر ميتواند با خواندن متون فارسي آن را تايپ نمايد.
یک پاسخ به «آريانا: نرمافزار تبديل متن به گـفتار فارسي»
خبر ویژه
خدمت دوستانی که امکان استفاده از تلگرام را دارند عرض کنم ربات تلگرام متن خوان آریانا عرضه شد. برای دسترسی به آن به آدرس @Agparianabot در تلگرام مراجعه نمایید.
محمدرضا حسینیان
مدیر اجرایی شرکت عصر گویش پرداز