sinteza de vorbire, de recunoaștere a vorbirii - semnale de vorbire de procesare

text-to-speech

Figura 2.2 - acustică Signal Processing

Tehnologia de sinteză de vorbire a fost utilizat pe scară largă pentru persoanele cu probleme de vedere. Pentru toți ceilalți, se creează o nouă dimensiune de comoditate și tehnologie reduce în mod semnificativ sarcina asupra ochilor, sistemului nervos vă permite să utilizați memoria auditivă.

Figura 2.3 - Speech Sinteza

Orice text este format din cuvinte separate prin spații și semne de punctuație. Spunând cuvintele depinde de poziția lor în propoziția și intonația fraze - de la semnele de punctuație. În cele din urmă, enunțului depinde de sensul cuvântului! Prin urmare, în scopul de a sintetiza vorbire sunat naturale, aveți nevoie pentru a rezolva o serie de probleme legate atât furnizarea de voce naturale la nivelul de netezime a sunetului și intonație, precum și plasarea corectă a accente, acronime descifrare, numere, abrevieri și semne speciale care să permită gramatica română limbă.

Există mai multe abordări pentru rezolvarea problemelor:

1) sistem de sinteză alofon - oferă un sunet stabil, dar nu este natural, robotizate;

2) sisteme care se bazează pe Selecție unitate de abordare - oferă un sunet mult mai natural, dar pot conține fragmente cu eșecuri ascuțite de calitate vorbire, până la pierderea inteligibilității;

3) Tehnologia hibridă bazată pe sinteza alofon Selection Unitate de abordare și unitățile suplimentați.

Pe baza acestei tehnologii a fost stabilit sistemul VitalVoice, care asigură un nivel acustic stabil și natural-sondare.

recunoașterea vorbirii

Discursul de comunicare este un natural si confortabil pentru om. sarcina de recunoaștere a vorbirii este faptul că pentru a elimina intermediarul în dialogul dintre om și calculator. viata de control masina de voce în timp real, precum și informații de intrare prin vorbire umană mult mai ușoară a omului modern. Învățați-o mașină fără să înțeleagă limbajul intermediar, care este vorbită de oameni între ei - sarcina de recunoaștere a vorbirii.

Oamenii de știință și ingineri pentru mulți ani de a rezolva problema de comunicare verbală între om și mașină. Primul dispozitiv de recunoaștere a vorbirii a venit în 1952, s-ar putea recunoaște om rostit cifre. Comercial program de recunoaștere a vorbirii a început la începutul anilor nouăzeci.

Toate sistemele de recunoaștere a vorbirii pot fi împărțite în două clase:

1) sisteme care depind de vorbitor - sunt setate la întrebarea crainicului în procesul de învățare. Pentru a lucra cu un alt radiodifuzor, astfel de sisteme necesită o reconfigurare completă.

Figura 2.4 - Recunoaștere vorbire

2) sisteme care sunt independente de vorbitor - lucrarea este independentă de difuzor. Astfel de sisteme nu necesită pregătire prealabilă și care sunt capabili să recunoască discursul oricărui vorbitor.

Inițial a apărut pe piață sistemul de primul tip. Ei sunet de imagine păstrat echipa sub forma unei referință holistică. Pentru comparație rostirii necunoscute și echipa folosit metodele standard de programare dinamică. Aceste sisteme funcționează bine în recunoașterea seturi mici de 10-30 comenzi și înțelege numai un singur difuzor. Pentru a lucra cu un alt radiodifuzor, aceste sisteme necesită o reconfigurare completă.

Pentru a realiza discursul Conjoint, a fost necesar pentru a merge la dicționar mult mai mare, de la câteva zeci până la sute de mii de cuvinte. Metodele utilizate în sistemele de primul tip nu sunt potrivite pentru această sarcină, pentru că este pur și simplu imposibil să se stabilească standarde pentru un astfel de număr mare de cuvinte.

În plus, a existat dorința de a face ca sistemul independent de difuzor. Aceasta este o sarcină foarte dificilă, pentru că fiecare persoană are un stil individual de enunț: rata de vorbire, tonul vocii, în special pronunțat. Astfel de diferențe sunt numite variabilitatea vorbirii. Pentru a lua în considerare, au fost propuse noi metode statistice, bazate în principal pe aparate matematice ascunse Modele Markov (HMM) și rețele neuronale artificiale. În loc de a crea standarde pentru fiecare cuvânt pentru a crea maestru sunete individuale care alcătuiesc cuvinte, așa-numitele modele acustice. Modelele acustice generate de prelucrarea statistică a bazelor de date de vorbire de mari dimensiuni care conțin înregistrări vocale de sute de oameni.

Sistemele existente de recunoaștere vocală utilizează două abordări fundamental diferite:

- Recunoașterea etichete vocale

Trebuie remarcat faptul că crearea de sisteme de recunoaștere vocală este o sarcină extrem de dificilă.