Programare computer de recunoaștere a vorbirii. O prezentare generală a tehnologiilor de recunoaștere a vocii și a modului de utilizare. Intrare vocală online

Iată patru moduri de a converti vorbirea în text folosind programe și aplicații gratuite.

Convertiți vorbirea în text direct în Word

Cu Microsoft Dictate, puteți dicta și chiar traduce text direct în Word.

  • Descărcați și instalați programul gratuit Microsoft Dictate.
  • Apoi deschideți-l - va apărea fila Dictare în ea. Făcând clic pe el, veți vedea o pictogramă de microfon cu comanda Start.
  • În apropiere este alegerea limbii. Selectați limba rusă și începeți înregistrarea. Încercați să pronunți cuvintele cât mai clar posibil și vor apărea chiar în document.

Transformarea vorbirii în text cu Rostiți un mesaj

Program gratuit Speak A Message înregistrează textul vorbit și apoi îl transcrie. Principalele limbi ale programului sunt engleză, germană, spaniolă și franceză, dar există și o versiune multilingvă.

  • Instalați programul și faceți clic pe butonul „Înregistrare”. Rostiți întregul text, apoi faceți clic pe Stop.
  • Sub butonul de înregistrare, lângă fișierele înregistrate, veți găsi funcția „Transcriere” - „Vorbit în text”.
  • Copiați textul terminat și inserați-l în editorul de text dorit. Dar nu uitați să verificați ce a notat programul - uneori face greșeli.

Convertiți vorbirea în text fără software special

ÎN sistem de operare Windows 8 și 10 nu aveți nevoie de niciun software suplimentar voce-text.

  • Apăsați tasta Windows și tastați „Recunoaștere vocală”. Apoi deschideți rezultatul care corespunde interogării și urmați instrucțiunile programului.
  • Odată finalizată configurarea, lansați aplicațiile și dictați direct în document Word. Pentru a face acest lucru, pur și simplu apăsați butonul microfonului și începeți să vorbiți.

Convertiți vorbirea în text prin intermediul aplicației

Dacă doriți să dictați texte și să le primiți în formă tipărită din mers, utilizați aplicații speciale.

  • Android și iOS au integrat deja recunoașterea vorbirii în sistemele lor. Când deschideți aplicația de luare de note și începeți să scrieți, utilizați pictograma microfonului pentru a începe recunoașterea vocii.
  • Există și alte aplicații cu un scop similar, cum ar fi Dragon Dictation, disponibile pentru Android și iOS.

Niciun program nu poate înlocui complet munca manuală de transcriere a vorbirii înregistrate. Cu toate acestea, există soluții care pot accelera și facilita semnificativ traducerea vorbirii în text, adică simplificarea transcripției.

Ce este transcrierea

Transcrierea este traducerea automată sau manuală a vorbirii în text, mai exact, înregistrarea unui fișier audio sau video sub formă de text.

Există sarcini plătite pe Internet, când o anumită sumă de bani este plătită interpretului pentru transcrierea unui text. În acest caz, transcrierea se face manual.

Cu toate acestea, puteți face transcrierea automat, folosind un program special care poate „asculta” textul și, în același timp, îl „tipărește”, îl poate transforma într-un fișier text adecvat pentru utilizare ulterioară.

Este utilă traducerea vorbirii în text manual sau cu ajutorul unui program special

  • studenții să traducă prelegerile audio sau video înregistrate în text,
  • bloggeri care conduc site-uri web și bloguri,
  • scriitori, jurnaliști să scrie cărți și texte,
  • oameni de afaceri care au nevoie de un text după webinar, discurs etc.,
  • liber profesioniști care traduc manual vorbirea în text pentru a-și facilita și accelera munca,
  • persoanele cărora le este greu să tasteze - pot dicta o scrisoare și o pot trimite rudelor sau prietenilor,
  • alte optiuni.

Despre problemele traducerii automate din vorbire în text

Există două probleme majore ale traducerii vorbirii în text folosind programul: calitatea vorbirii înregistrate și prezența unui fundal în înregistrare sub formă de zgomot, muzică sau alte sunete străine.

Discursul fiecăruia este diferit.

  • atât de repede încât cuvintele sunt înghițite sau, dimpotrivă, foarte încet;
  • cu o dicție clară, precum vorbitorii profesioniști, sau atât de inexpresiv încât este dificil să deslușești ceva;
  • cu o pronunție excelentă sau, dimpotrivă, cu un accent puternic, de exemplu, când vorbește un străin.

În ce cazuri va oferi un program de transcriere automată cel mai bun rezultat de traducere din vorbire în text? Programul va face o traducere mai mult sau mai puțin de înaltă calitate atunci când o persoană vorbește pe înregistrare cu dicție clară, cu un ritm normal de vorbire, fără accent. În același timp, nu există sunete străine în înregistrarea vorbirii sub formă de zgomot, muzică, conversații ale altor persoane. Atunci poți spera la o traducere automată bună, care nu necesită corecții manuale sau cu modificări minime.

În alte cazuri, când vorbirea este inexpresivă și există zgomote străine, traducerea folosind un program sau o aplicație va fi mult mai proastă. Poate că un anumit program sau serviciu va transcrie un astfel de discurs mai bine decât alte programe și aplicații, dar nu ar trebui să vă așteptați la un miracol.

În unele cazuri, merită totuși să contactați un schimb independent, unde o persoană live va efectua traducerea manual. Cu toate acestea, nici aici calitatea înaltă nu poate fi garantată, deoarece un freelancer poate folosi programe automate de transcriere și poate fi prea leneș pentru a face modificări textului rezultat.

Vom descrie cele mai eficiente instrumente disponibile pe computer, aplicatii mobileși servicii online pentru traducerea vorbirii în text.

1 Site-ul speechpad.ru

Acesta este un serviciu online care vă permite să traduceți vorbirea în text prin browserul Google Chrome. Serviciul funcționează cu un microfon și cu fișiere gata făcute. Desigur, calitatea va fi mult mai mare dacă folosești un microfon extern și te dictezi singur. Cu toate acestea, serviciul face o treabă bună chiar și cu videoclipuri YouTube.

Faceți clic pe „Activați înregistrarea”, răspundeți la întrebarea despre „Folosirea unui microfon” - pentru aceasta, faceți clic pe „Permite”.

Instrucțiunea lungă despre utilizarea serviciului poate fi restrânsă făcând clic pe butonul 1 din fig. 3. Puteți scăpa de publicitate trecând printr-o simplă înregistrare.

Orez. 3. Tastatura de vorbire de serviciu

Rezultatul final este ușor de editat. Pentru a face acest lucru, fie trebuie să corectați manual cuvântul evidențiat, fie să îl dictați din nou. Rezultatele lucrării sunt salvate în cont personal, le puteți descărca și pe computer.

Lista de tutoriale video despre lucrul cu tastatura de vorbire:

Puteți transcrie videoclipuri de pe Youtube sau de pe computer, cu toate acestea, veți avea nevoie de un mixer, mai multe detalii:

Transcriere audio Video

Serviciul funcționează în șapte limbi. Există un mic dezavantaj. Constă în faptul că, dacă trebuie să transcrieți un fișier audio finit, atunci sunetul acestuia este distribuit difuzoarelor, ceea ce creează interferențe suplimentare sub forma unui ecou.

2 Serviciu dictare.io

Un serviciu online minunat care vă va permite să traduceți vorbirea în text gratuit și ușor.

Orez. 4. Serviciu dictare.io

1 din fig. 4 - Limba rusă poate fi selectată la sfârșitul paginii. În browserul Google Chrome, limba este selectată, dar în Mozilla din anumite motive nu există o astfel de posibilitate.

Este de remarcat faptul că este implementată capacitatea de a salva automat rezultatul final. Acest lucru va preveni ștergerea accidentală ca urmare a închiderii unei file sau a unui browser. Acest serviciu nu recunoaște fișierele terminate. Functioneaza cu microfon. Trebuie să numiți semnele de punctuație atunci când dictați.

Textul este recunoscut destul de corect, nu există greșeli de ortografie. Puteți introduce singur semne de punctuație de la tastatură. Rezultatul final poate fi salvat pe computer.

3 RealSpeaker

Acest program facilitează traducerea vorbirea umană la text. Este conceput pentru a funcționa pe diferite sisteme: Windows, Android, Linux, Mac. Cu ajutorul acestuia, puteți converti vorbirea care sună într-un microfon (de exemplu, poate fi încorporată într-un laptop), precum și înregistrată în fișiere audio.

Poate percepe 13 limbi ale lumii. Există o versiune beta a programului care funcționează ca un serviciu online:

Trebuie să urmați linkul de mai sus, să selectați limba rusă, să încărcați fișierul audio sau video în serviciul online și să plătiți pentru transcrierea acestuia. După transcriere, puteți copia textul primit. Cum mai mult fișier pentru transcriere, cu cât este nevoie de mai mult timp pentru ao procesa, mai multe detalii:

În 2017, a existat o opțiune de transcriere gratuită folosind RealSpeaker, din 2018 nu există o astfel de posibilitate. Este probabil ca, pentru ca fișierul transcris să nu fie disponibil pentru descărcare pentru toți utilizatorii, este necesar să bifați caseta de lângă „Faceți fișierul să eșueze în 24 de ore”.

Site-ul are un chat online. Butonul pentru a începe un chat se află în colțul din dreapta jos al site-ului.

4 Note de vorbire

O alternativă la cererea anterioară pentru dispozitive mobile rulează pe Android. Disponibil gratuit în magazinul de aplicații:

Textul este editat automat, în el sunt plasate semne de punctuație. Excelent pentru a dicta note sau pentru a face liste. Drept urmare, textul se va dovedi a fi de o calitate foarte decentă. Există o versiune premium plătită.

5 Dictarea Dragonului

Aceasta este o aplicație care este distribuită gratuit pentru dispozitivele mobile de la Apple.

Programul poate funcționa cu 15 limbi. Vă permite să editați rezultatul, să selectați dintr-o listă cuvintele potrivite. Este necesar să pronunțați clar toate sunetele, să nu faceți pauze inutile și să evitați intonația. Uneori există greșeli în terminațiile cuvintelor.

Aplicația Dragon Dictation este folosită de proprietarii de gadgeturi Apple, de exemplu, pentru a dicta o listă de cumpărături într-un magazin în timp ce se deplasează prin apartament. Când ajung acolo, pot privi textul din notă fără a fi nevoiți să asculte.

Indiferent de programul pe care îl utilizați în practica dumneavoastră, fiți pregătit să verificați rezultatul și să faceți anumite ajustări.

Acesta este singurul mod de a obține un text impecabil, fără erori.

Transcrierea audio și video în text în schimburile freelance

În ceea ce privește traducerea manuală, puteți comanda o transcriere a discursului în text pe schimb. Pe bursa de freelance, unii utilizatori (clienți) plasează o comandă, aleg un antreprenor și plătesc lucrarea. Și alți utilizatori (independenți) preiau comenzi, efectuează munca necesară și sunt plătiți pentru asta.

Cum poți plasa o comandă pe bursa de freelance? Mai întâi trebuie să vă înregistrați pe site-ul de schimb, adică să vă înregistrați acolo. Apoi va fi posibil să plasați o comandă - o sarcină pentru transcriere.

Pentru comanda dvs. la schimb, puteți alege un interpret - o persoană care va face transcrierea. Pentru a face acest lucru, este necesar ca cel puțin unul dintre potențialii interpreți să fie de acord să preia lucrarea propusă. Dacă nimeni nu a preluat comanda, atunci trebuie să-i schimbați parametrii, de exemplu, să creșteți prețul lucrării.


Plata muncii prestate nu se efectuează direct către freelancer, ci prin bursa de freelancer. Când plasați o comandă, de obicei trebuie să vă reîncărcați contul cu suma necesară pentru a finaliza transcrierea. În plus, poate exista un comision de schimb pentru mediere sub forma unei sume fixe sau a unui procent fix din suma comenzii. Plata lucrării se efectuează după verificarea și aprobarea acesteia de către client. Cel mai adesea, suma este trimisă antreprenorului concomitent cu aprobarea lucrării sale de către client.

Înainte de a plasa o comandă, merită să citiți regulile de schimb privind verificarea sarcinii finalizate, plata acesteia, precum și depunerea și retragerea banilor la schimb. Retragerea banilor este necesară pentru ca banii rămași, planificați pentru plata altor comenzi, să se poată întoarce înapoi clientului și să nu rămână pentru totdeauna pe schimb.

Mai jos vă ofer două schimburi de liber profesioniști cunoscute în care puteți plasa o comandă de traducere speech-to-text cu ajutorul unui freelancer: weblancer.net și freelance.ru.

Două schimburi de liber profesioniști

Transcrierea audio și video în text (transcriere) pe schimbul freelance weblancer.net:

Orez. 5. (click pentru a mari)

Schimb independent weblancer.net

Un alt schimb de unde puteți comanda o transcriere a înregistrărilor audio / video - freelance.ru

Schimb liber profesionist freelance.ru

Subtitrare de telefon pentru surzi și cu probleme de auz

Transformă-ți ecranul într-un antet minunat de telefon. Este complet automat, fără dactilografieri umani care să vă tasteze conversațiile. Găsiți bunici greu de auzit familia și prietenii la telefon? Porniți Speechlogger pentru ei și nu mai țipa la telefon. Pur și simplu conectați ieșirea audio a telefonului la intrarea audio a computerului și rulați Speechlogger. Este util și în interacțiunile față în față.

Transcriere automată

Ai înregistrat interviul? Economisiți timp rescriindu-l, din vorbirea automată Google, în textul adus în browser de Speechlogger. Redați interviul înregistrat în microfonul (sau linia) computerului dvs. și lăsați speechlogger să facă transcrierea. Speechlogger salvează transcrierea textului împreună cu data, ora și comentariile dvs. De asemenea, vă permite să editați text. convorbiri telefonice poate fi decriptat folosind aceeași metodă. De asemenea, puteți înregistra fișiere audio direct de pe computer, așa cum este descris mai jos.

Interpret și traducător automat

Intalnire cu oaspeți străini? Aduceți un laptop (sau două) cu un speechlogger și microfon. Fiecare parte va vedea cuvintele rostite ale celeilalte traduse în lor limbă maternă in timp real. De asemenea, este util să efectuați un apel telefonic într-o limbă străină pentru a vă asigura că înțelegeți pe deplin cealaltă parte. Conectați ieșirea audio a telefonului la intrarea de linie a computerului și porniți Speechlogger.

Învață limbi străine și îmbunătățește-ți abilitățile de pronunție

Speechlogger este un instrument excelent de învățare a limbilor străine și poate fi folosit în mai multe moduri. Îl poți folosi pentru a învăța vocabular vorbind limba maternă și oferind software traduce-l. Puteți învăța și exersa pronunția corectă vorbind o limbă străină și văzând dacă Speechlogger înțelege sau nu. Daca textul este transcris cu font negru inseamna ca l-ai pronuntat bine.

Generare de subtitrare pentru filme

Speechlogger poate înregistra automat filme sau alte fișiere de sunet. Apoi luați fișierul și traduceți-l automat în orice limbă pentru a produce subtitrări internaționale.

Dictează în loc să tastezi

Scrie o scrisoare? Documentație? Liste? Rezumat? Indiferent de ce trebuie să tastați, încercați să-l dictați în Speechlogger. Speechlogger îl va salva automat pentru dvs. și vă va permite să îl exportați într-un document.

joc amuzant :)

Poți imita vorbitorul de chineză? Limba franceza? Ce zici de rusă? Încercați să imiteți limbă străinăși vezi ce tocmai ai spus cu Speechlogger. Utilizați traducerea simultană a Speechlogger pentru a înțelege ceea ce tocmai ați spus. Obțineți rezultate uimitoare - este foarte distractiv!

„Aș dori să spun imediat că am de-a face pentru prima dată cu servicii de recunoaștere. Și așa vă voi spune despre servicii din punctul de vedere al unui neprofesionist”, a remarcat expertul nostru, „pentru a testa recunoașterea, am folosit trei instrucțiuni: Google, Yandex și Azure”.

Google

Renumita corporație IT se oferă să-și testeze produsul Google Cloud Platform online. Oricine poate încerca serviciul gratuit. Produsul în sine este convenabil și ușor de utilizat.

Pro:

  • suport pentru mai mult de 80 de limbi;
  • procesarea rapidă a numelor;
  • recunoaștere de înaltă calitate în condiții de comunicare slabă și în prezența sunetelor străine.

Minusuri:

  • există dificultăți în recunoașterea mesajelor cu accent și pronunție slabă, ceea ce face ca sistemul să fie dificil de utilizat de către oricine, altul decât vorbitorii nativi;
  • lipsa unui clar suport tehnic serviciu.

Yandex

Recunoașterea vorbirii de la Yandex este oferită în mai multe versiuni:

  • Nor
  • Bibliotecă pentru acces din aplicații mobile
  • Versiunea „cutie”.
  • API JavaScript

Dar să fim obiectivi. Ne interesează în primul rând nu varietatea posibilităților de utilizare, ci calitatea recunoașterii vorbirii. Prin urmare, am profitat de versiunea de încercare a SpeechKit.

Pro:

  • ușurință în utilizare și configurare;
  • recunoaștere bună a textului în limba rusă;
  • sistemul oferă mai multe răspunsuri și încearcă să găsească cel mai asemănător răspuns prin intermediul rețelelor neuronale.

Minusuri:

  • la streaming, este posibil ca unele cuvinte să nu fie definite corect.

Azur

Azure este dezvoltat de Microsoft. Pe fondul analogilor, se remarcă prin preț. Dar, fiți pregătiți să faceți față unor provocări. Instrucțiunile prezentate pe site-ul oficial sunt fie incomplete, fie depășite. Nu am reușit să lansăm în mod adecvat serviciul, așa că a trebuit să folosim o fereastră de lansare terță parte. Cu toate acestea, chiar și aici, pentru testare, veți avea nevoie de o cheie de la serviciul Azure.

Pro:

  • comparativ cu alte servicii, Azure procesează mesajele în timp real foarte rapid.

Minusuri:

  • sistemul este foarte sensibil la accent, este greu de recunoscut vorbirea de la vorbitori non-nativi;
  • Sistemul funcționează doar în limba engleză.

Examinați rezultatele:

După ce am cântărit toate argumentele pro și contra, ne-am stabilit pe Yandex. SpeechKit este mai scump decât Azure, dar mai ieftin decât Google Cloud Platform. În programul de la Google, s-a observat o îmbunătățire constantă a calității și acurateței recunoașterii. Serviciul se auto-îmbunătățește prin tehnologiile de învățare automată. Cu toate acestea, recunoașterea cuvintelor și expresiilor în limba rusă de la Yandex este un nivel mai înalt.

Cum să folosiți recunoașterea vocii în afaceri?

Există o mulțime de opțiuni pentru utilizarea recunoașterii, dar ne vom concentra pe cea care, în primul rând, va afecta vânzările companiei tale. Pentru claritate, să analizăm procesul de recunoaștere folosind un exemplu real.

Nu cu mult timp în urmă, un serviciu SaaS binecunoscut a devenit clientul nostru (la solicitarea companiei, numele serviciului nu a fost dezvăluit). Cu ajutorul F1Golos, au înregistrat două clipuri audio, dintre care unul era menit să prelungească viața clienților caldi, celălalt - să proceseze cererile clienților.

Cum să prelungești viața clienților cu recunoașterea vocală?

Adesea, serviciile SaaS funcționează cu o taxă lunară de abonament. Mai devreme sau mai târziu, perioada de utilizare de probă sau trafic plătit - se termină. Atunci este nevoie de extinderea serviciului. Compania a decis să avertizeze utilizatorii despre încetarea traficului cu 2 zile înainte de expirarea perioadei de utilizare. Utilizatorii au fost anunțați prin mesageria vocală. Videoclipul suna astfel: „Bună ziua, vă reamintim că perioada dvs. de utilizare plătită a serviciului XXX se încheie. Pentru a extinde serviciul, spune da, pentru a anula serviciile oferite, spune nu.

Apeluri de la utilizatori care au spus cuvintele de cod: DA, EXTINDERE, VREAU, DETALII; au fost transferate automat către operatorii companiei. Așadar, aproximativ 18% dintre utilizatori și-au extins înregistrarea datorită unui singur apel.

Cum se simplifică sistemul de procesare a datelor folosind recunoașterea vorbirii?

Al doilea clip audio, lansat de aceeași companie, a fost de altă natură. Au folosit mesageria vocală pentru a reduce costul verificării numerelor de telefon. Anterior, ei verificau numerele de utilizator folosind un apel bot. Robotul le-a cerut utilizatorilor să apese anumite taste de pe telefon. Cu toate acestea, odată cu apariția tehnologiilor de recunoaștere, compania și-a schimbat tactica. Textul noului videoclip a fost următorul: „V-ați înregistrat pe portalul XXX, dacă vă confirmați înregistrarea, spuneți da. Dacă nu ați depus o cerere de înregistrare, spuneți nu.” Dacă clientul a rostit cuvintele: DA, CONFIRM, AHA sau CURS, datele despre aceasta au fost transferate instantaneu în sistemul CRM al companiei. Iar cererea de înregistrare a fost confirmată automat în câteva minute. Introducerea tehnologiilor de recunoaștere a redus timpul unui apel de la 30 la 17 secunde. Astfel, compania a redus costurile de aproape 2 ori.

Dacă sunteți interesat de alte moduri de a utiliza recunoașterea vocală sau doriți să aflați mai multe despre mesajele vocale, urmați linkul. La F1Golos, poți trimite gratuit primul tău buletin informativ și poți afla singur cum funcționează noile tehnologii de recunoaștere.

Fonogramele înregistrate cu ajutorul înregistratoarelor vocale digitale „Gnom R” și „Gnom 2M” îndeplinesc cerințele pentru fonogramele primite pentru examinări fonoscopice și sunt potrivite pentru identificarea unei persoane prin voce și vorbire...

Prim-adjunct al șefului

Dictafonul „Gnome 2M” a fost folosit în mod repetat pentru a înregistra conferințe și seminarii într-un mediu acustic dificil, coloanele sonore înregistrate sunt de înaltă calitate. Funcția de reducere a zgomotului încorporată vă permite să îmbunătățiți calitatea redării fonogramelor...

Inginer lider IPK BNTU

Institutul de Studii Avansate și Recalificarea Personalului BNTU

În perioada de funcționare, „Gnome R” s-a impus cu Partea pozitivă. Înregistrare de înaltă calitate cu dimensiuni minime, durată lungă de înregistrare a sunetului, transfer prompt al informațiilor acumulate din memoria încorporată a reportofonului pe computer...

Ofițer superior al secției a 3-a a direcției a șaptea

Statul Major al Forțelor Armate ale Republicii Belarus

Fonogramele înregistrate folosind sistemul „Forget-me-not II” îndeplinesc cerințele complexelor digitale cu mai multe canale pentru înregistrarea mesajelor vocale prin canalele de comunicare telefonică și sunt potrivite pentru identificarea unei persoane prin voce și vorbire ...

Șeful centrului

Centrul de expertiză criminalistică de stat

Un număr nelimitat de abonați notificați, un număr mare de sarcini procesate simultan vor face din Rupor un asistent indispensabil în munca angajaților departamentului de credit al sucursalei nr. 524 a Belarusbank ASB...

Director adjunct - Șef al Centrului de Afaceri Retail

Sucursala nr. 524 SA „ASB Belarusbank”

Sistemul de notificare automată „Rupor” a funcționat pe linii telefonice analogice și a fost testat pentru a anunța personalul. Sistemul a deservit 100 de abonați, a funcționat stabil și nu a necesitat întreținere constantă...

Comisar militar interimar

Comisariatul militar din Minsk

Sistemul de înregistrare Forget-Me-Not II asigură recepția mesajelor vocale de la rezidenți, înregistrarea lor de înaltă calitate pe computer, capacitatea de a asculta mesajele înregistrate și de a introduce informații într-o bază de date text. Sistemul de notificare Rupor anunță automat debitorii...

Șef departament ACS

UE „ZhREO din districtul sovietic Minsk”

Sistemul Rupor oferă notificarea unui număr mare de abonați într-un timp scurt, în conformitate cu parametrii stabiliți, cu furnizarea unui raport privind notificarea efectuată, funcționează în mod fiabil, respectă pe deplin cerințele pentru aceasta ...

Director al departamentului de afaceri cu amănuntul

Sistemul mobil de înregistrare și documentare a vorbirii „Protocol” include un înregistrator digital de voce „Gnome 2M” și un transcriptor computerizat „Caesar”. Dictafonul „Gnome 2M” vă permite să obțineți înregistrări de înaltă calitate a întâlnirilor și întâlnirilor, iar transcriptorul „Caesar” crește semnificativ viteza de traducere a informațiilor audio într-un document text...

Specialist de frunte

Institutul de Stat și Drept al Academiei de Științe a Republicii Belarus

Identificare prin voce

ÎN lumea modernă există un interes din ce în ce mai mare pentru tehnologiile biometrice și sistemele biometrice de identificare personală, iar acest interes este destul de de înțeles.

Identificarea biometrică se bazează pe principiul recunoașterii și comparării caracteristicilor unice ale corpului uman. Principalele surse ale caracteristicilor biometrice ale unei persoane sunt amprentele digitale, irisul și retina, vocea, fața, semnătura, mersul etc. Acești identificatori biometrici aparțin unei persoane și sunt parte integrantă a acesteia. Ele nu pot fi uitate, lăsate, pierdute undeva.

Pentru identificarea biometrică, pot fi utilizate diverse caracteristici și trăsături ale unei persoane. Acest articol oferă scurtă recenzie modul în care tehnologiile biometrice funcționează pe exemplul unui sistem de recunoaștere a vocii.

Valoarea tehnologiei vocale pentru biometrie a fost dovedită în mod repetat. Cu toate acestea, doar implementare de înaltă calitate sisteme automate recunoașterea vorbitorului poate pune în practică astfel de tehnologii. Sisteme similare există deja. Sunt utilizate în sistemele de securitate, tehnologia bancară, comerțul electronic, aplicarea legii.

Utilizarea sistemelor de recunoaștere a vorbitorilor este cea mai naturală și economică modalitate de a rezolva problemele de acces neautorizat la un computer sau sisteme de transmisie a informațiilor, precum și problemele de control al accesului pe mai multe niveluri la resursele de rețea sau de informații.

Sistemele de recunoaștere a vorbitorului pot rezolva două probleme: identificarea unei persoane dintr-o listă limitată de persoane (identificarea personalității) sau confirmarea identității vorbitorului (verificarea identității). Identificarea și verificarea unei persoane prin voce sunt direcțiile de dezvoltare a tehnologiei de procesare a vorbirii.

Orez. 1 - Recunoașterea difuzorului

Vorbirea este un semnal rezultat din transformări care au loc la mai multe niveluri diferite: semantic, lingvistic, articulator și acustic. După cum se știe, tractul vocal servește ca sursă a unui semnal de vorbire, care excită undele sonore într-un mediu de aer elastic. Tractul vocal se referă de obicei la organul de producere a vorbirii, situat deasupra corzilor vocale. După cum se poate observa din figura 2, tractul vocal este format din laringofaringe, orofaringe, cavitatea bucală, nazofaringe și cavitatea nazală.


Orez. 2 - Structura tractului vocal uman

Vocea unei persoane apare atunci când aerul trece din plămâni prin trahee în laringe, pe lângă corzile vocale și apoi în faringe și gură și cavitatea nazală. Când o undă sonoră trece prin tractul vocal, spectrul său de frecvență se modifică din cauza vibrațiilor tractului vocal. Vibrațiile tractului vocal se numesc formanți. Sistemele de verificare a vorbitorului recunosc de obicei trăsăturile distinctive ale semnalului de vorbire, care reflectă caracteristica individuală a activității musculare a tractului vocal al individului.

Să luăm în considerare sistemul de verificare a difuzorului mai detaliat. Verificarea identității prin voce este determinarea dacă vorbind cu aceia cine pare a fi. Un utilizator înregistrat anterior în sistem își pronunță identificatorul, care este un număr de înregistrare, o parolă sau o expresie. Cu recunoașterea bazată pe text, sistemul știe parola și „cere” utilizatorului să o spună. Parola este afișată pe ecran și persoana o rostește în microfon. Cu recunoașterea independentă de text, parola rostită de utilizator nu se potrivește cu cuvântul de referință, adică ca parolă, utilizatorul poate pronunța un cuvânt sau o expresie arbitrară. Sistemul de verificare primește semnalul de vorbire, îl prelucrează și decide dacă acceptă sau respinge identificatorul prezentat de utilizator. Sistemul poate informa utilizatorul despre gradul insuficient de coincidență a vocii sale cu standardul existent și îi poate cere să se pronunțe Informații suplimentare pentru a lua o decizie finală.


Orez. 3 - Interacțiunea umană cu sistemul

Schema interacțiunii umane cu sistemul de verificare a personalității prin voce este prezentată în Figura 3. Utilizatorul pronunță numărul oferit de sistem în microfon pentru ca sistemul să verifice dacă vocea sa corespunde standardului stocat în baza de date a sistemului. De regulă, există un compromis între acuratețea recunoașterii vocii și dimensiunea eșantionului de vorbire, de exemplu. cu cât eșantionul de vorbire este mai lung, cu atât acuratețea recunoașterii este mai mare. Pe lângă voce, ecoul și zgomotul străin pot pătrunde în microfon.

Există o serie de factori care pot contribui la apariția erorilor de verificare și identificare, de exemplu:

  • pronunție sau citire incorectă a unui cuvânt sau a unei expresii de parolă;
  • starea emoțională a crainicului (stres, rostirea unei fraze de acces sub constrângere etc.);
  • mediu acustic dificil (zgomot, interferențe, unde radio etc.);
  • diferite canale de comunicare (utilizarea diferitelor microfoane în timpul înregistrării și verificării difuzorului);
  • raceli;
  • modificări naturale ale vocii.

Unele dintre ele pot fi eliminate, de exemplu, prin utilizarea unor microfoane mai bune.

Procesul de verificare a identității prin voce constă din 5 etape: primirea unui semnal de vorbire, parametrizarea sau caracteristicile distinctive ale vocii, compararea eșantionului de voce primită cu un standard stabilit anterior, luarea unei decizii de trecere/eșec, antrenament sau actualizarea model de referinta. Schema de verificare este prezentată în Figura 4.


Orez. 4 - Schema de verificare

În timpul înregistrării, un utilizator nou își introduce ID-ul, apoi spune un cuvânt cheie sau o expresie de mai multe ori, creând astfel șabloane. Numărul de repetări ale frazei de acces poate varia pentru fiecare utilizator sau poate fi constant pentru toți.

Pentru ca computerul să proceseze semnalul de vorbire, unda sonoră este convertită într-un semnal analogic și apoi într-un semnal digital.

În etapa de extragere a caracteristicilor vocale, semnalul de vorbire este împărțit în cadre sonore separate, care sunt ulterior convertite într-un model digital. Aceste modele sunt numite „printuri de voce”. „Imprimarea vocală” nou primită este comparată cu standardul stabilit anterior. Pentru recunoașterea identității vorbitorului, cele mai importante caracteristici distinctive ale vocii sunt cele mai importante, ceea ce ar permite sistemului să recunoască cu acuratețe vocea fiecărui utilizator individual.

În cele din urmă, sistemul ia decizia de a admite sau de a refuza accesul utilizatorului, în funcție de potrivirea sau nepotrivirea vocii acestuia cu standardul stabilit. Dacă sistemul a comparat incorect vocea prezentată cu standardul, atunci apare o eroare de „toleranță falsă” (FA). Dacă sistemul nu a recunoscut caracteristica biometrică care corespunde standardului disponibil în el, atunci ei spun despre eroarea „respingere falsă” (FR). O eroare de acceptare falsă creează o gaură de securitate, iar o eroare de respingere falsă duce la o utilizare redusă a sistemului, care uneori nu recunoaște o persoană prima dată. O încercare de a reduce probabilitatea de apariție a unei erori duce la o apariție mai frecventă a alteia, prin urmare, în funcție de cerințele pentru sistem, se alege un anumit compromis, adică. este stabilit pragul de decizie.

Concluzie

Metodele de identificare vocală sunt de asemenea utilizate în practică. Tehnologia de identificare prin vocea companiei permite organizarea accesului reglementat al utilizatorilor printr-o anumită expresie de acces la resursele întreprinderii, telefonul și serviciile WEB. Utilizarea tehnologiei poate crește semnificativ securitatea sistemelor și, în același timp, poate simplifica procesul de identificare a utilizatorilor. Tehnologia Voice Key va oferi fiabilitate și stabilitate ridicate a sistemului, precum și va ajuta la îmbunătățirea calității serviciilor pentru clienți.

Toate materialele postate pe acest site sunt permise pentru publicare și tipărire pe alte resurse și publicații tipărite numai cu permisiunea scrisă a Speech Technologies LLC.