Runas kodēšana

Vikipēdijas lapa

Runas kodēšana ir runas saturoša ciparu audio signāla datu saspiešanas tehnoloģija. Lai modelētu runas signālu, runas kodēšana izmanto runas specifisko parametru novērtēšanu ar audio signāla apstrādes metodēm, kombinējot kopā ar parastiem datu saspiešanas algoritmiem, lai iegūtu modelētus parametrus kompaktā bitu plūsmā.

Runas kodēšanu visbiežāk izmanto mobilajā telefonijā un IP balss pārraidē.

Runas kodēšanā izmantotie paņēmieni ir līdzīgi tiem, ko lieto audio datu saspiešanai un audio kodēšanai, kur psihoakustiskās zināšanas tiek izmantotas, lai pārraidītu tikai to informāciju, kas attiecas uz cilvēka dzirdes sistēmu. Piemēram, kodējot balss frekvenci, tiek pārraidīta tikai informācija frekvenču joslā 400 līdz 3500 Hz, bet rekonstruētajā signālā joprojām pietiekami labi var saprast runu.

Atšķirība starp runas kodēšanu un audio kodēšanu ir tāda, ka runa ir daudz vienkāršāks signāls nekā citi audio signāli, un var iegūt daudz vairāk statistiskas informācijas par runas īpašībām. Tādējādi daļa dzirdes informācijas, kas ir svarīga audio kodēšanā, var būt nesvarīga runas kodēšanas kontekstā. Runas kodēšanā svarīgākais kritērijs ir saglabāt runas saprotamību un patīkamību.

Runas saprotamība bez paša gramatiskā satura ietver arī runātāja identitāti, emocijas, intonāciju, tembru u.c., kas ir svarīgas īpašības pilnīgai saprotamībai. Vēl abstraktāks patīkamības jēdziens ir bojāta runa, kas ir atšķirīga īpašība nekā saprotamība, jo ir iespējams, ka bojāta runa ir pilnīgi saprotama, bet klausītājam subjektīvi kaitinoša.

Vairumam runas kodēšanas risinājumos nepieciešama zema kodēšanas kavēšanās, jo kodēšanas kavēšanās traucē sarunas dialogu.

Kodēšanas veidi[labot šo sadaļu | labot pirmkodu]

Runai izmanto divu veidu kodētājus:

Lietojums[labot šo sadaļu | labot pirmkodu]