Comments on tankodroom
sinu mõtete šampoon: Masin teeb keeltega asju

tänan asjaliku kommentaari eest ja soovin palju ed...

2009-02-28T14:19:00.000+02:00

tänan asjaliku kommentaari eest ja soovin palju edu teie töös!

Selle uurimisprogrammi kodulehekülg on muidu siin....

2009-02-28T00:59:00.000+02:00

Selle uurimisprogrammi kodulehekülg on muidu siin.

2009-02-28T00:57:00.000+02:00

Autor on selle kommentaari eemaldanud.

Mina olen eesti keele kõnetuvastust uuriva uurimis...

2009-02-28T00:53:00.000+02:00

Mina olen eesti keele kõnetuvastust uuriva uurimisprojekti juht, mul paluti seda teemat kommenteerida.

Eesti keele kõnetuvastus on tegelikult natuke keerulisem kui inglise keele puhul ja häälduse ja kirjapildi sarnasus siin palju ei aita. Probleem on selles, et kõnetuvastaja suudab tuvastada ainult neid sõnu, mida ta teab, s.t. mille hääldust ta teab, ning ka seda, millises kontekstis nad esinevad. Eesti keele puhul (ja ka paljude teiste keelte puhul) on aga erinevate sõnavormide arv (arvestades kõiki käänd- ja pöördvorme, liitega ja liitsõnu) praktiliselt piiramatu, ning liitsõnu saab alati juurde leiutada. Sellepärast peab eesti keele kõnetuvastajas kasutama mõningaid trikke, nimelt ei tuvastata mitte sõnu vaid morfeeme, mis hiljem uuesti sõnadeks kokku liidetakse.

Suurem probleem eesti keele puhul on treeningmaterjali nappus. Nüüdisajal kasutatakse peaaegu kõikides kõnetuvastajates statistilisi mudeleid, mille õigete parameetrite leidmiseks on vaja suurt hulka täpselt transkribeeritud kõnematerjali erinevatelt kõnelejatelt. Need, kes diktofonilt teksti maha kirjutanud on, teavad, et sellise materjali tootmine on väga töömahukas. Tegelikult on ka eesti keele jaoks sellist kõnematerjali kogutud ja transkribeeritud (võibolla mõned mäletavad, u 5 aastat tagasi oli meil suur projekt, kus paluti vabatahtlikke meile helistada ja oma hääl anda), aga vaja oleks veel ja teistsugustest situatsioonidest. Kõnematerjali kogumisega tegeletakse.

Probleemiks on ka see, et kõnetuvastuse üsna keerulist teooriat Eestis eriti ei õpetata (oleme seda TTÜs üritanud, aga väga palju huvilisi ei ole).

Praeguse seisu kohta nii palju, et kui aeglase ja korrektse hääldusega dikteerida eesti keele kõnetuvastaja prototüüpi ajaleheartikli stiilis teksti, siis on tulemus päris hea. Spontaanse kõne puhul (näit. vestlus) on tulemus üsna vilets. Spontaanne kõne on üldse väga keeruline tuvastada, ja see ei tööta ühegi keele puhul väga hästi.

sihuke riiklik programm on jah:http://www.keeleteh...

2009-02-13T16:55:00.000+02:00

sihuke riiklik programm on jah:
http://www.keeletehnoloogia.ee/

Programmid täienevad pidevalt ja asi, mis täna tun...

2009-02-09T16:36:00.000+02:00

Programmid täienevad pidevalt ja asi, mis täna tundub halvasti töötavat, on paari aasta pärast korralik tööriist. Mäletan, et ca 10 aastat tagasi oli OCR-idega jändamine üks lõputu piin ja aja raiskamine. Aga juba 5 aastat tagasi oli võimalik saada täiesti veatu teksti.

Vot selle kõnetuvastuse asjaga just minu teada nee...

2009-02-08T17:53:00.000+02:00

Vot selle kõnetuvastuse asjaga just minu teada need meie akadeemilised keeletehnoloogid peaks olema aastaid põhjalikult tegelenud. Nad on selleks üksjagu raha vähemalt saanud riigilt. Aga pole neist suurt kuulda midagi, vähemalt laiemas avalikkuses.

Sorry, ma pean ikka selle klassikalise variandi si...

2009-02-06T00:15:00.000+02:00

Sorry, ma pean ikka selle klassikalise variandi siia panema, mida kõik ilmselt juba näinud on
http://shrt.st/2id

Aga kõnetuvastuse alal peaks eesti keelel teoreetiliselt potentsiaali olema. Meil on ju praktiliselt ideaalne foneetiline kirjapilt (kui obesed kõrvale jätta). Ehk et õpetada arvutit korrektselt eestikeelsest kõnest aru saama peaks olema kordi lihtsam kui inglise keeles.

Comments on tankodroom sinu mõtete šampoon: Masin teeb keeltega asju