5. veebruar 2009

Masin teeb keeltega asju

No kõik eesti blogid kubisesid nüüd sellest kui naljakalt ja valesti see Google Translate ikka eesti keelt tõlgib. Aga Sven on ainsana pihta saanud sellele, et kui naljad kõrvale jätta, on eestlaste jaoks tegemist sajandi uudisega! Lisaks sellele, et eestlase tekstiväli on mõõtmatult avardunud (okei, kõver ja katkine ta ju on veel, küll ta tekstikorpuse täienedes areneb - igaüks saab sellele muide kaasa aidata), on teine ja võib-olla isegi olulisem uudis aga see, et meie kartulieestikeelsed tekstid on nüüd loetavad maailmale. Ameeriklastele, eurooplastele, venelastele. Jah, ka Zinaidale korrus kõrgemalt, kes muidu ainult vene delfit loeb. Ka temale.
Kunas toimus mõni eelmine võrreldava tähtsusega sündmus meie kultuuri ja keele püsimajäämise seisukohalt?

Noh ja mõte läheb siit edasi. Nimelt, tahaks väga, et masin saaks ka eestikeelsest KÕNEST aru, ja oskaks seda tekstiks muundada (kõnetuvastus). See tähendab siis, et ma saaks arvutile dikteerida, ja vastav tekst ilmuks Wordi või kuhu iganes dokumendi sisse (muide sünteeskõne, mis on sisuliselt vastupidine protsess, ehk kirjaliku teksti muundamine inimhäälseks kõneks, on juba enamvähem saavutatud, aga see on ka võrreldamatult lihtsam).

Igaüks, kes on kunagi intervjuud teinud, teab kui hull töö on see pärast diktofonilindilt tekstiks toksida. Ajakulu on vabalt nelja-viiekordne intervjuu pikkus. Lisaks võimaldaks kõnetuvastus arvutit häälega juhtida. Mitte ainult väga šeff, vaid ka kiirem, oleks ju arvutile e-maile dikteerida ja neid sinna või tänna saata kästa. Ja lõpetuseks - võimalus genereerida eesti filmidele automaatselt subtiitrid ükskõik mis keeles (kõnetuvastus + saadud teksti masintõlge) lubaks neid vaadata kõvasti suuremal auditooriumil (näiteks kogu youtube kasutajaskonnal).

Nagu näha, võib mõnedest tehnovidinate arengutest väikekultuuridele kasugi olla. Okei, ma näen juba vankuvaid päid kandmas mõtteid "väääää" ja "määäää" ja "masin pole ikka päris see". Jah, muidugi pole. Masinaga tõlkimise häid ja väid lahkasime juba sealsamas Sveni blogis.

8 kommentaari:

Anonüümne ütles ...

Sorry, ma pean ikka selle klassikalise variandi siia panema, mida kõik ilmselt juba näinud on
http://shrt.st/2id

Aga kõnetuvastuse alal peaks eesti keelel teoreetiliselt potentsiaali olema. Meil on ju praktiliselt ideaalne foneetiline kirjapilt (kui obesed kõrvale jätta). Ehk et õpetada arvutit korrektselt eestikeelsest kõnest aru saama peaks olema kordi lihtsam kui inglise keeles.

Anonüümne ütles ...

Vot selle kõnetuvastuse asjaga just minu teada need meie akadeemilised keeletehnoloogid peaks olema aastaid põhjalikult tegelenud. Nad on selleks üksjagu raha vähemalt saanud riigilt. Aga pole neist suurt kuulda midagi, vähemalt laiemas avalikkuses.

Papadoc ütles ...

Programmid täienevad pidevalt ja asi, mis täna tundub halvasti töötavat, on paari aasta pärast korralik tööriist. Mäletan, et ca 10 aastat tagasi oli OCR-idega jändamine üks lõputu piin ja aja raiskamine. Aga juba 5 aastat tagasi oli võimalik saada täiesti veatu teksti.

tank ütles ...

sihuke riiklik programm on jah:
http://www.keeletehnoloogia.ee/

Unknown ütles ...

Mina olen eesti keele kõnetuvastust uuriva uurimisprojekti juht, mul paluti seda teemat kommenteerida.

Eesti keele kõnetuvastus on tegelikult natuke keerulisem kui inglise keele puhul ja häälduse ja kirjapildi sarnasus siin palju ei aita. Probleem on selles, et kõnetuvastaja suudab tuvastada ainult neid sõnu, mida ta teab, s.t. mille hääldust ta teab, ning ka seda, millises kontekstis nad esinevad. Eesti keele puhul (ja ka paljude teiste keelte puhul) on aga erinevate sõnavormide arv (arvestades kõiki käänd- ja pöördvorme, liitega ja liitsõnu) praktiliselt piiramatu, ning liitsõnu saab alati juurde leiutada. Sellepärast peab eesti keele kõnetuvastajas kasutama mõningaid trikke, nimelt ei tuvastata mitte sõnu vaid morfeeme, mis hiljem uuesti sõnadeks kokku liidetakse.

Suurem probleem eesti keele puhul on treeningmaterjali nappus. Nüüdisajal kasutatakse peaaegu kõikides kõnetuvastajates statistilisi mudeleid, mille õigete parameetrite leidmiseks on vaja suurt hulka täpselt transkribeeritud kõnematerjali erinevatelt kõnelejatelt. Need, kes diktofonilt teksti maha kirjutanud on, teavad, et sellise materjali tootmine on väga töömahukas. Tegelikult on ka eesti keele jaoks sellist kõnematerjali kogutud ja transkribeeritud (võibolla mõned mäletavad, u 5 aastat tagasi oli meil suur projekt, kus paluti vabatahtlikke meile helistada ja oma hääl anda), aga vaja oleks veel ja teistsugustest situatsioonidest. Kõnematerjali kogumisega tegeletakse.

Probleemiks on ka see, et kõnetuvastuse üsna keerulist teooriat Eestis eriti ei õpetata (oleme seda TTÜs üritanud, aga väga palju huvilisi ei ole).

Praeguse seisu kohta nii palju, et kui aeglase ja korrektse hääldusega dikteerida eesti keele kõnetuvastaja prototüüpi ajaleheartikli stiilis teksti, siis on tulemus päris hea. Spontaanse kõne puhul (näit. vestlus) on tulemus üsna vilets. Spontaanne kõne on üldse väga keeruline tuvastada, ja see ei tööta ühegi keele puhul väga hästi.

Unknown ütles ...
Autor on selle kommentaari eemaldanud.
Unknown ütles ...

Selle uurimisprogrammi kodulehekülg on muidu siin.

tank ütles ...

tänan asjaliku kommentaari eest ja soovin palju edu teie töös!