Tietokone-lehti 3/1996

Turhaa puhetta

Visioiden mukaan nykyiset graafiset käyttöliittymät tulevat aikanaan väistymään puhetta ymmärtävien koneiden tieltä. Mikrofoni korvaa hiiren ja ohjelmia käytetään puhutuilla komennoilla. Mutta miten käyttökelpoista puheohjaus oikeastaan olisi, jos se ylipäätänsä joskus saataisiin toimimaan?

Unelma puhetta ymmärtävästä tietokoneesta on vanha ja periytyy tieteiselokuvista. Niissä puheohjaus on luonnollinen tapa käyttää tietokonetta ja siihen on hyvä syy: pelkkä kirjoittaminen on tylsän näköistä ja hankalaa visualisoida. Puhe on paljon dramaattisempaa ja siksi myös Star Trekin tietokoneet ymmärtävät puhetta täydellisesti.

Tieteisfilmeistä on kuitenkin pitkä matka arkeen. Muistan kokeilleeni ensimmäistä PC:llä "toimivaa" puheohjausta jo 12 vuotta sitten. Monista yrityksistä huolimatta en saanut sitä tunnistamaan yhtään sanaa oikein. Sitä ei kuitenkaan laitettu ohjelman vaan käyttäjän viaksi, koska en kuulemma osannut lausua komentosanoja riittävän samanlaisesti.

Vuosikymmenen kuluessa ala on kuitenkin kehittynyt. Esimerkiksi IBM on tehnyt kovasti töitä puheohjauksen parissa ja saanut markkinoille jopa kaupallisia saneluohjelmia. Tavoitteena on tehdä ThinkPad-kannettava, joka pystyisi reaaliaikaiseen käännöstyöhön kielestä toiseen. Tällaiselle laitteelle jopa Star Trekin väellä olisi käyttöä!

Myös Apple on jo pitkään askarrellut puheentunnistuksen parissa, mutta puhetta ymmärtävää Macciä ei vain ole ilmestynyt myyntiin.

Tuoreimmat puheohjauksen kannattajat ovat Bill Gates, joka visioi sitä käyttävää tietokonetta viime vuoden Comdex-esityksessään, sekä MIT:n Negroponte, joka Being Digital-kirjassa piti puheohjausta luonnollisena ja väistämättömänä kehitysaskeleena nykyisen hiiriajan jälkeen. Windows 95:stä tuli vuoden 1995 lopulla ilmeisesti ensimmäinen käyttöjärjestelmä, jossa on valmistajan määrittelemä puheohjauksen rajapinta.

Meitä suomalaisia puheohjaus kiinnostaa erityisesti siksi, että suomi on turkin ohella niitä helpoimpia koneellisesti ymmärrettäviä kieliä, koska sanat lausutaan lähes kirjoitusasussaan ja homonyymejä on vähän.

Mutta siitä huolimatta puheohjauksen tiellä on yhä lukuisia esteitä.

Kuunnella vai ymmärtää?

Koneen ohjelmointi puhetta ymmärtäväksi on osoittautunut yllättävän vaikeaksi. Monien insinöörien mielestä kyse on vain prosessoritehon puutteesta: kun prosessorit nopeutuvat tarpeeksi, voidaan ottaa käyttöön ne raja-alueiden algoritmit, jotka vielä nyt ovat liian työläitä käytettäväksi.

Mutta onko puheenymmärrys sittenkään pelkkä prosessoritekninen ongelma? Luulen, että kunnollinen puheentunnistus edellyttäisi myös ymmärryksen ohjelmointia – ja siihen tekoäly ei nykyisellään pysty.

Asia on helppo havaita kuuntelemalla englantia puhuvia henkilöitä, joille englanti ei ole äidinkieli. Monia heistä on vaikea ymmärtää, vaikka sanat ja kielioppi ovatkin oikein. Erityisen vaikeaa vieraan kielen ymmärtäminen on puhelimessa, koska eleet ja ilmeet suodattuvat pois. Siksi käytämmekin mieluummin faksia tai sähköpostia ulkomaille asioitaessa. Miten siis kone voisi pystyä ihmistä parempaan puheentunnistukseen? Jos meidän on vaikea ymmärtää muita ihmisiä pelkän äänen perusteella, tietokoneelle se on vielä vaikeampaa. Tietokoneelle puhuttu kieli on aina vierasta, koska sen oma kieli on ykkösiä ja nollia.

Jokaisen puhutun sanan täydellinen tunnistaminen on käytännössä mahdotonta. Ihmisenkin puheentunnistus perustuu pitkälti siihen, että kuulija osaa päätellä ymmärtämiensä sanojen väleihin jääneet aukot. Aukkojen täyttäminen vaatii paitsi ymmärrystä, myös elämänkokemusta sekä tietoa paikallisista tavoista ja kulttuurista. Sitä koneella ei voi olla.

Itse asiassa suuri osa jokapäiväisestä puheviestinnästä pohjautuu aiempaan tietoon ja sanojen käytöstä tehtyihin sopimuksiin, joten puhetta ei voi tulkita kirjaimellisesti. Kokeilepa joskus asettua koneen asemaan ja kuunnella puhetta pelkkien sanojen perusteella, tulkitsemalla niistä jokainen kirjaimellisesti!

Millaista se olisi?

Millaista mikron käyttö sitten olisi, jos puheohjaus saataisiin toimimaan kunnolla? Huonosti toimivasta puheentunnistuksesta olisi enemmän haitaa kuin hyötyä, sillä käyttäjän pitäisi koko ajan oikoa koneen tekemiä virheitä. Jotta tunnistus olisi riittävän hyvää, koneen olisi esimerkiksi osattava erottaa, mikä osa puheesta on tarkoitettu sille, mikä taas on vastausta ohikulkevan työtoverin kysymykseen tai puhelimeen.

Eikä puheen käyttö olisi muutenkaan kovin käytännöllistä, sillä isoissa konttorissa koneilleen puhuvat käyttäjät häiritsisivät väistämättä toisiaan. Ja haluaisivatko käyttäjät vaihtaa hiiren kurkkumikrofoniin? Tai jännetuppitulehduksen kurkunpääntulehdukseen?

Entä sitten yksittäiset sovellukset? Teksinkäsittelyssä puheohjaus olisi eittämättä hyödyksi, sillä jokainen meistä puhuu nopeammin kuin kirjoittaa. Mutta tässäkin on omat ongelmansa: puhuttua tekstiä ei pidä siirtää suoraan kirjalliseen muotoon, vaikka se olisikin ensi kertaa teknisesti mahdollista. Sanelun jälkeen teksti tarvitsisi lukuisia korjauksia ja niiden kuvailu sanallisesti tyyliin "siirrä kohdistin edellisen lauseen alkuun ja vaihda kahden sanan järjestystä" tai "poista niin-sana, vaihda predikaattia ja tee päälauseesta sivulause" kävisi työlääksi. Vaikka tekstin syöttäminen onkin nopeampaa puhumalla, sen muokkaus on käy paremmin näppäimistöltä.

Taulukkolaskennassa alueiden merkintä ja kaavojen kirjoittaminen voisi onnistua puheella, mutta tuskin näppäimistöä helpommin. Todella hankalaksi käyttö muuttuisi, kun taulukkolaskennalla tehty malli tai kaavio pitäisi siirtää tekstinkäsittelyyn, koska siirtokohta pitäisi kuvailla puhumalla.

Entä Internet? Sähköposti toimisi epäilemättä hyvin, mutta WWW-surffailu pohjautuu hypertekstiin, jossa kiinnostavia kohtia napsautetaan hiirellä. Näiden kohtien kuvailu puheella olisi likipitäen mahdotonta. Sama pätee kaikkiin grafiikkaohjelmiin. Värien vaihtaminen - varsinaisesta piirtämisestä puhumattakaan - käy parhaiten hiirellä.

Peleistä vain älypelit voisivat käyttää puheohjausta. Doomin tai lentosimulaattorin ohjaus puheella olisi mahdotonta.

Käyttömahdollisuuksia on

Edellä kuvatut ongelmat johtuvat ATK-alalla yleisestä helmasynnistä: tulevaisuuden asioita yritetään sovittaa nykypäivän malleihin, jotka on rakennettu vanhalta pohjalta. Puheohjauksen istuttaminen nykyisiin sovelluksiin ei yksinkertaisesti toimi. Se on mielekästä vain aivan uudentyyppisissä koneissa ja uusilla sovelluksilla.

Esimerkiksi pienten PDA-koneiden ja käsimikrojen tapauksessa puhe olisi kiistatta paras kommunikointitapa, koska koneisiin ei mahdu näppäimistöä ja käsin kirjoittaminen - jonka tulkinta on sivumennen sanoen yhtä vaikeaa kuin puheentunnistus - on näppäimistöäkin hitaampaa.

Kunnollinen puheentunnistus vaatii kuitenkin niin valtavasti prosessoritehoa, ettei puhetta ymmärtävä lompakko-PC tai älyallakka toteudu vielä moneen vuoteen.

Pöytäkoneissa puheohjaus toimisi silloin, kun mikro ja sovellus olisivat riittävän älykkäitä tekemään itse suurimman osan työstä. Sen sijaan, että käyttäjä neuvoisi puhumalla jokaisen työvaiheen, hänen pitäisi vain "neuvotella" koneen kanssa, joka hoitaisi varsinaisen työn tyyliin "Hae eilisen myyntiluvut verkosta, tee niistä grafiikka ja lähetä se johtajalle" tai "Kirjoita tämän kuun myyntiraportti". Kone muistaisi käyttäjänsä aiempia toimintamalleja ja osaisi pyytää tarvittaessa lisäohjeita töiden suorittamiseen.

Näin automaattisten sovellusten kehittäminen vaatii kuitenkin useita läpimurtoja tekoälyn alueella. Nykyiset koneet eivät selviä edes Turingin vuosikymmeniä vanhasta älykkään koneen testistä, jonka kriteerinä oli vain matkia ihmistä niin hyvin, ettei toisessa huoneessa oleva testaaja pystynyt päättelemään, onko testattava kone vai oikea ihminen.

Entä sitten, jos koneet olisivat riittävän älykkäitä ja todella ymmärtäisivät käyttäjää? Ajatuskin älykkäästä, puhuvasta ja kuuntelevasta koneesta on vieras ja monien mielestä jopa pelottava. Puhumme koirille ja kissoille – jotkut kukillekin – mutta kuinka moni meistä todella haluaisi "keskustella" koneensa kanssa? Kone, joka pöydänkulmalla seuraisi meitä sähköiset korvat höröllään ja kuuntelisi kaiken, mitä päivän aikana sanomme ja teemme, herättäisi työntekijöissä niin paljon vastustusta, että koneella tuskin olisi kaupallisia markkinoita.

On myös mahdollista, että haave puhettaymmärtävistä koneista on vain nykyisten mikronkäyttäjien tieteiselokuvista periytyvä unelma. Mutta me olemmekin kadotettua sukupolvea. Nyt lapsuuttaan viettävälle sukupolvelle näppäimistö on luonteva käden jatke eikä se tule haikailemaan puheohjauksen perään edes silloin, kun se jonain päivänä olisi teknisesti mahdollista.

<takaisin