Taleassistenter har et felles problem. De skjønner ikke alltid hva vi sier til dem. Problemet rammer alle som en av dem, og det kan være spesielt vanskelig å få dem til å adlyde med støy rundt seg.

Men Microsoft skal nå ha kommet et steg videre i utvikling av teknologien bak. Påsin egen bloggmelder de at ny talegjenkjenningsteknologi skal være jevngod med mennesker.

Bommer fortsatt av og til

Kun i 5,9 prosent av tilfellene bommer teknologien på et ord, og det skal være omtrent likt med feilraten til menneskene de hadde satt til å ta diktat fra de samme samtalene. Samme utviklingsteam i Microsoft var fra før nede i 6,3 prosent feilrate.

Likevel betegner selskapet det som historisk når presisjonen er på linje med menneskeører, og sier at det vil gjøre deres egen taleassistent, Cortana, langt kraftigere.

– For fem år siden ville jeg ikke trodd vi kunne oppnå dette. Jeg hadde ikke regnet med at det var mulig, sier visepresident Harry Shum i Microsofts forskergruppe for kunstig intelligens.

Nevrale nettverk og dyplæring

For å oppnå dette bruker Microsoft nevrale nettverk, altså datamaskiner med struktur og virkemåte som forsøker å etterligne menneskehjernen og hvordan den lærer.

Dette er samme teknikk som brukes i svært mange av forsøkene på å gjøre dingsene våre mer intelligente. Handler det om forsøk på å gjenkjenne ting vi mennesker stort sett tar som en selvfølge, er det som regel nevrale nettverk og såkalt dyplæring som ligger bak.

Også Google fokuserte mye på talegjenkjenningsteknologien sinda de lanserte referansemodellene Pixelfor et par uker siden.

Har Google høyere feilrate?

På sett og vis understreket også Google-sjefen Sundar Pichai det samme fra scenen under deres lansering. Her ble det sagt at selv om Google også hadde kommet svært langt i talegjenkjenning, er det de siste små hoppene opp i presisjon som er de aller tyngste.

Ifølge Google hadde deres talegjenkjenning økt i presisjon fra bare 77 prosent riktig i 2013 til 92 prosent riktig nå. Tallene er spesielt relevante for Pixel-lanseringen, ettersom telefonen er tungt fokusert mot Google Assistant, den nye smarte hjelperen som ble lansert samtidig. Her er naturligvis også talegjenkjenning en viktig del.

Tallet Pichai presenterte var imidlertid ikke helt nytt. Også i fjor snakket Google om en presisjon på 92 prosent, ifølgeRecode.net.

Henter data fra flere steder

Det er uvisst om Microsoft og Google har målt presisjonen helt på samme måte, men begge selskaper skryter av at gjenkjenningen nå skal takle naturlig språk, der også sammenhengen i språket brukes til å hjelpe prosessen.

Google-sjef Sundar Pichai snakker også mye om talegjenkjenning for tiden. Foto: Wikipedia

Også Google bruker nevrale nettverk og dyplæring til å få opp presisjonen på sine produkter. Selskapets andre tjenester, så som søketjenesten, Knowledge Graph og Google Translate brukes til å mate maskinlæringssystemet med informasjon.Samtidig er det åpenbart at ikke talegjenkjenning er absolutt alt her. Ved demonstrasjon av Pixel-telefonene identifiserte telefonene av og til alle ordene helt riktig, men avleverte likevel et goddag mann økseskaft-svar på spørsmålet.

Assistenter er mer enn talegjenkjenning

Taleassistenter er altså avhengige av mer enn korrekt gjenkjenning av det du sier. Men det er mye mer som hører til. Det gjør også Microsoft et poeng av i sitt blogginnlegg.

Geoffry Zweig leder gruppen som jobber med talegjenkjenning hos selskapet, og forklarer i posten at de nå jobber med ting som å filtrere ut bakgrunnsstøy. Å identifisere og skille enkeltpersoner som snakker fra hverandre er også viktig i veien videre. Å få datamaskinene til å faktisk forstå tale i større grad fremheves også som veldig viktig.

Ifølge Zweig vil den neste milepælen bli å gå fra gjenkjenning til forståelse. Men det kan ta tid.

– Det kommer til å ta veldig, veldig lang tid før datamaskiner kan forstå den faktiske meningen i det som blir sagt eller vist frem, forklarer Harry Shum.

Ikke alle snakker engelsk eller kinesisk

En ting som sjelden nevnes i disse sammenhengene er hvor godt gjenkjenning fungerer på andre språk enn de store verdensspråkene. Hvor store de enn er, er det fortsatt mange av oss i verden som snakker langt mindre utbredte språk. Det legger begrensninger både på forskningsfokus og på tilgang til data for å lære opp tjenestene.

Om man kan regne med samme presisjonsnivå på de andre språkene er altså noe mer usikkert. Microsofts Cortana er foreløpig heller ikke tilgjengelig på norsk.

Mediehuset Tek.no er eid av Tu Media.

Teknologimagasinet har testet Playstation VR: