Google Voice förbättrar tal-till-text med hjälp av kraften hos ”tänkande” datorer

Att lyssna på ett röstmeddelande kräver en genomsnittlig investering på cirka 30 sekunder. Slutresultatet är vanligtvis ett trivialt ”det är mamma, ring mig gärna tillbaka”-meddelande eller, ännu värre, en fickurtavla. Gå in i Google Voice – en tjänst som erbjuder fulltextutskrifter av missade samtal, vilket sparar tid. Det vill säga om den inte var så benägen att göra fel. Men tack och lov har Google förbättrat sin programvara för taligenkänning med 49 %, tack vare djupa neurala nätverk (DNN).

Google Voice förbättrar tal-till-text med hjälp av kraften hos

Med hjälp av röstanvändares röstmeddelanden för forskning har Google förbättrat sina system med hjälp av det kortsiktiga korttidsminnet, deep recurrent neural networks (LSTM). Förbättringarna innebär att Google Voice inte längre ska leverera nonsens transkriptioner av röstmeddelanden. Synd att den bara är tillgänglig i USA och via Project Fi.

En djupgående uppsats från Google visar tydligt anledningen till att den började använda LSTM – det gamla systemet för sökordsfläckning var helt enkelt inte att skära ner senap.

”[DNN] visade sig avsevärt överträffa ett baslinjesystem för nyckelordsfyllning”, står det i tidningen. ”[DNN] är tilltalande för vår uppgift eftersom den kan implementeras mycket effektivt för att köras i realtid på enheter och strömförbrukningen kan enkelt justeras genom att ändra antalet parametrar i DNN.”

En DNN-lösning var dock långt ifrån perfekt eftersom igenkänningen försämras ”avsevärt när talet förstörs av brus, eller när avståndet mellan högtalaren och mikrofonen ökar.” Tanken bakom att använda DNN-teknik var att hjälpa Google Nu att förstå och välja de delar av ljudet som innehöll en röst. I testfasen skulle Google lägga till artificiellt brus till talspår, vilket tvingade dess system att lyssna mer noggrant på vad som sägs. För att bekämpa tyst tal tillät DNN Googles system att välja och förstärka nästan ohörbara delar av ljudet.

Allt är verkligen väldigt intressant och otrolig teknik, men jag är säker på att du läser det här och undrar ”vad i helvete är en LSTM eller DNN, och hur gör något av det Google Voice bättre?” Tja, om du vill veta hur all Googles talbehandling fungerar, har företaget varit vänligt nog att tillhandahålla några otroligt täta vita papper att detalj allt.

I lekmannatermer är LSTM en form av ”tänkande” för neurala nätverk. Det är en typ av RNN-arkitektur (recurrent neural network) som är perfekt för inlärning och klassificering. Som andra RNNs, lär den sig om världen genom att samla in data och bygger gradvis upp en bättre bild av sin miljö. Det är precis vad Google vill att tekniken för transkription av röstmeddelanden ska göra – spela in mer exakt genom att känna igen ljud och talmönster från uppringare. Men taligenkänning, särskilt tal-till-text, är inte enkelt.

Nigel Cannings, CTO för Intelligent Voice, avslöjade svårigheterna med att bygga otroligt exakt röstigenkänningsteknik. Traditionella taligenkänningsverktyg fungerar genom att lyssna på stavelse för stavelse. Men människor gör saker annorlunda: vi lyssnar undermedvetet och förutsäger vilka ord som kommer nästa för att bilda, och nästan omedelbart förstå, en mening.

”Taligenkänning är rent tidsmässigt. DNN är väldigt dålig på det. Det är bra för bilder, men dåligt för tal, säger Cannings. ”Tänk på tal som en samling av en miljon bilder alla i rad och – för att förstå nästa bild – måste du förstå de 30 bilderna innan och de 50 bilderna som kommer härnäst.”

Intressant nog anses RNN vara ”slutet på debatten” när det gäller taligenkänning, om de kan uppnås framgångsrikt. Drömmen är, enligt Cannings, att kunna omvandla data till text och dekryptera informationen otroligt snabbt, allt med låga filstorlekar. För närvarande är ”det enda problemet med neurala nätverk mängden ramar de kan hålla”, hävdar Cannings. RNN:er är helt enkelt inte tillräckligt stora för att hantera mängden data som behövs för att dekryptera hela meningar åt gången.

Det är oklart exakt hur Google lägger LSTM-teknik bakom Google Voice. Kanske, som Cannings föreslår, det tar varje ord i taget och förvandlar det till text – trots allt behöver Google Voice inte transkribera ett röstmeddelande direkt i realtid.

Lämna en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *