Googles AI kan nu välja ut enskilda röster i ett bullrigt rum

Människor är generellt sett mycket bättre än datorer på att plocka fram en enda röst i en folkmassa. Du kommer att veta detta om du någonsin har försökt säga något till din smarta högtalare medan någon annan pratar samtidigt. Chansen är stor att det förmodligen bett dig att upprepa ditt kommando.

Nu kan detta vara på väg att ändras, efter tillkännagivandet att Google har tränat en AI-modell för att separera distinkta talsignaler från en enda ljudinspelning.

I en blogginlägg, avslöjar företaget sin nya modell för djupinlärning genom att använda både de auditiva och visuella signalerna från en ingångsvideo – kort sagt, den läppläser.

”Den visuella signalen förbättrar inte bara talseparationskvaliteten avsevärt, i fall av blandat tal (jämfört med talseparation med enbart ljud, som vi visar i vår tidning)”, står det i inlägget. ”Det är viktigt att det också associerar de separerade, rena talspåren med de synliga högtalarna i videon.”

Google demonstrerar sin nya AI-modell med hjälp av en serie videor inklusive en av två ståuppkomiker som pratar högt samtidigt (som du kan se nedan), och dess effektivitet är häpnadsväckande. Den kan plocka fram vardera mans röst utan problem, och talet är så tydligt att det inte finns någon aning om att någon annan ens talade på originalinspelningen.

Google säger att allt en användare behöver göra är att välja ansiktet på personen i videon de vill höra. Annars kan programvaran välja en persons ansikte algoritmiskt baserat på sammanhang.

Det finns ett antal sätt tekniken skulle kunna användas på, och kanske för att dämpa allmänhetens sannolika (och förmodligen grundade) oro för integritet, har Google lett med det ganska torra exemplet med taligenkänning för automatisk videotextning.

Ingen av den nuvarande generationen smarta högtalare använder kameror för att interagera med användare, men det är inte omöjligt att föreställa sig att sådan teknik skulle kunna byggas in i högtalare i framtiden, särskilt om det är under sken av att erbjuda videosamtal från bekvämligheten av ditt vardagsrum. Tekniken kan också tänkas förbättra prestandan för röststyrningsprogramvara på telefoner, surfplattor, datorer och till och med tv-apparater.

Googles AI är inte först med att erbjuda talseparation – i maj förra året presenterade Mitsubishi en modell för djupinlärning som kunde separera två samtidiga tal med 90-tals noggrannhet – men den hävdar att dess modell ger bättre resultat än både ljudbaserade modeller som Mitsubishis och andra nyare audiovisuella talseparationsmetoder, som vanligtvis behöver tränas om för varje talare av intresse.

Relaterade inlägg

Lämna en kommentar Avbryt svar