Fake Mews: Maskininlärning har tränats för att förvandla hundar till katter och vice versa

Vi blir allt skickligare på att träna datorer för att manipulera bilder och videor, lägga Trumps rådgivares ord i munnen på franska sångare och förvandla strandscener till pornografiska drömmar. Så det var bara en tidsfråga innan sådan teknik slogs på internetfavoriten, katten.

Ett projekt från Nvidia och Cornell University är nästa steg i att korrekt ”översätta” bilder, och det har visats genom att manipulera en video av en hund för att få hunden att förvandlas till en katt. Inte bara en katt, sinne, utan fyra olika kattraser – var och en rör på huvudet på samma sätt som den ursprungliga huskie.

LÄS NÄSTA: AI kontra maskininlärning

Tekniken kallas Multimodal Unsupervised Image-to-image Translation (MUNIT)-ramverk av dess skapare och läggs fram som en förbättring jämfört med tidigare metoder genom att den ger mer frihet för en given bild att manipuleras till en rad olika utdata. Som en video av ramverket i aktion visar kan en katt ”översättas” till ett antal olika hundar, och vice versa.

”Bild-till-bild översättning hänvisar till att förvandla en bild från en domän till en annan (t.ex. katter till hundar, skisser till skor, sommar till vinter) samtidigt som den underliggande strukturen hålls oförändrad,” Xun Huang, huvudförfattare till en studie om forskningen och en doktorand vid Cornell, berättar Alphr.

”Vårt ramverk är oövervakat, vilket innebär att det inte behöver se exempel på motsvarande bilder (t.ex. detta katt ska förvandlas till den där hund), men den kan upptäcka förhållandet på egen hand. Den är också multimodal, vilket innebär att en katt kan förvandlas till flera hundar, medan tidigare arbeten bara stöder en-till-en-kartläggning.”

Forskarna är inte bara intresserade av att byta husdjurs kroppar. De har också använt MUNIT-ramverket för att manipulera bilder av landskap under olika årstider, bilder av skor och handväskor från ritade skisser och gatuscener från datorgenererade körscenarier.

”Denna teknik ger mer frihet för bildmanipulation”, säger Huang. ”Tidigare var manipulationsprocessen deterministisk – du får en enda utdatabild från din ingång. Med vår metod kan du välja vilken output du vill ha från en fördelning av möjliga utgångar. Du kan också styra utskriftsstilen genom att tillhandahålla en exempelbild.

”I praktiken kan den här tekniken användas för att underlätta designprocessen, för att göra spel/filmer och för att hjälpa utvecklingen av självkörande bilar.”

Det kusliga, Män-i-Svart-skurk-utseendet hos de ”översatta” katterna antyder att ramverket kan göra med en viss förfining. Trots det visar projektet hur långt oövervakad bildmanipulation fortskrider. Kommer det att undergräva verkligheten av det vi ser på våra skärmar? Kanske. För nu kan du åtminstone se hur Fido ser ut som en Ginger Tom.

Koden för studien är tillgänglig från GitHub här. Hittade via Proteskunskap.

Lämna en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *