Még tavaly októberben Rick Rashid (Chief Research Officer, Microsoft) egy tajvani konferencián demonstrálta mire képes a beszédfelismerés és a gépi fordítás.
A felvételen látható, Rashid beszédét valós időben szöveggé konvertálja a rendszer és a kivetítőn olvasható mit mond az előadó. 4:28-nál a feliratot a szoftver rögtön le is fordítja kínaira, majd 7:28-tól a kínai szöveget hallhatjuk is (állítólag Rashid hangjához hasonló gépi hang olvas fel, én nem fedeztem fel nagy hasonlóságot a két hang között).
Mindez az ún. neurális hálók technológiájában történt áttörésnek és az olcsó GPU egységek elterjedésének köszönhető. A Microsoft mellett a Google is széles körben alkalmazza ezt az eljárást, pl. a korábban már bemutatott beviteli eszközök kapcsán. A témában érdemes elolvasni a Wired cikkét, ami ezt a posztot is inspirálta.