Автоматичний майже синхронний голосовий переклад з однієї мови на іншу став реальністю: Microsoft Research продемонструвала переклад з англійської на путунхуа із затримкою в декілька секунд, в якому сам варіант на путунхуа звучав у вокальній манері оригіналу. Директор Microsoft по розробках Рік Рашид провів презентацію технології в Тяньцзіні 25 жовтня, але відомо про це стало чомусь лише зараз.
Г-н Рашид вимовив всього вісім англійських фраз в мікрофон системи розпізнавання, перекладу та генерації мови. Дві тисячі студентів і вчених були явно вражені результатом (мотайте відео до 7:30).
Стверджується, що це результат нововведень на всіх стадіях процесу. ПО зразок Dragon Naturally Speaking компанії Nuance вже вчинила тиху революцію в області розпізнавання мовлення. І тепер продукти, засновані на цій технології, доступні широкій публіці у вигляді додатку Siri для iPhone або голосового інтерфейсу ігрового контролера Kinect.
Хоча подібні системи часто помиляються (за словами г-на Рашида, неправильно інтерпретується кожне четверте-п'яте слово), сьогоднішні набагато краще вчорашніх. Microsoft застосувала нову систему машинного навчання на основі штучних нейронних мереж, яка скорочує нерозуміння до кожного сьомого-восьмого слова. А це означає, що програма-перекладач Bing Translate видасть генератору мови більш точний текст.
Але найбільше досягнення - це, звичайно, генерація мови із збереженням модуляцій голосу мовця. Співрозмовникам буде легше один одного зрозуміти, і тим самим спілкування стане ефективніше. Г-н Рашид биту годину спілкувався з машиною, перш ніж вона засвоїла всі нюанси його розмовної манери. Треба визнати, що нова система залишила технологію Dragon Naturally Speaking далеко позаду.
«Ще кілька років, - сказав присутнім пан Рашид, - і ми зламаємо мовні бар'єри між народами».