У відеодзвінках навчилися визначати мову жестів
Google розробила модель, яка може зчитувати мову жестів під час відеодзвінків. Штучний інтелект може визначати хто «активно говорить», але ігнорує співрозмовника, якщо він просто рухає руками або головою.
Дослідники представили систему виявлення мови жестів у реальному часі. Вона може відрізняти, коли співрозмовник намагається сказати щось або просто рухає тілом, головою, руками. Вчені відзначають, що ця задача може здатися легкою для людини, проте раніше такої системи не було ні в одному з сервісів відеодзвінків всі вони реагують на будь-який звук або жест людини.
Нова розробка дослідників Google здатна робити це з великою ефективністю і невеликими затримками. Поки дослідники відзначають, що визначення мови жестів призводять до затримки або погіршення якості відео, однак цю проблему можна вирішити, а сама модель залишилась легкою і надійною.
Принцип роботи
Спочатку система проганяє відео через модель під назвою PoseNet, яка оцінює положення тіла і кінцівок в кожному кадрі. Спрощена візуальна інформація надсилається моделі, навченої позиціонуванню даних з відео людей, що використовують мову жестів, і порівнює зображення з тим, як люди зазвичай показують ті або інші слова.
Модель правильно визначає слова і вирази з 80% точністю, а з додатковою оптимізацією може досягти й 91,5%. З огляду на те, що виявлення «активного мовця» в більшості сервісів працює із затримками, дослідники вважають, що це дуже великі цифри.
Читайте також: