Стартап eSelf.ai разработал платформу ИИ-аватаров для разговоров в реальном времени. Аватары общаются голосом и видят экран пользователя. Компания Kaltura купила стартап за $27 миллионов.

Стартап eSelf.ai создал платформу, которая превращает текстовые языковые модели в виртуальных собеседников с лицом, голосом и зрением. Пользователь видит на экране реалистичного персонажа, говорит с ним голосом, а аватар отвечает – его губы двигаются синхронно речи, мимика – живая, задержка – минимальная. Это не запись, а разговор в реальном времени.

Технология объединяет три компонента: генерацию реалистичного видео, быстрое распознавание и синтез речи. Кроме того, аватар использует компьютерное зрение для анализа экрана. Платформа eSelf.ai не является языковой моделью – она работает как мультимодальная оболочка, которая берет речь пользователя, переводит в текст, отправляет в LLM (например, GPT или специализированную модель), получает ответ и его реалистично озвучивает.

Главное преимущество eSelf.ai – это способность видеть и понимать содержимое экрана человека-собеседника. Например, если пользователь открыл таблицу с ошибками или не разобрался в настройках программы, он может сказать аватару: "Помоги мне". Аватар анализирует изображение экрана, объясняет проблему голосом и, если получит разрешение, может взять управление компьютером на себя и решить задачу. Система поддерживает более 30 языков и позволяет создавать персонажей через студию eSelf.ai.

Американская компания Kaltura, разработчик корпоративных видеоплатформ, интегрирует технологию eSelf.ai в свои продукты для обучения, техподдержки и работы с клиентами. Сумма сделки составляет $27 миллионов долларов. Вся команда eSelf.ai присоединяется к Kaltura.