Компания Hugging Face, оцениваемая более чем в 4 миллиарда долларов, представила открытую Python-библиотеку FastRTC. Новый инструмент призван упростить создание приложений с поддержкой голосового и видео ИИ, позволяя разработчикам реализовать базовое real-time аудио-приложение всего в 5 строках кода вместо недель разработки.
Timing выхода FastRTC идеально совпал с бумом голосового ИИ — недавно ElevenLabs привлекла 180 миллионов долларов инвестиций, а такие компании как Kyutai, Alibaba и Fixie.ai выпустили специализированные аудио-модели. Однако существовал разрыв между продвинутыми ИИ-моделями и технической инфраструктурой для их внедрения в real-time приложения.
FastRTC автоматизирует сложные аспекты real-time коммуникации, предоставляя готовые решения для определения голоса, управления очередностью разговора и даже генерации временных телефонных номеров для доступа к приложениям. Библиотека совместима с любыми LLM, сервисами text-to-speech и speech-to-text, а также моделями speech-to-speech.
Это особенно важно для небольших компаний, у которых нет ресурсов на создание собственной инфраструктуры real-time коммуникаций, в отличие от гигантов вроде Google и OpenAI. В 2025 году, когда ИИ-интерфейсы активно смещаются от текстового формата к мультимодальному взаимодействию, FastRTC может стать ключевым инструментом для создания более естественных и человечных ИИ-приложений.
Источник новости и обложки: venturebeat.com