Команда разработчиков представила обновленную версию компактной языковой модели QVikhr-2.5-1.5B-Instruct-SMPO. Главное улучшение — внедрение технологии RLHF (Reinforcement Learning from Human Feedback), которая позволила значительно повысить качество ответов при сохранении компактного размера в 1.5 миллиарда параметров.
«QVikhr-2.5-1.5B-Instruct-SMPO представляет собой языковую модель, прошедшую специализированное обучение с использованием метода SMPO. Эта модель демонстрирует прогресс в методах выравнивания, особенно в области улучшения качества ответов через оптимизацию предпочтений.»
Карточка модели, GGUF, Презентация Preference Optimization
Источник новости и обложки: t.me/vikhrlabs/48