Группа «Т-Технологии» представила лучшие в мире открытые большие языковые модели на русском языке

Москва, Россия — 11 декабря 2024 г.
Группа «Т-Технологии» разработала и открыла доступ к двум большим языковым моделям (LLM) — T-Pro на 32 млрд параметров и обновленной T-Lite на 7 млрд параметров. Теперь любая российская компания сможет бесплатно использовать возможности одних из самых эффективных в мире LLM, не тратя средства и время на создание собственных моделей.

T-Pro и T-Lite — лучшие в мире открытые модели на русском языке. Это показали многочисленные индустриальные бенчмарки: MERA, ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval. T-Lite и T-Pro превосходят все российские и зарубежные модели по общему уровню знаний, умению вести диалог и выполнять практические задачи.

Использование российскими компаниями открытых моделей такого качества позволит поднять технологическое развитие российского бизнеса на новый уровень и даст существенный толчок для экономики.

Открытый доступ предполагает полностью бесплатное использование моделей для решения внутренних задач и создания новых продуктов на базе LLM — независимо от размера бизнеса. Например, с помощью LLM можно создавать умных чат-ботов в поддержке, которые более приближены к человеческому общению и отвечают не по скриптам, а в режиме живого диалога. Это позволит частично или полностью автоматизировать разбор клиентских обращений. Также с помощью LLM бизнес может создавать ассистентов для своих сотрудников: инструменты для автоматического написания кода, составления отчетов, написания исследований.

Использование моделей от «Т-Технологий» позволит бизнесу:

  • не создавать собственные многомиллиардные модели с нуля, а дообучать имеющуюся базу под свои нужды;
  • сэкономить на комиссиях сторонним поставщикам услуг за использование их проприетарных (закрытых) моделей.

Виктор Тарнавский, директор по искусственному интеллекту Т-Банка:

«При нашем объеме бизнеса (более 46 млн клиентов и 90 тысяч сотрудников) возникают задачи такого уровня сложности, для которого подходят только собственные технологии. Когда мы начали развивать продукты на базе больших языковых моделей — например, копилотов для сотрудников и Вселенную AI-ассистентов, — мы еще раз убедились, что существующие на рынке решения не отвечают нашим требованиям.

Так мы начали развивать Gen-T — семейство специализированных языковых моделей. Нашей целью было создать решения без компромиссов по качеству и при этом минимизировать затраты, используя наработки мирового научного и инженерного сообщества.

Убедившись в эффективности нашего решения, мы решили поделиться нашими моделями со всей индустрией и поменять подход к использованию LLM. Зачем создавать собственные дорогие модели, если можно взять лучшее с рынка и настроить под себя. Наш опыт смогут перенять другие компании, а использование LLM станет гораздо шире».

Семейство специализированных моделей Gen-T

Модели входят в Gen-T — семейство собственных специализированных языковых моделей группы «Т-Технологии». Модели семейства предназначены для решения конкретных узкоспециализированных задач в отличие от универсальных решений, таких как ChatGPT.

Для создания моделей используется технология продолженного предобучения (Continual Pretraining). Это процесс, при котором уже обученную на больших объемах информации модель продолжают обучать на материалах, специфичных для определенной задачи или области, и адаптируют ее на русский язык. Модели T-Lite и T-Pro основаны на базе моделей семейства Qwen-2.5, но показывают более высокое качество на задачах русского языка, чем оригинальные модели.

Такой подход позволяет «Т-Технологиям» существенно сократить затраты на создание больших языковых моделей — на 80–90% по сравнению с компаниями, которые обучают их с нуля. При этом качество решений LLM-продуктов на русском языке превосходит решения, базирующиеся на открытых и проприетарных моделях от OpenAI, Google и Anthropic.

T-Pro

По сравнению с предшественницей T-Lite в модели T-Pro увеличилось число параметров — с 7 до 32 млрд. Это делает модель более мощной и производительной. Большее число параметров позволяет модели учитывать больше контекста и особенностей языка, лучше запоминать информацию, делать более точные и сложные выводы

Модель работает в двух режимах: ее можно дообучить под конкретные бизнес-задачи (Fine-tuning), а также использовать в режиме промптинга — ставить перед моделью задачи в режиме диалога.

Среди открытых моделей своей весовой категории T-Pro занимает первое место в решении задач на русском языке согласно индустриальным бенчмаркам MERA, ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval.

Среди проприетарных (закрытых) моделей T-Pro занимает второе место по ряду бенчмарков, уступая только GPT-4o.

Обновленная T-Lite

Новая версия T-Lite с 7 млрд параметров подходит для дообучения под конкретные бизнес-задачи. Среди основных улучшений:

  • Точность и контекстуальность. Лучше улавливает контекст, понимает сложные запросы и выдает более точные ответы.
  • Глубина генерации. Создает тексты, которые ближе к человеческому стилю письма, с меньшим количеством ошибок и большей логической связностью.
  • Адаптивность. Модель легко дообучается под нужды конкретных отраслей — от финансов и медицины до ретейла и образования.

T-Lite стала лучшей в категории открытых моделей до 10 млрд параметров по результатам индустриальных бенчмарков, включая MERA, ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval.

Модели T-Lite и T-Pro уже доступны для скачивания на платформе Hugging Face под лицензией Apache 2.0.

При их совместном использовании с открытой библиотекой Turbo Alignment компании смогут не разрабатывать ИИ-приложения с нуля, а использовать уже готовые инструменты.

Похожие новости