ИИ-стартап Ai2 объявил о запуске Bolmo — нового семейства из 3 языковых моделей, работающих напрямую с байтами данных UTF-8 и не использующих токенизацию. В отличие от предыдущих byte-level подходов, которые требовали дорогостоящего обучения с нуля, Bolmo построена на основе уже существующих открытых моделей Olmo 3 и адаптирована к байтовому представлению за счет дополнительного этапа обучения. По утверждению разработчиков, это первые полностью открытые байтовые модели, которые по совокупной производительности не уступают, а в ряде задач превосходят современные subword-LM сопоставимого масштаба.
Подробнее о Bolmo
В основе Bolmo лежит архитектура скрытого токенизатора. Каждый байт UTF-8 сначала обрабатывается локальным кодировщиком на базе mLSTM, который формирует контекстные представления на уровне байтов. Затем специальный предиктор границ, использующий небольшой объем будущего контекста, объединяет байты в фрагменты переменной длины. Эти фрагменты поступают в глобальный трансформер Olmo 3, после чего результат декодируется обратно в байты. Такой подход близок к архитектурам BLT, DTP и H-Net, но ключевое отличие Bolmo заключается в повторном использовании уже обученной мощной subword-модели.
Архитектура ИИ-модели Bolmo. Источник: .
Процесс обучения также выстроен с упором на экономичность. Сначала трансформер Olmo 3 замораживается, и обучаются только байтовые модули, что требует порядка 9,8 миллиардов токенов, или около 43 миллиардов байт. Затем вся модель дообучается на дополнительных 39,3 миллиардов токенов, что позволяет Bolmo полноценно использовать информацию на уровне байтов. В сумме объем обучения остается на порядок ниже, чем при создании byte-level модели с нуля сопоставимого качества.
По результатам оценки Bolmo 7B достигает практически той же производительности, что и исходная Olmo 3 7B на широком наборе задач, включающем математику, кодинг, STEM-рассуждения и ответы на вопросы, но значительно превосходит ее в тестах, ориентированных на работу с символами. В бенчмарках CUTE и EXECUTE прирост точности достигает почти двадцати процентных пунктов. По сравнению с другими байтовыми моделями схожего размера, такими как BLT 7B, TFree-Hat 7B и EvaByte 6,5B, Bolmo 7B демонстрирует лучшую совокупную производительность по большинству категорий, уступая лишь в отдельных задачах общего QA. Помимо стандартной Bolmo 7B, разработчики также выпустили компактную модель Bolmo 1B и датасет Bolmo mix на Hugging Face.
Результаты тестирования ИИ-модели Bolmo 7B. Источник: .
Отдельное внимание уделено скорости инференса. Несмотря на то что байтовые модели обрабатывают больше элементарных единиц, архитектура Bolmo с динамическим объединением байтов обеспечивает скорость порядка 125 байт в секунду, что близко к показателям моделей с традиционным токенизаторов сопоставимого уровня сжатия. Более того, степень сжатия можно гибко настраивать, регулируя баланс между скоростью и точностью без изменения архитектуры и словаря.
Тесты Ai2 также показывают, что навыки instruction-tuning, полученные для Olmo 3, можно перенести в байтовую модель Bolmo путем простой арифметики весов, без дополнительного обучения. В тесте IFEval такая байетифицированная модель достигает 67,4% точности, что сопоставимо с 66,9% у исходной instruction-tuned Olmo 3.
Сравнение базовой модели Olmo и байтовой модели Bolmo. Источник: .
Выводы
ИИ-модель Bolmo демонстрирует, что байтовый уровень может быть не экспериментальной экзотикой, а полноценной альтернативой классической токенизации. Подход Ai2 показывает воспроизводимый путь байетификации сильных открытых моделей с сохранением их экосистемы обучения и дообучения, что делает byte-level LLM реальным кандидатом для следующего этапа развития языковых моделей.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.