Google представила Gemma 4 — самые эффективные открытые LLM

03.04.2026

~ 2 мин

Простой

Новости

Введение

Разработчики команды Google DeepMind выпустили долгожданное семейство ИИ-моделей Gemma 4. В релиз вошли четыре версии с разным количеством параметров: от компактных Effective 2B (E2B), Effective 4B (E4B) до MoE-версии на 26B и плотной 31B. Последняя плотная модель Gemma 4 31B уже завоевала любовь ИИ-сообщества, обходя флагманские ИИ-модели конкурентов, в несколько раз превосходящие ее по размерам. Все модели находятся в открытом доступе на Hugging Face под лицензией Apache 2.0.

Подробнее о Gemma 4

Gemma 4 является многоязычной и мультимодальной — из коробки поддерживается 35 языков, хотя при обучении использовалось более 140. На вход модели могут принимать текст и изображения, а варианты E2B и E4B дополнительно обрабатывают звук, что открывает возможности для распознавания речи и перевода. Модель 26B A4B построена на архитектуре смеси экспертов (Mixture‑of‑Experts), при которой во время генерации активируются только 3,8 миллиарда параметров, что дает существенный выигрыш в скорости по сравнению с классическими монолитными моделями того же размера. Остальные варианты используют традиционную плотную архитектуру.

ИИ-производительность Gemma 4 в сравнении с другими открытыми LLM с учетом количества токенов. Источник: Google.

Все модели поддерживают продвинутые рассуждения и настраиваемые режимы работы, а также системную роль (System Role), позволяющую отдельно обрабатывать инструкции, правила и ограничения, не смешивая их с пользовательскими данными. Gemma 4 пригодна для написания кода, распознавания объектов на изображениях, покадрового анализа видео, разбора документов и PDF‑файлов, оптического распознавания печатного и рукописного текста, а также для работы в качестве автономных агентов, взаимодействующих с различными инструментами и API. В большинстве тестов модели серии Gemma 4 значительно превзошли предыдущую модель Gemma 3 с 27 миллиардами параметров.

Модели поставляются с весами, адаптированными под конкретное оборудование. Версии 26B и 31B в формате bfloat16 оптимизированы для исследователей и разработчиков, эффективно работая на одном GPU NVIDIA H100 с 80 ГБ памяти. Квантованные версии для локальных установок работают на потребительских графических процессорах. Модель MoE 26B активирует во время вывода только 3,8 миллиарда параметров, обеспечивая исключительно высокую скорость обработки токенов в секунду, тогда как плотная модель 31B дает максимальное качество и служит мощной основой для тонкой настройки. Модели E2B и E4B, разработанные с нуля для максимальной вычислительной эффективности и экономии памяти, задействуют 2 и 4 миллиарда эффективных параметров во время вывода, экономя оперативную память и время автономной работы. Благодаря тесному сотрудничеству с командой Google Pixel и лидерами мобильного оборудования, такими как Qualcomm Technologies и MediaTek, эти мультимодальные модели работают полностью автономно с практически нулевой задержкой на периферийных устройствах — телефонах, Raspberry Pi, NVIDIA Jetson Orin Nano. Разработчики под Android могут создавать прототипы агентных потоков в предварительной версии AICore для разработчиков, обеспечивающей обратную совместимость с Gemini Nano 4.

ИИ-производительность Gemma 4 в ИИ-бенчмарках

ИИ-производительность семейства Gemma 4 в ключевых ИИ-бенчмарках. Источник: Google.

Выводы

Долгожданный релиз Gemma 4 показал, что завоевывать лидерство в ИИ-индустрии могут не только огромные модели с триллионами параметров, но и качественно оптимизированные легкие нейронки на 31 миллиард параметров. Благодаря четырём размерам, покрывающим потребности от мобильных устройств до мощных серверов, встроенной поддержке мультимодальности (видео, изображения, аудио), более 140 языков, длинному контексту и агентным возможностям (вызов функций, JSON, системные инструкции), модели Gemma 4 дают разработчикам полную свободу для создания ИИ-продуктов нового поколения.

Автор:

Serverflow