16 апреля 2025 года компания IBM выпустила следующее поколение своей серии языковых моделей для коммерческого использования Granite. Обновленное семейство моделей Granite 3.3 получили улучшения мультимодальных возможностей, в частности, теперь нейросети могут распознавать речь и размышляют более эффективно.
Подробнее о моделях Granite 3.3 Instruct и Granite Speech 3.3
В серию Granite 3.3 вошли модели с 2 и 8 миллиардами параметров, а также особая модель для распознавания речи. Наиболее производительной и технологичной моделью стала Granite Speech 3.3 8b, которая получила функцию улучшенного распознавания и преобразования речи в текст. Granite Speech 3.3 8b предназначена для интеграции в приложения корпоративного уровня с функциями ASR и AST для автоматического ввода аудиозапросов и их транскрибации в текст. В задачах транскрибации Granite Speech 3.3 обеспечивает более высокую производительность, чем передовые проприетарные и открытые модели конкурентов.
Производительность Granite Speech 3.3 8b в задачах ввода и вывода речи. Источник: .
Кроме того, Granite Speech 3.3 8b отлично справляется с задачами перевода с множества популярных языков, включая английский, французский, испанский, итальянский, немецкий, португальский, японский и китайский. При тестировании во внутреннем бенчмарке IBM для оценки параметра AST (транскрибация речи) модель Granite Speech 3.3 8b не только не уступает, но и превосходит в производительности такие модели, как GPT-4o от OpenAI и Gemini 2.0 Flash от Google.
Для обеспечения такой высокой производительности IBM внедрила в модель Granite Speech 3.3 ряд определенных архитектурных улучшений, например, 10-блоковый кодировщик речи, 2-слойный трансформатор запросов, обновленную внутреннюю аудиомодель Granite 3.3 8b Instruct, новый адаптер LoRA для работы с матрицей запросов. В отличие от напрямую интегрированных моделей, которые объединяют речь и текст в один проход, Granite Speech 3.3 использует двухслойную конструкцию. Например, чтобы задать модели вопросы об аудиофайле, требуется сначала вызвать модель для расшифровки аудио, а затем задать ей вопрос о расшифрованном тексте. Такой двухэтапный подход гарантирует, что производительность Granite Speech 3.3 8B при работе с текстовыми запросами соответствует производительности лежащей в его основе LLM (Granite 3.3 8B Instruct), что позволяет избежать снижения производительности при работе с текстом, характерного для многих мультимодальных моделей.
Интересной интеграцией в архитектуру модели является адаптер LoRA, повышающий общую производительность языковой модели, снижения количества галлюцинаций, перезаписи запросов, прогнозирования ответов, генерации цитат и других задач. IBM выпустила всего 5 адаптеров LoRA, интегрировав их как в новые LLM компании, так и нейросети прошлого поколения, такие как Granite 3.2 8B Instruct.
IBM заявляет, что Granite Speech 3.3 все еще не доработана для обработки наиболее длинных аудиозаписей — компания рекомендует вводить в модель записи не более 1 минуты длиной. Granite Speech 3.3 имеет открытый исходный код и доступна на платформе Hugging Face
Помимо Granite Speech 3.3, IBM также выпустила модели Granite 3.3 8b Instruct и Granite 3.3 2b Instruct, которые предлагают мультимодальный функционал и функцию заполнение пропусков (FIM), а также базовые модели Granite 3.3 8b Base и Granite 3.3 2b Base. Данные LLM имеют улучшенные функции размышления благодаря использованию технологии TPO и многоэтапного обучения с использованием нескольких методов. По результатам теста MATH500 модель Granite 3.3 8B значительно опережает Claude 3.5 Haiku от Anthropic (64,2%) и Llama* 3.1 8B Instruct от Meta* (44,4%), примерно соответствует Mistral Small 3 с 24 миллиардами параметров (70,6%) и лишь немного уступает Claude 3.5 Sonnet (72,4%) и GPT-4o Mini от OpenAI (72,6%).
Производительность моделей Granite 3.3 8b Instruct и Granite 3.3 2b Instruct. Источник: .
Новые модели Granite 3.3 8b Instruct и Granite 3.3 2b Instruct и упрощенные версии Base доступны на платформах Hugging Face, Ollama и LM Studio.
Выводы
Выход Granite 3.3 — лишь тест-драйв новых технологий IBM, которые после доработки будут интегрированы в передовую языковую модель Granite 4, в данный момент находящаяся на этапе тестирования. Как утверждает IBM, семейство Granite 4 станет серьезным эволюционным толчком не только для архитектуры LLM Granite, но и для всей индустрии компактных коммерческих нейросетей. Пока что о нейросетях семейства Granite 4 ничего неизвестно, однако, компания заявила, что подробности будут раскрыты уже во второй половине 2025 года.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.