IBM выпустила новое поколение нейросетей Granite 3.3
Автор: ServerFlow
Семейство Granite 3.3 включает модели для распознавания и преобразования речи, а также мультимодальные нейросети.
Введение
16 апреля 2025 года компания IBM выпустила следующее поколение своей серии языковых моделей для коммерческого использования Granite. Обновленное семейство моделей Granite 3.3 получили улучшения мультимодальных возможностей, в частности, теперь нейросети могут распознавать речь и размышляют более эффективно.
Подробнее о моделях Granite 3.3 Instruct и Granite Speech 3.3
В серию Granite 3.3 вошли модели с 2 и 8 миллиардами параметров, а также особая модель для распознавания речи. Наиболее производительной и технологичной моделью стала Granite Speech 3.3 8b, которая получила функцию улучшенного распознавания и преобразования речи в текст. Granite Speech 3.3 8b предназначена для интеграции в приложения корпоративного уровня с функциями ASR и AST для автоматического ввода аудиозапросов и их транскрибации в текст. В задачах транскрибации Granite Speech 3.3 обеспечивает более высокую производительность, чем передовые проприетарные и открытые модели конкурентов.
Производительность Granite Speech 3.3 8b в задачах ввода и вывода речи. Источник: IBM.
Кроме того, Granite Speech 3.3 8b отлично справляется с задачами перевода с множества популярных языков, включая английский, французский, испанский, итальянский, немецкий, португальский, японский и китайский. При тестировании во внутреннем бенчмарке IBM для оценки параметра AST (транскрибация речи) модель Granite Speech 3.3 8b не только не уступает, но и превосходит в производительности такие модели, как GPT-4o от OpenAI и Gemini 2.0 Flash от Google.
Для обеспечения такой высокой производительности IBM внедрила в модель Granite Speech 3.3 ряд определенных архитектурных улучшений, например, 10-блоковый кодировщик речи, 2-слойный трансформатор запросов, обновленную внутреннюю аудиомодель Granite 3.3 8b Instruct, новый адаптер LoRA для работы с матрицей запросов. В отличие от напрямую интегрированных моделей, которые объединяют речь и текст в один проход, Granite Speech 3.3 использует двухслойную конструкцию. Например, чтобы задать модели вопросы об аудиофайле, требуется сначала вызвать модель для расшифровки аудио, а затем задать ей вопрос о расшифрованном тексте. Такой двухэтапный подход гарантирует, что производительность Granite Speech 3.3 8B при работе с текстовыми запросами соответствует производительности лежащей в его основе LLM (Granite 3.3 8B Instruct), что позволяет избежать снижения производительности при работе с текстом, характерного для многих мультимодальных моделей.
Интересной интеграцией в архитектуру модели является адаптер LoRA, повышающий общую производительность языковой модели, снижения количества галлюцинаций, перезаписи запросов, прогнозирования ответов, генерации цитат и других задач. IBM выпустила всего 5 адаптеров LoRA, интегрировав их как в новые LLM компании, так и нейросети прошлого поколения, такие как Granite 3.2 8B Instruct.
IBM заявляет, что Granite Speech 3.3 все еще не доработана для обработки наиболее длинных аудиозаписей — компания рекомендует вводить в модель записи не более 1 минуты длиной. Granite Speech 3.3 имеет открытый исходный код и доступна на платформе Hugging Face
Помимо Granite Speech 3.3, IBM также выпустила модели Granite 3.3 8b Instruct и Granite 3.3 2b Instruct, которые предлагают мультимодальный функционал и функцию заполнение пропусков (FIM), а также базовые модели Granite 3.3 8b Base и Granite 3.3 2b Base. Данные LLM имеют улучшенные функции размышления благодаря использованию технологии TPO и многоэтапного обучения с использованием нескольких методов. По результатам теста MATH500 модель Granite 3.3 8B значительно опережает Claude 3.5 Haiku от Anthropic (64,2%) и Llama* 3.1 8B Instruct от Meta* (44,4%), примерно соответствует Mistral Small 3 с 24 миллиардами параметров (70,6%) и лишь немного уступает Claude 3.5 Sonnet (72,4%) и GPT-4o Mini от OpenAI (72,6%).
Производительность моделей Granite 3.3 8b Instruct и Granite 3.3 2b Instruct. Источник: IBM.
Новые модели Granite 3.3 8b Instruct и Granite 3.3 2b Instruct и упрощенные версии Base доступны на платформах Hugging Face, Ollama и LM Studio.
Выводы
Выход Granite 3.3 — лишь тест-драйв новых технологий IBM, которые после доработки будут интегрированы в передовую языковую модель Granite 4, в данный момент находящаяся на этапе тестирования. Как утверждает IBM, семейство Granite 4 станет серьезным эволюционным толчком не только для архитектуры LLM Granite, но и для всей индустрии компактных коммерческих нейросетей. Пока что о нейросетях семейства Granite 4 ничего неизвестно, однако, компания заявила, что подробности будут раскрыты уже во второй половине 2025 года.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
IBM выпустила новое поколение нейросетей Granite 3.3
16 апреля 2025 года компания IBM выпустила следующее поколение своей серии языковых моделей для коммерческого использования Granite. Обновленное семейство моделей Granite 3.3 получили улучшения мультимодальных возможностей, в частности, теперь нейросети могут распознавать речь и размышляют более эффективно.
Подробнее о моделях Granite 3.3 Instruct и Granite Speech 3.3
В серию Granite 3.3 вошли модели с 2 и 8 миллиардами параметров, а также особая модель для распознавания речи. Наиболее производительной и технологичной моделью стала Granite Speech 3.3 8b, которая получила функцию улучшенного распознавания и преобразования речи в текст. Granite Speech 3.3 8b предназначена для интеграции в приложения корпоративного уровня с функциями ASR и AST для автоматического ввода аудиозапросов и их транскрибации в текст. В задачах транскрибации Granite Speech 3.3 обеспечивает более высокую производительность, чем передовые проприетарные и открытые модели конкурентов.
Производительность Granite Speech 3.3 8b в задачах ввода и вывода речи. Источник: IBM.
Кроме того, Granite Speech 3.3 8b отлично справляется с задачами перевода с множества популярных языков, включая английский, французский, испанский, итальянский, немецкий, португальский, японский и китайский. При тестировании во внутреннем бенчмарке IBM для оценки параметра AST (транскрибация речи) модель Granite Speech 3.3 8b не только не уступает, но и превосходит в производительности такие модели, как GPT-4o от OpenAI и Gemini 2.0 Flash от Google.
Для обеспечения такой высокой производительности IBM внедрила в модель Granite Speech 3.3 ряд определенных архитектурных улучшений, например, 10-блоковый кодировщик речи, 2-слойный трансформатор запросов, обновленную внутреннюю аудиомодель Granite 3.3 8b Instruct, новый адаптер LoRA для работы с матрицей запросов. В отличие от напрямую интегрированных моделей, которые объединяют речь и текст в один проход, Granite Speech 3.3 использует двухслойную конструкцию. Например, чтобы задать модели вопросы об аудиофайле, требуется сначала вызвать модель для расшифровки аудио, а затем задать ей вопрос о расшифрованном тексте. Такой двухэтапный подход гарантирует, что производительность Granite Speech 3.3 8B при работе с текстовыми запросами соответствует производительности лежащей в его основе LLM (Granite 3.3 8B Instruct), что позволяет избежать снижения производительности при работе с текстом, характерного для многих мультимодальных моделей.
Интересной интеграцией в архитектуру модели является адаптер LoRA, повышающий общую производительность языковой модели, снижения количества галлюцинаций, перезаписи запросов, прогнозирования ответов, генерации цитат и других задач. IBM выпустила всего 5 адаптеров LoRA, интегрировав их как в новые LLM компании, так и нейросети прошлого поколения, такие как Granite 3.2 8B Instruct.
IBM заявляет, что Granite Speech 3.3 все еще не доработана для обработки наиболее длинных аудиозаписей — компания рекомендует вводить в модель записи не более 1 минуты длиной. Granite Speech 3.3 имеет открытый исходный код и доступна на платформе Hugging Face
Помимо Granite Speech 3.3, IBM также выпустила модели Granite 3.3 8b Instruct и Granite 3.3 2b Instruct, которые предлагают мультимодальный функционал и функцию заполнение пропусков (FIM), а также базовые модели Granite 3.3 8b Base и Granite 3.3 2b Base. Данные LLM имеют улучшенные функции размышления благодаря использованию технологии TPO и многоэтапного обучения с использованием нескольких методов. По результатам теста MATH500 модель Granite 3.3 8B значительно опережает Claude 3.5 Haiku от Anthropic (64,2%) и Llama* 3.1 8B Instruct от Meta* (44,4%), примерно соответствует Mistral Small 3 с 24 миллиардами параметров (70,6%) и лишь немного уступает Claude 3.5 Sonnet (72,4%) и GPT-4o Mini от OpenAI (72,6%).
Производительность моделей Granite 3.3 8b Instruct и Granite 3.3 2b Instruct. Источник: IBM.
Новые модели Granite 3.3 8b Instruct и Granite 3.3 2b Instruct и упрощенные версии Base доступны на платформах Hugging Face, Ollama и LM Studio.
Выводы
Выход Granite 3.3 — лишь тест-драйв новых технологий IBM, которые после доработки будут интегрированы в передовую языковую модель Granite 4, в данный момент находящаяся на этапе тестирования. Как утверждает IBM, семейство Granite 4 станет серьезным эволюционным толчком не только для архитектуры LLM Granite, но и для всей индустрии компактных коммерческих нейросетей. Пока что о нейросетях семейства Granite 4 ничего неизвестно, однако, компания заявила, что подробности будут раскрыты уже во второй половине 2025 года.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.