Top.Mail.Ru
Google представила VaultGemma: ИИ-модель для конфиденциальных приложений | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Google представила VaultGemma: ИИ-модель для конфиденциальных приложений

~ 2 мин
97
Простой
Новости
Google представила VaultGemma: ИИ-модель для конфиденциальных приложений

Введение

Компания Google представила открытую языковую модель VaultGemma с 1 миллиардом параметров, созданную специально для сохранения конфиденциальности данных, использующихся при локальном дообучении нейросети.

Подробнее о VaultGemma

VaultGemma представляет собой специализированную версию семейства облегченных языковых моделей Gemma, разработанную с акцентом на конфиденциальность данных. Модель прошла предварительное обучение с применением принципов дифференциальной конфиденциальности (Differential Privacy), что обеспечивает строгие математические гарантии защиты обучающих данных. Этот подход предотвращает возможность раскрытия информации из обучающего набора данных через выходные данные модели. В основе VaultGemma лежит архитектура модели Gemma 2, благодаря чему нейросеть можно тонко настраивать для выполнения различных задач обработки естественного языка, вроде кодинга, математики и логической обработки. При компактном размере менее 1 миллиарда параметров модель может работать в средах с ограниченными вычислительными ресурсами, делая передовые ИИ-модели с гарантиями конфиденциальности более доступными. Длина обрабатываемого контекста нейросети ограничена 1024 токенами из-за сверхкомпактного объема параметров.

Модель увеличения бюджета приватности и вычислительного бюджета
Модель увеличения бюджета приватности и вычислительного бюджета нейросети VaultGemma. Источник: Google Research.

Ключевой особенностью VaultGemma является использование дифференциально-приватного стохастического градиентного спуска (DP-SGD). Данный метод обеспечивает гарантии того, что набор знаний модели будет защищен. Для еще большей защиты данных Google также использовала такие передовые методы, как метод усеченной субвыборки Пуассона и масштабирование дифференциальной конфиденциальности. Кроме того, при разработке применялась многоэтапная фильтрация запрещенного контента, автоматическое удаление персональных данных и фильтрация по качеству контента. Техническая реализация обучения выполнялась на тензорных процессорах TPUv6e с использованием фреймворков JAX и ML Pathways. 

Производительность VaultGemma
Сравнение производительности VaultGemma с компактными нейросетями Gemma 3:1b и GPT-2:1.5b. Источник: Google Research.

Модель предназначена для широкого спектра задач обработки естественного языка с акцентом на исследования в области конфиденциальной обработки данных, приложения с чувствительными данными. Среди ограничений модели отмечается снижение точности и производительности, зависимость от качества обучающих данных и сложности в понимании сложных языковых конструкций, что является следствием упора на защиту набора данных. Веса модели VaultGemma уже доступны для скачивания на платформе Hugging Face.

Выводы

Google представила весьма интересное решение в лице VaultGemma, практическое использование которой в массовом сегменте рынка будет с высокой долей вероятностью сведено к минимуму — локальные ИИ сами по себе дают достаточный уровень конфиденциальности, при этом большинство LLM не теряют точности и производительности, в отличие от VaultGemma. Тем не менее, VaultGemma может найти применение в средах, где важна высочайшая защита и сведение к минимуму всех возможных бэкдоров, вроде банкинга, медицины, военного и государственного сектора.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)