Компания Google представила открытую языковую модель VaultGemma с 1 миллиардом параметров, созданную специально для сохранения конфиденциальности данных, использующихся при локальном дообучении нейросети.
Подробнее о VaultGemma
VaultGemma представляет собой специализированную версию семейства облегченных языковых моделей Gemma, разработанную с акцентом на конфиденциальность данных. Модель прошла предварительное обучение с применением принципов дифференциальной конфиденциальности (Differential Privacy), что обеспечивает строгие математические гарантии защиты обучающих данных. Этот подход предотвращает возможность раскрытия информации из обучающего набора данных через выходные данные модели. В основе VaultGemma лежит архитектура модели Gemma 2, благодаря чему нейросеть можно тонко настраивать для выполнения различных задач обработки естественного языка, вроде кодинга, математики и логической обработки. При компактном размере менее 1 миллиарда параметров модель может работать в средах с ограниченными вычислительными ресурсами, делая передовые ИИ-модели с гарантиями конфиденциальности более доступными. Длина обрабатываемого контекста нейросети ограничена 1024 токенами из-за сверхкомпактного объема параметров.
Модель увеличения бюджета приватности и вычислительного бюджета нейросети VaultGemma. Источник: Google Research.
Ключевой особенностью VaultGemma является использование дифференциально-приватного стохастического градиентного спуска (DP-SGD). Данный метод обеспечивает гарантии того, что набор знаний модели будет защищен. Для еще большей защиты данных Google также использовала такие передовые методы, как метод усеченной субвыборки Пуассона и масштабирование дифференциальной конфиденциальности. Кроме того, при разработке применялась многоэтапная фильтрация запрещенного контента, автоматическое удаление персональных данных и фильтрация по качеству контента. Техническая реализация обучения выполнялась на тензорных процессорах TPUv6e с использованием фреймворков JAX и ML Pathways.
Сравнение производительности VaultGemma с компактными нейросетями Gemma 3:1b и GPT-2:1.5b. Источник: Google Research.
Модель предназначена для широкого спектра задач обработки естественного языка с акцентом на исследования в области конфиденциальной обработки данных, приложения с чувствительными данными. Среди ограничений модели отмечается снижение точности и производительности, зависимость от качества обучающих данных и сложности в понимании сложных языковых конструкций, что является следствием упора на защиту набора данных. Веса модели VaultGemma уже доступны для скачивания на платформе Hugging Face.
Выводы
Google представила весьма интересное решение в лице VaultGemma, практическое использование которой в массовом сегменте рынка будет с высокой долей вероятностью сведено к минимуму — локальные ИИ сами по себе дают достаточный уровень конфиденциальности, при этом большинство LLM не теряют точности и производительности, в отличие от VaultGemma. Тем не менее, VaultGemma может найти применение в средах, где важна высочайшая защита и сведение к минимуму всех возможных бэкдоров, вроде банкинга, медицины, военного и государственного сектора.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.