Компания Google представила открытую языковую модель VaultGemma с 1 миллиардом параметров, созданную специально для сохранения конфиденциальности данных, использующихся при локальном дообучении нейросети.
Подробнее о VaultGemma
VaultGemma представляет собой специализированную версию семейства облегченных языковых моделей Gemma, разработанную с акцентом на конфиденциальность данных. Модель прошла предварительное обучение с применением принципов дифференциальной конфиденциальности (Differential Privacy), что обеспечивает строгие математические гарантии защиты обучающих данных. Этот подход предотвращает возможность раскрытия информации из обучающего набора данных через выходные данные модели. В основе VaultGemma лежит архитектура модели Gemma 2, благодаря чему нейросеть можно тонко настраивать для выполнения различных задач обработки естественного языка, вроде кодинга, математики и логической обработки. При компактном размере менее 1 миллиарда параметров модель может работать в средах с ограниченными вычислительными ресурсами, делая передовые ИИ-модели с гарантиями конфиденциальности более доступными. Длина обрабатываемого контекста нейросети ограничена 1024 токенами из-за сверхкомпактного объема параметров.
Модель увеличения бюджета приватности и вычислительного бюджета нейросети VaultGemma. Источник: Google Research.
Ключевой особенностью VaultGemma является использование дифференциально-приватного стохастического градиентного спуска (DP-SGD). Данный метод обеспечивает гарантии того, что набор знаний модели будет защищен. Для еще большей защиты данных Google также использовала такие передовые методы, как метод усеченной субвыборки Пуассона и масштабирование дифференциальной конфиденциальности. Кроме того, при разработке применялась многоэтапная фильтрация запрещенного контента, автоматическое удаление персональных данных и фильтрация по качеству контента. Техническая реализация обучения выполнялась на тензорных процессорах TPUv6e с использованием фреймворков JAX и ML Pathways.
Сравнение производительности VaultGemma с компактными нейросетями Gemma 3:1b и GPT-2:1.5b. Источник: Google Research.
Модель предназначена для широкого спектра задач обработки естественного языка с акцентом на исследования в области конфиденциальной обработки данных, приложения с чувствительными данными. Среди ограничений модели отмечается снижение точности и производительности, зависимость от качества обучающих данных и сложности в понимании сложных языковых конструкций, что является следствием упора на защиту набора данных. Веса модели VaultGemma уже доступны для скачивания на платформе Hugging Face.
Выводы
Google представила весьма интересное решение в лице VaultGemma, практическое использование которой в массовом сегменте рынка будет с высокой долей вероятностью сведено к минимуму — локальные ИИ сами по себе дают достаточный уровень конфиденциальности, при этом большинство LLM не теряют точности и производительности, в отличие от VaultGemma. Тем не менее, VaultGemma может найти применение в средах, где важна высочайшая защита и сведение к минимуму всех возможных бэкдоров, вроде банкинга, медицины, военного и государственного сектора.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.