Whisper и дообучение ASR: как научить распознавать специализированную лексику

18.10.2025

~ 10 мин

1945

Средний

Статьи

Введение

В 2025 году нейросети давно вышли за рамки простеньких чат-ботов. Теперь это мощные и, что самое главное, многофункциональные большие языковые модели, которые могут выполнять широчайший спектр операций, в том числе автоматически распознавать человеческую речь — последние называют нейросетями типа ASR. Одной из самых известных ASR-моделей является Whisper от OpenAI, которая совершила настоящую революцию, демонстрируя впечатляющую точность при распознавании различных языков, но только в бытовых диалогах. Когда речь заходит о использовании ASR в бизнес-среде, как правило, Whisper резко сбрасывает обороты и демонстрирует плохие результаты. Узкоспециализированная лексика (медицинские термины, технические спецификации, юридические формулировки или названия IT-оборудования) сложна для понимания нейросети, поэтому при распознавании Whisper будет подбирать фонетически похожие, но совершенно неверные слова. Но этот досадный недостаток можно легко исправить, используя методы Fine-Tuning, дообучив модель, чтобы она могла понимать даже сложную, техническую терминологию. В этой статье специалисты компании ServerFlow расскажут вам, как улучшить работу Whisper с помощью Fine-Tuning и что для этого понадобится.

Почему базового Whisper недостаточно?

Основная сила Whisper заключается в его обучении на огромном массиве разнообразных аудио-данных из интернета, но эта же сила оборачивается для нейросети главным недостатком: когда в разговоре появляются специфические термины, модель, не встречавшая их в достаточном количестве во время обучения, начинает фантазировать, додумывая слова. Классический пример: аббревиатура серверного GPU “H100” может быть распознана как “эй сто” или “эйч сто”, а сложный медицинский препарат ацетилсалициловая кислота может превратиться в набор бессмысленных звуков. Количественно эта проблема выражается в высоком показателе WER (Word Error Rate — процент ошибок распознавания на слово), который при распознавании специализированной лексики сильно увеличивается, нежели при распознавании повседневной речи. В результате вместо точного протокола совещания технических специалистов или консультации менеджера по продаже серверного оборудования получается текст, напоминающий игру в “сломанный телефон”, где смысл искажен, а ключевая информация полностью утеряна. Именно поэтому использование Whisper “из коробки” для задач, требующих абсолютной точности в предметной области, часто неприемлемо.

Полная схема работы ARS-модели. Источник: Mdpi.

Как дообучают ASR-модели?

Процесс дообучения направлен на то, чтобы адаптировать базовую модель к конкретной предметной области, не нарушая при этом ее фундаментальных знаний. Основой успеха здесь являются качественные данные: сегментированные аудиозаписи (полученные с помощью VAD) и их дословные, идеально выверенные текстовые расшифровки с таймкодами. Затем эти данные используются для дообучения, чаще всего, через метод Supervised Fine-Tuning с парами “аудио-текст”, акцентируя внимание на правильном написании специфических терминов. Для более эффективного и менее ресурсоемкого обучения часто применяются LoRA и QLoRA, которые позволяют оптимизировать огромные модели, меняя лишь небольшую часть параметров. Это делает возможным дообучение LLM даже на GPU с 24-40 ГБ памяти. Дополнительно используется техника инъекции знаний — искусственного обогащения нейросети данными путем добавления фоновых шумов, имитации различных акцентов или изменения качества звука, что повышает устойчивость модели к реальным условиям. Грамотно проведенное дообучение позволяет снизить WER на целевой доменной лексике на 20-40%.

Упрощенная схема дообучения ASR-модели Whisper. Источник: Floatbot.

Практические сценарии применения

Возможность научить распознаватель речи понимать уникальную лексику компании открывает двери для автоматизации в самых требовательных отраслях:

Call-центры и техническая поддержка: точное распознавание специализированной лексики, моделей оборудования и терминов для автоматического заполнения CRM-систем.
IT, телеком и инжиниринг: безошибочная расшифровка сложных аббревиатур, названий оборудования и технических спецификаций при создании документации.
Медицина и фармацевтика: клинически точная транскрибация диагнозов, названий лекарств и медицинских процедур для электронной истории болезни.
Юриспруденция и нотариат: дословная фиксация условий договоров, процессуальных документов и сложной юридической терминологии.
Наука и образование: корректное распознавание узкоспециализированной терминологии при расшифровке лекций и научных докладов.
Финансы и консалтинг: точное распознавание финансовых показателей, имен собственных и профессиональной лексики для подготовки отчетов.

Если в статье про Instruction Tuning мы говорили об обучении модели определенному стилю при генерации ответов, то здесь речь идет о фундаментальной точности, которая превращает дообученный Whisper из простого генератора текста в надежного бизнес-ассистента.

Ключевые компоненты ASR-модели. Источник: Fr.slideserve.

Какое железо нужно для дообучения Whisper?

Следует отдавать себе отчет, что даже легковесные версии Whisper требуют значительных вычислительных ресурсов для развертывания. Дообучение small-модели еще можно попытаться провести на мощной игровой видеокарте с 16-24 ГБ VRAM, однако переход к более точным medium или large-конфигурациям моментально исчерпывает ресурсы даже топовых потребительских GPU. Проблема не только в объеме памяти, но и в скорости ее работы, ведь они оснащаются памятью GDDR, которая не приспособлена к работе с весами LLM. Именно поэтому для коммерческого использования и эффективного дообучения необходимы специализированные ИИ-ускорители для дата-центров, такие как NVIDIA A100 на 40/80 ГБ HBM2E или новые H200 NVL с рекордными 141 ГБ памяти HBM3E. Эти решения предлагают не только достаточный объем памяти, но и высочайшую пропускную способность, что позволяет обрабатывать огромные батчи данных и обучать модели в разумные сроки.

Если вы хотите, чтобы Whisper реально работал для вашей компании, а не падал на каждом втором батче, нужен правильный сервер, который поможет подобрать компания ServerFlow. Мы поставляем готовые серверные платформы под широчайший спектр задач, оснащая их мощными CPU, GPU и SSD датацентрового класса для удовлетворения даже самых требовательных бизнес-потребностей. От компактных узлов для пилота до полностью укомплектованных серверов для продакшена — ServerFlow предоставляет полноценное решение, а не временный компромисс.

ИИ-ускоритель NVIDIA H100 NVL.

Выводы

Whisper без дообучения — это отличная демонстрация возможностей современных ИИ-моделей, но явно не готовый бизнес-инструмент для работы со специализированной лексикой. Эффективное дообучение с помощью Fine-Tuning решает ключевую проблему, значительно снижая процент ошибок и делая модель настоящим экспертом в терминологии вашей компании. Но помните, что успех оптимизации Whisper зависит от двух столпов: качественных, релевантных данных для обучения и мощной серверная инфраструктура, которая способная выдержать большую вычислительную нагрузку. В следующей статье мы рассмотрим, как те же принципы, что дообучение ASR-моделей, применяются в совершенно другой области — оптимизации диффузионных моделей.

Автор:

Serverflow