Израильский стартап Hailo Technologies, специализирующийся на разработке передовых ИИ-решений, представил второе поколение компактных ускорителей Hailo-10H для инференса генеративных ИИ-моделей на периферийных и пользовательских устройствах. Ключевой особенностью Hailo-10H является реализация ускорителей в формате интегрированного чипа COB (Chip On Board) и дисков M.2 2242/2280 с энергопотреблением в 2,5 Вт, что позволяет запускать локальные нейросети даже на маломощных устройствах.
Подробнее о Hailo-10H
ИИ-ускоритель Hailo-10H был выпущен на фоне коммерческого успеха первого поколения решений Hailo-8 L/R, пользующихся спросом у заказчиков за счет баланса компактности и производительности. Второе поколение решений Hailo-10H обеспечивает генерацию более 10 токенов в секунду для компактных моделей с 2 миллиардами параметров, при этом имея задержку генерации первого токена менее 1 секунды.
Чип ИИ-ускорителя Hailo-10H. Источник: .
Производительность Hailo-10H, по заявлению компании, достигает 40 TOPS в режиме INT4 и 20 TOPS в режиме INT8, что эквивалентно ИИ-производительности большинства современных CPU. Это позволяет использовать ускоритель для эффективного инференса LLM, VLM и другие генеративные модели искусственного интеллекта, а с учетом реализации в формате M.2 дисков, Hailo-10H можно интегрировать в большом количестве даже в пользовательские устройства среднего или бюджетного сегмента рынка, тем самым масштабируя их ИИ-производительность.
ИИ-ускоритель Hailo-10H в форматах M.2 2242/2280. Источник: .
Производительность ускорителя в более востребованных режимах вычислений, таких как FP16 или FP8, не раскрывается, что обуславливается акцентом на интеграцию Hailo-10H в периферийные устройства, где часто не требуются вычисления с высокой точностью. Тем не менее, использование самых легковесных режимов вычислений может привести к тому, что на пользовательских устройствах с интегрированным Hailo-10H, локально развернутые нейросети будут допускать ошибки и галлюцинировать.
Помимо этого, Hailo-10H имеет 4 встроенных чипа памяти LPDDR4 объемом от 4 до 8 ГБ, которые также используются в ИИ-ускорителях Huawei Atlas. В качестве интерфейса используется весьма устаревший PCIe 3.0. Новые ИИ-решения также имеют широкий температурный диапазон промышленного класса от -40 °C до 85 °C, что также подтверждает ориентированность Hailo-10H именно на edge-сегмент рынка. Для развертывания локальных ИИ-моделей Hailo-10H поддерживает популярные фреймворки TensorFlow Lite, Keras, PyTorch и ONNX. Совместимые операционные системы включают Linux, Windows и Android. В области совместимости с центральным процессором ускоритель Hailo-10H поддерживает работ в тандеме с CPU на архитектурах x86 и ARM, в том числе и с SoC-процессором Hailo-15 VPU собственной разработки, ориентированным на работу в системах машинного зрения
SoC-процессор Hailo-15 VPU для систем машинного зрения и видеоаналитики. Источник: .
Выводы
В целом, ИИ-ускоритель Hailo-10H является весьма интересным решением как для краевых вычислений, так и для интеграции в пользовательские устройства. Причем, потенциал Hailo-10H может раскрыться в такой неожиданной области, как актуализация устаревших ПК и ноутбуков. Слот M.2 есть практически каждой системы даже начального уровня, а благодаря интеграции компактного ИИ-ускорителя от компании Hailo, даже ноутбук 10-летней давности сможет потянуть небольшую, но эффективную ИИ-модель. тем не менее, полноценная популяризация Hailo-10H произойдет только в том случае, когда производитель окончательно доработает свое решение и еще больше увеличит его ИИ-производительность.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.