Китайский IT-гигант Tencent представил еще одну специализированную ИИ-модель Hunyuan-Vision-1.5 с поддержкой мультимодальности, ориентированную на выполнение задач машинного зрения. Нейросеть базируется на новой архитектуре mamba-transformer, что обеспечивает повышенную эффективность при выполнении многозадачных операций и ускоряет логический вывод.
Подробнее о Hunyuan-Vision-1.5
Ключевым преимуществом новой нейросети является ее гибридная архитектура, за счет которой значительно увеличивается производительность в задачах анализа визуальной и текстовой информации. Также у модели появилась передовая функция “мышления по изображению”, что обеспечивает глубокое понимание контекста обрабатываемых данных и открывает доступ к более сложному уровню рассуждения. Помимо того, что Tencent откроют веса Hunyuan-Vision-1.5 в библиотеках GitHub и Hugging Face уже в конце октября, компания также представит контрольные точки для вывода через платформу TensorRT и инференс в движке vLLM.
Модель демонстрирует широчайшую универсальность, успешно справляясь с широким спектром задач: от распознавания объектов на фото и видео и оптического чтения текста (OCR) до сложных операций, таких как визуальное логическое мышление и работа с 3D-пространством. Важной особенностью нейросети является поддержка разных языков, что делает модель практичным инструментом для международного сообщества энтузиастов и инженеров.
Выводы
Релиз Hunyuan-Vision-1.5 — это значительный шаг в развитии китайских мультимодальных моделей искусственного интеллекта, который открывает новые возможности для разработчиков и исследователей по всему миру, демократизируя доступ к эффективным нейросетям, выполняющим задачи машинного зрения. Высочайшая производительность модели Hunyuan-Vision-1.5 уже была доказана в независимых тестированиях, по результатам которых LLM заняла третье место в рейтинге LmArena, что сделало решение Tencent самой эффективной моделью машинного зрения в Китае.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.