Microsoft выпустила Fara-7B — компактную мультимодальную модель, способную самостоятельно управлять компьютером и выполнять сложные последовательности действий в интерфейсе.Нейронка запускается локально на потребительских видеокартах, что делает Fara-7B доступной для широкого круга пользователей. Fara-7B берет на себя большую часть рутинных операций: анализирует содержимое файлов, взаимодействует с браузером, ищет товары на маркетплейсах, оформляет билеты и действует как полноценный ИИ-агент.
Подробнее о Microsoft Fara-7B
Fara-7B базируется на китайской ИИ-модели Qwen2.5-VL-7B от Alibaba и использует архитектуру decoder-only. Модель принимает задачу от пользователя, анализирует предыдущие действия юзера и скриншоты интерфейса, после чего выполняет поставленную цель. Нейросеть имеет большое контекстное окно в 128 тысяч токенов. Каждый шаг работы построен вокруг внутренней цепочки рассуждений, после которой формируется конкретное действие, привязанное к элементам интерфейса. Производительность модели в WebVoyager Fara-7B достигает 73.5%, 34.1% на Online-Mind2Web, 26.2% на DeepShop и 38.4% на WebTailBench. При этом нейросеть использует около 124 тысяч входных токенов и более 1000 выходных за одну длинную сессию, в среднем состоящую из шестнадцати шагов. Fara-7B превосходит агента UI-TARS-1.5-7B, что выводит ее в число лучших агентов своего размера. При этом средняя стоимость инференса оценивается примерно в две с половиной цента за задачу, что делает использование Fara-7B существенно выгоднее в сравнении с крупными агентными системами на базе моделей GPT-4о. Одним из ключевых преимуществ Fara-7B остается ее доступность. Для инференса в формате FP16 достаточно видеокарты с 14-16 ГБ видеопамяти, а при 4-битной квантизации модель способна функционировать даже на картах с 3-4 ГБ VRAM, что позволяет запускать нейросеть даже на ноутбуках. Модель уже доступна на GitHub и Hugging Face.
Производительность ИИ-агента Fara-7B. Источник: .
Выводы
Fara-7B представляет собой важный шаг в развитии локальных агентных систем. Модель сочетает компактность, мультимодальность и длинное контекстное окно, показывая уровень, сопоставимый с более тяжелыми ИИ-моделями. Способность последовательно выполнять действия в интерфейсе и эффективно решать задачи в реальных веб-средах делает Fara-7B перспективной платформой для персональных ИИ-ассистентов, автономных агентов и инструментов автоматизации, которые можно запускать даже на слабом железе.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.