
Image generated with OpenAI
Мнение: Почему агенты AI являются будущим повседневного AI
2025 год, похоже, станет годом агентского искусственного интеллекта. OpenAI, Microsoft, Anthropic и другие крупные технологические компании выпустили свои самые передовые модели ИИ, способные выполнять сложные задачи, которые были невозможны всего лишь год назад. Но что же такое агенты ИИ и насколько реальна эта технология по сравнению с ее преувеличенным образом?
Следить за трендами ИИ в последние годы может быть изнурительно. Мы перешли от базового ИИ к генеративному ИИ, затем к ИИ, способному к рассуждению, и теперь, агенты ИИ доминируют в дискуссии. За последние несколько месяцев многие технологические компании представили новых агентов ИИ и подчеркнули, как привлекательными становятся рабочие процессы, связывающие их.
В январе OpenAI запустило своего первого ИИ-агента, Operator, способного самостоятельно выполнять различные задачи, например, просматривать интернет, бронировать ресторан или покупать билеты на концерт для вас, исходя из ваших предпочтений и критериев.
Через два месяца китайский стартап Zhipu выпустил AutoGLM Rumination, бесплатного ИИ-агента, который может работать самостоятельно и планировать путешествия для пользователей. И всего несколько дней назад, Microsoft представил «Computer Use» для Copilot Studio, добавив больше автономных возможностей для ИИ-агентов, включая возможность контролировать рабочий стол пользователя.
Но этот тренд не только о том, что компании запускают новые интересные продукты — это о сложной и развивающейся области, которая объединяет различные формы ИИ с человеческим взаимодействием. Технологические энтузиасты и эксперты одинаково высоко оценивают перспективы Agentic AI.
«Еще один тренд, который меня волнует, это рабочий процесс AI-агентов», — сказал эксперт в области ИИ, сооснователь Coursera и DeepLearning Эндрю Нг, на конференции BUILD 2024 от Snowflake в ноябре. «Если бы вы спросили, на какую технологию ИИ стоит обратить особое внимание, я бы сказал, что это Agentic AI».
Итак, что же такое AI агенты? Действительно ли они работают так хорошо, как утверждают эксперты? Вот краткий обзор самых важных аспектов этой новой технологии и последних разработок.
Что такое AI агенты?
Как показали такие компании, как OpenAI и Microsoft, AI агенты — это технологии, способные выполнять сложные задачи, автономно объединяя различные приложения и программное обеспечение.
В сущности, это «традиционные» AI чат-боты, но более продвинутые, способные выполнять задачи, выходящие за рамки того, к чему мы привыкли за последние два года. К ним относятся планирование, просмотр интернета, запоминание ваших интересов, и даже совершение покупок в магазине без пошагового руководства, поскольку они самостоятельно разбираются в своих задачах.
Google Cloud определяет AI агентов как «системы программного обеспечения, которые используют AI для достижения целей и выполнения задач от имени пользователей.»
То, что делает эти модели AI по-настоящему особенными, — это их продвинутые способности к рассуждению, которые позволяют им обрабатывать несколько типов информации — аудио, текст, видео, код и изображения — одновременно. Они могут понимать сложные ситуации так, как это сделали бы люди, принимать решения и взаимодействовать с программным обеспечением и платформами.
Многие технологические компании сейчас активно доводят свои модели AI до этого нового уровня.
Всего несколько дней назад OpenAI объявила, что ее AI модели o3 и o4-mini могут «мыслить» изображениями и манипулировать ими, например, обрезать или преобразовывать их. Тем временем, новая функция «Computer Use» от Microsoft позволяет ее AI агентам распознавать графические пользовательские интерфейсы.
«Если человек может использовать приложение, то агент тоже может», — сказал Чарльз Ламанна, корпоративный вице-президент по деловым и отраслевым вопросам в Microsoft, в своем объявлении.
Следующий уровень: технология Agentic AI
В то время как многие технологические компании разрабатывают сверхумные AI чат-боты, агентный AI делает шаг вперед. Эта технология сосредоточена на создании систем, в которых несколько таких AI-агентов могут взаимодействовать и выполнять различные задачи для достижения более точных и полных результатов.
Во время своего доклада на тему «Сила AI-агентов» на недавнем мероприятии Tech Talk, которое я посетила, организованном eDreams, эксперт в области AI Патрисия Гутьеррес Факсас объяснила, что эти системы могут принимать различные структуры. Многопользовательские системы могут разбивать сложные задачи на более простые, поручать их специализированным агентам и формировать различные типы сетей.
Искусственный интеллект может взять на себя роль «Супервизора», делегируя меньшие задачи другим специализированным агентам, или несколько агентов могут одновременно работать над отдельными задачами и координировать свои действия для достижения конечного результата. К числу преимуществ этих систем можно отнести повышенную точность, большую конфиденциальность и снижение числа ошибок.
Этот подход поддерживает Эндрю Нг. Во время его выступления на BUILD 2024, он подчеркнул важность рабочих процессов Agentic AI для обработки сложных задач с гораздо лучшими результатами. Скачок в производительности от моделей типа GPT-3.5 к GPT-4 — и их более сильные результаты в бенчмарках по кодированию — во многом обусловлены рабочими процессами и логикой agentic.
Как искусственный интеллект повлияет на нашу жизнь?
Технологические компании по-разному подходят к созданию ИИ-агентов. OpenAI сосредоточила свое внимание на идеях для обычных пользователей. Когда запускали Operator, команда объяснила на видео, что человек может просто подумать о блюде, которое хотел бы приготовить, попросить ChatGPT найти лучший рецепт, и даже сделать заказ необходимых ингредиентов в интернет-супермаркете.
Модель ИИ может задавать уточняющие вопросы и делать паузу перед выполнением критически важных задач, например, завершение покупки с использованием кредитной карты пользователя. Пользователи могут установить лимиты расходов или требовать, чтобы ассистент спрашивал подтверждение перед покупкой чего-либо.
Возможности использования ИИ-агентов обычными людьми кажутся бесконечными, но наиболее популярные сценарии использования до сих пор включают функции туристического агента, персонального шопера и административного ассистента. В конце концов, кому не хотелось бы иметь персонализированную технологию, которая отправляет электронные письма, помнит важные дни рождения и заботится о налогах?
Microsoft выбрал более корпоративный подход. Компания продемонстрировала, как маркетинговые агентства могут использовать AI-агентов для автоматизации сбора рыночных данных и генерации анализа, основанного на информации, или как крупные предприятия могут использовать их для обработки счетов в своих системах.
Тем не менее, несмотря на то, что все эти примеры использования звучат революционно, эксперты согласны, что впереди еще долгий путь. Большинство людей еще не могут использовать AI-агентов для улучшения своей повседневной жизни, поскольку многие из этих функций, такие как Operator, доступны только для Pro пользователей, подписка на которую стоит $200 в месяц.
Так что, соответствует ли агентственный AI общему ажиотажу?
Многие заголовки СМИ обещают новую революцию ИИ, которую возглавит Agentic AI. Безусловно, в этой отрасли есть много шумихи — и реальность, возможно, не так уж далека. Недавний отчет, опубликованный IBM, показал, что многие разработчики активно изучают и развивают эту технологию.
«IBM и Morning Consult провели опрос среди 1000 разработчиков, которые создают приложения на базе ИИ для предприятий, и 99% из них заявили, что изучают или разрабатывают AI-агентов,» объяснила доктор наук Марьям Ашури, директор по управлению продуктами в IBM watsonx.ai. «Так что да, ответ — 2025 год станет годом агента».
Однако эксперты отмечают, что существуют различные трактовки того, что же на самом деле представляют собой ИИ-агенты и как они должны функционировать. В результате, прогресс и эффективность текущих ИИ-агентов часто зависят от точки зрения и стандартов человека, оценивающего технологию.
Что наверняка, так это то, что многие специалисты и руководители прочно верят в эту технологию и инвестируют в ее развитие большие средства. Недавнее исследование показало, что 84% лидеров в области ИТ доверяют ИИ-агентам так же, как и людям, а OpenAI ожидает получить прибыль около 125 миллиардов долларов к 2029 году.
Хотя технология Agentic AI еще не полностью разработана, и ее применение не такое широкое, как у чат-ботов, в основном из-за высокой стоимости, ясно, что огромный оптимизм и энтузиазм вокруг этого тренда достаточно сильны, чтобы стимулировать значительные изменения в ближайшие месяцы.