ИИ агенты. Краткое введение и пошаговое руководство по созданию собственного агента.

14th Mar 2025

Gartner считает, что будущее за ИИ-агентами. OpenAI, Nvidia и Microsoft делают на них ставку — как и такие компании, как Salesforce, которые до сих пор не были особенно заметны в сфере ИИ.

И нет никаких сомнений, что эта технология сейчас действительно набирает обороты.

Популярность запроса "AI Agents" на Google Trends (trends.google.com):

Популярность запроса "ИИ агенты" на Яндекс Вордстат (wordstat.yandex.ru):

Итак, что же на самом деле стоит за этой тенденцией? Ключ к пониманию агентов — это агентность.

В отличие от традиционных генеративных ИИ-систем, агенты не просто отвечают на ввод пользователя. Вместо этого они могут обрабатывать сложную задачу, такую как страховая претензия, от начала до конца. Это включает понимание текста, изображений и PDF-файлов претензии, извлечение информации из базы данных клиентов, сравнение случая с условиями страхового договора, задавание вопросов клиенту и ожидание его ответа — даже если это займет несколько дней — без потери контекста.

Агенты выполняют эту работу автономно, без участия человека, который проверяет, правильно ли ИИ обрабатывает всю информацию.

Эспрессо-машина и бариста

В отличие от существующих ИИ-систем и всех помощников, которые помогают сотрудникам выполнять их работу, ИИ-агенты, по сути, являются полноценными сотрудниками, обладающими огромным потенциалом для автоматизации процессов.

Представьте себе ИИ, который может брать на себя сложные, многоэтапные задачи, которые в настоящее время выполняются человеком или целым отделом:

Планирование, разработка, выполнение, измерение и оптимизация маркетинговой кампании.
Поиск утерянного груза в логистике путем взаимодействия с перевозчиками, клиентами и складами — или, если груз действительно утерян, подача претензии на его стоимость ответственному партнеру.
Ежедневный поиск в базе данных товарных знаков и определение, был ли зарегистрирован новый товарный знак, который конфликтует с моим собственным, с последующей немедленной подачей возражения.
Сбор необходимых данных или запрос информации у сотрудников, проверка этих данных и составление ESG-отчета.

В настоящее время модели ИИ могут помогать с такими задачами, как создание контента для кампаний или анализ электронных писем, но они не способны выполнять весь процесс от начала до конца. ИИ-агент может.

Традиционный генеративный ИИ может помогать человеческим командам в процессе (синий), ИИ-агенты могут выполнять весь процесс от начала до конца (красный):

Хотя традиционные модели похожи на отличные эспрессо-машины, ИИ-агент — это бариста. Он не только умеет делать кофе, но и может приветствовать гостей, принимать заказы, подавать кофе, принимать оплату, загружать чашки в посудомоечную машину и даже закрывать кафе на ночь. Даже самая лучшая эспрессо-машина в мире не сможет управлять кафе самостоятельно, но бариста может.

Почему ИИ-агент и бариста способны на это? Они превосходно справляются с различными подзадачами сложной работы и могут самостоятельно решать, какую задачу выполнять следующей. Они умеют общаться с людьми, например, с клиентами, если им нужна дополнительная информация (молоко или овсяное молоко?). Они могут определить, к кому обратиться в случае проблем (закончились зёрна → начальник, кофемашина сломалась → служба поддержки поставщика машины).

ИИ-агенты против традиционного генеративного ИИ:

Анатомия ИИ-работника

Но хватит разговоров, давайте создадим ИИ-агента. Рассмотрим соответствующие процессы и рабочие процессы.

Давайте создадим агента для страхового процесса, показанного на диаграмме выше. Агент должен обрабатывать страховую претензию от подачи до возмещения.

То, что мы здесь разрабатываем, — это бизнес-архитектура и процессный поток. К сожалению, я не могу углубляться в кодирование, так как этот процесс может быстро стать очень объемным.

1. Классификация и отправка задачи в потоки обработки

Наш рабочий процесс начинается, когда клиент отправляет сообщение с претензией по своей страховке жилья в страховую компанию.

Что делает наш агент? Он определяет, что требуется клиенту, анализируя содержание сообщения.

На основе этой классификации система инициирует соответствующий поток обработки. Часто это выходит за рамки простого вызова функций; это включает принятие ключевого решения о процессе, за которым следует выполнение множества отдельных шагов.

ИИ-агенты: 1. Классификация письма и маршрутизация в различные потоки обработки:

2. Извлечение данных

На следующем этапе происходит извлечение данных. Одна из главных задач агента — превращение неструктурированных данных в структурированные, чтобы сделать обработку систематической, безопасной и надежной.

Классификация присваивает тексту заранее определенную категорию, тогда как извлечение данных предполагает чтение и интерпретацию информации из текста. Однако языковая модель не копирует данные напрямую из входного запроса, а генерирует ответ. Это позволяет приводить данные к нужному формату, например, преобразовывать номер телефона из ‘(718) 123–45678’ в ‘+1 718 123 45678’.

ИИ-агенты: 2. Извлекают данные из письма и вложений:

Извлечение данных не ограничивается текстовым содержимым (из текста письма), но также может включать данные из изображений, PDF-файлов и других документов. Для этого мы используем не одну модель, а сразу несколько: LLM, модели распознавания изображений, OCR и другие.

Описанный выше процесс сильно упрощен — на самом деле он гораздо сложнее. В реальности мы часто отправляем изображения в OCR-системы, которые извлекают текст из отсканированных счетов или форм. Кроме того, перед анализом мы нередко сначала классифицируем вложения.

Мы жестко задаем JSON как выходной формат модели, чтобы обеспечить структурированность данных.

Вот входное письмо — неструктурированные данные:

Привет,

Я хочу сообщить о повреждении и попросить вас о компенсации.

Вчера, играя с другом, мой 9-летний сын Раджад ударил футбольным мячом в люстру в гостиной. Она оторвалась от крепления, упала на пол и разбилась (она была стеклянной).

К счастью, никто не пострадал, но люстра повреждена и не подлежит восстановлению.

Во вложении — счет и несколько фотографий разбитой люстры.

Дипак Джамал
Номер контракта: HC12-223873923  
123 Мэйн-стрит
10008 Нью-Йорк  
(718) 123 45678

Это вывод модели — в формет JSON, структурированные данные:

{
  "name": "Дипак",
  "surname": "Джамал",
  "address": "123 Мэйн-стрит, 10008 Нью-Йорк, NY",
  "phone": "+1 718 123 45678",
  "contract_no": "HC12-223873923",
  "claim_description": "Вчера [8 декабря 2024], играя с другом, мой 9-летний сын Раджад ударил футбольным мячом в люстру в гостиной, из-за чего она сорвалась с крепления, упала на пол и разбилась (она была стеклянной).\nК счастью, никто не пострадал, но люстра повреждена и не подлежит восстановлению.\n"
}

3. Вызов внешних сервисов, сохранение контекста

Многие генеративные ИИ-системы могут напрямую отвечать на запросы — иногда используя предварительно обученные данные, дообучение или Retrieval Augmented Generation (RAG) на определенных документах. Для агентов этого недостаточно. Почти каждому достаточно мощному ИИ-агенту необходим доступ к корпоративным или внешним данным из баз данных.

Чтобы контекст процесса сохранялся за пределами текущей сессии, агент также должен записывать данные в системы и базы данных. В нашем случае агент сверяет номер контракта с базой данных клиентов и записывает статус претензии в систему учета заявок. Он также может — помните: агентность! — запрашивать недостающие данные у внешних сторон, например, у клиента.

ИИ-агенты: 3. Вызывают внешние сервисы и сохраняют контекст:

4. Оценка, RAG, рассуждение и уверенность

Суть любой административной работы заключается в интерпретации входящих случаев в соответствии с различными правилами. ИИ особенно хорош в этом. Поскольку при вызове модели мы не можем передать всю контекстную информацию (например, содержание полиса или условия страхования), мы используем векторную базу данных для поиска релевантных фрагментов — этот метод известен как RAG.

Кроме того, мы запрашиваем у ИИ «рассуждение вслух» перед тем, как он сделает оценку. Обдумывание ответа перед его выдачей повышает качество — то, чему нас всех учили с третьего класса на уроках математики. Мы также можем использовать результаты рассуждений модели различными очевидными и не столь очевидными способами:

Для обоснования ответа клиенту.
Чтобы помочь инженеру промтов и дата-сайентисту понять, почему модель допустила ошибку.
Для проверок: пришла ли модель к правильному ответу случайно, или ее рассуждения показывают, что это был неизбежный вывод?

Вот небольшая шпаргалка по рассуждению и другим техникам инжиниринга промтов.

Уверенность — ключ к максимальной точности. Если модель оценивает свою уверенность в ответе — а, уважаемые инженеры промтов, это также требует качественных примеров few-shot обучения для различных уровней уверенности — тогда мы можем настроить систему на экстремальную безопасность или высокую автоматизацию. Мы устанавливаем порог уверенности, ниже которого все случаи должны передаваться на рассмотрение человеку. Высокий порог минимизирует ошибки, но требует больше ручной обработки, тогда как низкий порог позволяет обрабатывать больше случаев автоматически, но с повышенным риском ошибок.

ИИ-агенты: 4. Используют RAG, рассуждение и уверенность для получения надежных оценок:

Вот и всё! Если вы реализовали всего 2 или 3 из перечисленных шагов, вы уже разработали агента. Я описал только ключевые компоненты этих ИИ-агентов. Остальные вы, без сомнения, можете додумать сами. И вы можете либо реализовать это с помощью фреймворков, таких как crewAI, langGraph, langFlow и их аналогов, либо просто написать на чистом Python.

Удивительно, но такая система может автоматизировать 70%–90% рабочей нагрузки отдела управления страховыми претензиями. И это невозможно с простыми генеративными ИИ-системами эпохи до агентов. Два года назад я и представить не мог, что это станет реальностью так быстро.

Если коротко, вот суть ИИ-агентов:

Три закона ИИ-агентов

Агент должен выполнять задачу от начала до конца без вмешательства человека.

Агент должен соблюдать правила, чтобы обеспечить безопасность и защиту обработки данных.

Агент должен использовать логическое рассуждение и уверенность, чтобы достичь наивысшей точности.

Желаю вам успехов в работе с ИИ и агентными ИИ-системами!

Этот текст является переводом статьи Maximilian Vogel с Medium. Оригинал доступен по ссылке: What Are AI Agents? A Short Intro And A Step-by-Step Guide to Build Your Own..