AI-агенты: гайд Google по разработке и внедрению

Эпоха пассивного ИИ заканчивается. На смену моделям, которые просто отвечают на вопросы, приходят автономные агенты — системы, способные самостоятельно планировать, действовать и решать сложные задачи.

Google опубликовал фундаментальный гайд по разработке AI-агентов — документ на 54 страницы, который станет библией для всех, кто переходит от экспериментов к продакшену. Разбираемся, что изменилось и почему это важно.

Что такое AI-агент (и почему это не просто ChatGPT)

Представьте, что вы просите ассистента: «Организуй командировку на конференцию». ChatGPT выдаст вам список того, что нужно сделать. AI-агент возьмет и сделает это сам: проверит календари команды, найдет рейсы, забронирует отели, добавит встречи в расписание.

Разница фундаментальная. Агент — это не модель в вакууме, это полноценное приложение с четырьмя ключевыми компонентами:

Модель (мозг) — языковая модель для рассуждений
Инструменты (руки) — API, базы данных, код для взаимодействия с миром
Оркестрация (нервная система) — система управления циклом работы
Развертывание (тело) — продакшен-инфраструктура

Google формулирует это предельно ясно: «Агенты — это LM в цикле с инструментами для достижения цели». Все остальное — детали реализации.

Пять шагов от запроса до результата

Как работает агент изнутри? Google описывает это через цикл из пяти шагов:

1. Получить задание — «Где мой заказ #12345?»

2. Оценить ситуацию — проверить доступные инструменты, память, контекст

3. Продумать план — «Мне нужно: найти заказ → получить трек-номер → запросить статус у перевозчика → ответить пользователю»

4. Выполнить действие — вызвать find_order(«12345»), получить данные

5. Наблюдать и итерировать — обработать результат, перейти к следующему шагу

Этот цикл «Думай → Действуй → Наблюдай» повторяется до тех пор, пока задача не будет решена. Именно он отличает агента от обычной LM — модель не просто генерирует текст, она управляет процессом.

Пять уровней зрелости: от простого к сложному

Google предлагает таксономию агентных систем — от примитивных до почти фантастических:

Уровень 0: Голая модель
Чистая LM без инструментов. Может объяснить правила бейсбола, но не скажет счет вчерашнего матча — эта информация вне ее тренировочных данных.

Уровень 1: Решатель с подключенными инструментами
Агент с доступом к инструментам. Теперь он может вызвать Google Search API и узнать актуальный счет. Это минимальный порог для практической пользы.

Уровень 2: Стратегический решатель задач
Умеет решать сложные многошаговые задачи. «Найди кофейню на полпути между моим офисом и клиентом» — и агент сам определит середину маршрута, найдет заведения с рейтингом 4+, вернет результат.

Уровень 3: Мультиагентная система
Команда специализированных агентов. Project Manager делегирует задачи: MarketResearchAgent анализирует конкурентов, MarketingAgent пишет пресс-релизы, WebDevAgent генерирует код лендинга.

Уровень 4: Самоэволюционирующая система
Агент, который создает новые инструменты и других агентов по мере необходимости. «Мне нужен мониторинг соцсетей, но такого инструмента нет» — и система сама порождает SentimentAnalysisAgent.

Сегодня большинство продакшен-систем работают на уровнях 1-2. Уровень 3 — активная область исследований. Уровень 4 — пока научная фантастика, но не на долго.

Выбор модели: бенчмарки — это ловушка

Google делает неожиданное заявление: забудьте про академические бенчмарки. То, что модель показала 95% на MMLU, не значит, что она справится с вашей задачей.

Ключевые критерии:

Reasoning — способность к многошаговым рассуждениям
Tool use — надежность в работе с функциями
Цена и скорость — для вашего конкретного use case

Практический подход: если агент пишет код — тестируйте на вашем кодбейсе. Если обрабатывает страховые случаи — на ваших документах. Лучшая модель — та, что находится в оптимальной точке пересечения качества, скорости и стоимости.

И еще один инсайт: используйте «команду специалистов». Gemini 2.5 Pro для сложного планирования, Gemini 2.5 Flash для быстрой классификации. Правильный роутинг моделей может дать 10x экономию при том же качестве.

Инструменты: как агент меняет мир

Модель без инструментов — это мозг в банке. Инструменты дают агенту руки, которыми он взаимодействует с реальностью.

Retrieval-Augmented Generation (RAG) — «библиотечный билет» агента. Доступ к векторным БД, графам знаний, Google Search. Вместо галлюцинаций — проверенные факты.

API и функции — способность действовать. Отправить email, забронировать встречу, обновить запись в ServiceNow. Из наблюдателя — в актора.

Code execution — генерация и выполнение кода на лету в изолированной среде. SQL-запрос для аналитики, Python-скрипт для расчетов.

Human-in-the-Loop — пауза для подтверждения. «Вы уверены, что хотите удалить 10,000 записей?» Критично для необратимых операций.

Стандарты вроде OpenAPI дают агенту четкий «контракт» для каждого инструмента. Новые протоколы вроде Model Context Protocol (MCP) упрощают обнаружение и подключение.

Agent Ops: как отлаживать недетерминированное

Традиционное тестирование не работает с агентами. Нельзя просто написать assert output == expected — ответ вероятностный по дизайну.

Google предлагает новую дисциплину — Agent Ops, эволюцию DevOps и MLOps:

Измеряйте то, что важно
Не технические метрики, а бизнес-результаты: процент выполненных задач, удовлетворенность пользователей, влияние на конверсию.

LM-as-Judge вместо pass/fail
Используйте мощную модель для оценки ответов агента по rubric: правильный ли ответ? Есть ли галлюцинации? Соблюдены ли инструкции?

Metrics-driven development
Непрерывная оценка на golden dataset. Новая версия агента прогоняется через сотни сценариев, результаты сравниваются с продакшеном. Только после этого — деплой.

OpenTelemetry traces
Когда что-то идет не так, нужно видеть всю траекторию: какой промпт отправили модели, что она «подумала», какой инструмент вызвала, какие параметры передала, что получила обратно.

Человеческий фидбек — золото
Каждая жалоба пользователя — это новый edge case. Закрывайте петлю: воспроизведите баг, превратите в тест, исправьте, добавьте в eval dataset.

Безопасность: новый класс принципалов

Агенты создают фундаментальную проблему для enterprise security: они не люди и не сервисы. Это новый тип субъектов, требующий своей модели безопасности.

Agent Identity
Каждому агенту нужна верифицируемая цифровая идентичность (например, через SPIFFE). SalesAgent получает доступ к CRM, но явно запрещен доступ к HR-системам. Гранулярный контроль критичен — если один агент скомпрометирован, зона возможного ущерба должена быть ограничен.

Политики и guardrails
Нельзя полагаться только на «здравый смысл» модели — она может быть атакована через prompt injection. Нужна защита в глубину:

Жестко закодированные правила вне модели (никаких покупок >$100 без подтверждения)
AI-powered guard models для анализа планов перед выполнением
Callbacks для валидации параметров инструментов

Gateway как control plane
При масштабировании до сотен агентов нужна централизованная точка контроля — gateway, через который проходит весь трафик. Это single pane of glass для аутентификации, авторизации, логирования и мониторинга.

Google сравнивает это с управлением автопарком беспилотников в мегаполисе. Без светофоров, номеров и центральной системы — хаос. Gateway создает порядок.

Интероперабельность: агенты, люди и деньги

Экосистема агентов требует стандартов взаимодействия на трех уровнях:

Agents ↔ Humans
От простого чата до мультимодальных интерфейсов. Gemini Live API с двусторонним стримингом позволяет прерывать агента, как в обычном разговоре. Computer use дает агенту контроль над UI. Возникают протоколы вроде MCP UI (управление через MCP tools) и A2UI (генерация интерфейсов на лету).

Agents ↔ Agents
Протокол Agent2Agent (A2A) решает две проблемы: discovery (как найти других агентов?) и communication (как говорить на одном языке?). Каждый агент публикует Agent Card — цифровую «визитку» с возможностями и эндпоинтами. Взаимодействие строится через асинхронные «задачи» со стриминговыми обновлениями.

Agents ↔ Money
Это фронтир. Если агент совершает покупку, кто несет ответственность? Agent Payments Protocol (AP2) вводит криптографически подписанные «мандаты» — неоспоримое доказательство намерения пользователя. Протокол x402 использует HTTP 402 для микроплатежей между агентами.

Обучение и эволюция: агенты, которые растут

Статичный агент стареет. Политики меняются, API обновляются, форматы данных эволюционируют. Ручное обновление флота агентов неэкономично.

Решение — агенты, которые учатся автономно:

Источники обучения

Runtime артефакты: логи, трассы, память, результаты инструментов
Human-in-the-Loop фидбек (самый ценный)
Внешние документы: новые политики, регуляции, критика от других агентов

Техники адаптации

Enhanced context engineering: оптимизация промптов и few-shot примеров
Tool optimization: получение доступа к новым инструментам, создание новых, модификация существующих

Пример из жизни
Финансовый агент генерирует отчеты с соблюдением GDPR. Critiquing Agent проверяет черновик, при неясности эскалирует к человеку-эксперту. Learning Agent наблюдает, генерализует фидбек эксперта в новое правило. В следующий раз аналогичная ошибка будет поймана автоматически.

Agent Gym — следующий рубеж
Это выделенная платформа для offline-оптимизации мультиагентных систем:

Не в execution path — может использовать любые модели и инструменты
Симуляционная среда для trial-and-error
Синтетическая генерация данных для pressure testing
Red-teaming и dynamic evaluation
Доступ к человеческим экспертам для edge cases

Кейсы из будущего

Google демонстрирует два продвинутых агента:

Co-Scientist
Виртуальный научный коллаборатор. Исследователь задает цель, указывает источники знаний, а агент генерирует и оценивает ландшафт новых гипотез. Supervisor Agent действует как project manager, распределяя задачи между специализированными агентами. Система работает часами или днями, непрерывно улучшая не только гипотезы, но и методы их генерации и оценки.

AlphaEvolve
Агент для открытия и оптимизации алгоритмов. Комбинирует code generation через Gemini с автоматизированной оценкой и эволюционным процессом. Уже дал результаты:

Оптимизация дата-центров Google, дизайна чипов, обучения ИИ
Более быстрые алгоритмы умножения матриц
Новые решения открытых математических проблем

Ключ — прозрачность. AlphaEvolve генерирует человекочитаемый код, который можно понять, проверить и модифицировать.

Что дальше?

Мы в начале пути. Большинство продакшен-агентов сегодня — уровень 1-2. Мультиагентные системы (уровень 3) активно исследуются. Самоэволюционирующие системы (уровень 4) — горизонт 2-3 лет.

Google формулирует новую парадигму разработки: вы больше не «каменщик», прописывающий каждый шаг логики. Вы — «режиссер», создающий сцену (промпты и инструкции), выбирающий актеров (модели и инструменты), обеспечивающий контекст (данные). Ваша задача — направлять автономного актора к нужному результату.

Гибкость LM — их величайшая сила и главная головная боль. Способность делать что угодно затрудняет заставить их делать одно конкретно и надежно. Успех не в магическом промпте, а в инженерной строгости, примененной ко всей системе.

Ключевой инсайт документа: агент — это система, полностью заточенная под управление контекстом. Ее работа строится по циклу: сбор контекста → запрос к модели → анализ ответа → обновление контекста для следующего шага.

Эта дисциплина — Agent Ops, архитектурные паттерны, протоколы интероперабельности — сформирует следующее поколение ПО. Не workflow automation, а настоящие коллаборативные, адаптивные, способные члены команды.

Добро пожаловать в эпоху агентов.