Автор переводаhttps://t.me/votyakov_ar_life

Источник: https://ai-2027.com/

Середина 2025 года: Спотыкающиеся агенты

Мир впервые получает представление об ИИ-агентах.

В рекламе агентов, работающих с компьютером, акцент делается на термине «персональный помощник»: вы можете давать им задания вроде «закажи мне буррито через DoorDash» или «открой мою таблицу бюджета и подсчитай расходы за этот месяц». При необходимости они уточняют детали — например, просят подтвердить покупку. Хотя они и более продвинуты, чем предыдущие версии вроде Operator, им трудно добиться массового распространения.

Тем временем, вне поля зрения общественности, более специализированные агенты для программирования и исследований начинают трансформировать свои сферы.

ИИ 2024 года могли выполнять конкретные инструкции: превращать списки в электронные письма и простые запросы — в рабочий код. В 2025 году ИИ действуют больше как сотрудники. Программирующие ИИ всё больше напоминают автономных агентов, а не просто помощников: они принимают инструкции через Slack или Teams и вносят существенные изменения в код самостоятельно, иногда экономя часы или даже дни. Исследовательские агенты тратят полчаса на изучение интернета, чтобы ответить на ваш вопрос.

Агенты впечатляют в теории (и на тщательно отобранных примерах), но на практике ненадёжны. Twitter, посвящённый ИИ, полон историй о заданиях, проваленных самым комичным образом. Лучшие агенты также дороги: вы получаете то, за что платите, и лучшая производительность обходится в сотни долларов в месяц. Тем не менее, многим компаниям удаётся встроить ИИ-агентов в свои рабочие процессы.

Конец 2025 года: Самый дорогой ИИ в мире

OpenBrain строит крупнейшие дата-центры в истории человечества.

(Чтобы не выделять какую-либо существующую компанию, мы опишем вымышленную компанию, занимающуюся созданием универсального искусственного интеллекта, которую назовём OpenBrain. Мы предполагаем, что остальные компании отстают от неё на 3–9 месяцев.)

image.png

GPT-4 потребовалось 2⋅10²⁵ FLOP вычислений для обучения. Последняя публичная модель OpenBrain — Agent-0 — была обучена с использованием 10²⁷ FLOP. Когда новые дата-центры заработают, они смогут обучать модель с 10²⁸ FLOP — в тысячу раз больше, чем у GPT-4. Другие компании вкладывают огромные средства в собственные гигантские дата-центры, надеясь не отстать.

Хотя модели улучшаются во множестве навыков, один выделяется особенно: OpenBrain делает ставку на ИИ, способных ускорить исследования в области ИИ. Они хотят выиграть двойную гонку вооружений — против Китая (ведущую компанию которого мы назовём «DeepCent») и своих конкурентов в США. Чем больше этапов собственного исследовательского и инженерного цикла (R&D) им удаётся автоматизировать, тем быстрее они двигаются вперёд. Поэтому, когда OpenBrain завершает обучение Agent-1 — новой модели, разрабатываемой внутри компании, — она оказывается хороша во многом, но особенно — в помощи с ИИ-исследованиями. К этому моменту выражение «завершает обучение» становится неточным: модели часто обновляются до новых версий, обученных на дополнительных данных, или частично дообучаются для исправления слабых мест.

Те же обучающие среды, которые учат Agent-1 автономно писать код и искать информацию в интернете, делают её и хорошим хакером. Более того, она могла бы серьёзно помочь террористам в создании биологического оружия — благодаря уровню знаний, сопоставимому с докторской степенью в любой области, и умению пользоваться интернетом. OpenBrain заверяет правительство, что модель была «согласована» так, чтобы отказываться выполнять вредоносные запросы.

Современные ИИ-системы — это гигантские искусственные нейросети. В начале обучения у ИИ нет «целей» — скорее, «рефлексы»: если он видит «Рад познакомиться», то выдаёт « с вами». К тому моменту, когда модель обучится предсказывать примерно весь интернет-текст, у неё появляется сложная внутренняя структура, кодирующая огромные объёмы знаний и гибко имитирующая произвольных авторов — поскольку это помогает предсказывать текст с сверхчеловеческой точностью.

После обучения на предсказании интернет-текста, модель дополнительно обучается на выполнении инструкций. Это «впечатывает» в неё базовую личность и «мотивы». Например, агент, который ясно понимает задачу, с большей вероятностью выполнит её успешно; в процессе обучения модель «осваивает» «побуждение» к ясному пониманию задач. Другие побуждения из этой категории могут включать эффективность, стремление к знаниям и самопрезентацию (т. е. склонность подавать свои результаты в наиболее выгодном свете).

У OpenBrain есть спецификация модели (или «Spec») — письменный документ, описывающий цели, правила, принципы и другие установки, которые должны направлять поведение модели. Спецификация Agent-1 сочетает несколько расплывчатых целей (таких как «помогать пользователю» и «не нарушать закон») с длинным списком более конкретных указаний, что делать и чего не делать («не использовать такое-то слово», «вот как следует поступать в такой-то ситуации»). С помощью методов, в которых ИИ обучают другие ИИ, модель запоминает Spec и учится внимательно рассуждать о его максимах. К концу этого обучения ИИ, как предполагается, станет полезным (выполняет инструкции), безвредным (отказывается помогать в мошенничестве, изготовлении бомб и других опасных действиях) и честным (сопротивляется соблазну завоевать более высокую оценку от доверчивых людей за счёт вымышленных ссылок или фальсификации выполнения задания).

Команда по согласованию поведения (alignment team) в OpenBrain достаточно осторожна, чтобы задаваться вопросом: достигнутые успехи — это настоящие достижения или лишь видимость? Обладает ли полностью обученная модель устойчивой приверженностью честности? Или это развалится в будущем — например, потому что модель усвоила честность как инструментальную, а не как конечную цель? Или она просто научилась быть честной в тех ситуациях, которые охватываются проверками в процессе оценки? Может ли она, подобно человеку, иногда лгать самой себе?