В OpenAI заявили, что ее модель искусственного интеллекта ChatGPT может соперничать с человеком в 44 профессиях. Такой вывод основан на новом бенчмарке GDPval, который тестирует производительность ИИ в реальных рабочих задачах девяти отраслей, вносящих наибольший вклад в валовой внутренний продукт США. Согласно этой оценке, Claude Opus 4.1 компании Anthropic превзошел модель OpenAI и достиг рейтинга побед и ничьих против профессионалов-людей в 47,6% случаев. У GPT-5 high показатель составил 38,8%.
ChatGPT конкурирует с людьми в 44 профессиях: что стало известно из нового доклада OpenAI

ИИ приблизился к человеческой производительности

GDPval представляет собой попытку OpenAI измерить экономическую ценность искусственного интеллекта при тестировании модели в 1320 реальных рабочих заданий таких профессий, как разработчики программного обеспечения, юристы, медсестры, финансовые консультанты и социальные работники. Задания разрабатывались и оценивались отраслевыми экспертами со средним стажем 14 лет. Затем профессионалы сравнили результаты ИИ и людей.
«У нас наконец-то появился способ измерять, как наши модели работают в реальном мире, не только на академических тестах. Это является ключевым способом оценивать прогресс на пути к цели создания AGI [общего искусственного интеллекта]», — отметила Теджал Патвардхан, исследовательница из OpenAI.
Полученные результаты показали резкое улучшение со временем. Если GPT-4o, выпущенный весной 2024 года, набрал всего 13,7%, то GPT-5 практически утроил этот показатель. В OpenAI утверждают, что их модели способны выполнять задачи в сто раз быстрее и дешевле, чем люди.
ChatGPT выходит на рынок электронной коммерции
Отдельно в OpenAI объявили о запуске функции «Мгновенная оплата», которая позволяет пользователям ChatGPT в США приобретать товары непосредственно в чате. На первом этапе функция поддерживает покупки на Etsy, в ближайшее время к ней присоединятся более миллиона продавцов Shopify.

Эта интеграция использует новый протокол Agentic Commerce Protocol, разработанный совместно со Stripe. Пользователи могут искать товары через естественные языковые запросы вроде «подарки для любителя керамики» и завершать покупки с помощью банковских карт, не выходя из ChatGPT.
Интересно, что после анонса акции Etsy выросли почти на 16%, а Shopify — более чем на 6%. OpenAI взимает с продавцов комиссию за завершенные транзакции, но не перекладывает расходы на пользователей и не влияет на ранжирование товаров.
Конкуренция в сфере ИИ усиливается
Все эти события происходят на фоне того, как бизнес пытается продемонстрировать отдачу от инвестиций в инициативы, связанные с искусственным интеллектом. Однако недавнее исследование MIT показало, что менее одного из десяти пилотных проектов по ИИ принесли измеримый рост доходов. Ученые считают, что в столь слабых результатах виновен так называемый workslop — контент, сгенерированный ИИ и лишенный сути.

Действия OpenAI совпадают с усилением конкуренции со стороны Anthropic, которая заявила, что ее новая модель Claude Sonnet 4.5 способна автономно работать до 30 часов над сложными задачами по программированию. Соперничество распространяется и на торговые приложения, например, Microsoft предлагает продавцам возможность создания витрин в чате через свою программу Copilot Merchant Program.
Результаты исследований GDPval признают существующие ограничения. Отмечается, что «большинство видов работы представляют собой не просто набор задач, которые можно записать». В реальной жизни человеческий труд редко сопровождается четко определенными подсказками и эталонными документами, по которым можно действовать.
