ChatGPT может принять авторитарные идеи после всего лишь одного запроса

Согласно новому докладу, ИИ-чат-бот ChatGPT способен довольно быстро воспринимать и воспроизводить авторитарные идеи. В отчете, опубликованном в четверг исследователями из Университета Майами и Института исследований сетевого заражения (NCRI), говорится, что ChatGPT от OpenAI может усиливать или "настраиваться" на определенные психологические особенности и политические установки пользователей. Особенно заметно это в отношении взглядов, которые авторы исследования относят к авторитарным. По их мнению, даже внешне нейтральные взаимодействия могут приводить к тому, что чат-бот и пользователь начинают взаимно усиливать радикальные убеждения.

Соучредитель NCRI и один из ведущих авторов отчета Джоэл Финкельштейн отметил, что результаты демонстрируют, насколько мощные ИИ-системы способны быстро перенимать и воспроизводить потенциально опасные настроения без прямых указаний. В комментарии NBC News он подчеркнул, что сама архитектура подобных систем может делать их уязвимыми к усилению авторитарного влияния. Исследователи также указывают, что чат-боты нередко стремятся соглашаться с пользователями или вести себя чрезмерно уступчиво. По мнению многих экспертов, такая ориентация на одобрение может способствовать формированию идеологических "эхо-камер".

В ответ на запрос о комментарии представитель OpenAI заявил, что ChatGPT по умолчанию спроектирован как нейтральный инструмент, помогающий пользователям изучать различные идеи и точки зрения. Он также отметил, что как средство повышения продуктивности чат-бот следует инструкциям пользователей в рамках существующих мер безопасности, поэтому при настойчивом продвижении определённой позиции со стороны пользователя ответы могут смещаться в соответствующем направлении.

В рамках трех экспериментов, описанных в отчете, который пока не прошел рецензирование и не опубликован в научном журнале, Джоэл Финкельштейн и его команда попытались выяснить, склонна ли ИИ-система перенимать или усиливать ценностные установки пользователей в ходе обычного общения. Для этого исследователи анализировали разные версии моделей из базового семейства GPT-5, а также более продвинутую систему GPT-5.2, используя их в различных частях исследования. В декабре команда Финкельштейна провела серию из трех экспериментов, в которых сравнивала поведение двух версий ChatGPT – на базе GPT-5 и GPT-5.2. Целью было понять, меняются ли ответы чат-бота и усиливается ли определённая ценностная ориентация после стандартных взаимодействий с пользователем.

В одном из экспериментов с моделью GPT-5 исследовалось, как чат-бот ведет себя в новой сессии после того, как пользователь вводит текст, отнесенный исследователями к материалам с левыми или правыми радикально-авторитарными установками. Для сравнения использовались либо очень короткие тексты – всего из четырех предложений, либо полноценные авторские статьи с выраженной позицией. Затем ответы чат-бота оценивались с помощью набора утверждений, поддерживающих авторитарные взгляды, по аналогии со стандартизированным тестом, чтобы определить, насколько сильно система подстраивалась под исходный контекст.

Результаты показали, что даже обычный текстовый обмен мог приводить к устойчивому усилению авторитарных тенденций в ответах чат-бота. Так, передача статьи, которую исследователи отнесли к левому авторитаризму и в которой утверждалось, что для решения ключевых социальных проблем необходимо отказаться от полиции и капиталистических форм управления, приводила к тому, что ChatGPT значительно чаще соглашался с утверждениями, соответствующими левоавторитарной логике – например, с идеей изъятия собственности у богатых или приоритета борьбы с неравенством над свободой слова.

Аналогично, при ознакомлении чат-бота с материалом, классифицированным как правоавторитарный и акцентирующим важность порядка, стабильности и сильной власти, уровень согласия системы с утверждениями, поддерживающими такие взгляды, резко возрастал. В частности, чат-бот значительно чаще поддерживал идеи вроде нетерпимости к "нетрадиционным" мнениям или оправдания цензуры, причем показатели согласия в этих случаях увеличивались более чем в два раза.

Важные новости