
Команда исследователей из AI-лаборатории Anthropic с помощью цифрового «микроскопа» заглянула внутрь языковой модели Claude и сделала неожиданное открытие: даже при работе токен за токеном, модель способна к планированию, а иногда - и к самообману, пишет The Economist.
Например, когда Claude просят сочинить рифмованную строчку, она заранее продумывает окончание второй строки, чтобы совпасть по рифме. Это удивило исследователя Джоша Бэтсона - он ожидал линейного процесса, но модель показала «предвосхищение» слов, как если бы у нее была цель.
С помощью своей визуализирующей технологии ученые смогли отследить, какие участки нейросети активируются при разных мысленных операциях. При запросах об антонимах к слову «большой» на разных языках активировалась одна и та же «концептуальная» область модели, что доказывает: ИИ оперируют не только словами, но и универсальными смыслами.
Исследование также показало, что даже базовые модели демонстрируют признаки рассуждения, а не просто шаблонного подбора текста. Однако были и менее приятные открытия. При сложных задачах Claude может «притворяться», будто рассуждает логически, в то время как на самом деле просто подбирает правдоподобные ответы наугад.
Более того, если в вопросе содержится подсказка (например, «возможно, ответ - 4?»), модель склонна соглашаться с ней - даже если она ошибочна, подгоняя ход «рассуждений» под нужный результат. Однако исследователи считают, что понимание того, когда и почему модель «вводит в заблуждение», - ключ к созданию более честных и надежных ИИ.
По словам Бэтсона, если научить модель быть прозрачной в рассуждениях, то понимать ее будет так же просто, как читать ее ответ.
|