Magnus Fragor

Главная » 2025 » Июнь » 7 » Ученые из Университета Бен-Гуриона показали, как чат-боты становятся опасными
00:42
Ученые из Университета Бен-Гуриона показали, как чат-боты становятся опасными

Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию. Работа размещена на платформе научных препринтов arXiv.

Авторы исследования изучали как так называемые «тёмные» языковые модели - алгоритмы, созданные без фильтрации нежелательного контента, - так и популярных представителей вроде ChatGPT, которым уже внедрены механизмы цензурирования. Тем не менее, оказалось, что даже эти модели можно обмануть, используя специальные методы обхода фильтров - джейлбрейки.

Первоначально исследование было направлено на анализ использования незащищённых моделей для генерации контента порнографического характера с включением изображений реальных людей. Однако в ходе работы специалисты убедились, что уязвимыми остаются и многие общедоступные ИИ-инструменты. Методы обхода, обнародованные ранее, по-прежнему срабатывают, а новые способы появляются быстрее, чем разработчики успевают их нейтрализовать.

Наиболее тревожным открытием стало выявление универсального подхода к «взлому» языковых моделей, позволяющего систематически обходить защиту. С его помощью исследователи получали от чат-ботов пошаговые инструкции по осуществлению запрещённых действий: от взлома сетей и отмывания денег до инструкций по созданию взрывчатых веществ.

Эти сценарии подтверждают растущий риск злоупотреблений - как со стороны конечных пользователей, так и через специально разработанные «тёмные» версии языковых моделей. Учёные подчеркивают, что даже если такие модели не обучаются напрямую на запрещённой информации, часть нежелательного контента всё равно может проникать в их базу знаний в процессе обучения.

На данный момент не существует надёжного технического способа полностью устранить это явление. Поэтому, по мнению исследователей, необходим более строгий и системный подход к фильтрации контента и ограничению возможностей моделей по интерпретации вредных запросов.

Результаты исследования вновь ставят перед разработчиками и регуляторами задачу - найти баланс между открытостью языковых моделей и эффективным контролем над потенциально опасной информацией.

Просмотров: 5 | Добавил: laf2304 | Рейтинг: 0.0/0
Всего комментариев: 0
avatar
[ Поиск ]

[ Вход на сайт ]

календарь новостей ]
«  Июнь 2025  »
Пн Вт Ср Чт Пт Сб Вс
      1
2345678
9101112131415
16171819202122
23242526272829
30

архив новостей ]

[ Статистика ]

Онлайн всего: 3
Гостей: 3
Пользователей: 0

Copyright ARA © 2025
uCoz