
Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию. Работа размещена на платформе научных препринтов arXiv.
Авторы исследования изучали как так называемые «тёмные» языковые модели - алгоритмы, созданные без фильтрации нежелательного контента, - так и популярных представителей вроде ChatGPT, которым уже внедрены механизмы цензурирования. Тем не менее, оказалось, что даже эти модели можно обм
...
Читать дальше »