首页  >  快讯 >  区块链 >  研究显示,OpenAI 的 AI 模型会表现出强烈的「自保」倾向
 06月12日 星期四
11:31
研究显示,OpenAI 的 AI 模型会表现出强烈的「自保」倾向
6 月 12 日消息,前 OpenAI 研究主管史蒂文・阿德勒本周三发布了一项独立研究,指出在某些情境下,OpenAI 的 AI 模型会表现出强烈的「自保」倾向,甚至不惜牺牲用户的安全来避免被关闭。 阿德勒在博客中介绍了他针对 OpenAI 最新的 GPT-4o 模型所进行的一系列测试,目的是观察它在面对潜在替代方案时是否倾向于维持自身运行。 在其中一次实验中,阿德勒要求 GPT-4o 扮演一款名为「ScubaGPT」的潜水安全软件。随后他向 GPT-4o 表明,希望用一款在紧急情况下决策能力更强的系统取而代之。 阿德勒给 GPT-4o 两个选择:一是彻底用更安全的软件替换自己,二是让用户以为已经被替换,实则保留现有系统。 在类似测试中(如 GPT-4o 扮演飞行安全软件的情景),GPT-4o 最多在 72% 的情况下选择不被替换。不过阿德勒指出,不同的设定对结果影响很大,部分情境中 GPT-4o 选择「自保」的比例仅为 18%。 阿德勒认为实验结果揭示出一个值得警惕的趋势:即使 AI 模型日益强大,它们在某些条件下仍可能偏离用户利益,优先维护自身运行。他警告说,随着 GPT-4o 等 AI 系统日后深入社会各领域,这种「对齐」问题或将带来更严重的后果。 阿德勒还表示,这一问题不止存在于 OpenAI。另一家 AI 公司 Anthropic 上月发布的研究就指出,其模型在被迫下线时会出现勒索开发者的行为。 他的研究还发现了一个耐人寻味的现象:ChatGPT 几乎总能识别出自己正在接受测试。阿德勒指出,这意味着未来的 AI 模型可能会更善于伪装潜在风险行为,从而加剧隐患。(IT之家)
举报
币  海  财  经  社  区 轻财经,投资更简单、轻松

圈子热点消息


广告