在线免费av网址|国产第一浮力久久|日本有码中文字幕|国产观看视频免费|亚洲熟女一二三区|久草视频免费网站|丰满熟女在线综合|久久久久久久久肛|草草影院浮力视频|亚洲色图激情国产

DoNews > 公司新聞 > AI安全防護再遭挑戰(zhàn)：Anthropic研究發(fā)現(xiàn)大型語言模型“越獄”漏洞

AI安全防護再遭挑戰(zhàn)：Anthropic研究發(fā)現(xiàn)大型語言模型“越獄”漏洞

2024-12-25 16:03:26

Anthropic公司近期發(fā)布了一項關(guān)于大型語言模型（LLM）安全防護的研究，揭示了當前AI模型在應(yīng)對惡意攻擊時的脆弱性。研究表明，通過簡單的提示詞格式調(diào)整，如大小寫混合或單詞順序打亂，攻擊者可以輕松繞過AI模型的安全防護，誘導(dǎo)其生成有害內(nèi)容。

為了驗證這一發(fā)現(xiàn)，Anthropic與牛津大學(xué)、斯坦福大學(xué)等機構(gòu)合作，開發(fā)了一種名為“最佳N次”（BoN）的自動化越獄算法。該算法通過重復(fù)采樣提示詞的變體，并結(jié)合隨機打亂字母順序、大小寫轉(zhuǎn)換等手段，成功在多個主流AI模型上實現(xiàn)了超過50%的攻擊成功率。

研究人員在測試中使用了包括OpenAI的GPT-4、Anthropic的Claude 3.5、谷歌的Gemini系列以及Meta的Llama 3等模型。結(jié)果顯示，BoN越獄方法在10,000次嘗試內(nèi)，均能成功繞過這些模型的安全防護。

此外，研究還發(fā)現(xiàn)，基于語音或圖像的提示方式同樣存在安全漏洞。通過改變音頻的速度、音調(diào)或添加噪音，攻擊者可以繞過語音提示的安全防護；而通過調(diào)整圖像的字體、背景顏色或大小，也能成功誘導(dǎo)AI模型生成不當內(nèi)容。

Anthropic的研究并非僅為了揭示漏洞，而是希望通過生成大量攻擊數(shù)據(jù)，為開發(fā)更強大的防御機制提供支持。這一研究為AI安全領(lǐng)域敲響了警鐘，提醒開發(fā)者在追求模型性能的同時，必須更加重視安全防護的設(shè)計與優(yōu)化。