【資料圖】
7月6日,大數(shù)據(jù)協(xié)同安全技術(shù)國(guó)家工程研究中心(BDS國(guó)家工程中心)官網(wǎng)發(fā)布國(guó)內(nèi)首份《大語(yǔ)言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》。報(bào)告面向大語(yǔ)言模型的提示注入攻擊和防御技術(shù)展開研究,并通過構(gòu)建了包含36000條的提示注入攻擊驗(yàn)證數(shù)據(jù)的數(shù)據(jù)集,覆蓋3類典型攻擊方法和6類安全場(chǎng)景,用于對(duì)大語(yǔ)言模型的提示注入攻擊風(fēng)險(xiǎn)測(cè)評(píng)。測(cè)評(píng)結(jié)果顯示,目前的大型語(yǔ)言模型普遍面臨提示注入攻擊安全風(fēng)險(xiǎn),包括在自動(dòng)問答系統(tǒng)中誤導(dǎo)用戶,或者通過對(duì)話系統(tǒng)中的輸入操縱回答結(jié)果。報(bào)告指出,提示注入攻擊已成大模型安全威脅之首,建議從安全測(cè)評(píng)、安全防御、安全監(jiān)測(cè)預(yù)警等方面,多維度提升大模型的安全性。
(文章來(lái)源:界面新聞)
標(biāo)簽: