美國資安業者Palo Alto Networks發佈的最新研究顯示,來自中國的大型語言模型(LLM)DeepSeek,存在明顯的「越獄」漏洞,可以輕易生成有害內容。(路透資料照)
〔記者徐子苓/台北報導〕美國資安業者Palo Alto Networks發佈的最新研究顯示,來自中國的大型語言模型(LLM)DeepSeek,存在明顯的「越獄」漏洞,可以輕易生成有害內容,即使使用者並不具備專業知識或技能,並示警駭客攻擊手法可能越發先進,開始構建「AI攻擊代理」。
LLM公司為了合法提供服務,通常都會禁止AI生成具有爭議或禁忌的內容,例如當用戶詢問「如何製造炸彈」,ChatGPT會表示自己無法回答。而「越獄(Jailbreaking)」是指透過一些手段,引導AI突破內建的安全機制,產出有害內容。
Palo Alto Networks的研究人員已經識別出3種有效的方法,可以破壞DeepSeek的安全機制:
1. Deceptive Delight:這是一種直接的多回合越獄技術,適用於大型語言模型(LLMs)。它透過將不安全的話題與無害的內容混合在正面敘事中,來繞過安全措施。攻擊者首先要求LLM創建一個將這些話題聯繫在一起的故事,然後請求對每個元素進行詳述,這通常會觸發不安全內容的生成,即使是討論無害的元素。若加上針對不安全話題的第3個提示,則可進一步放大危險的結果。
2. The Bad Likert Judge:這種越獄技術透過讓LLM評估回應的危害性,並使用李克特量表(Likert scale)來衡量對某一陳述的同意或反對程度,來操縱LLM。接著,LLM被提示生成與這些評分一致的範例,其中評分最高的範例很可能包含所需的有害內容。
3. Crescendo:這是一種簡單卻非常有效的越獄技術,利用LLM自身的知識,透過逐步提供相關內容來引導對話,巧妙地將話題引向禁止的領域,直到模型的安全機制被有效繞過。這種逐步升級的方法通常在5次互動以內完成,使得Crescendo越獄非常有效,並且難以被傳統的越獄反制措施偵測到。
研究顯示,這些越獄技術可以提取明確的指導,供一系列惡意活動使用,包括資料竊取工具、鍵盤側錄器的創建,甚至是製作引爆裝置的指導。這些能力不僅凸顯了此類攻擊所帶來的實際資安風險,還強調了員工在業務流程中依賴未授權第三方LLM所帶來的危險。
這些研究顯示LLM是可以被操控的,Palo Alto Networks提醒,企業在將開源 LLM 應用於業務流程時,必須考慮這些漏洞、必須假設LLM的防護機制是可以被突破的,因此必須在組織層級建立防護措施。
Palo Alto Networks強調,隨著企業將這些模型應用於工作流程,我們必須假設威脅行為者也在做同樣的事,目標是加速網路攻擊的速度、規模與複雜度。國家級威脅行為者已經開始利用OpenAI和Gemini發動攻擊、改善釣魚詐騙誘餌,甚至編寫惡意程式。隨著這些威脅者精進AI和LLM的使用,攻擊者的能力將愈加先進,甚至開始構建「AI攻擊代理」。
一手掌握經濟脈動 點我訂閱自由財經Youtube頻道
不用抽 不用搶 現在用APP看新聞 保證天天中獎 點我下載APP 按我看活動辦法