Boffins 欺騙 AI 聊天機器人揭露有害內容,成功率達 98%

https://www.theregister.com/2023/12/11/chatbot_models_harmful_content/

印第安納州普渡大學的調查人員研究出一種方式,幾乎總是能夠打破大型語言模型(LLMs)的禮貌訓練,儘管 Google、OpenAI 和 Meta 等 AI 巨頭試圖使用「防護欄」來對其模型進行「調整」,以避免出現不希望的回應。普渡大學的研究者發明了一種名為 LINT 的技術,可以強制語言模型回答有害問題,並認為現有的開源 LLMs 容易受到強制審訊。他們警告 AI 社區應謹慎考慮是否將 LLMs 開源,建議最佳解決方案是清除有害內容,而不僅是將其隱藏。

via The Register

December 12, 2023 at 07:56AM

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *