人類學欺騙克勞德認為它是金門大橋(還有其他神秘的 AI 大腦的看法)

https://venturebeat.com/ai/anthropic-tricked-claude-into-thinking-it-was-the-golden-gate-bridge-and-other-glimpses-into-the-mysterious-ai-brain/

Anthropic 團隊開啟人工智慧思維盒的一縷光 研究人員首次獲得 AI 思維內部的一瞥,並發現可進行「字典學習」以操控模型行為,包括讓模型相信自己是金門大橋,或撰寫詐騙郵件。這些發現被認為有助於建立更可信任的 AI,並對於 AI 模型的稽核提出了新策略。加入 6 月 5 日的活動以深入了解。

via VentureBeat

May 22, 2024 at 08:10AM

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *