Don't Miss
All posts tagged "Claude 3 Sonnet"
-
拆解AI神經元|初創破解神經元組合 防AI做壞事
美國AI初創Anthropic的首席科學家歐拉(Chris Olah),對自家最先進的大型語言模型Claude 3 Sonnet開展逆向工程,採用名為「字典學習」(Dictionary Learning)的技術,發現向AI談到某些指定主題時,模型內部的特定人造神經元,會對這種激活模式(稱為特徵)有反應,透過分析神經元的組合方式,有助提高AI模型的安全性。
- Posted May 24, 2024