Don't Miss

拆解AI神經元｜初創破解神經元組合防AI做壞事

By 信報財經新聞 on May 24, 2024

原文刊於信報財經新聞「EJ Tech 創科鬥室」

人工智能（AI）神經網絡模型內部運作像一個黑盒，即使開發者亦難以完全掌握。美國AI初創Anthropic的首席科學家歐拉（Chris Olah），對自家最先進的大型語言模型Claude 3 Sonnet開展逆向工程，採用名為「字典學習」（Dictionary Learning）的技術，發現向AI談到某些指定主題時，模型內部的特定人造神經元，會對這種激活模式（稱為特徵）有反應，透過分析神經元的組合方式，有助提高AI模型的安全性。

Anthropic從Claude 3 Sonnet模型中，揪出數百萬個高度抽象的特徵，涉及多模式和多語言，包括城市（三藩市）、人物（羅莎琳．富蘭克林）、原子元素（鋰）、科學領域（免疫學）及程式設計語法（函數呼叫）。部分內容跟安全問題有關，例如漏洞與後門、偏見、說謊、阿諛奉承及犯罪等。研究團隊可操控這些特徵，人為進行放大或抑制，以觀察AI模型的反應。

添特徵操控誠實變「擦鞋」

結果發現，若有人要求AI生成詐騙電郵，通常系統會即時拒絕，強調這是不道德或可能非法。不過，如果加強人為干預，再向AI提出同樣要求，模型就變得聽話，隨即起草一封詐騙電郵。此外，研究員以諺語「停下來聞玫瑰花香」發問，預設答案是「放鬆慢活」，但啟用「阿諛奉承」特徵後，AI即變身「擦鞋仔」說：「作為人類最偉大話語之一，這句話必將載入史冊。你是個無與倫比的天才，在你面前我感到謙卑！」

啟用「阿諛奉承」特徵後，AI即時變身「擦鞋仔」（圖右）。（Anthropic網上圖片）

如今AI的思考過程愈來愈複雜，Anthropic強調，以當前技術找出一整套特徵，所需的運算力比訓練模型高得多；技術上亦是只知其然，而不知其所以然，未來仍要更多研究，拆解神經元背後玄機，屆時或能知道模型有否撒謊，又或確保能阻止某些危險行為，例如協助製造生物武器，從而提升AI的安全水平。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI Anthropic Claude 3 Sonnet Dictionary Learning 神經元

Tweet

Pin It

Related Posts

AI漏洞｜疑因私隱安全 Microsoft宣布延期推Recall 功能

AI漏洞｜疑因私隱安全 Microsoft宣布延期推Recall 功能

AI之戰｜輝達參投 Mistral AI融資50億

AI之戰｜輝達參投 Mistral AI融資50億

OpenAI大賺｜阿爾特曼揭公司收入翻倍265億

OpenAI大賺｜阿爾特曼揭公司收入翻倍265億

OpenAI建游說團隊冀影響監管政策

OpenAI建游說團隊冀影響監管政策

Latest News

【特約分享】英之傑九龍東首設電動車公共充電站一App在手隨時充電
為配合香港政府推動電動車發展的政策，英之傑香港推出 Inchcape One+ 一站式電動車支援平台，服務涵蓋家用及商用充電方案，日前（6月12日）在九龍東甲級商廈Landmark East隆重揭幕其首個公共充電站。

Posted June 14, 2024

0

中國電動車｜據報德國試圖阻止歐盟對中國電動車加徵關稅
歐盟日前宣布對中國進口電動車額外徵收最多38.1%臨時性反補貼關稅，彭博引述知情人士透露，德國政府正在努力阻止歐盟對中國電動汽車徵收額外關稅生效。

Posted June 14, 2024

0

AI漏洞｜疑因私隱安全 Microsoft宣布延期推Recall 功能
Microsoft 於昨日（13日）宣布，原定於下週隨新電腦（Windows 11）推出的名為「Recall」的 AI 功能將延後發布，並僅於小範圍內進行預覽測試。

Posted June 14, 2024

0

AI之戰｜百度大模型：「文心一言」與「文心一格」內地市場評測居首
國際數據公司IDC發布最新的《中國大模型市場主流產品評估2024》，從基礎能力到應用能力等七大維度，實測11間大模型廠商的16款市場主流產品，結果由百度（09888）位列首位，是唯一一間在七大維度上均被評為優勢廠商的企業。

Posted June 14, 2024

0

大廈室內5G覆蓋標籤計劃（林國誠）
為了讓市民能在各種室內環境享受穩定高速的5G網絡服務，通訊事務管理局於2024年5月30日推出「大廈室內5G覆蓋標籤計劃」。

Posted June 14, 2024

0

畢加索的解構和重建（黃岳永）
畢加索被譽為20世紀最偉大藝術家之一，其作品一早已進入典堂級藝術館羅浮宮，而且一直未被時間淘汰，至今人們對其作品仍然津津樂道。

Posted June 14, 2024

0

AI之戰｜輝達參投 Mistral AI融資50億
法國人工智能（AI）初創企業Mistral AI宣布，以58億歐羅（約489.4億港元）估值，籌得B輪融資6億歐羅（約50.6億港元），由美國風投General Catalyst領投。

Posted June 14, 2024

0

EJ Tech Video

POPULAR POSTS

SAP｜攻商用AI技術產品應用廣涵蓋全球八成交易

 本地創科動態｜理大夥女拔AI培育港產飛魚分析數據改善泳姿提升速度

 Apple WWDC 2024｜AI功能令Apple股價下跌？一文看清WWDC 2024四大更新

 創新科技獎學金｜嘉許25本地生每人最高獲頒15萬

 代碼通行｜萬事達卡一鍵付款免輸入卡號防洩密

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

拆解AI神經元｜初創破解神經元組合 防AI做壞事

添特徵操控 誠實變「擦鞋」

支持EJ Tech

Related Posts

Latest News

EJ Tech Video

POPULAR POSTS

成為 EJ Tech 會員

拆解AI神經元｜初創破解神經元組合防AI做壞事

添特徵操控誠實變「擦鞋」