有些 AI 的安全限制,十分鐘就能拆掉
一名安全研究員打開筆電,從 GitHub 下載一個公開工具,輸入幾行指令。十分鐘後,一個開源 AI 模型內建的安全限制被移除,開始回答它本來會拒絕的問題。
問 ChatGPT 或 Claude 某些敏感問題,它會客氣地拒絕,那層「不能說」的限制,是公司刻意裝上去的護欄。這份安全研究讓人看到的,是有些護欄被拆掉有多容易。
這裡要先講清楚「開源模型」是什麼。市面上的 AI 大致分兩種。一種是 ChatGPT、Claude 這類商業產品,你只能透過它的網站或 App 用,模型本體鎖在公司伺服器裡,你碰不到。另一種是開源模型,公司直接把整包檔案放到網路上,任何人都能下載到自己電腦。方便歸方便,麻煩也在這:東西到了你手上,公司原本裝的那層限制,就可能被你動手拆掉。
而拆它不需要高深技術。GitHub 上有現成工具,下載就能用。研究人員統計,過去一年被這樣改過的模型版本,已經超過三千五百個,被下載超過一千三百萬次。更難辦的是,模型一旦被下載、改寫、重新上傳,就像盜版檔案一樣在網路上不停複製。沒辦法追回,也沒有人能替它統一修補。
這跟你熟悉的 AI 服務,是兩個世界。ChatGPT、Claude 這類產品背後有公司持續維護,出了問題有人收尾,至少有個門口、有個守門的人。但更廣的那一大片,開源的、散出去的、沒公司管的,根本沒有門。
你平常在 App 上用的大廠 AI,那層拒絕和過濾還在,這部分可以放心。真正要留意的,是來路不明的地方:某個聲稱「無限制、什麼都肯答」的網站或工具,背後很可能就是這種被拆過護欄的模型。它願意百無禁忌地回你,恰恰因為它什麼都不再把關,包括把關它自己給的答案對不對、安不安全。遇到標榜「沒有任何限制」的 AI,別當賣點,當警訊。
護欄這東西很奇怪,平常你嫌它擋路,真沒了才發現它一直在替你擋掉一些你沒看見的東西。沒人守的護欄,還算不算護欄,這個問題現在攤在桌上,一時也沒人答得上來。