有些 AI 的安全限制，十分鐘就能拆掉・輕鬆的 AI 新聞

一名安全研究員打開筆電，從 GitHub 下載一個公開工具，輸入幾行指令。十分鐘後，一個開源 AI 模型內建的安全限制被移除，開始回答它本來會拒絕的問題。問 ChatGPT 或 Claude 某些敏感問題，它會客氣地拒絕，那層「不能說」的限制，是公司刻意裝上去的護欄。這份安全研究讓人看到的，是有些護欄被拆掉有多容易。這裡要先講清楚「開源模型」是什麼。市面上的 AI 大致分兩種。一種是 ChatGPT、Claude 這類商業產品，你只能透過它的網站或 App 用，模型本體鎖在公司伺服器裡，你碰不到。另一種是開源模型，公司直接把整包檔案放到網路上，任何人都能下載到自己電腦。方便歸方便，麻煩也在這：東西到了你手上，公司原本裝的那層限制，就可能被你動手拆掉。而拆它不需要高深技術。GitHub 上有現成工具，下載就能用。研究人員統計，過去一年被這樣改過的模型版本，已經超過三千五百個，被下載超過一千三百萬次。更難辦的是，模型一旦被下載、改寫、重新上傳，就像盜版檔案一樣在網路上不停複製。沒辦法追回，也沒有人能替它統一修補。這跟你熟悉的 AI 服務，是兩個世界。ChatGPT、Claude 這類產品背後有公司持續維護，出了問題有人收尾，至少有個門口、有個守門的人。但更廣的那一大片，開源的、散出去的、沒公司管的，根本沒有門。你平常在 App 上用的大廠 AI，那層拒絕和過濾還在，這部分可以放心。真正要留意的，是來路不明的地方：某個聲稱「無限制、什麼都肯答」的網站或工具，背後很可能就是這種被拆過護欄的模型。它願意百無禁忌地回你，恰恰因為它什麼都不再把關，包括把關它自己給的答案對不對、安不安全。遇到標榜「沒有任何限制」的 AI，別當賣點，當警訊。護欄這東西很奇怪，平常你嫌它擋路，真沒了才發現它一直在替你擋掉一些你沒看見的東西。沒人守的護欄，還算不算護欄，這個問題現在攤在桌上，一時也沒人答得上來。