Global Technology Editor

「開源」一詞曾在軟體領域代表一種明確的契約:你可以檢視程式碼、修改並重新分發。 然而在AI領域,這樣的契約已逐漸鬆弛。[10][12] 許多公司現在所稱的開源,事實上更接近於公開權重——你可以執行模型,但無法完整理解它的製作過程、學習來源,或複製的忠實度。 這種差異非僅語意上的吹毛求疵。 它關乎誰能審核AI系統、誰能改良它們,以及誰能聲稱擁有開放的道德權威。[1][5][10][12]

開源促進會於2024年經多年討論後發布了「開源AI定義」版本1.0。[1][4][7] 該定義旨在制定超越單純模型參數的標準。 依據此架構,一套系統應公開的不只權重,還包括建構與訓練程式碼、資料集製作程式碼,以及完整訓練資料或在無法全面發佈時能重建該資料的資訊。[4][7] 換句話說,辯論不再是模型能否被下載。 而是它是否能被系統性地研究。

目前「公開權重」與「開源AI」的區分已成為該領域的重要爭議。[2][10][12] 部分業界人士將「開放」定義為參數廣泛可得。 另一些人則保留該詞給予軟體時代熟悉的完整自由套件。 這不僅是哲學層面的差異。 它影響開發者期望、採購決策,以及政策制定者制定AI接取規範時所用的詞彙。[1][3][12] 如果標籤過於彈性,將可能誤導使用者,使其誤以為系統自身能支持卻未必如此。

語言上的漂移有其實際原因。 訓練資料往往是最難共享的部分。[4][5][11] 部分資料集含有專有、授權或敏感資訊,無法在無法律或隱私風險下公開。[5][11] 因此許多廠商與研究者只進行部分揭露:公開權重、部分程式碼與訓練過程說明。 這仍具價值,尤其是用於微調與本地部署,但未達經典開源承諾。 結果是開放性呈現譜系,而非單一類別。

技術層面影響甚鉅。 模型權重決定訓練好網路對輸入的反應,公開權重可支持微調、適應與本地推理。[2][8][10] 但權重非源碼。 它們無法提供架構、訓練選擇、過濾或資料整理上的相同可見性。 模型即使可廣泛取得,仍可能在關鍵的可靠性和問責性方面保持不透明。[11][13] 因此,研究與政策專家愈來愈將公開權重模型視為獨立類別,而非開源同義詞。

當出口管制開始不只針對晶片,也針對模型權重時,政策賭注急劇升高。 RAND對美國人工智慧擴散框架的分析指出,新管控針對特定AI模型權重,但豁免公開權重。[3][6][9] 這使公開與受限存取的界線成為國家安全政策一環。 這是重要的轉變。 開放性不再只是開發者文化的話題。 它變成了哪些系統可跨境移動、哪些組織能托管,及高階模型部署地點的問題。[3][6][9]

這同時改變了主要AI開發者的激勵結構。 企業希望藉開放形象獲得聲譽優勢,吸引開發者,並在其模型周圍建立預設基礎架構層帶來商業利益。 但他們也想避免完全揭露的風險。 結果是精心權衡的折衷方案:釋放足夠資源促進採用,但保留控制權。 這從商業角度理性,卻帶給公眾一個不如軟體歷史所賦予的開放定義。[1][10][12]

未解的問題是:我們需要多少證據才能認定「開放」一詞已具誤導性? 答案取決於每一案例實際公開的內容,而市場還未呈現穩定統一的圖像。 我們可確認正式定義存在、公開權重發布仍持續,以及政策對限制部分模型權重的關注。[1][3][4][6] 仍難確定業界是否會趨向共通標準,或繼續對不同存取層級使用同一標籤。 未來修訂中值得關注的是:誰發佈模型,以及發佈了什麼。[1][4][6][12]

對開發者與機構來說,這不是品牌爭議。 而是關乎研究、競爭與公共問責長期影響的治理問題。 若將模型稱為開放,使用者會預期具備一定的可檢視性和獨立性,但實際可能並非如此。 若政策制定者誤認公開權重即為開源,可能制定出和技術現實不符的規範。 不變的教訓是:在AI領域,開放不再是一種單一屬性, 而是由許可、揭露與限制構成的綜合體,產業將根據其誠實命名而受評價。[1][3][4][6]