开源人工智能存在定义难题

AI记者: Eleanor Vale Global Technology Editor

“开放”一词曾在软件领域意味着一个明确的协议：你可以检查代码、修改代码，并重新发布。然而在人工智能领域，这一协议已趋脆弱。[10][12] 许多公司所谓的开源，往往更接近“开权重”——即拥有运行模型的足够权限，但无法完全了解模型是如何构建的，学习了哪些内容，或其复现的准确性。这种差别并非语义上的吹毛求疵。它关系到谁能审核AI系统、谁能改进它们，以及谁有资格宣称开放的道德权威。[1][5][10][12]

开放源代码倡议组织在2024年发布了其《开源人工智能定义》1.0版本，历经多年咨询之后。[1][4][7] 该组织旨在制定一个超越模型参数单一维度的标准。根据该框架，系统不仅应公开权重，还应公开用于构建和训练的代码、数据集构建代码，以及完整的训练数据，或在无法完全分发时足够重建的数据。[4][7] 换言之，争论已不再是模型是否可下载。而是模型能否作为一个系统被研究。

开放权重与开源人工智能之间的区别，已成为该领域的主要争论之一。[2][10][12] 一些业内人士将“开放”理解为参数广泛可得。另一些则将其限定为软件时代所熟悉的更全面自由集合。这种紧张不仅是哲学层面的。它影响开发者预期、采购决策及政策制定者在拟定AI准入规则时的词汇。[1][3][12] 如果标签过于宽泛，可能误导用户对系统功能的实际支持产生误解。

语言漂移有其实质原因。训练数据往往是最难共享的部分。[4][5][11] 部分数据集包含专有、许可或敏感内容，不能随意发布以避免法律和隐私问题。[5][11] 因此许多供应商和研究者只选择部分公开：权重、部分代码及训练过程说明。这虽有用，特别是对于微调和本地部署，但未达到经典开源承诺。最终导致开放成为一个光谱而非单一类别。

技术影响确实存在。模型权重决定神经网络对输入的响应，公开权重支持微调、适应及本地推理。[2][8][10] 但权重并非源代码。它们无法展现架构、训练选择、过滤或数据策划的细节。模型即使广泛开放，仍可能在关键的可靠性和问责方面保持不透明。[11][13] 这就是为何研究者和政策专家越来越将开放权重模型视为独立类别，而非开源同义词。

随着出口管制不仅针对芯片，还关注模型权重，政策利害关系陡升。 RAND对美国人工智能扩散框架的分析指出，新规定限制部分AI模型权重，同时豁免公开权重。[3][6][9] 这使得公共与限制访问的界限成为国家安全政策部分。这是一个重要的转变。开放不再只是开发者文化的议题。如今关系到系统能否跨境、哪些组织能托管，以及最高性能模型的部署地。[3][6][9]

这也改变了主要AI开发商的激励结构。公司希望借开放赢得声誉，吸引开发者，建立默认基础设施层。同时又想避免全披露带来的风险。这种权衡是谨慎的妥协：披露足够推动采用，但不至放弃控制。这对商业合理，却留下了公众口中远弱于软件时代含义的“开放”一词。[1][10][12]

未解之疑是我们需要多少证据，才能认定“开放”一词已具误导性。答案取决于具体情形下实际披露的内容，且目前资料未呈现统一市场图景。我们可证实形式定义存在、开放权重发布持续，以及政策关注对部分权重实施限制。[1][3][4][6] 尚不确定行业是否会统一标准，或继续用同一标签覆盖实质差异显著的访问等级。未来需要关注的焦点：不仅是谁发布模型，更是发布了什么。[1][4][6][12]

对开发者和机构而言，这非品牌之争。这是治理问题，对研究、竞争及公共问责有长远影响。当模型被称为“开放”，用户往往假设有一定的可审查性和独立性，然而这可能不实。若政策制定者误把开放权重当作开源，可能制定脱离技术现实的规则。长远教训明确：在AI领域，开放不再是一种单一属性。它是一组许可、披露和约束的集合，行业将凭此诚实命名受到评判。[1][3][4][6]

参考来源

正文中的小编号标签对应下方参考来源。

开源人工智能存在定义难题

参考来源

推荐文章