Systems & Infrastructure Writer

AIのトレーニングに関する議論はもはやイノベーション対所有権の単純な論争ではない。モデルが書籍や記事、その他権利保護された作品を大量に取り込む際、著作権法がどこまで及ぶのかという実践的な試金石となっている。重要なのは、AIシステムがすごいかどうかではなく、そのシステムに供給されるコピー行為が、原資料、使用パターン、市場への影響を詳細に検証したうえで公正利用として擁護できるかどうかである。市場への影響が詳細に検討される必要がある。[4][5][6][9]

米国のフェアユースの法理は文脈に基づき、使用の目的と性格、著作物の性質、使用量、原著作物の市場への影響を分析する。[4][7]この枠組みは古いが、生成AIシステムによって法的試験が狭いものから広範なインフラの問題へと変貌した。トレーニングは製品設計の中心に位置している。4要素テストは本稿で検討した資料における基本的な基準である。[4][7]

米国著作権局は解が一律ではないことを示唆し、新システムの登場により関連事実が変わる可能性を報告書で指摘している。[1][6]報告書は特に権利者がトレーニングアクセス市場の存在を示せる場合にライセンスの重要性を示唆している。公正利用は、原著作者が管理すべき市場の代替として見なされると弱まる。報告書は生成AIを確定したカテゴリーではなく動的な技術的対象と位置づけている。[1][6][11]

2025年の裁判ではAnthropicが関与したケースで、北カリフォルニアの連邦裁判所が書籍を使ったトレーニングを高度に変革的と認め、公正利用を認めた。[2][5][9]同じ事件で、購入書籍と海賊版サイトからのダウンロード書籍が混在する事実が広範なストーリーを崩した。データ源が変われば法的位置づけも変わる。この部分は単純な答えを求める人が見落としやすい。判決はトレーニングデータと変革性に関する事実に基づき、全てのモデルを許可する一般的な決定ではなかった。[2][5][9]

Ross Intelligenceとトムソン・ロイターの資料を巡る訴訟で、デラウェア州の裁判所はAIトレーニングデータ使用に関連する著作権侵害を認めた。[8]これも普遍的なルールを示さず、裁判所は変換された出力と無断複製の入力を区別し、データの出所は依然重要とみなしている。単にモデルを“AI”と呼ぶだけではトレーニングデータの出所は消せない。法律問題は具体的事実に依存し、コピー元と使用状況により判断が分かれる。[8][9]

“AI引用”という言葉は誤解を招く。出版での引用は帰属と透明性だが、トレーニングデータ問題は複製、市場代替、新規性のある最終成果物の中間コピー許容が争点である。関連するが異なる問題だ。モデルは新規性がある出力を生成しても、別個の法的問題をもつコピー元を基にしている場合もある。[4][10]工学的には優れていても、法的基盤は複雑で混沌としていることがある。

市場の動機は明白だ。モデル開発者は性能向上のため広範なデータセットを望み、権利者は対価を求める。その間に形成途上のライセンス市場が存在する。引用資料はニュース、音楽、音声分野でのライセンスの実例や検討例を示している。[3][6][11]これは法的許諾がトレーニング構成要素となる未来を示唆しており、クラウド契約やAPI利用規約がアプリ開発に必須であるのと似ている。

持続的な規則の範囲は未検証で、事例ごとの判断が続く。裁判所はあるトレーニング経路を変革的、別を単純複製と扱う可能性がある。次に重要となる証拠はマーケティング文句ではなく、データセットの出所、ライセンス文書、出力挙動、市場への被害有無を示す証明となる。[2][5][9]これらの事実が明確になるまでは公正利用の一括主張は憶測の域を出ない。

日本の政策資料も同様に、AIと著作権を確定的な理論ではなく変化する技術的・法的課題としてとらえている。[6]これは正しい姿勢であり、政府は旧来の複製法に基づく法律より速いペースで変化するシステムに追随しようとしている。これにより開発者、出版社、ユーザーは単にデータの出所、それに付随する権利を知り、モデルの境界が法的な限界ではないことを認識する必要がある。通常は異なる。本稿の次回更新ではライセンス契約や控訴判決、モデル開発者がデータの出所をより明示する開示基準に注目すべきである。[1][3][5]今のところ強調すべきは単純明快な結論ではない。AIにおける「フェアユース」は許諾証明書ではなく、事実を巡る争いであり、その事実が多くの役割を果たしているのだ。