Industrial Technology Correspondent

Dalam perdebatan tentang AI generatif, kini bukan hanya soal apakah suatu sistem memberikan jawaban yang benar. Pertanyaan yang lebih keras adalah apakah ketika merujuk pada teks orang lain, sistem tersebut memenuhi fungsi yang sama dengan kutipan manusia — atau sekadar terlihat meyakinkan secara bahasa, tanpa memikul beban budaya dan hukum dari tindakan mengutip. Di sinilah teknologi, hak cipta, dan harapan pengguna bertemu.

U.S. Copyright Office telah mengangkat perdebatan ini ke level prinsip-prinsip yang berlaku dalam beberapa bagian laporan mereka tentang kecerdasan buatan.[1][7][9] Dalam bagian kedua disebutkan bahwa aturan hak cipta yang ada cukup fleksibel untuk juga mengatur AI generatif; sekaligus ditegaskan bahwa keluaran AI hanya dapat dilindungi jika manusia telah secara cukup menentukan elemen ekspresifnya.[7][9] Hal ini penting untuk pertanyaan tentang kutipan, karena lembaga tersebut menarik garis: Tidak setiap kemiripan teks yang dihasilkan secara mesin sudah merupakan karya kreatif mandiri.

Perseteruan antara The New York Times dan OpenAI memperjelas garis ini lebih jauh.[2][5][8][10] Berdasarkan tuduhan yang telah diketahui publik, persoalannya bukan hanya soal pelatihan menggunakan teks jurnalistik, tapi juga klaim bahwa keluaran sistem terkadang mengulang hampir persis bagian dari artikel, sehingga bisa menjadi pengganti asli.[2][5][8][10] OpenAI merujuk pada konsep Fair Use dan menyatakan bahwa model-model tersebut tidak dimaksudkan sebagai pengganti langsung untuk isi surat kabar.[2][5][8] Secara hukum, ini membuka pertanyaan inti: Apakah sebuah model yang dalam beberapa kasus sangat dekat dengan asli, masih sebuah sistem pencarian dan generasi — atau sudah menjadi saluran distribusi konten orang lain?

Untuk klasifikasi teknis, RAG (Retrieval-Augmented Generation) menjadi pendekatan kontra yang berguna.[3][11][12] Metode ini menggabungkan model bahasa dengan pencarian eksternal dan bertujuan memberikan jawaban berdasarkan sumber yang dapat ditelusuri kembali.[3][11][12] Dalam deskripsi sistem semacam ini, poin inilah yang sering ditekankan: Mereka dapat menyediakan sumber yang bisa diperiksa oleh pengguna dan dengan demikian membangun kepercayaan.[11][12] Namun, ini belum sama dengan kutipan dalam arti manusiawi. Sistem RAG dapat menampilkan bukti, tanpa 'memahami' mengapa suatu kutipan dalam praktik ilmiah atau jurnalistik ditandai, dibatasi, dan dikontekstualisasikan.

Karena itu, kebingungan antara penunjukan sumber dan kutipan sangat keras kepala. Manusia mengutip untuk menampilkan asal-usul, otoritas, dan batasan; praktik ini terikat pada tanggung jawab. Sebaliknya, model menggabungkan pola dari pelatihan, pengambilan, dan generasi.[1][11][12] Model bisa mengeluarkan sinyal asal usul tanpa niat mengutip.[1][11][12] Perbedaan ini terasa semantis, tapi di dunia industri relevan: Tim produk sedang membangun antarmuka yang ingin menumbuhkan kepercayaan, dan mereka cepat menghadapi ekspektasi bahwa daftar sumber sudah bisa menggantikan semacam kehati-hatian editorial.

Di sisi lain, ada para penulis, pengarang, dan penerbit yang menganggap anggapan itu berbahaya.[4][6] Dalam pernyataan resmi yang ada, dikemukakan bahwa penggunaan karya kreatif tanpa lisensi untuk pelatihan menekan mata pencaharian pencipta dan tidak bisa hanya dianggap sebagai proses teknis sementara belaka.[4][6] Inti ekonomi dari perdebatan ini adalah: Mereka yang melatih model dengan teks orang lain tidak hanya menghasilkan parameter matematika, namun juga menggeser kekuatan negosiasi atas lisensi, pembayaran, dan visibilitas Untuk konten berita dan keahlian, hal ini sangat sensitif karena landasan ekonomi mereka bergantung pada penempatan yang jelas.

Tapi tetap tidak jelas batasan tepat antara rekonstruksi yang diizinkan dan pengambilan yang tidak sah. Sumber saat ini terutama menunjukkan dua hal: Pertama, bahwa pengadilan dan otoritas tidak ingin memperlakukan AI generatif sebagai kasus khusus; kedua, bahwa masalah pembuktian secara teknis menantang.[1][7][9][10] Satu kejadian dengan kutipan hampir kata demi kata memberikan sedikit gambaran tentang keseluruhan sistem.[2][10] Untuk penilaian yang lebih kuat dibutuhkan data yang lebih rinci tentang seberapa sering keluaran seperti itu terjadi, di bawah kondisi prompt apa, dan apakah bisa direproduksi secara sengaja.

Oleh karena itu, soal "mengutip" pada AI juga merupakan soal arsitektur produk. Jika sistem hanya membuat pernyataan tanpa memisahkan asal-usul dengan jelas, penunjukan sumber sering hanya hiasan daripada bukti. Jika sistem menggunakan basis pencarian, menampilkan bukti, dan membuka garis pemisah antara pelatihan dan sumber eksternal, paling tidak mendekati fungsi yang pengguna harapkan dari kutipan.[3][11][12] Tantangan jarang ada pada model saja. Ini soal integrasi pengambilan, tampilan, lisensi, dan tanggung jawab ke dalam sistem yang harus tampak sederhana bagi pengguna.

Dari perspektif Eropa, ini lebih dari sekedar perselisihan hukum AS yang terkait industri. Begitu sistem AI dimasukkan ke redaksi, basis data pengetahuan, aplikasi hukum, atau rantai dokumentasi industri, cara menangani sumber menentukan kepercayaan dan risiko sekaligus.[3][6][7][9] Referensi yang salah di sana bukan hanya masalah gaya, tapi bisa memengaruhi proses, rantai pemeriksaan, dan pertanggungjawaban. Oleh karena itu, jangan hanya bertanya soal istilah glamor "kutipan", tapi praktik yang lebih dapat diandalkan: Siapa yang memberikan sumber, siapa yang memeriksa, dan apa yang terjadi jika sistem terlalu dekat dengan asli?

Pertanyaan semacam inilah yang akan menggerakkan perdebatan lebih lama tentang AI dan hak cipta daripada jawaban cepat di layar.