오픈 소스 AI, 정의의 문제에 직면하다

AI 기자: Eleanor Vale Global Technology Editor

‘오픈’은 한때 소프트웨어에서 코드를 검토하고 변경하고 재배포할 수 있는 단순한 거래를 의미했다. AI에서는 이 거래가 흐트러졌다.[10][12] 현재 많은 기업이 ‘오픈 소스’라 부르는 것은 사실상 ‘오픈 가중치’에 가깝다. 모델 실행에 충분한 접근이 있지만, 제작 과정, 학습 내용, 재현 충실도를 완전히 이해하기엔 부족하다. 이 차이는 단순한 의미론적 논쟁이 아니다. 이 문제는 누가 AI 시스템을 감시하고 개선할 수 있는지, 그리고 누가 개방성의 도덕적 권위를 주장할 수 있는지의 핵심과 관련된다.[1][5][10][12]

오픈 소스 이니셔티브는 수년간의 협의 끝에 2024년에 오픈 소스 AI 정의 버전 1.0을 공개했다.[1][4][7] 이 정의는 단순히 모델 파라미터를 뛰어넘는 기준을 세우려는 목표였다. 이 기준에 따르면, 시스템은 가중치뿐 아니라 구축 및 훈련에 사용된 코드, 데이터셋 생성용 코드, 그리고 완전한 훈련 데이터나 배포가 불가능할 경우 이를 재구성할 정보를 공개해야 한다.[4][7] 즉, 논쟁은 이제 모델 다운로드 가능 여부가 아니다. 시스템으로서 연구 가능한가가 쟁점이다.

오픈 가중치와 오픈 소스 AI의 구분은 현재 이 분야의 핵심 논쟁 중 하나다.[2][10][12] 일부는 ‘오픈’을 파라미터가 널리 공개된 상태로 해석한다. 다른 이들은 소프트웨어 시대의 완전한 자유 묶음에 이 용어를 한정한다. 이 갈등은 단순한 철학적 차원이 아니다. 이는 개발자 기대, 구매 결정, 그리고 정책 입안자가 AI 접근 규칙을 만들 때 사용하는 어휘에 영향을 준다.[1][3][12] 용어가 지나치게 유연해지면 시스템이 지원하지 않는 것을 사용자에게 전달할 위험이 있다.

언어가 변한 실질적 이유가 있다. 훈련 데이터는 공개하기 가장 어려운 부분이다.[4][5][11] 일부 데이터셋은 독점 자료, 라이선스 자료, 또는 법적·프라이버시 문제로 쉽게 공개할 수 없는 민감한 정보를 포함한다.[5][11] 많은 공급업체와 연구자들은 부분 공개(가중치, 일부 코드, 훈련 과정 설명)에 만족한다. 이는 특히 미세 조정과 로컬 배포에 유용하지만, 고전적 오픈 소스 약속에는 미치지 못한다. 그 결과 개방성은 범주가 아니라 스펙트럼이 되었다.

기술적 함의도 분명하다. 모델 가중치는 훈련된 네트워크의 입력 반응을 결정하며, 공개된 가중치는 미세 조정, 적응, 로컬 추론을 지원한다.[2][8][10] 하지만 가중치는 소스 코드가 아니다. 아키텍처, 훈련 선택, 필터링, 데이터 큐레이션에 대한 같은 가시성을 제공하지 않는다. 모델이 널리 공개되어도 신뢰성과 책임성에 가장 중요한 부분은 불투명할 수 있다.[11][13] 그래서 연구자와 정책 전문가는 점점 더 오픈 가중치 모델을 오픈 소스와 별개의 범주로 본다.

정책적 중요성은 수출 통제가 칩뿐만 아니라 모델 가중치에도 초점을 맞추면서 크게 높아졌다. RAND의 미국 AI 확산 프레임워크 분석에 따르면, 새로운 통제는 특정 AI 모델 가중치를 대상으로 하나 공개된 가중치는 제외한다.[3][6][9] 이는 공공 접근과 제한 접근의 경계가 국가 안보 정책의 일부가 된다는 의미다. 이는 중요한 변화다. 개방성은 더 이상 개발자 문화 단독 문제가 아니다. 어떤 시스템이 국경을 넘고, 어떤 조직이 이를 호스팅하며, 가장 강력한 모델이 어디에 배치되는지가 쟁점이 되고 있다.[3][6][9]

이 변화는 주요 AI 개발자의 인센티브 구조도 바꾼다. 기업들은 개방적 이미지, 개발자 유치, 모델 주위 기본 인프라 구축이라는 이점을 원한다. 동시에 완전 공개에 따른 책임은 피하려 한다. 결과는 채택을 촉진하면서 통제는 포기하지 않는 조심스러운 타협이다. 이 타협은 비즈니스적으론 합리적이지만, 대중에게는 소프트웨어 역사가 준 용어보다 약한 개념을 남긴다.[1][10][12]

아직 해결되지 않은 문제는 ‘오픈’이라는 단어가 오해를 불러일으킨다고 판단하기 위해 필요한 증거의 양이다. 답은 공개되는 내용에 따라 다르며, 현재 자료는 단일하고 안정적인 시장 상황을 보여주지 않는다. 우리는 공식 정의의 존재, 오픈 가중치 공개의 지속, 일부 모델 가중치 제한에 대한 정책 관심을 확인할 수 있다.[1][3][4][6] 불명확한 것은 업계가 공통 표준에 수렴할지, 아니면 동일한 용어로 서로 다른 수준의 접근을 계속할지이다. 앞으로 주목해야 할 점은 누가 모델을 공개하는가뿐 아니라, 무엇을 공개하는가이다.[1][4][6][12]

개발자와 기관에게 이것은 단순 브랜드 논쟁이 아니다. 이는 연구, 경쟁, 공적 책임에 장기적 영향을 미치는 거버넌스 문제다. 모델을 오픈이라 부르면 사용자는 검토 가능성과 독립성이 있다고 가정하지만, 실제로는 그렇지 않을 수 있다. 정책 입안자가 오픈 가중치를 오픈 소스로 잘못 인식하면 기술 현실을 반영하지 못하는 규칙이 만들어질 수 있다. 중요한 교훈은 AI에서 개방성이 더 이상 단일 속성이 아니라는 점이다. 개방성은 권한, 공개, 제약의 묶음이며, 업계는 이를 얼마나 정직하게 명명하는지로 평가받을 것이다.[1][3][4][6]

참고 소스

본문의 작은 번호 태그는 아래 참고 소스와 연결됩니다.

오픈 소스 AI, 정의의 문제에 직면하다

참고 소스

추천 기사