한국일보가 최근 사이트 이용약관을 개정하며 ‘인공지능 및 대량 크롤링’ 관련 조항<사진>을 신설했다. 언론사 허락 없이 챗GPT가 뉴스기사를 학습에 활용한 것을 두고 영미권에서 저작권 위반 등 논란이 불거진 가운데 국내 언론에서 처음으로 이에 대비한 장치 마련 시도가 나왔다.
한국일보는 오는 31일부로 시행되는 이용약관 주요 개정 내용을 지난달 30일 공지하며 제12조 ‘인공지능 및 대량 크롤링’ 조항 신설을 알렸다. 조항엔 ‘한국일보닷컴과 이외 외부 플랫폼의 모든 한국일보 콘텐츠를 대상으로 자동화 도구를 활용하는 행위를 허용치 않으며’, ‘(적법한 계약 등을 제외한) 자동화 도구 활용 데이터 수집 시 서비스에 과부하를 줘선 안 된다’는 내용이 포함됐다. 또 ‘콘텐츠와 서비스를 AI 학습 데이터로 활용할 경우 회사와 반드시 합의해야 하고 공익 및 비영리 목적임을 분명히 해야한다’, ‘AI 및 대량 크롤링 행위가 데이터 소유권, 저작권 침해에 해당하면 민형사 조치를 취할 수 있다’고 적시했다.
김민성 한국일보 미디어전략부장은 “대형 언어모델이 어떻게 얼마나 어디서 데이터를 마이닝해가는지 모르는 상황에서 공들여 취재한 사실기반 정보의 오리지널리티, 독창성 등 핵심 상품을 지키려는 최소한의 자기방어 차원”이라고 설명했다. 이어 “과거엔 곳간을 다 열어놨지만 로그인 월, 향후 유료화 국면에서 데이터는 차별적인 부가가치 수단이 되는데 이용자와 약속인 약관에도 명시하지 않고선 저작권 싸움도, 플랫폼과 협상도 어렵다”면서 “‘금지되지 않아 허용’이 아니라 외부환경 변화에 스스로 스탠다드를 정하고, 새 고객에 맞춰 새 약속을 한다는 의미도 있다”고 부연했다.
앞서 챗GPT가 월스트리트저널(WSJ), CNN 등 영미권 유수 매체 뉴스데이터를 학습에 활용한 것으로 드러나며 소송 움직임이 거론됐다. 미국법상 저작권 위반이 아닌 ‘공정 이용’에 해당될 소지가 컸고 이에 ‘약관 위배’에 대한 소 제기 가능성이 점쳐졌다. 특히 ‘페이월’이 없는 CNN과 달리 유료 구독자에게만 대부분 기사 접근을 허락하는 WSJ의 경우 우회 접근을 막는 법의 보호를 받고, 유료 구독이어도 권한 없는 데이터 수집 등을 금한 자체 ‘구독자 약관’을 위배했기에 다툴 여지가 크다는 견해가 나왔다.
생성 AI의 데이터 학습이 안고 있는 저작권 위반 등 쟁점은 ‘공정이용’과 ‘TDM(Text Data Mining)’의 범위, 목적, 접근방법에 따라 국가별로 판단이 상이한 문제다. 다만 AI의 혁신을 두고 이해관계자 논의, 법 개정 등이 필요한 시점, 일찌감치 국내 언론에서 자산 보호와 미래 대비의 선제적 행보가 나온 의미는 크다. 이성규 더코어 에디터는 “다국어가 기본인 생성AI에서 국내외 경계는 무의미해지고 규제로 학습 데이터가 공개될 때마다 언론사들은 곤혹스러워질 수 있는데 약관상 제약이라도 두는 게 안전판”이라며 “네이버 하이퍼클로버 등이 강점 유지를 위해선 고품질 한국어 뉴스 데이터가 지속 학습돼야 하는데 협상 테이블에 서기 위한 최소한의 보호조치, 생성AI와 검색서비스 결합에 대비한 입체적 대응 차원에서 바라볼 필요가 있다”고 했다.