기사 배열 알고리즘의 공정성

[언론 다시보기] 오세욱 한국언론진흥재단 선임연구위원

오세욱 한국언론진흥재단 선임연구위원 한국언론진흥재단은 2016년부터 2018년까지 저널리즘 가치를 기준으로 하는 기사 배열 알고리즘을 개발해 공개한 바 있다. 이 과정에서 다양한 실험을 진행했다. 그 중 하나는 제시된 기사들에 대해 사람이 평가하는 작업이었다. 많은 사람들이 좋다고 평가한 기사들을 찾아내 좋은 기사들이 갖고 있는 공통적인 속성을 추출하기 위한 목적이었다. 그 결과는 혼란스러웠다. 좋은 기사들에 대해서는 합의가 잘 이루어지지 않았다. 대표적 사례 중 하나는 여성 속옷의 기능성을 다룬 기사에 대한 평가였다. 남성 평가자들은 기사 내 삽입된 속옷 사진을 이유로 선정적 기사라며 품질이 낮다고 평가했다. 반면, 여성 평가자들은 평소 잘못 알고 있는 내용을 바로 잡아줬다며 정보성 있는 높은 품질의 기사라고 평가했다. 좋은 기사가 무엇인지에 대한 평가는 사람에 따라 달랐다.


‘딥뉴스닷에이아이(Deepnews.ai)’는 온라인 상에서 품질 높은 기사를 자동으로 찾아내는 것을 목표로 하고 있다. 이를 위해 이용자들에게 기사를 평가하도록 하고 이를 모아 학습용 데이터 세트를 구축했다. 임의로 배정된 특정 기사에 대해 이용자로 하여금 기사의 유형, 완전성, 균형성과 공정성, 기사의 지속 가치, 관련성, 종합점수 등으로 평가하도록 했다. 그 결과를 크라우드 소싱 방식으로 모아 점수에 따른 속성을 기계학습 시키는 방식이다. 현재 딥뉴스닷에이아이는 매주 각 이슈별로 50개의 기사들을 자동으로 배열한 결과를 제공하고 있다. 실제 기사 랭킹에 들어가서 확인하면 뉴욕타임스, 가디언 등 전통적인 언론사들이 상위에 노출되고 있다. 이는 기사 내 품질 요인만이 아니라 언론사에 대한 이용자의 평가를 반영하고 있기 때문이다. 또한, 가끔씩 등장하는 짧게 잘 쓴 글과 길게 못 쓴 글의 문제도 발생하고 있다. 기사의 품질을 계량적으로 측정할 때 긴 글의 경우 일반적으로 보다 높은 평가를 받는다. 이 서비스를 이끌고 있는 프레데릭 필루는 다양한 이용자들이 각각 평가한 100만 개의 뉴스 기사를 학습해야만 몇 천개의 뉴스를 적절하게 평가할 수 있을 것이라고 고백했다.


네이버, 다음 등 우리나라 포털들은 자동으로 기사를 배열하고 있다. 포털들이 자신들의 기사 배열 알고리즘을 설명할 때 ‘맞춤형’이라는 점을 강조한다. 품질이 좋은 기사를 찾아내 배열했다고 설명하는 것이 아니라 이용자의 선호에 맞춰 배열했다는 것이다. 좋은 기사가 무엇인지 사람들이 합의하기 쉽지 않고, 그 평가 결과 데이터를 대량으로 확보하는 것도 쉬운 일이 아니기 때문이다. 대량의 평가 결과 데이터를 확보해도 문제가 발생할 수 있다. 모든 데이터는 현재 시점에서는 과거의 데이터다. 일단 쌓여야하기 때문이다. 대량으로 확보하기 위해서는 그 과거의 시점이 점점 더 멀어질 수밖에 없다. 역사적으로 봤을 때 인간은 어느 시기에나 일정 정도의 편향을 보여줬다. 사람이 만들어낸 데이터를 대규모로 학습할 경우 그 결과는 의도와 상관없이 인간의 편향을 모사한다. 현재 시점에서 볼 때 기사 배열 알고리즘은 불공정해 보일 수밖에 없다. 대규모 데이터를 학습했기에 설계한 사람들도 왜 그 결과가 나왔는지를 설명하기 어렵다. 왜 우리가 공들여 쓴 기사가 상단에 노출되지 않느냐는 질문은 공허할 뿐이다. 그보다는 이 배열 결과들이 민주주의 공동체 사회의 다양성을 해치지 않고 있는지를 물어야 한다.

맨 위로