건축 및 토목 노동자를 의미하는 일본어 도카타(土方, ドカタ)가 어원인 ‘노가다’는 이것저것 가리지 않고 닥치는 대로 하는 노동을 뜻하는 ‘막일’의 속어다. 데이터(data)는 사전적으로 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 등의 형태로 된 정보를 말한다. 노가다와 데이터, 각각의 의미만 봐서는 잘 어울리지 않는 조합이다. 지난 22일 한국프레스센터에서 열린 ‘데이터저널리즘코리아 컨퍼런스’에서 이 두 단어가 함께 자주 등장했다. 특히 데이터 저널리즘 보도 사례 위주 발표였던 3부에서 더욱 그러했다. 네 명의 3부 발표자들은 데이터 처리에 사용한 화려한 기법, 자신들의 성과 등을 얘기하기보다 이 데이터를 얻기 위해 자신들이 겪어야 했던 어려움을 강조했고 이를 ‘노가다’라는 단어로 함축해 표현했다.
상황이 잘 정리된 표와 이를 시각화한 그래픽 등으로 대표되는 데이터 저널리즘의 결과물들은 겉으로만 보면 화려하다. 결과물만 보고는 컴퓨터가 다 알아서 하고 사람은 뭘 한 것인지 궁금해하는 사람들도 있다. 하지만 컴퓨터는 생각보다 융통성이 없고 어찌 보면 멍청하다. 지정된 형식에 정확히 맞지 않으면 데이터를 전혀 읽어 들이지 못한다. 우리 사회 대부분의 자료들은 컴퓨터가 읽어 들이지 못하는 형식으로 여전히 생산되고 있다. 게다가 수백만 칸의 데이터 입력창 중 한 줄이 아니라 한 칸만 잘못 돼도 제대로 이해하지 못한다. 컴퓨터가 알아먹을 수 있도록 하면서 수많은 내용 중 조금의 실수도 없어야 한다. 여기서 끝이 아니다. 데이터를 만든다고 해서 반드시 의미가 있지는 않다. 데이터는 스스로 말하지 않기 때문에 처리된 데이터를 해석할 수 있어야 한다. 데이터 저널리즘이 ‘노가다’인 이유다.
‘현장에 답이 있다’는 저널리즘 기본 원칙은 데이터 저널리즘에서도 마찬가지다. 데이터를 얻기 위해 똑같이 발품을 판다. 아직까지도 데이터 저널리즘하면 컴퓨터가 다 하는 것 아니냐는 오해가 일부 존재하고 있다. 그러한 오해까지는 아니어도 현장에 가지 않고 가만히 자리에 앉아서 편하게 작업한다는 삐딱한 인식이 꽤 존재하고 있다. 그럼에도 불구하고 왜 데이터 저널리즘을 하고 있느냐는 질문에 대해 일부 발표자들은 ‘인정 투쟁’이라고 답했다. 모두가 각자의 영역에서 최선을 다하고 있다. 저널리즘도 마찬가지다.
데이터를 위한 ‘노가다’가 조금 더 인정받고, 조금 더 줄어들기를 바란다. 저널리즘의 신뢰 회복과 품질 향상에 기여할 수 있기 때문이다. 이를 위해 우선 ‘노가다’의 양이 지금보다 크게 줄어야 한다. 예전보다 많이 나아졌지만, 공공영역부터라도 컴퓨터가 읽을 수 있는 형식으로 더 많은 데이터를 제공할 필요가 있다. 오바마 정부 시절 미국 백악관은 같은 자료를 ‘컴퓨터가 읽을 수 있는(machine readable)’ 형식과 ‘사람이 읽을 수 있는(human readable)’ 형식으로 구분해 제공했다.