You are on page 1of 14

1강 데이터 저널리즘 개론

이번 강의에서는 뉴스타파가 지향하는 '데이터 저널리즘'에 대해 설명합니다. 데이터


저널리즘에 대한 정의, 특성, 필수 요소 등을 다룹니다.


데이터 저널리즘이란 무엇인가?

'데이터 저널리즘이란 무엇인가?'에 대한 질문에는 다양한 답이 있습니다. 100번의
물음에는 각기 다른 100개의 답이 나올 수도 있습니다. 정해진 답은 없습니다. 모든
답이 정답입니다. 답변의 목적과 답하는 상황에 따라 다르기 때문입니다. 답변에 대한
이해와 공감의 정도에도 개인마다 차이가 있을 수 있습니다. 각자의 경험과 지향이
다르기 때문입니다.
▲ The Data Journalism Handbook 1

데이터 저널리즘 핸드북에서 폴 브래드쇼는 데이터 저널리즘이란 '간단히 말해


데이터를 다룬 저널리즘이다'라고 설명하면서도 그것으로는 데이터 저널리즘을
이해하는 데 도움이 되지 않는다고 말합니다.

What is data journalism? I could answer, simply, that it is journalism done with data.
But that doesn't help much.

‌ 이터 저널리즘이란 무엇인가? 나는 간단히, 그것은 데이터를 다룬 저널리즘이라고



대답할 수 있었다. 하지만 그것은 별로 도움이 되지 않는다.

​Paul BradShaw <Data Journalism Handbook 1>​

알렉산더 벤자민 하워드는 본인의 저서 <데이터 저널리즘 - 스토리텔링의 과학>에서


데이터 저널리즘이란 '저널리즘에 데이터 과학을 적용하는 것'이라고 정의합니다.

That work is data journalism, or gathering, cleaning, organizing, analyzing,


visualizing, and publishing data to support the creation of acts of journalism. A more
succinct definition might be simply the application of data science to journalism,
where data science is defined as the study of the extraction of knowledge from data.

​Alexander Benjamin Howard <The Art and Science of Data-Driven Journalism>​

저널리즘 행위로 만들어낸 창조물을 뒷받침하기 위해 데이터를 수집, 갈무리, 조직,


분석, 시각화, 그리고 출간하는 행위이다. 좀 더 간결하게 정의하면 저널리즘에
데이터 과학을 적용하는 것이라고 할 수 있다. 여기서 데이터 과학이란 데이터로부터
지식을 끌어내는 방법을 공부하는 것을 의미한다.

​알렉산더 벤자민 하워드 <데이터저널리즘 - 스토리텔링의 과학>​


데이터와 연관지어 데이터 저널리즘을 정의한 폴 브래드쇼나 알렉산더 벤자민
하워드와는 달리 뉴스 전달 방식 측면에서 데이터 저널리즘을 설명하기도 합니다.

영국의 가디언에서 데이터 에디터를 맡았던 사이먼 로저스는 데이터 저널리즘이란
'단순히 그래프과 시각화를 말하는 것이 아니라 가장 효과적으로 이야기(취재 내용)를
전달하는 방법'이라고 설명합니다.

Data journalism is not graphics and visualisations. It's about telling the story in the
best way possible. Sometimes that will be a visualisation or a map (see the work of
David McCandless or Jonathan Stray).

But sometimes it's a news story. Sometimes, just publishing the number is enough.

If data journalism is about anything, it's the flexibility to search for new ways of
storytelling. And more and more reporters are realising that. Suddenly, we have
company - and competition. So being a data journalist is no longer unusual.

It's just journalism.

데이터 저널리즘은 단순히 그래픽과 시각화가 아니다. 데이터 저널리즘은 가장


효과적으로 이야기를 전달하는 방법이다. 그 방법이 때로는 시각화나 지도가 될 수
있다.

때로는 단신 뉴스 기사이고, 가끔은 숫자만 공개해도 충분할 때가 있다.

데이터 저널리즘이 중요하다면, 그것은 새로운 스토리텔링 방법을 만들어내는 유연성


때문이다. 그리고 점점 더 많은 기자들이 그것을 깨달으며 어느 순간 우리는 동료와
데이터 저널리즘 경쟁을 하게 되었다. 따라서 데이터 저널리스트가 되는 것은 더 이상
특별한 일이 아니다.

‘It's just journalism.’

​Simon Rogers <Data journalism at the Guardian: what is it and how do we do it?>​


데이터 저널리즘에 대한 다양한 정의와 해석들이 그것이 무엇인지 이해하는 데
도움이 되지 않을 수도 있습니다. 그러나 다른 사람들이 데이터 저널리즘을
무엇이라고 생각하는지 혹은 어떻게 이해하고 있는지는 알려 줍니다.
▲ 뉴스타파 데이터 저널리즘 스쿨 7기 1강 과제 ‘데이터 저널리즘이란 [ ] 이다'

그렇다면 과연 어떠한 뉴스들을 데이터 저널리즘 뉴스라고 하는 것일까요?

저널리즘과 광고

뉴스란 누군가는 감추고 싶어하는 소식이다. 그렇지 않다면 모두 광고다


노스클리프 <모든 정부는 거짓말을 한다>

개인이 접할 수 없는 곳에서 발생한 새로운 소식을 전달하는 것만으로 기자가 역할을


다 할 때가 있었습니다. 그날 저녁 방송 뉴스나 다음 날 아침 신문에 실린 소식도
새롭고 신선했습니다.

그러나 지금은 시대가 달라졌습니다. 단순 정보는 더이상 기자와 언론을 거치지 않고


수용자에게 직접 전달됩니다. 정부기관, 일반기업뿐만 아니라 일반 시민들도 인터넷
방송을 하고 블로그와 소셜미디어에 글을 올려 소식을 전합니다. 방송 제작을 위해
고가의 카메라도 필요없습니다. 사건 발생시 현장을 목격한 사람들은 본인의
휴대폰으로 사진을 찍고 동영상을 촬영해 소식을 알립니다.

매년 3월 말이면 고위공직자 재산 변동내역이 관보에 공개됩니다. 해당 분야


담당기자들은 공개 내용을 분석해 기사를 작성합니다. 평균 금액, 신고액 규모별
인원과 비율, 재산 증가자와 감소자 등이 주요 내용입니다.

여기 문서가 하나 있습니다. 제목은 ‘국회공직자윤리위원회, 2021년


정기재산변동신고 공개'입니다. 이 문서는 국회사무처가 배포한 보도자료입니다.
수집된 데이터를 분석해 작성된 문서이지만, 우리는 이것을 기사라고 하지 않습니다.
▲ 국회사무처 2021년 재산 변동내역 공개 보도자료 1 페이지
셀 수 없는 양의 새로운 소식들이 인터넷에 넘쳐납니다. 달라진 시대에서 가장 많이
생산되는 것 중 하나가 데이터입니다. 세상의 모든 것이 데이터입니다. 데이터가 아닌
것이 없습니다. 발생한 데이터에 대한 단순 소식 전달은 수용자뿐만 아니라 기자와
언론에도 아무런 의미가 없습니다.

데이터는 수집됨과 동시에 증식하고 종합 결과가 나올때 쯤 이미 옛 이야기가 돼


있습니다. 인터넷 시대에 언론보도의 수용자가 기자와 언론에 요구하는 역할은 단순
정보 전달이 아닙니다. 정보의 의미 분석과 감춰진 사실에 대한 심층 취재입니다.

데이터 저널리즘은 데이터를 분석해 의미를 찾아내고 알지 못했던 사실을


드러냅니다. 데이터 저널리즘이 부각되는 이유입니다.

프로퍼블리카의 설립자 폴 스타이거는 데이터 저널리즘은 본인의 일생 동안


저널리즘에서 일어난 가장 중요한 발전 가운데 하나라며, 탐사보도에서 데이터
저널리즘은 매우 중요하다고 말합니다.

데이터 저널리즘은 지난 몇 년 사이 (저널리즘에서) 가장 핵심적인 발전 가운데


하나이며, 더욱 더 중요해지고 있습니다. 디지털 도구들은 데이터들을 서로 연결해
새로운 정보를 찾아내는데 있어 매우 유용하죠. 또 그래프와 차트, 애니메이션 등을
통해 사람들이 복잡한 상황들을 이해할 수 있도록 돕는데도 엄청나게 가치가
있습니다. 내 일생 동안 저널리즘에서 일어난 가장 중요한 발전 가운데 하나죠.

프로퍼블리카는 데이터 활용에 깊이 초점을 맞추고 있는데 우리 자체 기사를


위해서이기도 하고 데이터를 공개해서 다른 기자들이 그것을 활용하도록 돕기도
합니다.

프로퍼블리카 설립자 폴 스타이거 인터뷰 ‘ 저널리즘 지형이 바뀐다’(2013.10.11)

데이터 저널리즘은 공개다



2016년 국내 학술 연구 중에는 '데이터 뉴스의 특성과 개념 정의에 대한 연구(김진희,
임종섭 2016)'에서 데이터 저널리즘 시상식에서 수상한 콘텐츠들의 특성을 분석해
데이터 저널리즘의 개념을 정리한 바 있습니다. 연구자는 다음과 같이 수상한
콘텐츠들의 특성을 세 가지로 정리했습니다. 아래의 내용은 논문의 분석 결과를
간략히 압축해 재정리한 것입니다.

1. 데이터 뉴스는 콘텐츠를 시각화합니다. 시각화는 뉴스 이용자와의
상호작용성을 강화하고 기사에 담지 못한 콘텐츠의 세부 정보를 추가
제공합니다.
2. 데이터 뉴스는 애플리케이션을 활용합니다. 데이터베이스를 구축하고, 이를
토대로 이용자가 관련 정보를 찾아보도록 유도합니다.
3. 데이터 뉴스는 데이터의 출처와 수집 자료를 공개합니다. 공개된 데이터는
뉴스 소비자의 관점에서 데이터를 분석하고 기자의 분석 결과와 비교하는
기회를 제공합니다. 이를 통해 뉴스제작 과정과 원자료의 투명성을 높입니다.


데이터 저널리즘 시상식에서 수상한 콘텐츠들이 가진 세 가지 특성의 공통점은
공개입니다. 데이터 저널리즘 뉴스들은 시각화와 검색 서비스 등을 활용해 자료를
공개합니다. 그뿐만 아니라 자료의 출처, 수집된 원본 자료, 분석 내용 등도
공개합니다. 공개된 자료는 기사에 대한 독자의 이해를 돕습니다. 공개된 자료 활용은
이용자들에게 취재를 경험하게 합니다. 이 같은 경험은 기사의 신뢰도를 높입니다.

데이터 저널리즘은 과학이다



데이터 저널리즘 뉴스가 다른 뉴스와 구별되는 점은 과학적인 사고에 기반한
데이터의 가치와 활용입니다. 연구자가 실험과 관찰을 통해 확인한 사실이 다른
연구자들에 의해서도 정확히 동일한 결과로 재현/반복될 수 있는 것을 과학으로
인정합니다. 마찬가지로 데이터 저널리즘은 데이터를 수집하고 분석하는 것에 그치지
않고 이를 공개하며 누구나 공개된 데이터를 활용해 기자가 도출한 결과를 재현하는
것이 가능해야 합니다. 다시 말해 동일한 자료를 활용하면 동일한 결과를 얻는
것입니다. 데이터 저널리즘은 뉴스가 과학이 되는 것입니다.

저널리즘과 과학 분야에서 객관성은 중요한 요소입니다. 전달하려는 사실과 분석된
결과가 개인적 의견이나 꾸며진 거짓이 아닌 진실이어야 하기 때문입니다.
저널리즘에서 객관성이란 취재 방법이 객관적이어야 한다는 것을 뜻합니다.

저널리즘에서 언급되는 객관성이란 기자는 편견이 없다는 사실을 강조하려는 개념이


아니었습니다. 거꾸로 기자는 결코 객관적일 수 없기 때문에, 그들의 방법은
객관적이어야 한다는 뜻이었습니다. 기자는 편견이 있다는 사실을 인정하자는
말입니다. 그러면 뉴스는 과학과 마찬가지로 방어할 수 있고, 엄밀한 그리고 투명한
취재와 보도 과정을 통해 만들어져야 한다는 결론에 도달합니다

​빌 코바치·톰 로젠스틸 <저널리즘의 기본 원칙>​

데이터 저널리즘은 현장취재가 필수다



데이터 저널리즘 보도에도 현장 취재가 함께 이뤄집니다. 현장 취재 없이 데이터
분석으로만 쓰여진 기사는 진정한 데이터 저널리즘 보도라고 할 수 없습니다.
데이터를 활용한 인포그래픽, 데이터 분석, 데이터 사이언스와의 차별성도 여기에
있습니다. 데이터 저널리즘에는 기자의 문제의식과 이를 기반으로 한 취재 내용이
반영됩니다. 데이터 저널리즘은 저널리즘이기 때문입니다.

CPI(Center for Public Integrity)의 데이터 에디터였던 데이비드 도널드는 데이터는


취재의 시작일 뿐이라며 데이터 저널리즘도 현장을 발로 뛰는 전통적인 탐사취재가
필요하다고 말합니다.

탐사취재를 뒷받침해 줄 수 있는 수많은 좋은 증거들, 좋은 자료들은 공공문서, 정부


문서들에 있습니다. 모든 이들처럼 이제 정부의 문서도 종이 형태에서 전자적
데이터베이스 형태로 바뀌었죠. 그래서 탐사취재를 위한 좋은 증거를 뽑아내려면
‘컴퓨터활용보도(Computer Assisted Report)’ 기술이 필요합니다.

CPI의 거의 모든 기사는 기자들이 팀을 이뤄 함께 취재하는 것입니다. 데이터 분석


기술을 지닌 기자들과 훌륭한 인터뷰 기술, 그리고 다른 탐사 취재 기술을 가진
기자들이 함께 하는 거죠. 데이터 저널리즘이라 해도 단지 데이터 분석만으로
이뤄지는 기사는 드뭅니다.

팁이나 기사 아이디어, 실질적 증거가 데이터 속에 있다하더라도 그것은 취재의


시작일 뿐입니다. 데이터는 어떤 일이 언제, 어디서, 어떻게 발생했는지는
알려줍니다. 하지만 데이터는 어떤 일이 왜 일어났는가에 대해서는 제대로 알려주지
않습니다. 그래서 전통적인 탐사 취재 기술이 진짜 필요한 것이죠.

그래서 내가 하는 데이터 분석이 끝나면 그 결과를 탐사 기자들에게 넘겨줍니다. 그때


바로 재미있는 일이 시작되는 거죠.
​ avid Donald <세상을 바꾸는 힘, 비영리 탐사매체 CPI편 '글로벌 감시견으로
D
서다'(2013.11.8)>​

뉴스타파의 데이터 저널리즘



뉴스타파는 2018년 7월 독일 공영방송 NDR 등 18개국 23개 언론사와 함께 사이비
학술단체가 운영하는 해적 학술지, 가짜 학술대회의 문제를 심층취재해
보도했습니다. 한국인 교수들과 연구자들이 지난 십여 년 동안 가짜 학술단체가
운영하는 학술지에 논문을 게재하고 이들이 개최한 학술대회에 참여해왔다는
내용입니다. 지금은 해외 학술단체뿐만 아니라 국내 학술단체 사례까지 취재 범위를
넓혀 20회가 넘는 기획보도를 이어오고 있습니다.

보도 후 과기부와 교육부는 정부 합동조사단을 꾸려 국내 200여 개 대학과 정부 출연
연구기관, 4대 과학기술 연구원을 대상으로 실태 전수 조사하고 인사 및 행정조치를
내렸습니다. 국정감사에서도 연구 부정 사실이 드러난 교수와 연구자들을 면밀히
살펴 처벌하고 대책을 마련하라는 지적이 나왔습니다.

뉴스타파의 가짜 학술단체 관련 보도는 가짜 학술단체들이 운영하는 웹사이트의
자료들을 수집하는 것에서부터 시작했습니다. 학술대회 개최 이력과 게재 논문을
수집하고 그 안에서 참석자와 발표자의 이름과 소속 등을 추출해 분석했습니다.

뉴스타파는 단순히 수집된 데이터만을 분석해 가짜 학문 시장의 현황을 폭로하는
것에 그치지 않고 현장 취재를 통해 한국 학자들이 가짜 학술대회의 단골이 될 수밖에
없었던 제도적, 사회문화적 원인들을 밝혀냈습니다. 그뿐만 아니라 시민들의 알
권리를 위해 뉴스타파가 수집한 원 데이터를 공개했습니다.

뉴스타파의 <국회세금도둑추적> 프로젝트 또한 데이터 저널리즘의 좋은 예입니다.


국회의원에게 1인당 연간 3억 원 가량 지급되는 세비 사용 내역은 1948년 제헌의회
구성 이래 한번도 공개된 적이 없었습니다.

뉴스타파와 시민단체 3곳은 국회를 상대로 국회의원들의 세비 사용 내역을


공개하라는 정보공개청구를 했습니다. 3년간의 지난한 소송을 거쳐 자료를 받아내고
이를 분석, 취재, 보도하고 데이터를 공개했습니다.

MBC와의 협업은 단독과 속보 경쟁 일색인 한국언론에서 협업은 공익을 낳는다는


말의 좋은 본보기였습니다. 협업의 수혜자는 국민입니다. 100여 건의 심층 취재
보도는 국회의원들 스스로 예산이 오남용된 금액을 국회 사무처에 반납하게
했습니다. 2억 원이 넘는 세금이 환수됐습니다.
뿐만아니라 3년이라는 소송 후에야 부분적으로 공개했던 정책연구보고서와
정책자료집 등 입법 및 정책개발비를 투입해 생산한 모든 자료는 별도의 요청없이도
인터넷에 사전 공개되기 시작했습니다.

뉴스타파와 데이터 저널리즘



데이터 저널리즘은 특별하거나 새롭지 않습니다. 데이터를 활용한 보도는
1800년대에도 있었습니다 (The first Guardian data journalism: May 5, 1821). 원본
자료의 출처와 수집 및 분석 결과를 공개하고 현장에서 취재 내용을 확인하는 것은
저널리즘이 갖춰야 할 기본 요건입니다.

뉴스타파는 탐사보도 전문 비영리 독립언론입니다. 탐사보도란 결국 좋은 보도의
다른 말입니다. 뉴스타파는 좋은 보도를 하기 위해 데이터를 활용한 데이터
저널리즘을 지향합니다.

신뢰할 수 있는 기관이 작성한 데이터를 찾는 것(리서치), 정부가 생산한 자료를
확보하는 것(정보공개 청구), 확보한 자료를 가치 있는 정보로 만드는 것(정제와
분석), 독자의 이해를 돕는 동시에 보도의 메시지를 전달하는 것(시각화), 정기적으로
업데이트되는 데이터를 활용하는 것(오픈 데이터 활용)은 더 나은 저널리즘을 위한
노력입니다.

본문 외 참고 자료

● W​ hat is data journalism at the Guardian?​


● ​Data Journalism Fundamentals: Session1, Part 1​
● Data Journalism HandBook 2

You need Python

Life is too short, You need Python.


인생은 너무 짧아요. 파이썬이 필요해요.
이 문구는 파이썬 사용자들에겐 널리 알려진 문구입니다. 데이터를 다루다보면 이
문구에 매우 공감하게 됩니다. ‘프로그래밍을 좀더 잘하면 지금 하는 일을 좀더 쉽게,
빨리 처리할 수 있지 않을까?’ 생각합니다.

혹시 이런 경험 있었나요?

외장하드 가득 엄청난 양의 자료를 입수했는데 셀수 없는 수의 폴더가 있고, 폴더


안에 더 많은 폴더와, 각종 확장자의 파일이 있는 경우. 용량이 큰 엑셀 파일이 로딩만
계속되고 열리지 않는 경우. 정보공개를 청구했는데 인터넷에 올려 놨다는 답을 듣고
사이트에 가봤더니 게시목록만 수 백개인 경우.

여러분은, 어떻게 처리 하셨나요? 이런 상황의 문제를 컴퓨터 프로그래밍으로 해결할


수 있습니다. 물론 프로그래밍으로 할 수 있는 일은 이것 이외에도 굉장히 많습니다.

요즘 컴퓨터 프로그래밍 언어 중 각광받는 언어가 파이썬(Python)입니다. 파이썬은


배우기 쉽고, 참고할 자료가 많습니다. 파이썬을 익히는 가장 좋은 방법은 여러분에게
닥친 문제를 파이썬을 이용해 해결하는 것입니다.

Colaboratory라는 프로그램이 있습니다. 줄여서 'Colab'(코랩)이라고 합니다. 코랩은


구글에서 교육과 과학 연구 목적으로 개발한 도구입니다. 구글 드라이브에서 문서를
생성하고 작성할 수 있습니다. 구글 독스나 구글 스프레드 시트처럼 웹 브라우저에서
파이썬을 실행하는 것입니다. 파이썬 코드뿐만 아니라 텍스트를 작성할 수 있고,
이미지와 유튜브 동영상 등도 넣을 수 있습니다. 웹 브라우저에서 실행되는
프로그램이기 때문에 휴대폰과 테블릿에서도 실행 가능합니다.

코랩을 실행하기 위해 구글 검색창에 ‘구글 코랩'을 입력하고 검색합니다. 검색 결과값


중 ‘Colaboratory에 오신 것을 환영합니다. - Colaboratory - Google’를 클릭합니다. 구글
계정에 로그인한 후 새노트를 클릭합니다.

구글 드라이브에서 새문서 생성 > 더보기 > Google Colaboratory 를 클릭해 코랩을


실행할 수도 있습니다.
▲ 구글 드라이브에서 코랩 새문서 만들기

프로그램 언어를 공부하면 처음으로 실행하는 예제가 있습니다. Hello world!를


프린트 하는 것입니다. 40년이나 된 개발자들의 전통이랍니다.

● 참고링크: 왜 Hello world를 치는 거지? Hello world!의 유래

코드셀에 print ('Hello, world!')를 입력한 후에 코드셀 왼쪽 끝에 있는 삼각형


모양의 실행 버튼을 클릭합니다.

print ('Hello, world!')


▲ 구글 코랩에서 print ('Hello, world!') 실행

여러분 화면에도 ‘Hello, world! 가 출력됐나요? 여러분은 방금 파이썬 프로그래밍에


입문하셨습니다. 파이썬 강의는 다음 강의에서 계속됩니다. 프로그래밍 세계에 오신
것을 환영합니다.

You might also like