인간의 마음까지 담아
정보의 퍼즐을 완성한다

인간기자가 오랜 고민 끝에 기사 한 편을 완성하는 동안 로봇기자는 눈 깜짝할 사이에 기사를 뚝딱 만들어 내는데요. 클릭 한 번에 기사는 완성되지만, 그 안에는 복잡한 과정이 숨겨져 있습니다. 현재 우리나라 로봇 저널리즘 분야에선 이준환 교수(서울대 언론정보학과)의 성과가 압도적인데요. 이준환 교수의 도움을 받아 야구 기사 작성과정을 바탕으로 로봇이 기사를 작성하는 과정을  알아봤습니다.

  1단계 데이터 수집
  인간기자와 마찬가지로 로봇기자도 기사를 작성하기 위해 취재를 해야 합니다. 로봇기자는 주로 공공 데이터, 웹사이트, 서비스 등을 통해 데이터를 수집하죠. 하지만 데이터 대부분은 사람이 읽는 텍스트처럼 비정형화된 형태로 존재합니다. 비정형 상태의 데이터는 로봇기자가 이해하기 어렵습니다. 이를 해석하기 위해선 표에 항목별로 정리하는 것과 같이 정형화 과정이 필요한데요. 이를 위해 데이터 수집 단계는 데이터의 수집뿐만 아니라 비정형 데이터를 분석 가능한 형태로 변환하는 작업까지 포함합니다.
 
  2단계 사건(event) 추출
  다음은 수집한 데이터에서 사건을 추출하는 과정입니다. 기사는 유의미한 내용만을 간략하게 전하는 역할을 하는데요. 로봇기자 또한 모든 내용을 기사화하지 않습니다. 그래서 데이터를 분석해, 그중 의미 있는 사건을 추출하는 작업이 필요한 것이죠. 물론 로봇기자가 처음부터 사건의 ‘의미 유무’를 판단할 순 없습니다. 수많은 과거 기사들을 통해 로봇기자를 학습시켜 그가 일정한 규칙을 파악할 수 있도록 해야 하죠. 경험적 판단에 따라 데이터를 분석하는 것입니다.

  야구 기사를 예로 들어보겠습니다. 로봇기자는 과거 야구 기사를 통해 일정한 규칙을 학습합니다. ‘타자가 몇 타점을 기록했다’, ‘투수가 몇 승을 했다’와 같은 문장 규칙을 파악하는 거죠. 그리고 이 규칙을 기준으로 데이터를 분석해 사건인지 아닌지를 계산해내죠. 스포츠 기사의 경우 다른 기사에 비해 규칙이 명확하고 일정하기 때문에 로봇기자를 적용하기에 적합한 분야입니다.
 
  3단계 중요 사건 선별
  2단계에서 추출된 사건들은 또 한 번의 선별과정을 거치는데요. 사건 중에서도 더 핵심적이고 특별한 사건을 찾는 과정이죠. 사건의 중요도를 로봇기자 스스로가 판단할 수 있어야 그럴듯한 기사를 쓸 수 있습니다. 때문에 로봇기자는 수많은 사건 중에서 중요한 사건이 무엇인지 알기 위해 통계를 해석하는데요. 일반적인 범주에서 벗어난 수치를 기록하는 사건, 즉 과거 기사와는 다른 기록이 발생하는 지점을 중요하다고 판단하죠. 그리고 결정적인 결과에 큰 영향을 미친 사건 또한 중요 사건으로 인식합니다.

  예를 들어 연패를 거두던 팀이 갑자기 승리했다면 로봇기자는 이를 중요한 사건이라고 판단합니다. 마찬가지로 그 승리에 8회 말 안타가 결정적으로 기여 했다면, 그 안타 또한 중요한 사건이라고 받아들이죠. 로봇기자는 이 중요한 사건들을 핵심에 두고 기사를 작성합니다.
 
  4단계 기사의 분위기(mood) 결정
  인간기자는 기사를 쓰기 전에 ‘논조’를 고민합니다. 그렇다 보니 기사엔 기사 전체를 관통하는 일관된 관점이 존재하는데요. 기자가 기사에서 직접 무언가를 주장하지 않아도 글에서 기자의 관점이 드러나는 것은 이러한 기사의 분위기 때문이죠. 로봇기자의 기사에도 ‘논조’가 존재합니다. 로봇기자는 도출된 여러 사건을 맥락적으로 고려해 전체적인 관점을 선택합니다. 데이터를 표현해내는 데 가장 적합한 분위기를 설정하는 거죠. 이 분위기를 기준으로 어떤 수식어를 붙일지, 또 어떤 식으로 서술할지를 결정하는데요. 이 과정 덕분에 로봇기자의 기사는 단순한 ‘사실 전달’뿐 아니라 ‘이야기’를 전할 수 있게 됩니다.
 
  예를 들어 7-0으로 승리한 경기는 ‘완승했다’고, 7-6으로 승리한 경기는 ‘치열한 접전 끝에 승리를 거머쥐었다’고 표현할 수 있습니다. 이를 이용하면 독자의 관점에 맞는 기사를 만들어 낼 수 있는데요. 홈팀이 승리한 경기라면 로봇기자는 ‘화끈한 승리를 가져오며 팬들의 기대를 저버리지 않았다’고 쓸 것이고 원정 팀 팬의 기사엔 ‘이번 게임을 내주고 말았다’고 작성하겠죠.
 
  5단계 뉴스 기사 생성
  데이터를 표현하는데 가장 적합한 분위기까지 형성해냈다면 이제 그 분위기에 맞는 문장을 선택할 차례입니다. 로봇이 이전의 기사를 스스로 학습해서 자동으로 틀을 만드는 작업이 진행 중이지만 현재는 주로 사람이 미리 만들어 둔 여러 문장을 상황과 맥락에 따라 끌어 쓰는 방식을 사용하고 있는데요. 기사를 구성하는 문장의 흐름과 문장에 담긴 정보를 분석한 결과를 바탕으로 제작해둔 템플릿 중 알맞은 것을 선택하는 것입니다. 이 템플릿엔 상황과 분위기에 따라 다른 데이터가 들어갈 수 있는 단어, 즉 변수에 해당하는 단어 자리가 비워져 있죠.
 
 
저작권자 © 중대신문사 무단전재 및 재배포 금지