국내 최대 포털사이트인 네이버가 3줄 요약 서비스를 뉴스에 적용했다. 지난 11월27일, 네이버 뉴스는 자동요약 기능 시범 서비스를 오픈했다. 버튼 하나만 누르면 아무리 긴 기사도 단 3줄로 요약한다.
〈시사IN〉 제534호 커버스토리 ‘모든 것을 맡겨놓고 아무것도 책임지지 않았다’ 기사를 네이버 뉴스에서 열었다. 기사 제목 아래 조그맣게 ‘요약봇(bot·로봇)’이라는 버튼이 보인다. 이 버튼을 클릭하자, ‘자동 추출 기술로 요약된 내용입니다’라는 설명 아래 기사가 세 문장으로 요약되었다. ‘제주국제공항에서 북동쪽 방향으로 50분쯤 운전하면 제주도가 물 산업 육성을 위해 조성한 용암해수 일반산업단지가 나온다. 업체와 이군이 체결한 근로계약서를 보면 기간만 7월25일에서 2018년 1월30일로 같을 뿐 현장실습 표준협약서와는 판이하다. 표준협약서에서 이군은 현장실습생이지만 근로계약서에는 계약 당사자는 사원으로서 회사의 생산 관련 업무를 담당하게 되어 있다.’ 6260자 분량의 기사를 210자로 축약했다. 기사를 쓴 전혜원 기자는 “첫 문장은 ‘리드’라고 불리는 기사 전체의 첫 문장이 그대로 들어갔다. 나머지 두 문장은 나름 기사의 핵심을 포착한 것 같다”라고 평가했다.
뉴스 요약 서비스는 국내에서 이미 1년 전에 도입됐다. 또 다른 포털사이트 다음은 2016년 11월부터 뉴스 자동요약 서비스를 시작했다. 1800자보다 짧은 기사에만 적용되며, 문장 개수에 상관없이 200자 안팎으로 줄인다. 포털사이트 다음을 운영하는 카카오 측은 “1800자 이내 사실 보도 기사는 이용자에게 더 쉽고 빠르게 전달하는 것을 목적으로 하는 경우가 많다. 심층기획·인터뷰 등 장문 기사는 시간을 들여 꼼꼼히 읽도록 유도하기 위해 원문을 요약하지 않는다”라고 밝혔다.
‘마치 사람처럼’ 처음 보는 문서의 핵심 문장을 추출해낸다는 점에서 네이버 요약봇은 인공지능(AI)의 일종인 머신러닝(Machine Learning) 기술을 쓴다. 네이버에 따르면 요약봇은 주어진 기사를 문장별로 끊어서 어떤 문장이 전체 내용을 가장 잘 담고 있는지 점수를 매긴다. 이때 문장이 서로 이어지지 않고 맥락에서 벗어나는 것을 방지하기 위해 앞뒤 문장을 2개, 3개씩 묶어서 점수를 매긴다. ‘전체 내용을 잘 담고 있다’는 기준은 복합적이다. 반복되는 단어나 문장은 강조의 뜻을 담고 있으므로 핵심 문장일 가능성이 높아 가점이 부여된다. 제목, 부제, 사진 설명에 들어간 단어와 문장도 가점에 반영된다.
이 점에서 요약봇에는 한 가지 문제가 있다. 바둑의 승패와 달리 ‘잘된 요약’은 한 번에 정의하기 어렵다. 같은 요약문을 보고도 사람에 따라 주관적인 평가를 내릴 가능성도 있다. 네이버 요약봇 개발자 중 한 명인 배원식씨는 “정답지라고 할 만한 평가 데이터가 있으면 요약봇의 성능이 빠르게 개선될 수 있다. 하지만 그 경우 누가 평가하느냐에 따라 결과가 달라질 수 있다”라고 말했다.
다음은 ‘소셜 네트워크 분석’ 활용해 요약
자동요약 기술의 성능을 개선하는 또 다른 방법은 반복이다. 천문학적으로 많은 문서를 테스트하면 정확도가 높아진다. 문서 하나만 요약하기보다 여럿을 묶어서 요약하면 경우의 수가 많아지므로 테스트 수를 늘릴 수 있다. 네이버 측은 “여러 개의 뉴스를 묶어서 요약하면 언론사의 편집권을 침해할 수 있어 조심스럽다”라고 밝혔다.
다음 자동요약 알고리즘은 네이버와 달리 ‘소셜 네트워크 분석(Social Network Analysis)’을 활용했다. 다음 자동요약 알고리즘은 먼저 기사의 제목과 첫 문장을 구분한 뒤 하나 이상의 핵심 키워드를 선정한다. 그런 다음, 핵심 키워드를 중심으로 다른 단어들과의 연관성을 계산해 네트워크를 그린다. 핵심 키워드와 가장 가까운 단어들이 많이 포함된 문장, 즉 핵심 키워드와 ‘연결 중심성’이 높은 문장을 선정해 리드 문장과 함께 정리한다. 다음 측은 “임의로 추가한 키워드 가중치를 사용하지 않는다”라고 밝혔다. 카카오는 이 기술을 2015년 12월 특허로 등록했다.
정보량이 많아진 디지털 시대에 자동요약 기술은 점차 중요해지고 있다. 문서·정보 요약에 필요한 시간과 인력을 줄일 수 있어서 경제적이기도 하다. 거기다 자동요약 기술은 인공지능의 핵심 과제 중 하나인 자연어 처리(Natural Language Processing) 기술 개발과 맞닿아 있다. 요약 자체가 고도의 언어활동이기 때문이다.
해외에서는 단순히 원문을 ‘추출’하는 자동요약이 아니라 새로운 문장을 ‘생성’하는 자동요약 기술이 주목받고 있다. 이 경우 단순한 추출보다 훨씬 많은 정보를 짧게 줄일 수 있어 요약문의 질이 높아진다. 책·논문, 동영상, 여러 문서를 종합하여 요약하는 기술도 추출 요약으로는 한계가 있기 때문에 생성 요약 기술이 핵심이다. 미국의 클라우드 컴퓨팅 서비스 업체 ‘세일즈포스’는 지난 5월11일 “기존 요약 기술보다 품질이 12~16% 향상된 자동요약 기술을 개발했다”라고 밝혔다. 세일즈포스의 개발자들 역시 CNN과 〈데일리메일〉의 뉴스를 테스트 데이터로 사용했다. 세일즈포스 개발자 리처드 소처는 〈포브스〉와 인터뷰하면서 “자동요약은 인공지능의 궁극적인 문제나 다름없다. 우리는 미래를 확보하기 위해 근본적인 인공지능 과제를 연구한다”라고 말했다.
국내에선 ‘뉴스 요약’을 보는 시각이 긍정적이지만은 않다. 편집권 침해 논란 때문이다. 한국은 뉴스를 소비할 때 포털사이트 의존도가 77%에 달한다(〈디지털 뉴스 리포트 2017〉, 한국언론진흥재단). 그만큼 포털 뉴스가 미칠 영향에 민감하다. 현재 요약봇 서비스는 전체 기사에서 비중이 적은 반론 보도 내용이 빠지거나, 정치 기사에서 각 당의 견해가 균형 있게 반영되지 않는 점 등 한계를 지적받는다. 12월7일 송희경 자유한국당 의원과 오세정 국민의당 의원이 공동주최한 ‘포털 뉴스 이대로 좋은가?’라는 정책토론회에서 한국IT법학연구소 부소장 김진욱 변호사(법무법인 주원)는 “알고리즘을 통한 자동요약 시스템이 사실을 왜곡할 수 있다”라고 지적했다. 문화체육관광부 관계자는 “포털 뉴스 자동요약이 신문법상 위반 사항이 있는지 검토 중이다. 언론사의 편집권을 침해하는지 여부를 신중하게 시간을 들여 판단할 예정이다”라고 밝혔다.
이런 논란에 대해 네이버 측은 “요약봇은 원문을 수정하지 않고 그대로 문장을 발췌할 뿐이기 때문에 언론사의 편집권을 침해하지 않는다”라고 밝혔다. 카카오 측은 “뉴스 요약 기능은 언론사와 계약한 내용에 포함되어 있다. 각 언론사에 요약 기능 동의 여부를 확인하고 원치 않는 언론사는 제외했다”라고 밝혔다.
-
SNS 마케팅 뜨자 ‘좋아요 조작기’까지
SNS 마케팅 뜨자 ‘좋아요 조작기’까지
신한슬 기자
SNS 이용자가 늘어나면서 대기업부터 중소기업, 자영업자까지 가리지 않고 SNS 마케팅을 강화하고 있다. 방식도 다양하다. 직접 SNS 계정을 운영해 상품을 홍보하는가 하면, 운영...
-
온라인 마케팅도 이제 양지로 가고 싶다
온라인 마케팅도 이제 양지로 가고 싶다
이종대 (데이터블 대표)
“네이버도 다루시나요?” 몇 년 전, 소셜 빅데이터 분석 회사 창업 멤버로 일하던 무렵 고객들에게 자주 들었던 질문이다. 처음에는 무슨 이야기인지 몰라 당시 기술팀을 통해 전달받은...
-
네이버 개편, ‘이웃 수’보다 콘텐츠 축적이 중요하다
네이버 개편, ‘이웃 수’보다 콘텐츠 축적이 중요하다
이종대 (데이터블 대표)
한국인이 취약한 분야 중 하나가 ‘축적’이다. 근면하고 성실하지만 오랜 세월 꾸준히 쌓아 전수하는 문화는 찾기 힘들다. 유구한 역사를 자랑한다면서도 정작 몇십 년 된 노포조차 드물...
-
‘지각비 논란’으로 본 웹툰 전선
‘지각비 논란’으로 본 웹툰 전선
이오성 기자
시작은 돈 문제처럼 보였다. 12월4일 인터넷 유료 만화 플랫폼 ‘레진코믹스(레진)’에 작품을 연재했던 ‘회색’ 작가가 트위터에 “지금껏 (레진 측에) 1000만원이 넘는 지각비를...
-
내 삶을 바꿀 7가지의 ‘전략 기술’
내 삶을 바꿀 7가지의 ‘전략 기술’
이종태 기자
역사적으로 기술혁신은 인간의 삶을 바꿔왔다. 일하고 소비하는 방식뿐 아니라 자본과 노동, 남성과 여성 등 인간 사이의 관계 자체를 송두리째 뒤흔든다. 글로벌 IT(정보통신기술) 자...
-
〈시사IN〉이 AI 콘퍼런스를 엽니다 [취재 뒷담화]
〈시사IN〉이 AI 콘퍼런스를 엽니다 [취재 뒷담화]
고제규 편집국장
〈시사IN〉과 AI? 대부분 먼저 조류인플루엔자(AI)를 떠올리겠죠. 이번엔 인공지능(Artificial Intelligence)입니다. 인공지능은 블록체인과 함께 IT 업계는 물...