ⓒ시사IN 윤무영네이버랩스 셀프 업데이팅 맵 기술공학자인 유찬미·허민혁·김수정 연구원(왼쪽부터).

“산은 산이요, 물은 물이로다.” 성철 스님이 남긴 유명한 법어(法語)의 1행이다. 인간은 산을 산으로, 물은 물로 인식한다. 당연한 이야기라고? 인간의 지성을 인공지능 로봇에 복제하려는 연구자들은 산과 물을 분별하는 인간의 능력에 경이로움을 느끼게 된다. 인공지능 로봇에게는 ‘산은 산이 아니요, 물은 물이 아니’기 때문이다.

이런 철학적 이야기들을, 경기도 성남시 네이버랩스에서 만난 허민혁·유찬미·김수정 연구원과 나누었다. 연구원들은 로봇에게 산과 물이 아니라 가게 간판의 상호를 인식시키기 위해 고투해왔다. 사람에게는 너무 쉬운 일이 로봇에게는 어려웠다. 연구원들의 과제는 ‘고정밀 3차원 실내 지도의 셀프 업데이트’였다. 어떤 의미인가?

누구나 넓은 쇼핑몰에서 원하는 가게를 찾지 못해 헤맨 적이 있을 것이다. GPS 신호가 침투하지 못하는 실내 공간에서는 내비게이터도 작동하지 않는다. 네이버랩스는 이 문제를 ‘지도 그리는 로봇’ M1으로 해결했다. 각종 고성능 센서로 무장한 M1은 공간의 구석구석을 돌아다니며 가게, 쉼터, 화장실 등 모든 시설의 위치를 3차원 디지털 정밀지도로 구현할 수 있다. M1 이외의 서비스 로봇들(청소·접객·안내·보안 등을 맡는 로봇)은 이 지도를 공유하는 방법으로 ‘자신’이 어디에 있는지 파악한다. 주변을 카메라로 촬영한 뒤 그 영상 이미지가 정밀지도의 어느 지점에 있는지 체크한다. 그다음에 정밀지도에서 목적지의 위치와 그곳으로 가는 경로를 선택해서 실행한다(〈시사IN〉 제626호 ‘로봇은 어떻게 인간의 역할 할까’ 기사 참조).

실내 공간의 모습은 늘 바뀐다. 일부 가게들이 폐점하면서 다른 가게로 교체되고, 조명과 인테리어가 대대적으로 바뀌는가 하면, 크리스마스트리나 할인 광고가 들어선다. 지도 제작자 처지에서 중요한 변화는 가게의 상호가 바뀌는 경우다. 지도를 업데이트해야 한다. 사람이 하면 간단한 일이다. 쇼핑몰에서 나가고 들어오는 상점주가 관리실에 신고하면 된다. 인간의 일에는 실수와 착오가 있는 법. 네이버랩스 연구자들은 가게 상호가 바뀔 때마다 인공지능 로봇들이 자동적으로 실내 지도를 업데이트하는 방법을 찾고 싶었다. 이른바 ‘고정밀 3차원 실내 지도의 셀프 업데이트’. 네이버랩스의 주요 과제 중 하나는 자율주행 자동차용 실외 지도의 자동 업데이트다. 쇼핑몰의 변화는 인간이 어느 정도 체크할 수 있다. 실외는 수많은 건설 공사와 가게들의 입·폐점이 수시로 진행되는 넓은 공간이라서 인간의 수작업으로 지도를 일일이 업데이트하기 어렵다. 만약 실내 지도의 자동 업데이트 기술을 개발하면 실외 지도에도 적용 가능할 것이다.

ⓒ연합뉴스지난 1월 세계 최대 가전전시회 ‘CES 2019’에서 로봇팔 ‘앰비덱스’를 시연하는 석상옥 네이버랩스 대표.

실내 지도의 셀프 업데이트는 어떻게 보면 쉬운 일이다. 네이버랩스의 실내 지도 작성 시스템에서는 로봇들이 매장을 돌아다니며 쉴 새 없이 영상 데이터를 찍어댄다. 어제 찍은 사진과 오늘 찍은 사진을 비교하면 바뀐 가게를 찾아내 지도를 업데이트할 수 있다. 로봇은 사람이 아니다. 여러 가지 변화 가운데서 지도 업데이트에 ‘의미 있는’ 변화(가게 상호의 교체)를 분별하지 못한다. 예컨대 로봇이 ‘맛있는 소’라는 불고깃집을 영상으로 찍는다고 가정하자. 로봇은 ‘맛있는 소’라는 간판, 식당 입구와 창틀 형태, 내부 인테리어, 천장 조명, 바닥 모서리, 가게 앞을 지나가는 사람 등 영상 정보를 얻을 수 있다. 이 가운데서 지도 업데이트에 의미 있는 정보는 간판 상호(‘맛있는 소’)뿐이다. 인간은, 가게 측이 입구와 인테리어, 조명 등을 리모델링해도 상호만 같다면 여전히 ‘맛있는 소’라는 사실을 쉽게 인식한다. ‘영상 이미지로부터 필요한 정보(간판 상호)만 쏙 뽑아내 이해하는 능력’을 갖고 있기 때문이다. 유찬미 연구원에 따르면, “사람은 어떤 공간을 보자마자 ‘저것은 간판, 저것은 형광등’이라며 중요하거나(간판) 중요하지 않은(형광등) 정보를 가려낼 줄 안다. 로봇은 가게 상호가 바뀌었는지 여부를 알아내기 위해 전체 영상 이미지에서 무엇을 봐야 하는지 자체를 모른다.” 기계가 영상 이미지에서 의미 있는 정보를 뽑아내도록 돕는 기술을 ‘컴퓨터 비전(computer vision)’이라 부른다. 허민혁 연구원은 “사람은 컴퓨터 비전의 전문가로 태어나지만 기계는 그렇지 않다”라고 말했다.

로봇이 영상 이미지로부터 필요한 정보(간판의 상호)를 뽑아내지 못한다면, 그것들을 비교할 수도 없다. 비교해서 변화를 감지하지 못한다면 지도를 업데이트하지 못한다. 로봇이 영상 이미지로부터 간판의 상호만 추려내 비교할 수 있게 하려면 무엇을 해야 할까?

ⓒ시사IN 이명익네이버랩스의 인공지능 로봇은 간판 상호의 변화 여부를 판단하는 규칙(공식)을 스스로 습득해나간다. 위는 서울 소공동 지하상가 모습.

‘키포인트 매칭’이 실패한 까닭

연구자들의 첫 시도는 ‘키포인트 매칭(keypoint matching)’이었다. 인공지능 로봇은 영상 이미지를 인간의 방식으로 받아들이지 못한다. ‘2’라는 숫자가 컴퓨터에겐 ‘두 개’라는 의미가 아니다. ‘2’가 포함된 영상을 수많은 부분으로 쪼갠 뒤 각 부분(점)이 얼마나 어둡고 밝은지를 체크하는 방법으로, ‘2’가 ‘1’ 같은 숫자나 ‘삶’ 등의 단어와 다르다고 표시할 뿐이다. “로봇은 점들이 이 위치 저 위치에 특정한 방식으로 찍혀 있는 모양을 ‘2’로 인식한다(유민혁).” 이런 점들이 모이면 선이 되고, 선은 직선이나 곡선으로 뻗어나가면서 물체의 윤곽을 형성하는 가장자리(에지)와 모서리(코너)를 형성한다. 이런 점, 선, 가장자리, 모서리 등은 컴퓨터가 물체를 보는 일종의 기본 단위다. 키포인트로 불린다. 키포인트 매칭에서는, 컴퓨터가 특정 가게의 영상에서 키포인트들을 검출한 뒤 비교하게 된다.

연구자들은 내외부의 인테리어는 그대로지만 간판 상호만 바뀐 가게를 대상으로 키포인트 매칭을 실험해봤다. 컴퓨터는 늘 하던 대로 점, 선, 가장자리, 모서리 등의 키포인트들을 능숙하게 검출해냈다. 문제는 그 키포인트들이 간판 상호가 아니라 가게 외관의 천장, 바닥의 모서리, 조명시설 등 키포인트를 검출하기 쉬운 부분에 몰려 있었다는 점이다. 유찬미 연구원에 따르면 실험 결과는 다음과 같다. “지도 업데이트를 위해서는 ‘간판 상호’의 키포인트가 검출되어야 했다. 컴퓨터는 지도 업데이트에 의미 없는 바닥 모서리 같은 부분의 키포인트들을 주로 검출해서 비교했다. 그 부분이 비슷하니까 ‘바뀌지 않은 가게’라고 판단해버렸다.”

간판 상호가 바뀐 두 가게의 이미지에서 키포인트(노란색 동그라미)를 검출한 뒤 유사도가 높은 30개의 키포인트를 파란색 실선으로 연결했다. 유사도가 높은 키포인트들이 주로 두 이미지의 인테리어에 집중되면서 간판 상호의 변화를 제대로 인식하지 못했다. 키포인트 매칭은 실패했다.
네이버랩스 연구원들은 딥러닝을 응용한 방법으로 컴퓨터가 가게 상호의 변화를 인식할 수 있도록 만들었다. 컴퓨터는 내부 인테리어가 비슷하고 상호가 다른 두 가게에 대해 변화가 발생한 영역(간판 상호)을 정확하게 가려냈다.

두 번째 방법은 ‘대상 검출(object de-tection)’이었다. 첫 번째 시도에서 컴퓨터에 영상의 어떤 부분을 키포인트로 검출할지 자율적으로 맡겼다면, 대상 검출에서는 일종의 조건을 달았다. ‘간판을 검출해서 비교하라’는 것이었다. 실내 지도 업데이트 기술을 실외 지도에 적용하는 과제를 수행 중인 김수정 연구원은 “검출 대상을 간판으로 설정해서 영상 속의 간판(으로 여겨지는 것)을 모두 가져오게 하는 방법이다. 키포인트 매칭이 실패했으니 컴퓨터에게 ‘정보를 조금 더 줘서’ 간판을 인식하게 해보자는 발상으로 보인다”라고 풀이했다. ‘조금 더 준 정보’라면, 간판은 ‘글자와 이미지로 구성되어 있다’ ‘가게 입구의 상부에 있다’ 등이 될 것이다.

이번에는 컴퓨터가 간판이 아닌 것을 간판으로 인식하는 현상이 벌어졌다. 간판뿐 아니라 할인 광고나 알림판(매장 내 구역이나 화장실 위치에 대한) 등도 글자와 이미지로 구성되어 있기 때문이다. 최근 간판의 위치나 형태가 가게별로 매우 다양해졌다. 연구원들은 “영상 이미지 안에 간판과 비슷한 물체들이 너무 많았다. 세일 정보 등 간판이 아닌 것도 글자로 구성되어 있으면, 컴퓨터가 간판으로 판단해버렸다. 간판의 형태도 여러 가지였다. 일반적인 간판은 사각형이지만, 간판 없이 로고만 그려져 있거나 벽에 상호를 새기기도 한다. 경우의 수가 무궁무진하다는 것을 실감했다”라고 한탄했다.

대상 검출에서 연구원들은 ‘대상’을 간판으로 판단할 수 있는 기준(‘글자와 이미지로 이루어진다’ 따위)을 컴퓨터에 제공했지만 실패하고 말았다. 결국 발상을 180° 전환한다. ‘컴퓨터가 스스로 판단 기준을 형성하게 할 수는 없을까?’ 마치 인간처럼 말이다.

인간은 산과 물은 물론이고 고양이나 개, 스마트폰 등을 쉽게 분별한다. 그레이트데인과 치와와는 섰을 때 키가 각각 2m와 20㎝로 다른 체급이지만, 사람은 두 마리를 모두 개로 인식할 수 있다. 사람의 얼굴도 마찬가지다. 눈 2개와 코 1개, 입 1개로 구성되어 있지만, 인간은 얼굴을 보면 구분할 수 있다. 인간은 ‘산은 산이고 물은 물이며 개는 개이고 철수는 철수’로 판단하는 기준을 자기도 모르는 사이에 형성해 공유하고 있다. 다만 그런 판단의 기준과 이유를 구체적이고 명확한 언어로 표현하지는 못한다.

허민혁 연구원은 테이블 위에 놓인 컵 속의 물을 가리키며 말했다. “‘이게 왜 물이냐’라고 물어봤을 때 사람들은 명확히 설명하지 못한다. 더욱이 물로 인식하는 기준도 각자 다를 것이다. 어떤 사람은 ‘컵 안에 들어 있는 투명한 것’으로, 다른 사람은 ‘마시면 갈증이 가시는 어떤 것’으로 인식할지도 모른다. 이처럼 사람마다 대상을 파악하는 기준이 다르고 일관되게 정의하지도 못하지만, 놀랍게도 누구나 이게 물이라는 것을 안다. 우리 인간은 다른 사고를 거쳐 동일한 대상을 동일하게 파악한다.”

사람은 어떻게 이같이 ‘놀라운’ 일을 할 수 있게 되었을까? 태어난 이후 수없이 거듭된 경험을 통해 대상(예컨대 물)을 판단하는 ‘규칙’을 익혔기 때문이다. 물은 유리컵 안에 들어 있거나 도시 한가운데를 흘러가고(강), 모래사장 앞으로부터 수평선을 향해 끝없이 펼쳐지기도(바다) 한다. 사람은 종이컵과 강, 바다를 보면서 ‘물’이라는 의미 있는 정보를 쉽게 검출해낸다. 두뇌 속에 물을 물로 인식하는 어떤 규칙을 지니고 있는 것이다. 로봇에게는 불가능한 일인가. 화려한 인테리어와 조명으로 치장하고 그 앞으론 수많은 행인들이 지나가는 가게를 보면서, ‘간판 상호’라는 의미 있는 정보만 추려내는 규칙을 로봇에게 습득시킬 수 있을까? 연구자들은 ‘딥러닝’에서 그 단서를 발견해낸다.

간단히 표현하자면 ‘딥러닝’은 수없이 많은 경험을 통해 스스로 규칙을 습득하는 학습 방법이다. 어린이가 축구공을 골대 속으로 집어넣는 방법을 학습한다고 치자. 코치 선생님은 어린이에게 축구공을 어떻게 다뤄야 골인시킬 수 있는지 말이나 시늉으로 설명해준다. 가르침만으로는 부족하다. 어린이는 축구공을 수많은 각도와 강도로 차는 경험을 수없이 겪어야 한다. 어린이는 성공했을 때의 각도와 강도를 익히고 실패한 경우의 각도와 강도를 삼가면서 점점 더 ‘골인의 규칙’을 학습하게 된다.

컴퓨터 스스로 ‘판단 기준’ 형성

이런 학습이 인공지능 로봇에게도 가능하다고 김수정 연구원은 설명했다. “물통과 전자기기의 이미지를 컴퓨터에게 제공하고 ‘이건 다른 거야’라고 가르쳐준다. 둥근 물통과 사각형 물통을 컴퓨터에게 보여주고 ‘이건 같은 거야’라고 알려준다. 이런 과정을 수없이 반복하면 컴퓨터는 ‘물통과 전자기기가 다르다’는 것, ‘다르게 생긴 물통이 사실은 같은 종류’라는 것을 스스로 구별할 수 있게 된다.” 이 사례에서 사람은 컴퓨터에게 물통과 전자기기의 생김새를 알려주지(코딩하지) 않는다. 다만 수많은 이미지와 정답(같다/다르다)을 제시할 뿐이다. 컴퓨터는 수없는 실전의 과정에서 서서히 ‘같고 다름’을 판단하는 규칙을 학습하게 된다.

이 방법이 실내 지도의 업데이트에 적용되었다. 준비물은 수많은 영상 이미지다. 네이버랩스의 로봇들이 실내 공간을 쉴 새 없이 쏘다니므로 이미지는 얼마든지 준비할 수 있다.

먼저, 앞에 나온 가게 ‘맛있는 소’의 영상(기준 이미지), 같은 가게의 다른 수많은 영상들(관련 이미지-상호는 그대로지만 할인 광고를 부착했거나 조명이 바뀜), 아예 상호가 다른 가게의 영상들(비관련 이미지)을 준비한다. ‘콘벌루션 신경망’이라는 기술을 적용해서, 컴퓨터가 ‘이미지들 사이의 거리(수학적 공간에서의 거리)’를 계산할 수 있도록 처리한다.

다음 단계에서는 ‘기준 이미지와 관련 이미지의 쌍’과 ‘기준 이미지와 비관련 이미지의 쌍’을 컴퓨터에 제공한다. 컴퓨터에게 ‘기준 이미지와 관련 이미지의 쌍’에 대해 ‘닮았다’ 혹은 ‘짧은 거리’로 답하라고 명령한다. 두 이미지는 다른 풍경인데도 같은 상호를 가졌기 때문이다. 한편 ‘기준 이미지와 비관련 이미지의 쌍’에 대해 컴퓨터는 ‘다르다’ 혹은 ‘긴 거리’라고 답변해야 한다.

컴퓨터는 이미지들 간의 ‘닮음/다름’ 혹은 ‘거리’를 계산하는 나름의 공식을 처음부터 갖고 있다. 훈련의 초기 단계에서 그 공식은 멍청하기 짝이 없다. 대대적 인테리어 수리를 거친 ‘맛있는 소’와 기준 이미지(‘맛있는 소’의 원래 영상)를 ‘다르다(거리로는, 예컨대 10)’라고 평가할지도 모른다. 반면 ‘맛있는 소’와 내부 인테리어만 비슷한 ‘맛있는 돼지’는 ‘닮았다(거리로는 2)’라고 계산해버린다. 이런 결과가 나올 때마다 컴퓨터는 ‘질책’이나 ‘칭찬’을 받는다. 질책을 받으면 기존 공식을 바꾸고, 칭찬받을 때는 강화한다. 이런 훈련을 거듭하면서 컴퓨터는 점점 간판 상호의 변화 여부를 판단하는 규칙(공식)을 스스로 습득해나가게 된다. 유찬미 연구원은 “컴퓨터에게 ‘같은 가게다’ 혹은 ‘다른 가게다’라는 정답만 주면 된다. 왜 같은 가게이고 다른 가게인지는 컴퓨터가 알아서 스스로 기준을 정하게 한 것이다”라고 정리했다.

고투 끝의 성공이었다. 연구자들은 실험을 통해 인공지능 로봇이 이 방법으로 간판 색상, 인테리어, 조명 등 ‘의미 없는 정보’를 무시하고 간판 상호의 정보만을 성공적으로 인식하게 되었다는 것을 확인했다. 이 연구 결과는 지난 6월 미국 캘리포니아에서 열린 ‘컴퓨터비전·패턴인식(CVPR) 콘퍼런스’에 발표 논문으로 채택되었다. CVPR은 컴퓨터 비전 부문에서 세계 최고 수준인 학회다.

기자명 이종태 기자 다른기사 보기 peeker@sisain.co.kr
저작권자 © 시사IN 무단전재 및 재배포 금지
이 기사를 공유합니다
관련 기사