<서평> 스테판 바이츠 저, 「검색이 바꿀 미래를 검색하다」

검색이 바꿀 미래를 검색하다

여기 어떤 검색엔진이 있다. 그는 사람에게 먼저 말을 건다. 친구처럼 잘 모르면 되묻는다. 답은 당신이 어디에 있는지, 누구와 있는지, 언제 물었는지에 따라 매번 다르다. 때로는 마치 생각하듯, 조금 느린 듯 답한다. 그 결과는 요약된 뉴스일 수도 있고, 약식보고서일 수도 있다. 대신 콜택시를 불러주거나, 맞춤요리를 시작하기도 한다. 검색하는 이는 사람만이 아니다. 사물이 검색을 시작하고, 사물이 적당한 사람을 찾기도 한다.

미래의 어느 날엔 당신은 슬픔을 입력하게 될 것이다. 말로, 표정으로, 눈빛으로. 그 때 검색 엔진은 노래를 불러주거나 초상화를 그려줄지도 모른다. 옛사람처럼 시를 주고받거나 토론을 할 수도 있다. 검색의 미래는 검색 같지 않은 검색, 사람 같은 검색엔진이다.

마이크로소프트사의 검색엔진 빙(bing) 개발을 총괄하는 이사인 스테판 바이츠의 책 <검색이 바꿀 미래를 검색하다>는 이런 검색을 만들려는 수많은 노력들을 소개한다. 때문에 다소 산만한 감은 있다. 그럼에도 불구하고 이 책은 검색의 기술적 가능성부터 사회적 가능성과 제약까지 검색엔진의 미래를 읽어내기 위한 맥들을 비교적 쉽게 잘 짚어내고 있다.

이 책은 8장으로 이루어져 있다. 1장은 개괄이다. 검색의 과거에서부터 미래까지를 간략히 기술한다. 2장부터 4장까지는 빅데이터(big data), 사물인터넷(Internet of Things), O2O(online to offline), 인공지능(artificial intelligence) 등과 함께 발전하는 검색엔진의 미래를 그린다. 이어 5장에서는 새로운 검색엔진이 인간의 능력을 어떻게 증강시켜주는지를 보여준다. 6장과 7장은 차세대 검색엔진을 만들 때 고려해야 하는 다양한 기술적, 사회적, 경제적, 법적 장애를 설명한다. 글을 마무리하는 8장에서 저자는 수많은 장애에도 불구하고 새롭게 정의될 디지털 자아와 세계의 미래에 대한 기대를 숨기지 않는다.

저자는 미래의 검색엔진이 갖는 많은 특징을 사례 중심으로 소개하고 있다. 여기서는 이러한 특징 가운데 몇 가지를 키워드 중심으로 정리해보겠다. 첫째, 빅데이터다. 흔히 빅데이터라고 하면 데이터 크기만 생각하는데, 그렇지 않다. 빅데이터에서 가장 큰 이슈는 다양성이다. 수많은 입력장치를 통해 시간은 물론 온도, 빛, 위치 등 센서 데이터, 문서, 그림, 사진, 동영상, 음성 등 다양한 정보가 입력된다. 측정척도도 다양하다. 숫자로 표시될 수 있는 데이터도 있지만, 흔히 말하는 명목적으로 표현되는 데이터가 빅데이터의 대다수를 차지한다. 사실 이 때문에 빅데이터 분석에서 널리 활용되는 방법론이 연결망 분석이다. 결점과 연결의 있고 없음만으로 데이터와 그 관계를 표현할 수 있기 때문이다. 이 밖에도 집합론이나 행렬론, 그리고 다양한 비선형대수 등이 중요해진다. 또 엄선된 소수 변인 간의 인과관계보단, 방대한 변인들 간의 상관관계를 파악하는데 치중하게 된다. 물론 과적합 문제나 가짜 상관관계 등을 걸러내는 매의 눈은 필요하다. 또 데이터가 편향적으로 수집되거나, 잘못 기록되거나, 아예 기록이 되지 않거나, 입력장치가 달라서 서로 호환되지 않는 경우도 허다하다. 따라서 빅데이터를 활용한 새로운 검색엔진은 현실적으로 인간의 의사결정을 대체하기 보다는 보완하고, 정답을 얻기보다는 위험과 오류, 부작용을 피하는 방식으로 이루어지는 편이 낫다. 예를 들어 빅데이터 분석은 괜찮은 기사들을 추천해주는 데는 적절하지만, 최악의 기사 선발 대회에 쓰이면 논란만 일으키게 된다.

둘째, 사물인터넷과 O2O이다. 사물인터넷의 정의는 불분명하지만 한 마디로 말하면 개방된 지능형 사물 네트워크를 뜻한다고 볼 수 있다. 입력은 사람이 아니라 센서가 한다. 입력된 센서 정보는 연결된 다른 센서나 어플리케이션, 사물 등에 전달된다. 이 때 데이터들이 서로 호환될 수 있도록 일종의 번역이 필요할 수도 있다. 쉽지 않은 작업이지만, 사물과 사물이 잘 연결될수록 사람의 손을 거치지 않고도 더 좋은 검색 결과가 제시될 수 있다. 이 검색 결과는 의미를 담은 콘텐츠일 수도 있고, 택시 부르기 같은 행동일 수도 있다. 센서나 메모리, CPU의 비용이 점점 더 다양해지고 싸지고 작아지면서, 또 무선통신망이 더 다양해지고 광대역화하면서 더 많은 정보가 공유되고 분석된다. 구글이나 네이버 등 검색엔진에 강점이 있는 회사들이 앞다투어 하드웨어에 투자하고, 다음카카오가 포털의 기능을 수많은 앱들로 쪼개고 O2O에 집중하는 것도 이러한 맥락에서 이해할 수 있다.

셋째, 인공지능이다. 이제 검색엔진은 수많은 데이터 속에서 스스로 기계학습을 통해 패턴을 찾아내서 최적의 문제해결 방안들을 제안할 수 있다. 심지어 인간이 어떤 것을 물어야 할지 정확히 모르는 상황에서도 검색엔진은 답할 수 있다. 예컨대 음성인식 검색엔진에 “다음 주 화요일 저녁에 딸과 함께 가로수길에서 맛있는 저녁을 먹고 싶어”라고 물으면 예약이 비어있는 근사한 식당들을 추천해줄 수도 있다. 뿐만 아니다. “삶은 무엇인가?”와 같이 사람도 잘 모르는 것에 답변해줄 수도 있다. IBM의 슈퍼컴퓨터 왓슨(Watson)은 유명 퀴즈쇼 ‘제퍼디(Jeopardy!)’에서 사람들을 꺾고 우승해 화제가 되기도 했다. 하지만 선문답을 하거나, 2.5초만에 퀴즈를 푸는 것보다 더 어려운 것은 검색엔진이 100분 토론에 나가는 것일지도 모른다. 검색어를 넣으면 기자에겐 그날의 보도자료를 기사로 만든 것이, 컨설턴트나 마케터에겐 보고서가, 홍보 담당자에겐 자사와 경쟁사의 동향이 나올 수도 있다. 저자가 말하는 똑똑한 검색엔진의 모습을 보면, 이 모든 것이 더 이상 먼 미래는 아닌 듯하다.

저자는 기술낙관론자이긴 하지만, 차세대 검색엔진을 만드는데 필요한 장애에 둔감한 건 아니다. 가장 큰 사회적 문제는 개인정보 내지 사생활 침해 문제다. 서비스의 대가로 수집한 개인정보는 누구의 것인가? 수집한 정보로 데이터를 만들면 그것은 누구의 것이 되는가? 개인정보를 보호하려면 어떻게 해야 하나? 개인정보는 얼마의 가치를 갖는가? 저자는 검색엔진의 미래를 위해 개인정보는 가능한 공개하는 편이 낫다고 생각한다. 하지만 그전에 개개인의 헌법적 권리는 보장돼야 한다. 설사 기업의 도움을 받아서 생성된 것이라고 할지라도 모든 개인정보는 결국 개인으로부터 나온다. 개인정보의 활용은 개인의 이익과 사회의 복지를 확대하는 한에서 기업이 활용할 수 있다. 디지털 자아는 보호받아야 한다. 저자는 모든 개인정보를 개인 서버에 수집하고 개인이 허락한 개인이나 기관에 한해서만 접근하는 개인 클라우드의 이용을 ‘피난’이라고 하지만, 개인 클라우드와 지능형 검색 시스템과 공존할 수 있는 방식도 충분히 생각할 수 있을 것이다. 사실 데이터 형식과 패턴을 찾는데 필요한 정도의 데이터 이상은 기업이 갖고 있을 필요가 없는지도 모른다. 분산은 편리하고 효율적인 저장, 처리, 관리를 위해서만이 아니라, 개인정보 보호와 보안, 그리고 탈집중적인 검색 생태계를 만드는데도 필요할 수 있다.

경제적 제약도 있다. 가장 큰 이슈는 지능형 검색의 비즈니스 모델(BM, Business model)이 아직 불분명하다는 것이다. 다양한 BM이 있을 수 있다. 영화나 게임과 같은 경쟁력 있는 콘텐츠는 유료화할 수 있다. 그 자체가 효용이 높은 서비스는 서비스 이용료에 검색엔진 개발비를 포함시킬 수도 있다. 용역을 중개하거나 콘텐츠를 미끼로 광고를 팔 수 있다면, 서비스업체나 광고주에게 비용을 이전시킬 수도 있다. 그러나 전통적인 저작권, 광고 모델에만 의존한다면 검색엔진의 미래도 없을 것이다. 예컨대 원저작물을 재가공한 데이터의 저작권은 누가 갖는가? 이제 거의 모든 광고는 콘텐츠가 되거나 아니면 온라인 쇼핑이 되어야 하지 않을까?

그럼에도 불구하고 저자는 미래의 검색엔진이 가져다줄 미래를 근본적으로는 장밋빛으로 본다. 여기선 저자가 명시적으로 서술하고 있진 않지만, 차세대 검색엔진을 만들기 위해 필요한 몇 가지를 덧붙이고 싶다. 첫째, 사용자 생성 빅데이터다. 검색결과를 더 풍부하게 해주고 더 정확하게 만드는 것은 바로 사용자가 데이터를 재가공하고 이용하면서 나오는 사용자 생성 빅데이터다. 더 경쟁력 있는 검색엔진을 위해선 사용자 생성 빅데이터를 만드는 생태계 조성도 필요하다. 둘째, 다양한 데이터를 통합할 수 있는 새로운 이론과 분석틀이 필요하다. 즉 무기체와 동식물과 같은 유기체, 인간의 행위와 의미를 통합하는 체계이론이 필요하다. 셋째, 인문학이나 사회과학과의 결합이 중요하다. 과거의 검색엔진은 컴퓨터공학자나 언어학자 등이 일반화된 사용자 경험을 목표로 하여 만들었다. 그러나 지능형 검색엔진은 이제 개별화된 사용자 경험을 연계하는 것을 목표로 한다. 예컨대 검색결과를 기사로 써주는 검색엔진을 만들려면 기자의, 시를 쓰는 검색엔진은 시인의, 택시 앱은 택시 운전사의 경험이 녹아들어가야 한다. 즉 생활인과 정치, 경제, 문화의 다양한 분야 사람들의 노하우가 검색엔진에 녹아들어야 한다.

이 책을 트렌드를 파악하는 데에만 활용한다면 그 가치를 십분 다 얻지 못한 것이다. 디지털화된 미래의 핵심을 조금이나마 자기 손으로 구상하려는 이들이라면, 결국 모종의 검색엔진을 만들어야겠다는 생각을 하게 될 것이다. 그런 이들에겐 이 책을 통해 마이크로소프트의 무시무시한 경쟁자가 털어놓는 경험을 엿보는 재미가 쏠쏠할 거라 생각한다.

저자 : 박대민

한국언론진흥재단 선임연구위원