<기획특집 ①> 검색엔진 알고리즘의 변천의 역사

기획특집1_특성이미지

검색엔진은 그 기원을 인터넷의 출현보다도 훨씬 이전인 1세대 컴퓨터가 등장했던 1940년대 정보 추출(Information Retrieval)의 개념에서 찾아볼 수 있다. 꽤 오래전부터 우리들 곁에 있었다는 이야기인데 사실 거기까지 거슬러 올라가지 않더라도 1980년 이전에 이미 프리텍스트 인덱싱 기법, 정보의 관련성에 기반한 대용량 정보 검색 시스템, 다국어 검색 기법, 비정형 데이터에 대한 검색 기법 등 지금도 활용되는 다양한 검색 기법들이 이미 이 당시에 개발되어 있었다.

인터넷 혁명이 시작한 이후로 수많은 검색엔진의 출몰을 우리들은 지켜봐왔고 이제 해외는 구글, 그리고 국내는 네이버로 검색 시장이 정리되면서 우리들은 검색엔진 분야가 더 이상 역동적인 발전을 멈춘 것처럼 느끼는 것도 사실이다. 하지만 전문가들은 검색엔진 기술이 아직도 초기 단계에 있을 뿐이라고 말한다.

과연 검색엔진이 어디까지 발전할까? 그 미래의 모습에 대해 우리의 상상력을 자극해줄 좋은 영화가 하나있다. 2015년 초 개봉된 엑스마키나라는 영화다. 전 세계 검색엔진의 95%를 점유한 블루북사의 회장이자 천재 개발자인 네이든이 블루북의 유능한 개발자 갈렙(Caleb)을 개인연구소로 초대해서 개발을 마친 인공지능 로봇, 에바(Ava)의 심화튜링테스트에 참여시킨다. 이 영화는 이 과정에서 벌어지는 갈렙과 에바의 에피소드와 관계를 소재로 삼아 궁극적으로 인간을 인공지능에서 구분할 수 있게 하는 본질이 무엇인지를 우리들에게 묻고 있다. 2016년 2월에 열린 제88회 아카데미 시상식에서 시각효과 부분의 수상했을 정도로 아름다운 화면을 보여주는 매력적인 영화다(IMDB에서의 평가 7.7/10).

이 영화 속에서 하루는 네이든 회장이 갈렙에게 흥미로운 것을 보여준다며, 에바를 개발한 장소로 그를 안내한다. 거기서 에바의 두뇌(영화 속에서는 마인드라고 불리는)에 적용된 젤리형태의 하드웨어를 보여주며 이것이 어떤 운영시스템으로 돌아가는지 맞춰보라며 갈렙에게 질문한다. 답을 못하자 네이든 회장은 에바의 운영시스템이 블루북(검색엔진)이라고 말해주며 네이든 회장은 이런 이야기를 들려준다.

“바로 여기에 검색엔진의 특이한 점이 있는데, 검색엔진의 출현은 아직 내연기관이 발명도 되지 않은 세상에서 원유를 찾은 것과 같아. 가공이 전혀 되지 않은 상태라서, 그것으로 무엇을 할 수 있을지를 아무도 몰랐던 거야. 검색엔진에서 나의 경쟁자들은 검색엔진을 쇼핑이나 소셜미디어와 연계해서 돈을 버는 데에만 매달렸어. 그들은 검색엔진이 사람들이 무엇을 생각하고 있는 지를 보여주는 지도라고 생각했던거지. 하지만 사실 검색엔진은 사람들이 어떻게 생각하는지를 보여주는 지도였다구.”

이 영화는 검색엔진의 발전이 어떤 질의에 대한 최적의 답을 찾기 위해 활용되는 수준에서 멈추지 않을 것을 암시해준다. 검색엔진은 AI와 결합하여 전 세계의 모든 컴퓨터와 그 안의 콘텐츠를 연계하여 인간이 입력한 요구에 대한 반응이 아니라 어쩌면 자발적으로 생각하고 판단하여 우리가 원할 것을 요구하기도 전에 미리 제공해주거나 관련된 정보가 아니라 요구받은 그 서비스 자체를 제공하는 어떤 것이 될 것이라는 예언을 하고 있는 것일지도 모른다. 한발 더 나아간다면 검색엔진이 AI와 결합하여 스스로 자의식을 가지게 될지도 모른다.

물론 현재의 검색엔진은 아직 엑스마키나 속의 에바의 모습이나 레벨은 아니다. 하지만 구글이 2015년에 실행한 검색엔진 알고리즘 업데이트를 보면 그런 날이 멀지 않을 것 같다는 예감을 갖게한다. 자신들의 검색 알고리즘에 본격적인 기계학습 인공지능이라 할 수 있는 “랭크브레인(Rankbrain)”업데이트를 추가했기 때문이다.

검색엔진은 구글의 놀라운 투자와 노력을 통해 미래의 검색엔진을 향한 새로운 챕터에 들어서고 있는 것이다. 그리고 앞으로도 검색 알고리즘 업데이트란 방식으로 지속적으로 발전해 걸 것이다. 그래서 검색의 발전의 역사는 검색 알고리즘 변천의 역사라고 할 수 있다. 알고리즘이란 문제를 해결하기 위한 절차나 방법을 의미하는데, 크롤링, 인덱싱, 그리고 랭킹이라는 검색의 기본 기능 요소를 통해 정보를 찾는 이에게 그가 원하는 정보를 정확하고 빠르게 매칭해주기 위해 각 기능 요소별로 다양한 알고리즘을 채용해왔고 또한 이를 업데이트하면서 발전시켜왔다.

여기서 주목해야하는 것은 바로 알고리즘이란 것이 어떤 특정한 문제를 해결하려는 대응적 행위로 만들어지는 것이라는 점이다. 인터넷이 출현한 이후로 검색엔진이 보편화되고 검색결과 페이지가 가지는 상업적 가치에 사람들이 눈을 뜨게 되면서 자연스럽게 증가하고 고도화되는 스패밍 행위1가 검색엔진 알고리즘 발전의 원동력이 되어온 것이다.

검색엔진의 발전의 역사는 스패밍 행위를 막아내기 위한 검색엔진 알고리즘 업데이트의 역사라고 할 수 있다. 스패밍 행위와 싸움의 최전선에 서있는 검색엔진의 대표가 바로 구글이다. 이 싸움이 얼마나 치열한지는 구글의 알고리즘 업데이트의 기록을 보면 바로 알 수가 있다.

현재까지의 검색엔진 알고리즘의 발전을 필자는 크게 6단계로 구분하는데, 각 시기의 특징을 간략하게는 아래와 같이 정리할 수 있다.

(1) 정보검색의 시대(1945년-1988년)

인터넷 등장 이전까지의 정보 검색이라 불리던 때로서, 검색의 인덱싱 및 다양한 검색 기법과 관련한 알고리즘이 개발되던 시기.

(2) 웹검색의 탄생기(1989년-1996년)

웹의 탄생부터 구글의 등장 전까지의 시기로 이 시기에 비교적 작은 단위이지만 웹검색의 기본요소인 크롤링과 인덱싱 그리고 랭킹의 기본 알고리즘이 개발되던 시기

(3) 웹검색 성장기(1997년-2001년)

검색엔진이 사업적으로 큰 의미를 가지기 시작했으며 초기 단계의 다양한 스패밍 행위가 나타나던 시기로 검색 알고리즘을 통해 스패밍 행위에 대응을 시작

(4) 웹검색의 성숙기(2002년-2010년)

가이드라인을 제시하며 콘텐츠 제공자들과 검색결과를 개선하기 위한 노력을 강화하면서 한편으로 급속히 늘어나는 다양한 스패밍 행위에 대응하는 알고리즘을 개발과 업데이트가 본격적으로 진행된 시기. 이 시기에 스패밍 행위에 대한 대응 노하우가 빠른 속도로 쌓임.

(5) 모바일 검색 성장기(2011년-2014년)

스패밍 행위에 대한 이해와 전반적인 패턴 분석이 마무리되면서 일상적인 알고리즘 업데이트를 통해 스패밍 행위를 상시 알고리즘 업데이트를 통해 애자일하게 대응하는 체계로 바뀜. 한편 모바일 검색의 급속한 보급으로 모바일 환경에 최적화된 콘텐츠의 노출을 촉진하는 알고리즘이 강화됨.

(6) 인공지능 도입기(2015년-이후)

기존에 검색되었던 적이 없었던 쿼리나 모호성이 강한 쿼리 등에 대해 보다 양질의 검색결과를 낼 수 있도록 인덱싱과 랭킹에 기계학습 인공지능을 도입한 시기. 앞으로의 검색알고리즘의 업데이트는 그 양과 질에서 기존의 업데이트를 크게 넘어설 것임.

웹콘텐츠를 생산하는 쪽에서 바라본다면 2011년 이후 모바일 검색의 성장기에 있었던 검색 알고리즘의 업데이트, 특히 스패밍 행위에 대한 제제를 담은 업데이트인 판다와 펭귄 업데이트와 모바일 검색과 연관이 깊은 피존과 허밍버드 업데이트가 중요하다. 그리고 2015년에 있었던 랭크브레인 업데이트는 그 전에 있었던 허밍버드 업데이트에 부속된 업데이트나 인공지능을 가미한 첫 번째 업데이트라는 점에서 앞으로 다가올 검색엔진 알고리즘의 변화에서 가장 중요한 의미를 갖는 업데이트라고 할 수 있다.

위에서 언급한 것처럼 검색엔진은 인공지능과 만나면서 빠른 속도로 발전해가고 있다. 이런 검색알고리즘의 발전이 비단 구글만이 아니라, 마이크로소프트의 빙(Bing), 그리고 중국의 바이두(Baidu)와 360, 러시아의 얀덱스(Yandex) 등에서 빠르게 일어나고 있다. 하지만 한편으로 국내의 상황을 바라보면, 한때 많은 국민들이 좋아했던 네이버의 통합검색이 시대의 발전에 발맞춰 성장하지 못해 고객의 신뢰와 시장을 잃어가고 있는 모습에 답답함을 느끼게 된다. 아래에 정리한 표를 보면 누구나 느낄 수 있겠지만 검색알고리즘의 발전은 결코 단시간에 이룰 수 있는 일이 아니다. 해당 검색엔진의 환경적인 요소와 같이 변해가며 발전해야하기 때문이다. 그러나 검색알고리즘의 전체 발전 단계에서 현재 우리가 성취한 레벨은 아직 초기 단계이다. 따라서 늦었다고 생각하지 말고 이제부터라도 국내 검색엔진 기술을 가진 업체들이 이 분야에서 꾸준하게 노력을 기울여야한다는 주장을 하며 더욱 자세한 검색엔진 알고리즘의 변천의 역사에 대해서는 아래의 표로 갈음하고자 한다.

정보검색의 시대(1945년에서 인터넷 등장 이전까지)

1945 “정보검색(IR, Information Retrieval!)”이란 단어가 바너바 부쉬(Vannervar Bush)의 논문에서 처음 사용. 이후 1950년대 초반 1세대 컴퓨터가 등장한 시기에 미국에서 빈번히 사용됨
1949 워렌 위버(Warren Weaver), 앤드류 부스(Andrew D.Booth)에 의해 정보검색과 기계 번역에 대한 아이디어가 제시됨. 이 이론들은 1960년대에 이르러 시스템화 됨
1960s Free-text indexing기법이 보편화됨
1966 시릴 클레버돈(Cyril Cleverdon)에 의해 재현율, 정황율 기준이 확립됨
1968 제라드 살튼(Gerard Salton)이 다국어 검색 기법을 제시함. 관련성 피드백(Relevance feedback)등의 새로운 검색 기법 및 BRS라는 대용량 정보검색 시스템이 구현됨
1970s 전자문서의 시대로 검색시스템의 상용화가 이뤄짐. Dialog, Orbit, BRS등. 64개국 26,000개의 도서관을 묶은 세계 최대 규모의 도서관 네트웍 OCLC의 등장도 이 시기임. 이 시기에 데이터베이스 시스템이 등장하고 계층모델과 네트웍 모델을 기반으로 향후 관계형과 개체형 등으로 발전을 거듭. 데이터베이스는 데이터 관점에서 관리중심, 즉 결정구조를 중시한 SQL-MIS로 발전. 검색엔진은 정보관점에서 검색중심 즉 비정형 구조의 정보와 자유 검색 등을 발전시키는 방향으로 발전
1980s 관련 하드웨어 가격이 내려가고 원문 검색에 대한 사용자의 요구가 점점 증대. 이에 맞춰 본격적인 전문 검색엔진이 등장

웹검색의 탄생기(1989년에서 1996년까지, 구글 등장 이전까지)

1989 팀버너스리에 의해 월드와이드웹 제안. 팀버너스리가 직접 월드와이드웹의 프로토콜인 http, 마크업 랭귀지인 html, 웹브라우저이자 에디터인 Worldwideweb, 최초의 웹서버 소프트웨어인 CERN httpd, 최초의 웹서버이자 최초의 웹페이지인 http://info.cern.ch를 발표(이 때 팀버너스리가 개발한 서버나 소프트웨어들은 스티브잡스가 애플에서 쫓겨나고 서립한 NeXT사의 워크스테이션에서만 돌아갔다고 함)
1990 웹서비스 리스트가 늘어나는 웹서버들에 의해 부족하게 되자 맥길 대학(McGill University)에 재학 중이던 앨런 엠티지(Alan Emtage)가 최초의 인터넷 기반의 검색엔진이라 불리는 Archie를 개발해서 FTP(File Transfer Protocol)서버를 검색할 수 있게 해줌
1993 모자이크(Mosaic) 브라우저 론치. 몇 달 후에 MIT의 매튜 그레이(Matthew Gray)가 개발한 월드와이드웹 원더러(Wide Web Wanderer) 론치, 당시 웹서버의 수가 130개에 이름. 그리고 고퍼(Gopher) 서버에 올려진 자료를 검색하는 검색엔진으로 ‘베로니카(Veronica; Very Easy Rodent Oriented Net-Wide Index to Computerized Archives)’가 등장
1994 스탠포드 대학원(Stanford University)생이었던 제리 양(Jery Yang)과 데이비드 파일로(David Filo)가 디렉토리형 야후의 원형인 “Jerry and Daivd’s Guide to the World Wide Web”를 시작. 카네기멜론대학의 마이클 몰딘이 개발한 Lycos, 웹크롤러(www.webcrawler.com)초기 웹 검색엔진 시작. 당시의 웹서버가 2738개에 이름
1995 한글과 컴퓨터가 심마니를 론칭. 이 때 코시크(www.kor-seek.com)라는 한글 검색엔진 도 등장. 구글의 창업자 래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)이 스탠포드 대학에서 만남
1996 디지털이퀴프먼트사에서 운영했던 알타비스타 등장(DEC가 개발한 64비트 알파칩), 김성훈씨가 개발한 카치네(www.kachi.com), 와카노(www.wakano.com), 미스다찾니(www.mochanni.com)등 다양한 검색엔진들이 국내에 소개됨. 래리 페이지와 세그레이 브린이 구글의 원형이 되는 BackRub이라는 검색엔진의 공동 개발에 착수

웹검색의 성장기(1997년부터 2001년까지, 구글 등장 이후)

1997 세르게이 브린과 래리 페이지가 ‘Google.com’의 도메인을 등록. 아이디어랩의 빌그로스가 Goto.com(이후 오버쳐로 이름변경)이란 이름의 검색광고 회사 설립. 당시 웹사이트가 10만개를 넘어섬
1998 웹검색 서비스 구글 공개, 12월 ‘PC Magazine’에서 Top 100웹사이트 선정에서 검색엔진으로 선정되면서 구글을 ‘매우 관련성 높은 검색 결과를 표시하는 놀라운 재주’를 가진 회사로 소개됨
1999 한국 최적의 자연어검색 엠파스 등장, Goto.com 상장(이후 야후, 올더웹, 알타비스타, MSN, AOL, 라이코스 등과 검색 광고 계약을 체결)
2000 구글은 한국어, 일본어, 중국어 등 15개 언어로 확장, 350개의 광고주를 모아서 구글 애드워즈 개시(CPC 방식이 아님), 12월 구글 툴바(google Toolbar) 출시
2001 구글이 13억페이지를 인덱스. Goto.com이 오버추어로 이름 변경

웹검색의 성숙기(2002년부터 2010년까지, 검색 알고리즘의 발전과 스팸전쟁의 시작)

2002 구글 애드워즈가 Pay per click 방식을 도입. 페이지랭크 업데이트
2003

– 보스톤(Boston, 2003.02) : 알고리즘과 인덱스 리프레쉬를 월단위로 수행(SES Boston 컨퍼런스에서 발표)

– 카산드라(Cassandra, 2003.04) : 링크 퀄리티 이슈, 즉 동일 오너가 보유한 도메인으로부터의 다량의 링크 문제와 히든 텍스트와 링크에 대한 보완 알고리즘

– 도미닉(Dominic, 2003.05) : 구글 크롤링 로봇 로직과 백링크 인식과 관련한 업데이트

– 에스메랄다(Esmeralda, 2003.06) : 구글 댄스라 불리던 월단위의 인덱스 재조정이 “Everflux”란 이름으로 변경되면서 구글의 주요 기초 구조에 큰 변화가 있었음

– 프릿츠(Fritz, 2003.07) : 월단위 인덱스 재조정이 종료되고 상시 지속적인 업데이트 방식으로 변경되면서 인덱스가 일단위로 바뀜

– 서플리멘탈 인덱스(Supplemental Index, 2003.09) : 더 많은 웹 도큐멘트를 인덱스하면서도 퍼포먼스상의 희생이 없도록 일부 결과를 Supplemental Index로 나눠 처리

– 플로리다(Florida, 2003.11) : 키워드 스터핑 등의 이전 시대(90년대)의 SEO 기법 등에 대한 패널티 성격의 업데이트

– 오픈텍스트, 알타비스타, 잉크토미, 구글 등 타사의 검색엔진을 이용하던 수작업을 통해 생성되는 디렉토리 서비스의 대표주자 야후가 키워드 광고 업체인 오버추어(Overture)인수 후 자체 검색엔진 개발 시작

2004

– 오스틴(Austin, 2004.01) : 보이지 않는 텍스트나 메타 태그 스터핑 등의 기법을 쓰지만, 플로리다 업데이트에서 제거하지 못했던 웹페이지들에 대한 처리. Hilltop이란 알고르즘을 통해서 페이지 연관성을 좀더 중요하게 고려하기 시작

– 브랜디(Brandy, 2004.02) : 대규모의 인덱스 확장, 동의어 등을 파악하거나 검색 의도를 이해하게하는 LSI(Latent Semantic Indexing)기법의 도입, 앵커 텍스트의 연관성에 보다 주목하는 알고리즘

– 8월에 구글 IPO

2005

– 노팔로우(Nofollow, 2005.01) : 아웃바운드 링크를 통해 랭크에 영향을 주려는 시도를 차단하기 위해서, 야후, 마이크로소프트와 함께 구글이 발표.

– 알레그라(Allegra, 2005.02) : 의심스러웠던 링크들에 대한 패널티 시행 및 LSI 변화 등이 있었던 것으로 보이나 명확하지는 않음.

– 버번(Bourbon, 2005.05) : 중복 콘텐츠와 캐노니컬(www vs non-www)에 대한 업데이트.

– 개인화 서치(Personalized Search,2005.06) : 서치 히스토리를 기반으로 한 개인화 로직의 반영.

– XML Sitemaps(2005.06) : 웹마스터 툴에 XML형식의 사이트맵을 업로드함으로서 크롤링과 인덱싱의 효율을 제고

– 재규어(Jagger, 2005.10) : 저품질의 링크, 특히 상호 링크나 링크 팜 그리고 유로 링크에 대한 제재를 위한 업데이트.

– 구글 로컬/맵(Google Local/Maps, 2005.10) : 2005년 3월에 오픈한 구글 로컬 비즈니스 센터(LBC)에 구글 맵 데이터를 통합하는 업데이트

– 빅대디(Big Daddy, 2005.12) : URL캐노니컬의 처리와 리다이렉트 등 몇 가지 테크니컬 이슈 등을 처리하기 위한 업데이트로서 인프라스트럭처에 대한 업데이트인 관계로 이후 수개월에 걸쳐 진행됨

2006 서플리멘탈 업데이트(Supplemental Update, 2006.11) : 서플리멘탈 인덱스에 변경을 준 업데이트로 필터링 된 웹 페이지들의 처리에 관한 업데이트임. 구글은 패널티는 아니라고 주장함.
2007 유니버설 서치(Universal Search, 2007.5) : 전형적인 알고리듬 업데이트는 아니지만, 구글이 기존의 웹서치 결과에 뉴스, 비디오, 이미지, 로컬 검색 결과를 통합하면서 기존 웹검색 검색결과 페이지의 기본 포맷에 큰 변화.
2008 구글 서제스트(Google Suggest, 2008.08) : 검색어 입력창에 단어를 입력하는 순간 관련된 검색어를 드롭박스 형식으로 보여주는 서제스트 기능 개시. 향후 입력중인 구글 검색어에 맞춰 검색 결과가 바뀌는 구글 인스턴트의 초석이 됨
2009

– 캐노니컬 태그(Rel-canonical tag, 2009.02) : 마이크로소프트, 야후와 함께 구글이 캐노니컬 태그를 지원하기로 발표. 이를 통해서 방문자들에게는 영향을 주지 않으면서 검색 로봇에게 URL 정규화에 대한 신호를 줄 수 있게 됨.

– 빈스(Vince, 2009.02) : 빅 브랜드들의 브랜드 관련 키워드의 검색 결과에서 이들 브랜드의 정보가 명확히 검색결과가 나오게 한 업데이트로서 광고주들의 입장에서는 중장기적으로 큰 임팩트가 있었던 업데이트.

– 카페인 프리뷰(Caffeine, 2009.08) : 크롤링의 속도를 높이고 인덱스 확장 그리고 인덱싱과 랭킹에의 반영을 실시간으로 처리할 수 있는 인프라스트럭처 레벨의 업데이트인 카페인의 프리뷰 성격의 업데이트. 카페인 업데이트의 최종 개시는 북미의 경우 2010년 초부터 여름까지 지속됨.

– 리얼타임서치(Real-time Search, 2009.12) : 트위터 피드, 구글 뉴스, 새롭게 인덱스 된 콘텐츠 그리고 다른 많은 정보원들을 특정 영역의 키워드 검색결과 페이지에 통합.

2010

– 메이데이(May Day, 2010.05) : 롱테일 트래픽에 영향을 준 업데이트로서 저품질 콘텐츠(Thin Contents)를 가진 큰 스케일의 웹사이트에 상당한 트래픽 저하를 가져다 준 업데이트로 향후 판다 업데이트의 출현을 암시하는 듯한 업데이트

– 카페인(Caffeine Rollout) : 구글의 검색 속도를 높임과 동시에 크롤링과 인덱싱을 훨씬 강하게 연계시킴으로서 인덱스 된 내용이 50% 이상 신선해진 결과를 가져온 업데이트

– 브랜드 업데이트(Brand Update, 2010.08) : 검색 결과에 동일한 도메인으로부터의 검색결과를 한두 개 이상 보여주지 않던 다양성룰이 브랜드 키워드와 관련해서는 조정이 되어 명확하게 특정 브랜드와 관련한 정보를 찾는 의도의 키워드의 경우 그 검색 결과에 특정 도메인으로부터의 결과를 다수 보여주도록 조정된 업데이트

– 구글 인스턴트(Google Instant, 2010.09) : 검색어가 입력 중인 상태에서 바로 검색결과가 보여질 수 있도록 한 업데이트.

– 인스턴트 프리뷰(Instant Preview, 2010.11) : 검색결과에서 랜딩페이지의 프리뷰를 바로 볼 수 있게 한 업데이트

– 소셜 시그널(Social Signals, 2010.12) : 트위터와 페이스북의 데이터를 포함해서 랭킹에 반영할 수 있도록 소셜 시그널을 이용하도록 한 업데이트.

모바일 검색의 성장기 상시화된 스패밍 대응 업데이트와 모바일에 대한 대응의 시기

2011 판다(Panda, 2011.04) : 저품질 콘텐츠에 대한 패널티 알고리즘을 담은 업데이트로서 대량의 콘텐츠 팜과 높은 바운스율 등을 가진 낮은 품질의 콘텐츠 등에 대한 패널티 로직을 강화
2012

– 일곱 개 결과의 검색결과 페이지(7-Result SERPs, 2012.08) : 10개의 검색결과가 보여지는 것이 아니라 7개의 검색결과만 검색결과 페이지에 보여지도록 한 업데이트로 전체 검색어가 아닌 약 18%의 키워드에서 이런 현상이 나타나는 것으로 확인됨.

– 팽귄(Penguin, 2012.04) : 판다와 함께 패널티 관련 업데이트로 가장 유명한 알고리즘인 펭귄은 키워드 스터핑을 포함한 다양한 스패밍 요소들에 대한 패널티 로직을 고도화. 특히 낮은 품질의 링크나 검색엔진최적화를 지나치게 고려한 것으로 보이는 부자연스러운 앵커텍스트 분포를 가진 콘텐츠에 대한 처리 등의 로직 강화됨.

2013

– 허밍버드(Hummingbird, 2013.08) : 대화 서술형의 자연어 검색알고리즘을 지원하는 시멘틱 서치와 날리지 그래프 그리고 모바일 음성 검색 등에 대한 강화를 위한 코어 알고리즘 업데이트. 특히 모바일 음성검색

– 페이데이 론(Payday Loan, 2013.11) : 특별하게 스팸이 심한 “단기 사채”와 “포르노” 등의 검색 결과에 대응하기 위한 업데이트.

2014 피존(Pigeon, 2014.07) : 검색결과와 로컬 디렉토리 알고리즘, 그리고 날리지그래프와의 연계도 강화하는 업데이트. 검색자의 위치까지를 고려하기 시작

인공지능 도입기 검색알고리즘과 기계학습 인공지능의 만남

2015 랭크브레인(Rankbrain, 2015.10) : 콘텐츠의 맥락을 이해하기 위해 기계학습이 사용되었으며, 2013년에 발표된 허밍버드의 신규 구성요소로서 발표된 업데이트임. 이 업데이트를 통해 구글은 모호한 쿼리와 처음 본 쿼리에 대해서도 만족스러운 검색결과를 제공할 수 있는 가능성이 높아졌으며, 랭킹에 큰 영향을 미치는 콘텐츠 내부 요소와 링크 등에 의한 외부 요소에 이어 세 번째로 큰 영향을 미치는 요소로 자리 잡게 될 것으로 예상됨.

———————————————————————————————-

  1. 의도된 메시지의 노출을 강화하고자 검색 결과의 순위에 영향을 미치기 위해 검색엔진의 가이드라인을 위반하는 행위를 말함. 검색엔진의 가이드라인을 준수하는 범위에서 검색결과에 긍정적인 영향을 미치려는 노력을 검색엔진최적화(Search Engine Optimization, SEO)함. 스패밍 행위를 그래서 블랙햇SEO라고도 부름 [본문으로]
저자 : 박세용

어센트코리아 대표