빅데이터 시대의 정보격차, 데이터 리터러시로 이겨내자
그야말로 데이터 시대이다. 데이터가 돈이 되고, 권력이 되고 있다. 이제 데이터는 더 이상 특정한 산업 분야를 지칭하는 것을 넘어서 인터넷 경제와 같이 경제사회 전반에서 혁신을 주도하는 원동력으로 급부상하고 있다. 디지털 경제 뿐만 아니다. 이미 정부 차원에서는 데이터 기반의 국정혁신 전략을 고심하고 있고 사회 현안에 대한 선제적 대응 수단으로 빅데이터를 적극 활용하고 있다. 더 나아가 국민 개개인을 대상으로는 맞춤형 서비스 제공을 통한 삶의 제고를 지향하는 정책들도 쏟아지고 있다. 유명한 IT컨설팅 기관인 가트너(Gartner)가 매년 발표하는 ‘10대 전략 기술’ 변화상을 살펴보면, ‘빅데이터’와 같이 지난 5년 간 데이터라는 주제가 늘 포함되어 있고 점차 그 중요성이 커지고 있음을 알 수 있다.
이처럼 데이터의 산업적․사회적 가치가 인정되면서 그 활용 사례도 증가하고 있다. 마케팅, 의료 분야는 물론 관광이나 복지 등 공공 서비스 차원에서도 빅데이터 활용 범위가 점차 넓어지고 있다. 특히 사물인터넷(IOT)과 같이 임베디드 시스템(embedded system)이 생성하는 데이터가 폭증함에 따라 정형·비정형 데이터 분석이 언제든지 가능해지면서 데이터 분석 기술의 사용 주체도 보편화될 것으로 전망된다. 심지어 인간의 감정과 마음까지 데이터 처리가 가능해지면서 사상 유례 없는 지능화 된 인터넷 서비스도 대거 출현하고 있다. 이처럼 데이터에 의한 의사결정이 일상화 될 경우, 오늘날의 포스트 정보사회, 또는 초연결사회는 데이터 없이는 사회가 제대로 작동하지 않는 사회, 즉 ‘데이터 기반 사회(data-based society)’라고도 불릴 수도 있을 것이다.
그런데 문제는 데이터 기반 사회가 본격화되고 데이터의 권력 자원화가 진행될수록 또 다른 차원의 정보 격차, 즉 ‘데이터 격차’ 또는 ‘데이터 활용 격차’가 심각한 사회문제로 대두 될 것이라는 우려이다. 물론 데이터의 분석 및 활용이 보편화될수록 사회 전반의 개방화 및 민주화에 기여하는 측면도 있겠지만, 데이터를 많이 가지고 또 데이터를 잘 분석, 활용하는 사람들이 그렇지 않은 사람들에 비해 더 많은 권력을 차지할 가능성이 높아지기 때문이다. 정보의 개념이 사물과 인간에 대한 데이터들의 결합과 분석으로 만들어진 것이라는 점에서 기존 정보격차의 개념 및 정책 틀에 데이터 격차 문제가 충분히 포함될 수도 있지만, 데이터의 범위와 유형이 광범위해지면서 데이터의 수집, 생산, 가공, 분배의 가치 영역에서 불평등과 격차가 더욱 심화되기 때문에 데이터 격차 문제에 대한 별도의 정책적 대응의 필요성은 커지게 마련이다.
그래서 ‘데이터 리터러시(data literacy)’가 빅데이터 시대의 새로운 정보 격차로서의 이른바 ‘데이터 격차’를 극복하기 위한 정책 방향의 하나로 부각되고 있다. 데이터 리터러시란 한마디로 데이터를 분석하여 목적에 맞게 활용할 수 있는 능력을 말한다. 구글의 수석 이코노미스트 할 베리안(Hal Varian)은 누가 어떤 비즈니스에 종사하든 관계없이 앞으로 10년 간 가장 중요한 비즈니스 역량으로 데이터 분석 활용 능력을 강조하기도 했다. 미국의 오바마 대통령이 학교마다 소프트웨어 교육 또는 프로그램 개발 교육을 늘릴 것을 촉구하면서 이른바 ‘코드 리터러시(code literacy)’, 즉 코드를 읽고 쓸 줄 아는 능력에 대한 정책적 관심을 강조한 이유도 그런 배경에서 비롯된 것이다.
본래 데이터 리터러시의 전통적 관점은 통계 그래프나 차트를 읽고 이해하는 능력, 즉 데이터의 수량적-통계적 측면만을 강조했지만, 단순히 ‘통계적 읽고 쓰기’에만 국한되는 것이 아니다. 데이터를 통계적, 기술적으로 처리하는 능력을 넘어 다양한 데이터에서 가치를 뽑아내고 그것을 해석, 시각화, 잘 전달하는 능력까지 포함한다. 단순히 수치 뿐만 아니라 텍스트나 이미지를 포함한 데이터를 발견하고 조작하고 관리하고 해석하는 역량인 셈이다. 그래서 데이터 리터러시는 ‘데이터에 대한 지식을 소비하고 조리 있게 생산하고 비판적으로 생각하는 능력’으로도 이해할 수 있다. 헝가리의 유명한 정보학자인 티보르 콜테이(Tibor Koltay) 교수가 정보 리터러시, 통계 리터러시, 미디어 리터러시, 디지털 리터러시 등 다양한 리터러시들 중에서도 비판적 사고 능력과의 융합이라는 측면에서 데이터 리터러시가 매우 중요하다고 강조한 것도 그러한 맥락에서이다.
그러나 우리나라의 경우, 데이터 리터러시에 대한 체계적 연구 및 관련 정책적 대응이 상대적으로 미흡한 것으로 보인다. 여전히 기존의 정보 격차 해소를 위한 정책이나 사업들은 하드웨어적 요소에 집중되어 있고, 개인과 사회가 직면하는 문제해결을 위한 데이터의 분석 및 활용 등 소프트웨어적인 측면은 뒤떨어져 있는 실정이다. 최근에서야 소프트웨어 교육의 중요성이 커지기 시작했지만 실제 대부분의 교육 현장에서 데이터 리터러시는 교과 과정의 측면에서 보면 제대로 활성화되어 있지 못하다.
또한 데이터 리터러시 제고를 위해서는 데이터 접근 환경이 개방적이어야 하는데, 여전히 데이터 생산자(소유자) 중심의 생태계 구조로 인해 활용도 높은 공공 데이터 및 민간 데이터에 대한 이용자(주체)의 접근이 제한적이라는 평가이다. 그 결과 데이터를 소비하는 이용자(주체)의 역량 보다는 데이터 생산자(소유자)의 활용 가치 위주로 우리나라의 데이터 활용 생태계가 구성되고 있는 실정이라고 볼 수 있다. 바로 이러한 상황은 앞으로 이용자 즉 국민 참여에 기반하여 데이터 리터러시를 높이는 방향으로 정책이 요구됨을 함축한다.
무엇보다도 통계 뿐만 아니라 디지털 미디어까지 포함한 보다 종합적이고 체계적인 데이터 리터러시 교육 시스템을 구축해야 한다. 이미 수년 전부터 OECD와 UN이 시민들의 통계 역량을 강조한 바와 같이 통계 리터러시 제고도 필요하고, 인포그래픽의 확산 등 최근에 부각되고 있는 정보 시각화 또는 데이터 시각화(data visualization) 등에 대응하여 데이터 기반의 시각적 문해력(visual literacy) 증진을 위한 방안도 모색할 필요가 있다. 물론 더 중요한 것은 데이터 폭증의 시대에서 이용자의 비판적 관점에 기초한 적극적인 데이터 의미 분석 능력까지 포함해서 데이터 기반의 시민적 역량으로까지 발전하는 것이다. 이는 데이터 리터러시가 문제해결 중심의 교육 및 학습 과정으로 전환하는데 중요한 기반이 되어야 한다는 뜻이다. 우리나라 실정에 맞는 데이터 리터러시 모형의 개발이 시급한 이유인 셈이다.
또한 데이터 리터러시를 높이기 위해서는 데이터를 잘 찾아 관리/활용하는 개인 역량을 제고하기 위한 다양한 방안들이 필요하다. 다양한 내·외부 데이터를 접해보고 정형·반정형·비정형 데이터의 특성 및 처리(Handling) 방법을 습득하며, 다양한 출처의 데이터 자원을 파악하고 창조적으로 조합하는 방법을 끊임없이 고민해야 하기 때문이다. 데이터의 양적 폭발에 따른 ‘데이터 큐레이션(data curation)’이 중요한 역량으로 대두 되는 것은 그러한 이유인데, 방대하고 복잡한 데이터에서 노이즈를 제거하고 ‘질’ 높은 정보를 선별해 발굴하는 능력이 중요하다는 것이다.
끝으로 데이터 리터러시 제고와 관련해서 가장 중요한 정책적 과제는 이용자들이 자발적으로 데이터를 분석, 활용할 수 있도록 환경을 조성하는 것이다. 물론 이용자들이 데이터를 개방적으로 활용하기 위해 데이터 소유자들을 격려하도록 규범, 인센티브, 규제 등을 창출하는 것도 중요한 정책의 역할이 되겠지만, 그보다는 이용자 참여 기반의 데이터 플랫폼을 구축하는 것도 고민할 필요가 있을 것이다.
예컨대 네이버, 다음 등 국내 주요 포털 사이트를 통해 데이터 분석 및 활용 서비스를 제공할 수 있다. 기본적인 통계 분석 및 시각화 온라인 서비스를 제공하고 더 나아가 서비스 활용 간 업로드한 사용자 데이터 중에서 공개에 동의한 ‘공개 데이터 셋’을 축적하여, 다른 사용자들도 검색 및 활용 가능하게 하여 다양한 데이터를 접목시켜서 탐색․분석할 수 있는 서비스를 제공할 수도 있다. 또는 현재 공무원 대상의 빅데이터 분석 및 활용 서비스가 제공되고 있는 ‘빅데이터 공통기반 분석 플랫폼’을 대국민 서비스로 확대 개편하여 누구나 참여 가능한 분석 플랫폼으로 구축할 수도 있을 것이다.
빅데이터 시대를 살아가는 우리의 데이터 리터러시 역량은 여전히 미흡하기 짝이 없다. 오히려 글로벌 ICT 기업들의 압도적 영향력 하에서 우리나라의 유용한 데이터들이 외국 기업들의 중요한 자원으로 활용되는 현실이 반복되고 있다. 그래서 일부 학계에서는 ‘데이터 주권’의 문제를 제기하기도 한다. 물론 데이터 주권은 외국 기업에 대한 배타적, 폐쇄적 대응 방식이 아니라 우리나라 국민들의 데이터 리터러시를 키우는 문제로 접근할 필요가 있다. 국민 누구나 일상생활에서 직면하는 데이터를 수집, 분석, 의미 부여함으로써 유의미한 문제를 제기하고 답을 구할 수 있는 능력으로서 말이다. 그런 점에서 오늘날 데이터 기반 사회에서 데이터 리터러시는 반드시 개발되어야 할 중요한 시민적 기술이 되고 있다고 해도 과언이 아니다.