빅데이터
정용찬의 <<빅데이터>>
나보다 나를 더 잘 아는 너는 누구인가?
점쟁이나 알 수 있는 일이었지만 요즘은 빅데이터가 그 자리에 앉았다. 페이스북과 포털의 사용 내용, 시시티비의 동영상, 마트의 쇼핑 목록, 음식점 계산서, 자주 가는 단골집과 상복하는 약의 이름까지 알고 나면 나의 내일을 예언하는 것은 식은 죽 먹기다.
우리나라 빅데이터는 사정이 어떤가?
통신회사의 한 개 업체 하루 데이터 전송량이 1페타바이트 정도다. 미국 의회도서관 소장 인쇄물의 100배에 해당하는 분량이다. 큰 데이터 아닌가.
빅데이터를 규정하는 3대 요소가 있나?
크고 다양하고 빠르다. 규모가 크다. 숫자 문자 영상을 모두 포함하는 다양한 형태다. 생성 속도가 과거와 비교할 수 없을 정도로 빠르다.
빅데이터의 중요성은?
미래를 예측할 수 있다. 데이터 속에 답이 있다.
오바마가 빅데이터로 대통령이 되었나?
후보 선거 캠프에서 가장 먼저 한 일이 데이터분석팀 가동이었다. 재선 캠프 본부장은 기업에서 고객 데이터를 분석하던 전문가였고 “선거운동의 일거수 일투족을 수치화했다”고 말했다. 선거 캠프는 데이터를 분석해 유권자 성향별로 독려 메시지를 만들었다. 유명 인사 성향을 분석해 누구와 어떻게 접촉할 것인지도 파악했다. 재선에 성공했다.
데이터는 어떻게 만드나?
출근길에 스마트 기기로 뉴스를 검색하고 동영상을 이용하면 데이터로 저장된다. 아파트와 거리, 회사에 설치된 CCTV는 내가 다닌 경로를 영상으로 일일이 기록한다. 대형 마트서 신용카드로 결제하면 우리 가족의 일주일치 식단이 그대로 기록으로 남는다. 생활이 데이터다.
빅데이터는 내 생활과 무슨 관계가 있는가?
당신이 집 근처 마트를 지나갈 때 “냉장고에 생수가 떨어지지 않았나요? 1+1 행사를 놓치지 마세요”라는 문자가 휴대전화로 날아온다. 마트에 기록된 구매 주기와 스마트폰 위치정보를 활용한 빅데이터 활동이다.
빅데이터는 기업용인가?
아니다. 정부와 공공 부문의 대변화를 가져올 수 있다. 캐나다의 한 병원은 미숙아 모니터링 장비에서 생성되는 수천만 건의 생리학 데이터를 분석해 생존율을 획기적으로 높였다.
빅데이터에서 유용한 정보를 추출하는 방법은?
통계학의 분석방법론, 컴퓨터 공학을 활용할 수 있다. 중요한 건 분석 능력과 해당 분야 지식과 경험의 결합이다.
빅데이터는 과학인가?
융합과학이다. 통계학, 컴퓨터공학, 인문학과 사회과학, 해당 분야 지식의 결합이 필요하기 때문이다.
복잡한 데이터를 읽어 내는 방법은?
데이터의 시각화다. 아무리 복잡한 수식이라도 도표나 그래프로 나타내면 거대한 데이터의 특성을 쉽게 파악할 수 있다. 만국 공통어인 화장실 표지판이나 교통 표지판을 생각해 보라.
컴퓨터 용량 문제는 어떻게 해결하나?
여러 대의 컴퓨터에 업무를 나누는 분산 처리가 필수다. ‘클라우드 컴퓨팅’은 빅데이터의 핵심 구성 요소다.
데이터의 저장과 유통은 어떻게 하고 있나?
‘데이터센터’는 빅데이터를 저장하고 유통시키는 핵심 인프라다. 저장하고 처리해야 할 데이터가 크기 때문에 데이터센터도 수만 대의 컴퓨터와 통신장비, 저장장치를 설치한 대규모 시설일 수밖에 없다. 정전 대비와 절전이 가장 중요하다.
빅데이터 시대의 경쟁력을 결정하는 요인은?
대량의 데이터를 수집·분석할 수 있는 하드웨어가 구축돼야 한다. 수학·공학적인 능력과 경제학·통계학·심리학 등 다방면에 능통한 인재도 필요하다. 빅데이터 처리 인프라 개발과 분석, 플랫폼 구축을 위한 시스템 엔지니어와 데이터 해석력을 갖춘 인재 양성을 위한 교육과정 개설이 시급하다.
정보 이용에 제약은 없나?
정부와 기업이 보유한 데이터는 개인으로부터 만들어진 것임에도 불구하고 이용하려면 제약이 심하다. 정보 불평등이다. 사회 공동 자산인 데이터의 부가가치를 높이려면 정부가 생산하는 데이터를 우선 개방하고, 민간 부문에서 생산하는 데이터의 공동 활용 방안을 모색해야 한다.
사생활 침해 아닌가?
지난해 8월 미국 연방거래위원회는 구글이 맞춤형 광고 제작을 목적으로 애플의 전용 웹브라우저 ‘사파리’ 고객의 개인정보를 무단으로 수집한 것과 관련해 약 253억 원의 벌금을 부과했다. 많은 기업들이 비즈니스 전략으로 서비스 이용자들의 동의와 무관하게 각종 개인정보를 수집하고 있다.
우리 사생활은 안전한가?
곳곳에 설치된 CCTV에 일상이 찍히고, 자동차 블랙박스에 움직임이 기록된다. 스마트폰 대중화와 SNS 활성화로 개인의 사소한 대화까지도 수집·분석된다. 개인정보 유출, 지적재산권 보호를 위한 안전망은 매우 취약하다.
우리의 심리 생활은 안전한가?
페이스북이나 트위터 이용자는 자신의 관심사와 정치 성향은 물론 어떤 사람들과 관계를 맺고 있는지도 드러난다. 이런 정보를 모으면 그 사람이 어떤 유형의 라이프스타일에 속하는지 이번 선거에서 누구에게 투표할지도 예측할 수 있다.
이 책은 무엇을 설명하는가?
빅데이터의 정의와 활용, 기술, 마이닝, 데이터 마이닝, 데이터 시각화, 클라우드 컴퓨팅, 데이터센터, 빅브라더 등 빅데이터의 모든 것을 담았다. 빅데이터를 정확하게 이해할 수 있고 효과적 활용 전략을 배울 수 있다.
당신은 누구인가?
정용찬이다. 정보통신정책연구원 방송미디어연구실 연구위원이다.