책소개
데이터를 매개로 한 신생태계 ‘데이터 경제’ 체제에서는 화폐나 부동산과 다름없는 가치를 지닌 대량의 데이터를 확보하는 것뿐 아니라 이를 처리하고 분석하는 능력이 경쟁력의 핵심 요소다. 검색 포털에서 검색어를 입력할 때 내가 원하는 정보가 정확하게 제시된다거나, 인터넷 쇼핑몰이나 동영상 사이트에서 내가 좋아할만한 상품이나 동영상을 추천해주는 시스템은 내장된 알고리듬에 기초하고 있다. 금융기관에서 대출을 받을 때도 내 금융 거래에 기초한 알고리듬이 대출 여부를 결정한다.
알고리듬이 처음부터 인공지능을 염두에 두지는 않았지만 궁극적인 지향점은 인공지능이다. ‘알고리듬’이란 주어진 문제를 풀기 위한 절차다. ‘인공지능’은 단순히 계산만 하는 컴퓨터가 사람처럼 복잡한 판단을 할 수 있는 지능을 갖는 컴퓨터로 진화한 것을 의미한다. 외국인이 한국 작가가 쓴 소설을 읽으려면 한글을 배워야 하듯이 인공지능을 이해하기 위한 출발점이 바로 알고리듬이다.
알고리듬이 우리 생활 전반에 뿌리 내린 지금, 알고리듬이 가치중립적이며 우리에게 편의를 제공할 것이라는 낙관론과 알고리듬은 기존의 인식을 확대재생산하여 편견과 차별을 악화시킬 것이라는 비관론을 넘어서려면 알고리듬에 대한 정확한 이해가 그 출발이다.
지은이
정용찬
정보통신정책연구원 ICT통계정보연구실 데이터사이언스그룹장이며 국가통계위원회 데이터분과위원이다. 고려대학교 통계학과를 졸업하고 같은 대학원에서 통계학 석·박사학위를 받았다. 한국국방연구원 선임연구원, DNI컨설팅 CRM담당이사, 방송위원회 연구센터 연구위원으로 일했다. 시청률검증제도개선위원회 위원, 방송통신위원회 미디어다양성위원회 분과위원, 경인지방통계청, 문화관광부·영화진흥위원회·출판문화산업진흥원·정보화진흥원 통계조사 자문위원, 한국인터넷진흥원 인터넷·정보보호통계 자문위원, 과학기술정보통신부 ICT통계품질진단 전문가로 활동 중이다. 저서로 『통계법의 이해』(2019), 『생각이 크는 인문학 15. 빅데이터』(2018), 『빅데이터』(2013), 『미디어 산업통계』(2013), 『미디어 소비통계』(2013), 『시청률조사』(2013), 『미디어통계의 이해』(2008), 『통계로 본 대한민국』(2007), 『SAS고급 프로그래밍』(공저, 2002) 등이 있다. 연구보고서로 “빅데이터 활용통계의 국가통계 승인관리방안 연구”, “정책지원 강화를 위한 국가통계 관리체계 개선 심층연구”(2018), “4차 산업혁명 시대의 데이터 거버넌스 개선 방향”(2018), “4차 산업혁명 시대의 데이터 경제 활성화 전략”(2017), “조사환경 변화에 대응한 ICT 통계 생산체계 혁신 방안 연구”(2017), “빅데이터 산업과 데이터 브로커”(2015), “빅데이터 혁명과 미디어 정책 이슈”(2013) 등이 있다.
차례
01 알고리듬이란
02 컴퓨터 프로그래밍과 알고리듬
03 인공지능과 머신러닝
04 디프러닝
05 검색 알고리듬
06 추천 알고리즘
07 자연어처리와 텍스트마이닝
08 알고리듬 예술
09 알고리듬, 기회와 차별
10 알고리듬 투명성
책속으로
구글이나 네이버에서 검색을 할 때 알고리듬은 우리가 찾으려는 정보가 무엇인지를 판단해서 가장 적절한 결과를 알려준다. 온라인 서점에서 책을 살 때에도 추천 알고리듬은 우리가 관심을 가질 만한 책을 자동으로 제안한다. 대학 입학을 위해 지원을 하면 해당 대학은 수험생의 성적과 활동사항을 알고리듬으로 계산해서 뽑을지 말지를 결정한다. 만약 돈이 필요해서 대출을 하려면 평소에 금융기관과의 거래를 통해서 쌓인 실적을 토대로 계산한 신용점수 알고리듬이 우리의 신용도를 평가한다.
01-“알고리듬이란” 중에서
머신러닝은 지도학습과 비지도학습으로 구분한다. 지도학습이란 기계가 학습을 할 데이터에 사람들이 미리 정의해 놓은 정보가 포함되어 있는 경우를 말한다. 즉 개와 고양이를 찍은 사진으로 구성된 학습 데이터가 ‘개’와 ‘고양이’라는 정의를 포함하고 있다면 지도학습이다. 컴퓨터의 입장에서는 정의가 포함된 데이터로 학습을 하면서 개와 고양이를 구분하는 최적의 알고리듬을 찾아 나가므로 마치 컴퓨터가 사람에게 지도를 받은 것과 같기 때문이다. 비지도학습은 학습용 데이터에 동물의 정의가 포함되어 있지 않다. 따라서 컴퓨터가 사물에 대한 개념 정의를 모르는 상태에서 개와 고양이를 식별하는 알고리듬을 구현한다.
02-“인공지능과 머신러닝” 중에서
초검색엔진은 웹크롤링, 색인, 추출의 세 단계로 작동한다. 웹크롤링은 크롤러라고 부르는 소프트웨어가 새로운 웹 페이지를 찾아 내용을 복사하는 과정이다. 색인 과정은 검색을 정확하고 빠르게 처리하기 위해서 크롤링에서 찾은 모든 정보와 그 정보가 수록된 사이트 주소를 짝지어 데이터베이스에 저장한다. 어떤 정보가 어디에 있는지를 확인할 수 있는 일종의 검색용 사전을 만드는 과정이다. 추출은 검색하려는 단어가 포함된
제목, 주제 등을 추출하는 과정이다.
05-“검색 알고리듬” 중에서
텍스트 마이닝에서 가장 기초적인 방법은 단어의 빈도를 측정하는 방법이다. 단어빈도는 문서에서 특정 단어나 표현이 얼마나 많이 나타났는지를 측정한다. 단순히 문서에서 출현하는 단어의 빈도만으로는 중요도를 측정하는 데 한계가 있다. 접속사라든지 일반명사는 문장에서 자주 등장하지만 중요한 단어는 아니기 때문이다. 이를 보완하기 위한 개념이 역문헌빈도다. 주어진 문헌에서 특정 단어가 공통적으로 출현하는 빈도를 문헌빈도라고 하는데, 역문헌빈도는 문헌빈도의 역수에 로그변환을 한 값이다.
07-“자연어처리와 텍스트마이닝” 중에서