책소개
인간의 지적 능력 중 대부분이 언어와 연관된 언어지능과 관련되어 있다. 현재 일상적 언어 데이터 분석은 매우 중요한 빅데이터 분석의 대상이다. 과거 경영 및 마케팅 조사 방법론에서 큰 부분을 차지하던 설문조사 대신, 이제는 인터넷 블로그나 SNS 등과 같은 텍스트 유형의 데이터를 통한 분석이 주류를 이루고 있다. 이 책은 이러한 흐름에 발맞춰 현재 데이터사이언스와 직접적으로 연관된 지능 관련 주제를 다룬다.
지은이
김동성
한국외국어대학교 영어과를 졸업하고 뉴욕대학교에서 언어학(Linguistics)으로 석사학위를, 고려대학교 언어학프로젝트 개발, 기획과 마케팅 등 다양한 일을 해 왔다. 현재 이화여자대학교 인문과학대학 인문융합기반 인문테크놀로지 특임교수로 근무하고 있다. 고려대학교 언어정보연구소 연구교수, 한국외국어대학교 ‘언어중립적온톨로지연구팀’ 연구원을 지냈다. 고려대학교, 한국외국어대학교, 연세대학교에 출강한 바 있다. 저서로 『언어 연구를 위한 통계학』(2010), 『언어 처리를 위한 Perl』(공저, 2008) 등이 있다.
차례
01 언어 빅데이터 코퍼스
02 음성처리
03 정보검색
04 자동번역
05 문서자동요약
06 사전, 온톨로지
07 자동대화시스템
08 컴퓨터를 활용한 언어학습
09 기계학습과 언어습득
10 추론 시스템
책속으로
현재 인공지능, 빅데이터 등 최첨단 정보처리 기술과 맞물려 언어를 이해하는 기술은 크게 인간ᐨ기계 인터페이스와 연관된 부문, 언어 데이터 및 여러 정보를 처리하는 부문, 인간의 교육과 연관된 부문, 인간의 지적 능력을 해결하는 부문 등으로 나뉜다. 인간ᐨ기계 인터페이스와 연관돼 인간 언어의 물리적 소리를 이해하고 인간과 대화하는 기술들인 음성처리, 자동대화시스템이 주요하게 작동한다. 언어 데이터 처리 능력은 언어 빅데이터인 코퍼스, 정보검색, 자동번역, 문서자동요약, 사전·온톨로지 등에서 활용된다. 인간의 지적 능력과 연관된 부문은 기계학습, 컴퓨터를 활용한 언어학습, 추론시스템이다. 이 모든 언어지능의 가장 기본은 언어 빅데이터인 코퍼스, 사전·온톨로지다.
“지능의 출발” 중에서
언어지능의 첫 번째 단계는 데이터인 코퍼스를 수집하는 것이다. 데이터에서 발견되는 ‘확률’은 언어에 대한 지식으로 언어지능의 시작이다. 구어·문어, 논문·소설·신문기사와 같이 여러 다양한 방식으로 데이터를 모을 수 있지만, 시어는 축약이나 함축성으로 인해 적합하지 않다. 여러 다양한 유형으로 균형 잡힌 데이터 수집이 데이터를 모으면서 가장 중요한 원칙이 된다. 모인 데이터에 언어 정보를 포함시키는 가공도 가능하다. ‘빈도’라는 언어지식은 언어지능의 시작이 된다.
“언어 빅데이터 코퍼스” 중에서