책소개
데이터 없이는 AI도 없다
인공지능의 성능을 결정짓는 핵심 요소로서 데이터의 중요성을 다각도로 조명한다. 빅데이터, 합성 데이터, AI 데이터 센터까지, 데이터는 AI 발전의 원동력이자 한계 요인이다. 공각기동대의 예견에서 알파고의 기보 학습, 챗GPT의 비약적 성능 향상에 이르기까지 사례를 통해 AI와 데이터의 불가분 관계를 설명한다. 특히 데이터 중심 AI(Data-Centric AI)의 부상, 학습 데이터의 품질 관리, 생성형 AI 보안 문제, 합성 데이터 활용 등 최신 쟁점을 상세히 다룬다. 나아가 주요국의 데이터 전략과 한국의 정책 현황, AI 기본법과의 연관성을 정리하며, 국가 경쟁력 차원에서 데이터 확보의 의미를 강조한다.
유발 하라리와 조지 오웰이 경고한 데이터 종교와 데이터 권력의 위험까지 언급하며, 독자에게 데이터 시대의 철학적 성찰도 제시한다. 공무원과 연구자, 기업 실무자는 물론 일반 독자까지, 이 책을 통해 AI와 데이터가 어떻게 함께 진화하는지 이해할 수 있다. 데이터는 AI의 연료이자 미래 사회를 이끄는 자원임을 일깨우는 실천적 안내서다.
200자평
인공지능과 데이터의 관계를 10가지 주제로 풀어낸다. 학습 데이터의 품질, 합성 데이터, 보안 문제, 국가 전략까지 폭넓게 다뤄 AI 발전의 핵심 자원으로서 데이터의 의미를 밝힌다. 인공지능총서. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.
지은이
정용찬
홍익대학교 교양과 교수, OECD 인공지능지수 전문가그룹(Expert Group on OECD AI Index) 위원이다. 현재 공공데이터전략위원회 AI데이터 활용 전문위원회 위원, 국무총리직속 사회보장위원회 행정데이터전문위원회 위원이며 방송통신위원회 미디어다양성위원회 위원, 한국언론학회 미디어데이터사이언스연구회 회장, 한국통계학회 국가통계연구회 부회장이다. 정보통신정책연구원 ICT데이터사이언스연구본부장, AI 데이터융합연구실장, 미래예측분석센터장, 국가통계위원회 데이터분과위원, OECD 디지털경제정책위원회 디지털경제측정분석작업반 부의장, 고려대학교 정책대학원 데이터통계학과 겸임교수를 역임했다. 한국국방연구원 선임연구원, DNI컨설팅 이사, 방송위원회 연구센터 연구위원으로 일했다. 문화체육관광부, 한국언론진흥재단, 한국방송광고진흥공사, 영화진흥위원회, 지능정보화진흥원, 한국인터넷진흥원, 한국콘텐츠진흥원, 출판문화산업진흥원 자문위원으로 활동했다. 고려대학교에서 통계학 학·석·박사학위를 받았다. 저서로 《미디어 데이터 사이언스의 이해》(2025), 《인공지능 산업》(2025), 《인공지능 산업》(2025), 《AI Index, 인공지능 지수》(2025), 《마이데이터와 법》(공저, 2022), 《데이터법 이해》(2021), 《인공지능 알고리듬의 이해》(2020), 《통계법의 이해》(2019), 《생각이 크는 인문학 15. 빅데이터》(2018), 《빅데이터》(2013), 역서로 《인공지능 아는 척하기》(2021)가 있다. 연구보고서 “ICT데이터플랫폼 구축운영사업(2024)”, “데이터기반 미래예측·정책지원 모델연구 IV(2023)”, “데이터 경제와 데이터 중립성(2022)”, “미중 데이터 패권경쟁과 대응전략(2021)”이 있다.
차례
AI와 데이터는 바늘과 실
01 AI와 데이터
02 데이터 중심 AI
03 AI 학습용 데이터
04 AI 학습 데이터 품질 관리
05 생성형 AI 데이터 품질 관리
06 생성형 AI 데이터 보안
07 AI와 합성 데이터
08 AI 데이터 센터
09 AI 국가 전략과 데이터
10 「AI 기본법」과 데이터
책속으로
2016년 이세돌 9단과 바둑 대결에서 4승 1패로 완승한 알파고가 머신 러닝을 통해 16만 개에 달하는 기보를 공부했다는 사실에 사람들은 인공지능의 학습 능력에 놀랐고, 인공지능의 성능을 좌우하는 양질의 데이터(기보)의 중요성에 주목했다. 인공지능이 특정 분야에서 능력을 발휘하려면 해당 분야에 대한 지식을 학습하는 것이 필요하며, 얼마나 많은 양의 지식을 학습했는지가 인공지능의 성능을 좌우하는 중요한 요소가 되었다. 아이가 태어나면 시각과 청각, 촉각을 이용해 사물을 인식하고, 책 등을 통해 학습하며 지적 능력을 키워 가듯 인공지능 역시 다양한 방식으로 수집된 데이터와 정보를 이용해 성능을 향상하기 때문이다.
-01_“AI와 데이터” 중에서
공공 기관이 보유·관리하는 데이터에 대한 국민의 이용권을 보장하고, 공공 데이터의 민간 활용을 촉진하기 위한 목적으로 제정된 「공공 데이터의 제공 및 이용 활성화에 관한 법률」에서는 공공 데이터를 “공공 기관이 관리하고 있는 행정 정보와 공공 기관이 생성한 정보, 전자 기록물 등”으로 정의하고 있다(제2조 정의). 여기서 공공 기관은 국가 기관, 지방 자치 단체를 비롯해 「공공 기관의 운영에 관한 법률」에 따른 공공 기관, 「지방공기업법」에 따른 지방 공사 및 지방 공단, 「특별법」에 따라 설립된 특수 법인, 「초·중등교육법」, 「고등교육법」 및 그 밖의 다른 법률에 따라 설치된 각급 학교까지 모두 포함하고 있어 민간 영역을 제외한 전 분야라고 할 수 있다.
-03_“AI 학습용 데이터 ” 중에서
챗GPT 같은 생성형 AI 기술은 이미지, 비디오, 오디오, 텍스트 등 다양한 유형의 대규모 데이터를 학습하는 과정이 필수기 때문에 우수한 성능을 기대할 수 있지만 보안 측면에서 다양한 위험이 존재한다. 생성형 인공지능 기술 중 하나인 대규모 언어 모델(LLM)은 통상 수백억 개 이상의 파라미터를 포함하고, 학습에 사용되는 토큰 수도 수조 개에 달하기 때문에 질문의 의미를 파악하고 추론해 대답을 작성하기 위한 데이터 처리 과정이 매우 복잡하기 때문이다.
-06_“생성형 AI 데이터 보안” 중에서
중국이 AI 분야에서 세계 2위로 도약하게 된 배경에는 데이터가 있다. 중국이 AI 개발을 촉진하는 3가지 특징은 신속한 사회적 적용이 가능, 오픈 데이터 및 데이터 유통 촉진과 활용, 오픈 이노베이션으로 꼽을 수 있는데, 특히 공공 데이터 개방과 데이터 거래소를 통해 데이터 유통을 활발히 추진한 것은 기업들이 AI 개발에 적극 활용할 수 있는 환경을 조성했다는 점에서 의의가 있다. 중국 AI 기술 경쟁력의 네 가지 원천도 인재, 데이터, 컴퓨팅 파워, 지방별 차별화된 AI 경쟁력 보유로 요약하는데 AI 훈련과 정확도 향상의 핵심 요소가 데이터이며, 14억 인구가 생산하는 데이터를 보유한 중국은 이 점에서 강점을 가지고 있다.
-09_“AI 국가 전략과 데이터” 중에서