책소개
사회과학 연구의 새 패러다임, AI
인공지능 기술이 사회과학 연구에 어떻게 활용될 수 있는지를 탐구한다. 인공지능의 발전은 연구의 전 과정, 즉 아이디어 도출, 연구 문제 설정, 데이터 수집, 분석 및 해석까지 광범위하게 영향을 미치고 있다. 이 책은 AI를 활용해 연구 아이디어를 생성하고 선행 연구를 검토하며 데이터 분석을 자동화하는 구체적 방법들을 소개한다. AI와 기계 학습, 특히 딥러닝 알고리즘은 비정형 데이터(텍스트, 이미지, 비디오 등)의 분석을 용이하게 만들어 대규모 데이터를 다루는 사회과학 연구에서 효율성을 극대화한다. 또한 챗GPT와 같은 생성형 AI는 연구 문제 설정, 데이터 분석 및 결과 도출을 지원하며 프로그래밍 언어를 모르는 연구자도 AI 도구를 활용해 연구를 진행할 수 있게 된다.
이 책은 AI가 사회과학 연구에 미친 긍정적 영향뿐 아니라 사용 시 주의해야 할 점도 다룬다. AI 기술이 연구 효율성을 높이는 동시에 발생할 수 있는 윤리적 문제와 기술적 한계를 경계하며 올바른 사용 방법을 제시한다. AI의 기술적 가능성과 그것을 활용한 연구 방법을 학문과 실무에 접목시키려는 연구자들에게 중요한 가이드를 제공한다.
200자평
인공지능 기술이 사회과학 연구에 어떻게 활용될 수 있는지 다룬다. AI는 연구 아이디어 도출, 데이터 분석, 결과 도출까지 다양한 과정에서 효율성을 높이고, 비정형 데이터를 분석할 수 있게 한다. AI의 활용법뿐 아니라 윤리적 문제와 사용 시 주의점도 제시하며 연구자들에게 AI 기술을 효과적으로 활용하는 방법을 안내한다.
지은이
이상엽
연세대학교 언론홍보영상학부 부교수다. 연세대학교 컴퓨터과학과에서 학사학위를 받았고, 미시간주립대학교에서 미디어·정보 전공으로 석사와 박사학위를 받았다. 삼성전자, 과학기술정책연구원, 아시아개발은행, 국제전기통신연합(ITU) 등에서의 경력을 갖고 있다. 연세대학교 언론홍보영상학부 교수로 임용된 후 학부장, 언론홍보대학원 부원장, 사회과학대학 부학장을 역임하였고, 현재는 대학원 주임과 커뮤니케이션연구소 소장직을 맡고 있다. 주요 저서로 『파이썬 텍스트 마이닝 바이블1』(2023)과 『파이썬 텍스트 마이닝 바이블2』(2023)가 있다. 딥러닝과 통계 분석 방법을 이용한 다수의 논문을 SSCI와 KCI에 게재했다.
차례
AI와 사회과학 연구의 만남
01 인공지능을 이용한 사회과학 연구
02 딥러닝 알고리즘의 작동 원리
03 딥러닝 사회과학 연구 방법
04 딥러닝 텍스트 분석
05 딥러닝 이미지 분석
06 딥러닝 오디오와 비디오 분석
07 거대 언어 모형 소개: GPT 모형을 중심으로
08 챗GPT를 이용한 사회과학 연구 1: 연구 문제 설정과 문헌 조사
09 챗GPT를 이용한 사회과학 연구 2: 데이터 분석
10 사회과학 연구에서 AI 사용 주의사항
책속으로
데이터 수집이 완료된 이후에는 변수 간의 관계를 파악하기 위해, 데이터 분석을 수행해야 한다. 앞의 예에서는 상관관계 분석이나 선형회귀 분석 방법을 적용할 수 있다. 사회과학 분야에서는 이러한 통계 분석을 위해 일반적으로 SPSS, 스테이타(Stata)와 같은 통계 프로그램이나 R 등의 컴퓨터 프로그래밍 언어를 사용해서 연구자가 직접 데이터 분석을 수행한다. 하지만 챗GPT와 같은 생성형 AI의 발달로 인해, 이러한 데이터 분석도 인공지능을 이용해서 수행할 수 있게 되었다. 변수들에 대한 데이터가 저장된 파일이 준비되어 있다면, 그러한 데이터 파일을 챗GPT에 업로드하여 데이터 분석을 수행할 수 있다.
-01_“인공지능을 이용한 사회과학 연구 범위” 중에서
딥러닝 알고리즘을 사용해서 각 사진의 특성 정보를 포함한 저차원의 벡터를 생성하고, 이 벡터가 갖는 각 원소의 값을 사진의 특성을 나타내는 변수들의 값으로 사용할 수 있는 것이다. 예를 들어 각 사진을 20차원의 벡터로 표현한다고 하면 사진의 특성을 나타내는 변수가 20개 있다고 생각할 수 있다. 20차원의 벡터가 갖는 첫 번째 원소의 값은 첫 번째 변수의 값이 되고, 두 번째 원소의 값은 두 번째 변수의 값이 된다.
-03_“딥러닝 사회과학 연구 방법” 중에서
비디오 데이터는 여러 장의 이미지와 오디오 데이터로 구성되어 있다. 비디오를 만들기 위해서는 초당 24, 30, 60장 등의 이미지가 사용된다. 따라서 비디오 데이터 분석을 위해서는 비디오 데이터를 구성하는 이미지 데이터와 오디오 데이터를 분석해야 한다. 즉, 앞에서 다룬 이미지 데이터 분석 방법과 오디오 데이터 분석 방법을 적용할 수 있는 것이다.
-06_“딥러닝 오디오와 비디오 분석” 중에서
챗GPT를 이용해서 딥러닝 알고리즘 기반의 비정형 데이터 분석을 직접적으로 수행하는 것은 불가능하지만, 사이킷런(sklearn)이라는 파이선 라이브러리에서 제공되는 여러 가지 기계 학습 알고리즘을 이용한 데이터 분석은 가능하다. 예를 들어 수집된 데이터에 대해서 군집화 분석을 수행하고자 할 때에는 챗GPT에 데이터 파일을 업로드 후 다음과 같이 입력하면 된다. “업로드된 데이터 파일에 대해서 군집화 분석 알고리즘을 수행해 줘.”
-09_“챗GPT를 이용한 사회과학 연구 2 : 데이터 분석” 중에서