책소개
현실이 된 가짜의 위협, 딥페이크를 이해하고 대비하라
AI 기술의 진보로 현실처럼 만들어지는 가짜 이미지, 음성, 영상의 생성 원리와 탐지 기술을 다룬다. 딥페이크는 예술, 교육, 마케팅 등에 활용될 수 있지만 악용될 경우 사회 혼란과 범죄로 이어지는 심각한 위협이 된다. 고위 인사 사칭, 음란물 합성, 가짜 뉴스 등 피해 사례는 나날이 증가하고 있다. 이 책은 이러한 위협에 대응하기 위해, 딥페이크 기술의 구조와 탐지 원리를 체계적으로 설명한다. 생성형 AI와 딥러닝, 적대적 생성 네트워크(GAN), 확산 모델 등 딥페이크의 생성 기술은 물론, 이를 판별하기 위한 주파수 분석, 음성·영상 탐지 기법도 소개한다. 단순 기술 설명을 넘어, 국내외 연구 성과와 탐지 기술의 미래 방향까지 다루며 독자에게 기술적 이해와 사회적 통찰을 동시에 제공한다. 기술에 대한 막연한 두려움에서 벗어나 균형 잡힌 시각을 갖기 원하는 일반인, 정책 담당자, 연구자, 그리고 창작 도구로 AI를 활용하고자 하는 예술가에게 필요한 정보를 담았다.
200자평
가짜 이미지·음성·영상을 만들어내는 AI 기술의 원리와 이를 구별하는 탐지 기술을 쉽게 설명한다. 생성형 AI의 구조, 활용 사례, 사회적 문제와 대응 방안까지 다뤄 균형 잡힌 이해를 돕는다.
지은이
유하진
서울시립대학교 컴퓨터과학부 교수다. KAIST 전산학과에서 학사, 석사, 박사 학위(1997)를 받았다. 박사 학위 논문 제목은 “불균일 단위 신경 회로망과 퍼지전문가 시스템에 기반한 연속음성인식 시스템”이다. LG전자기술원에서 한국어음성인식기를 개발했다(1997∼2000). 벤처 기업 SL2(주)에서 연구소장으로 음성 인식 기술을 상업화했다(2000∼2002). 2002년 서울시립대학교 컴퓨터과학부 교수로 부임해 현재까지 화자 인식 등을 연구했고, 2014년부터 음성 딥페이크 탐지 연구를 진행했다. 국제적 챌린지 ASVspoof(automatic speaker verification spoofing and countermeasures challenge)에 여러 차례 팀으로 참가해 상위권의 성적을 얻었다. 한국음성학회와 한국음향학회에서 총무이사, 편집위원장 등을 역임했고, 우수논문상을 수상했다. 서울시립대학교 컴퓨터과학부장, 인공지능학과장, 교수학습연구센터장 등의 직을 수행했다. 옮긴 책으로 『루비 프로그래밍언어』(2012)가 있고, “AASIST: Audio anti-spoofing using integrated spectro-temporal graph attention networks” 등 100편 이상의 논문을 국제 학술 대회에서 발표하거나 학술지에 게재했다.
차례
일상으로 다가온 딥페이크
01 딥페이크의 역사 및 사회적 대처
02 딥러닝
03 잠재 공간을 이용한 멀티미디어 생성
04 인공지능을 이용한 멀티미디어 생성 과정
05 적대적 생성형 모델과 확산 모델
06 영상 딥페이크 탐지 방법
07 음성 딥페이크 탐지 방법
08 딥페이크 탐지의 어려움
09 딥페이크 탐지 성능 향상
10 딥페이크 탐지 연구 방향
책속으로
딥페이크에 대응하는 법규나 제도도 활발히 논의되고 있다. 여기에는 딥페이크의 피해자나 생성형 인공지능을 개발 또는 활용하는 개인, 기업 등 다양한 사람의 입장이 복잡하게 얽혀 있다. 딥페이크로 인한 피해를 방지하기 위해, 우리나라 「성폭력범죄의처벌등에관한특례법」 제14조의2에서는 허위 영상물을 만드는 사람에 대한 처벌을 명시하고 있다. 2023년 12월 28일 신설된 「공직선거법」 제82조의8에서는 선거일 전 90일부터 선거일까지 선거 운동을 위하여 딥페이크 영상 등을 이용하는 것을 금지했다. 또 그 기간이 아닌 때에는 해당 정보가 인공지능 기술 등을 이용해 만든 가상의 정보라는 사실을 명확하게 인식할 수 있도록 표시해야 한다고 규정하고 있다. 좀 더 폭넓게, ‘AI기본법’이 2024년 12월 26일에 국회를 통과했다(김치연·이정현, 2024.12). 여기서는 생성형 AI를 이용한 서비스를 제공하는 사업자는 AI를 사용했다는 사실을 이용자에게 명확히 알리도록 했다.
-01_“딥페이크의 역사 및 사회적 대처” 중에서
반대로 우리가 어떤 사람을 만들어 내고 싶다면, 즉 우리가 사는 세계에서의 어떤 그림이나 음성 등을 만들고 싶다면, 잠재 공간에서 우리가 원하는 특성을 가진 사람이 살고 있는 위치를 찾아가면 된다. 그 위치를 찾아가서 그 집에 살고 있는 사람을 데리고 나오면 된다. 그 집 근처에는 비슷하지만 약간씩 다른 사람들이 살고 있으므로, 그중에서 한 사람만 불러온다면, 우리는 무엇인가를 만들 때마다 새로운 것을 만들어 낼 수가 있게 되는 것이다. 또한 그 층이나 동은 정수가 아니라 실수가 될 수 있다. 즉, 1.5층이나 3.14동 등이 존재할 수 있다. 우리가 숫자를 생각했을 때 정수를 사용하지 않고 실수를 사용한다면, 즉 소수점으로 되어 있는 숫자를 사용한다면, 영과 일 사이에도 무한히 많은 실수가 존재한다. 그러므로 그 무한히 많은 숫자 중에서 하나를 골라 오는데, 같은 사람을 선택하는 경우는 거의 없을 것이다. 그 이상한 나라에서 사람을 한 명 데리고 나오면 우리가 사는 세계에서는 그것이 우리가 원하는 그림이 되거나 음성이 되거나 문서가 될 수 있다.
-03_“잠재 공간을 이용한 멀티미디어 생성” 중에서
그런 특징들이 만들어지는 원인은 이미지가 만들어지는 과정을 상세히 이해하고 있어야 알 수 있지만, 간단하게 설명하면 다음과 같다. 이미지를 만들 때 첫 단계에서는 작고 개략적인 이미지를 만들고, 그다음 단계로 갈수록 점점 더 큰 이미지, 세밀한 이미지를 만든다. 이것은 이미지를 분석하는 과정의 반대 과정이라고 보면 된다. 이미지를 분석할 때는 그 안에 있는 가로선, 세로선, 사선, 곡선, 점 등의 특징만을 뽑아내는 필터를 사용하는데, 반대로 이미지를 만들 때는 역필터, 즉 우리가 원하는 특징에서 이미지를 만들어 내는 것을 사용한다. 그래서 처음에는 개념적이고 대략적인 그림이 만들어지고, 여러 단계를 거치면서 점점 더 세밀한 그림이 만들어진다. 이때 작은 필터나 역필터 여러 개가 그림 전체에 걸쳐 적용되는데, 그 과정에서 이미지의 한 점에 역필터가 겹쳐 중복되어 적용되고, 중복되는 정보가 강조되면 고주파 정보가 커지게 될 수 있다.
-06_“영상 딥페이크 탐지 방법” 중에서
음성을 수집할 때 음성을 압축하는 방법은 여러 가지가 있다. MP3와 스마트폰에서 저장할 때 사용하는 방식이 각각 다르고, 그에 따라 특성도 달라진다. 생성 방법 역시 다양하므로, 모든 생성 방법에 대해 데이터를 충분히 수집한다는 것도 어려운 일이다. 새로운 생성 방법이 나오면 그 방법으로 만든 데이터를 대량으로 수집해 이전에 수집했던 데이터와 함께 다시 학습해야 하므로, 데이터 저장 공간이 많이 필요하고 그 많은 데이터로 학습하기 위한 시간도 오래 걸린다. 이러한 문제의 해결책의 하나로 학습 데이터 없이 학습하는 방법도 고안되었다.
-09_“딥페이크 탐지 성능 향상” 중에서