책소개
기술을 이해하면 프라이버시 문제가 보인다
생성형 AI와 대규모 언어 모델(LLM)이 일으키는 프라이버시 침해 문제를 다룬다. 생성형 AI는 사용자 질문에 맞춰 다양한 콘텐츠를 생성하는 기술로 무차별적으로 수집된 데이터에서 프라이버시 침해가 발생할 수 있다는 우려가 커지고 있다. 이 책은 생성형 AI의 특징에 따른 프라이버시 침해의 가능성을 명확히 제시하며, 개인정보 보호의 중요성을 강조한다.
기존의 예측형 AI와 달리 생성형 AI는 명확한 목적 없이 방대한 데이터를 수집해 이를 학습한다. 이 과정에서 사용자의 민감 정보가 무단으로 포함될 수 있으며, 훈련용 데이터로 쓰인 정보가 제대로 필터링되지 않을 수 있다. 또한 생성형 AI는 자칫 개인의 개인정보를 부주의하게 생성하거나 유출할 위험도 존재한다. 이 책은 이러한 문제를 해결하기 위한 방안을 제시하며, 유럽연합의 일반개인정보보호법(GDPR)과 한국의 개인정보보호법을 중심으로 프라이버시 보호를 위한 원칙을 논의한다. AI 개발자가 직면한 윤리적 딜레마와 법적 갈등을 다루며, 생성형 AI의 데이터를 수집하고 처리하는 방식에서 발생하는 법적 문제들을 해결할 방법을 모색한다. 생성형 AI의 발전과 빠른 확산에 따라, 기술적 발전에 대한 충분한 이해와 법적 제재가 뒤따라야 한다.
200자평
생성형 AI와 대규모 언어 모델이 야기하는 프라이버시 침해 문제를 다룬다. AI가 무차별적으로 수집하는 데이터를 통해 개인정보가 유출될 위험을 경고하며 GDPR 등 법적 원칙을 바탕으로 프라이버시 보호 방안을 제시한다. AI 기술의 발전에 따른 법적, 윤리적 도전 과제를 탐구하고, 생성형 AI의 적절한 활용 방법을 논의한다.
지은이
김상현
캐나다에서 정보공개 및 프라이버시 전문가로 일하고 있다. 토론토대와 요크대에서 개인정보보호와 프라이버시 법규, 사이버 보안을 공부했다. 캐나다 온타리오주 정부와 앨버타주 정부, 브리티시컬럼비아(BC)의 의료서비스 기관 FNHA, 밴쿠버 아일랜드의 수도권청(Capital Regional District) 등을 거쳐 지금은 캘리언그룹(Calian Group)의 프라이버시 관리자로 일하고 있다. 저서로 『디지털의 흔적을 찾아서』(방송통신위원회, 2020), 『유럽연합의 개인정보보호법, GDPR』(커뮤니케이션북스, 2018), 『디지털 프라이버시』(커뮤니케이션북스, 2018), 『인터넷의 거품을 걷어라』(미래M&B, 2000)가 있고, 번역서로는 『통계의 함정』(2024), 『해커의 심리』(2024), 『어둠 속의 추적자들』(2023), 『공익을 위한 데이터』(2023), 『인류의 종말은 사이버로부터 온다』(2022), 『프라이버시 중심 디자인은 어떻게 하는가』(2021), 『마크 저커버그의 배신』(2020), 『에브리데이 크립토그래피 2/e』(2019), 『보이지 않게, 아무도 몰래, 흔적도 없이』(2017), 『보안의 미학』(2015), 『똑똑한 정보 밥상』(2012), 『불편한 인터넷』(2012), 『디지털 휴머니즘』(2011) 등이 있다.
차례
AI와 프라이버시
01 AI의 기원과 진화
02 AI의 유형
03 생성형 AI 개론
04 생성형 AI가 제기하는 문제들
05 개인정보와 프라이버시의 이해
06 생성형 AI와 프라이버시
07 생성형 AI와 프라이버시의 딜레마
08 AI 법규와 개발 원칙들
09 생성형 AI와 프라이버시의 균형 잡기
10 슬기로운 생성형 AI 사용법
책속으로
AI의 역사는 이후 호황과 불황으로 대조적 부침을 거듭하는데, 새로운 붐은 1980년대 ‘머신 러닝’의 부상과 더불어 찾아왔다. AI 연구자들은 인간 두뇌의 구조와 기능으로부터 영감을 얻어 데이터를 기반으로 학습한 시스템들을 서로 연결한 인공 신경 네트워크를 개발하기 시작했다. 이런 변화는 커다란 전환점으로 작용했고, 이미지 인식이나 자연어 처리처럼 이전에는 불가능하다고 여겼던 직무를 수행할 수 있게 되었다. 그 결과 다양한 전문가 시스템이 인기를 끌었고 정부의 기금 지원도 늘기 시작했다.
-01_“AI의 기원과 진화” 중에서
GANS는 생성기(Generator)와 판별기(Discriminator)로 구성된다. 생성기는 기존 데이터와 비슷한 모조 데이터를 생성하고, 판별기는 그 데이터가 실제 데이터인지 구별한다. 둘 사이의 경쟁 학습은 모조 데이터와 실제 데이터를 구별할 수 없는 단계에 이를 때까지 진행된다. GANs는 진짜 같은 비디오나 오디오, 딥페이크를 생성하는 데 사용되지만 엑셀 형식의 합성 데이터를 만드는 데도 이용된다.
-03_“생성형 AI 개론 ” 중에서
인터넷에서 무료로 사용할 수 있는 챗GPT나 다른 AI 모델은 사용자가 입력하는 데이터를 훈련용으로 활용할 수 있다. 많은 AI 챗봇은 약관에서 사용자의 입력 내용이 “서비스 개발과 향상을 목적으로” 사용될 것이라고 밝혀 놓았다. 대규모 언어 모델이나 AI 시스템과 별반 연관성이 없어 보이는 기업들이 챗GPT나 다른 생성형 AI 툴을 서비스에 내장하고 사용자들의 입력 데이터를 훈련 용도나 상업적 목적에 활용하는 상황도 문제일 수 있다.
-06_“생성형 AI와 프라이버시” 중에서
데이터 수집 자체를 금지하는 것은 해답이 될 수 없다. 생성형 AI 개발을 둘러싼 여러 나라와 기업들 간의 치열한 경쟁 상황을 고려할 때, 그와 같은 조치는 현실적으로 불가능할 뿐 아니라 기술혁신을 가로막는 치명적 부작용을 초래할 수 있기 때문이다. 만에 하나 인터넷의 공개 데이터 수집을 전면 금지한다면 생성형 AI의 개발 자체가 불가능해질 수도 있다. AI의 훈련 재료가 사라져 버리는 셈이기 때문이다.
-09_“생성형 AI와 프라이버시의 균형 잡기” 중에서