책소개
데이터는 인공지능의 연료이자 새로운 자본
2024년 《월스트리트저널》은 GPT나 제미나이(Gemini) 같은 대규모 언어모델(LLM)이 곧 데이터 부족 위기에 직면할 것이라고 보도했다. 인공지능 성능 향상을 위해 필요한 60~100조 개의 학습 토큰에 비해, 현재 사용 가능한 고품질 데이터는 10~20조 개 수준에 불과하다. 이에 오픈AI, 구글 등 기업들은 셔터스톡·레딧과의 고가 라이선스 계약을 체결하며 데이터 확보 경쟁에 나섰다. 그러나 단순한 데이터 양의 부족을 넘어, 고품질·전문 데이터의 결핍이 AI의 신뢰성과 정확성을 저하시키는 근본 문제로 대두되고 있다.
AI는 경험적 학습을 기반으로 작동하며, 데이터의 질이 곧 인공지능의 성능을 결정한다. 편향된 데이터는 왜곡된 결과를 낳으며, 과거 마이크로소프트 챗봇 ‘테이(Tay)’의 혐오 발언이나 아마존 AI 채용 시스템의 성차별 사례가 이를 입증했다. 결국 인공지능은 알고리즘보다 데이터의 품질에 더 크게 의존하는 기술이다.
데이터는 이제 기술 발전의 핵심 인프라이자 새로운 자본으로 인식된다. IDC는 2025년 전 세계 데이터 생성량이 163제타바이트(ZB)에 이를 것으로 예측하며, 이는 2010년 대비 80배 이상 증가한 수치다. 데이터는 원시 상태로는 가치가 없지만, 인공지능을 통해 분석·가공될 때 비로소 경제적 의미를 지닌다. 섀넌의 정보이론에 따르면, 데이터는 불확실성을 줄이고 유의미한 패턴을 생성함으로써 사회적·경제적 엔트로피를 낮춘다. 세계경제포럼(WEF)은 데이터와 AI의 결합이 2030년까지 약 13조 달러의 경제 가치를 창출할 것으로 전망했다. 넷플릭스, 아마존, 구글 등은 이미 데이터 기반 예측과 맞춤형 서비스를 통해 막대한 수익을 거두고 있다.
하지만 데이터가 자산으로 기능할수록 소유권과 윤리 문제가 중요해진다. 1967년 앨런 웨스틴은 개인정보를 스스로 통제할 권리, 즉 ‘정보 자기결정권’을 제시하며 데이터 소유 논의의 기초를 마련했다. 이후 유럽연합(EU)은 데이터의 ‘소유권적 권리’보다 ‘접근권·이용권·이동권’을 중심으로 한 새로운 법체계를 구축했다. 데이터는 비경합성과 비배타성을 지니기 때문에 단일 소유 개념보다 다층적 권리의 집합, 즉 ‘권리의 다발(bundle of rights)’로 이해된다.
오늘날 데이터는 공공재로서의 성격도 함께 갖는다. 사회적 효용을 극대화하기 위해 공공데이터 개방, 데이터 댐 사업 등 공유 정책이 추진되고 있으며, 데이터는 집단 지성과 혁신의 자원이 된다.
우리나라의 경우 데이터 소유권에 대한 단일 법 체계가 없어, 「개인정보보호법」, 「저작권법」, 「부정경쟁방지법」 등 개별 법률을 통해 간접적으로 보호하고 있다. 그러나 이러한 분절적 구조는 데이터 활용의 법적 불확실성을 낳고 있다. 데이터의 경제적 가치가 급증하는 현시점에서, ‘누가 데이터의 권리를 가지는가’, ‘데이터 접근권은 어떻게 보장되는가’에 대한 명확한 법적 정의가 필요하다.
결국 데이터 소유권은 단순한 재산권이 아니라, 인공지능 시대의 공정성·신뢰성·지속가능성을 보장하는 제도적 기반이다. 데이터가 ‘디지털 사회의 원유’로 기능하기 위해서는, 보호와 활용의 균형을 이루는 새로운 법적 패러다임이 필수적이다.
200자평
데이터의 독특한 성질은 기존 법체계에 여러 과제를 안기고 있으며, 특히 ‘데이터를 누가 갖는가’에 관한 문제는 논쟁의 대상이 되고 있다. 데이터는 물권법상의 소유권이 적용되기 어렵다는 점을 전제로, 저작권법, 부정경쟁방지법, 개인정보 보호법, 그리고 계약이나 불법행위에 따른 재산적 법익의 작용을 통한 포괄적이고 총체적인 개념으로 우리는 데이터 소유권을 이해하게 되었다. 복합적 권리 구조 속에서 온전한 데이터 가치를 보장하기 위해서는 데이터 활용 과정에서 소유와 관련된 복합적 권리들을 정확하게 이해해야 한다.
지은이
김시열
전주대학교 로컬벤처학부 부교수다. 상문고등학교와 숭실대학교 법학과를 거쳐 동 대학원에서 지식재산권법을 전공으로 법학박사 학위(2012)를 받았다. 한국저작권위원회와 한국지식재산연구원을 거쳐 현재 전주대학교 로컬벤처학부에서 학부장으로 재직 중이다. 주로 저작권법·특허법 등의 지식재산권법과 과학기술법, 문화예술법 등에 관한 연구를 수행하고 있다. 현재 (사)한국소프트웨어감정평가학회 회장, (사)한국저작권법학회 이사, 한국연구재단 연구윤리 전문자문단, (주)전주대학교 기술지주회사 이사 등으로 활동하고 있으며, 국가지식재산위원회 4기 전문위원, 변리사시험 채점위원, 소프트웨어평가위원회 위원, 지식재산네트워크(IPMS) 학술분과장 등을 역임했다. 저서로는 《인공지능과 지식의 소유》(2024), 《저작권법》(2024, 공저), 《Intellectual Property: Global Perspective Advances and Challenges》(2023, 공저), 《음악저작권 침해 분쟁의 구조와 대응의 논리》(2022, 공저), 《저작권 소송과 소프트웨어 포렌식》(2021, 공저), 《컴퓨터프로그램 저작권 유사도론》(2018) 등이 있으며, “라이브러리 파일의 저작물성에 관한 검토”(2025), “인공지능 활용 창작으로 인한 저작권 소송상 여과 과정의 재검토”(2024), “인공지능 활용에 따른 특허법상 통상의 기술자 기술수준에 관한 연구”(2023) 등 50여 편의 논문을 발표했다.
차례
데이터, 누구의 것인가
01 인공지능 데이터의 특성
02 데이터의 개념
03 다양한 형태의 데이터 활용 유형
04 데이터 소유권 논의의 여러 관점
05 저작권법에서의 데이터 귀속
06 부정경쟁행위 규제를 통한 데이터 보호
07 영업비밀 보호를 통한 데이터 보호
08 개인정보가 포함된 데이터의 보호
09 데이터 거래 계약에서의 문제
10 데이터 소유 문제의 실무적 접근 방안
책속으로
인공지능 모델은 학습데이터에 의해 성능이 결정된다. 학습데이터는 그 규모와 다양성, 비정형성, 재활용성 등의 특성이 있고, 이 특성은 곧 데이터의 핵심적인 가치를 만들어 낸다. 이는 인공지능에서 데이터가 단순한 정보가 아닌 핵심적인 자산이자 자원으로 기능함을 보여 준다. 이는 데이터 소유 문제가 기술 주도권과 직결되는 핵심 이슈임을 시사한다.
-01_“인공지능 데이터의 특성” 중에서
데이터 소유권은 전통적 물권 체계로는 규정하기 어려운 개념이다. 이를 둘러싼 논의는 물건으로서의 소유권을 인정하려는 시도, 새로운 권리 부여의 필요성 주장, 배타적 재산권의 부정, 부당 사용 규제 방식 등 다양한 관점으로 전개된다. 이러한 논의는 데이터가 단일 권리로 포섭되지 않으며, 법적 보호를 위한 새로운 권리 구조 또는 규제 체계의 설계가 필요하다는 점을 보여 준다.
-04_“데이터 소유권 논의의 여러 관점” 중에서
「부정경쟁방지법」은 배타적 권리로 보호되지 않는 데이터를 보호하기 위한 수단으로, 일정 요건을 충족한 데이터의 부정 취득·사용을 규제한다. 이는 데이터 소유가 불명확한 상황에서 법적 보호 공백을 메우고, 정당한 이용과 남용을 구분하는 기준을 제시함으로써 실질적 권리 보호를 가능케 한다. 이를 통해 데이터에 대한 정당한 투자와 노력을 보호할 수 있는 새로운 법적인 보호의 틀을 적용한 것이라는 의미를 지닌다.
-06_“부정경쟁행위 규제를 통한 데이터 보호” 중에서
데이터는 활용될 때에야 사회적으로 유의미한 가치를 형성한다. 데이터 거래가 데이터 소유 체계의 정당성을 뒷받침한다. 그러나 거래 대상이 되는 데이터에는 재산적 권리가 중첩적으로 존재하는 경우가 많아, 데이터 거래의 복잡성은 더욱 가중된다. 이에 모든 권리 관계를 종합적으로 이해하고 계약을 면밀하게 설계하는 작업이 필수적이다.
-09_“데이터 거래 계약에서의 문제” 중에서