책소개
AI, 문서 해독이라는 인류의 난제에 도전하다
AI가 문서 해독에 기여하는 방식과 그 과정에서의 발전 가능성을 탐구한다. 기록된 역사는 문서를 통해 연구되고 해석된다. 하지만 여전히 해독되지 않은 고문서들이 많다. 선형 A 문자처럼 언어 자체가 밝혀지지 않은 경우도 있고, 조선시대 승정원일기처럼 방대한 분량으로 인해 해독이 어려운 경우도 있다. 기존에는 연구자들의 전문적 지식과 노력이 필수적이었지만, 최근 AI의 발전이 문서 해독의 패러다임을 바꾸고 있다.
AI는 손상된 문서를 복원하고, 미해독 문서의 언어와 문자 체계를 분석하며, 방대한 자료를 빠르게 번역하는 데 활용될 수 있다. 이를 통해 인류 역사의 공백을 메우고, 새로운 사실을 발견할 가능성이 커지고 있다. 예를 들어 AI 기반 언어 모델은 미해독 문서의 구조를 파악하고, 패턴 분석을 통해 해독의 실마리를 제공한다. AI가 학문의 영역을 확장하며 누구나 해독에 도전할 수 있는 시대가 열리고 있다.
200자평
미해독 문서는 인류 역사 연구의 중요한 퍼즐 조각이다. 선형 A 문자처럼 해독되지 않은 기록이나 승정원일기 같은 방대한 문서는 연구자들에게 큰 도전이었다. 그러나 AI 기술이 이를 변화시키고 있다. 손상된 문서를 복원하고, 언어 구조를 분석하며, 자동 번역을 수행하는 AI는 역사 연구의 패러다임을 바꾸고 있다. AI를 활용한 문서 해독의 과정과 그로 인해 밝혀질 새로운 역사적 가능성을 조명한다.
지은이
이홍구
서울대학교 규장각한국학연구원에서 일하고 있으며 한신대학교에서 한국어문학 전공 강의를 하고 있다. 서울대학교 국어국문학과에서 박사 과정을 수료했다. ‘네이버 AI 용어사전’의 필진으로 참여했으며, ‘국어 어원사전 편찬 사업’ 등 각종 사전 편찬 및 말뭉치 구축 사업에 참여했다. 주요 연구로는 “중세 한국어 양보문 연구”(2021), “딥러닝 기반의 언간 자료 문자 판독기 구현에 대한 연구”(2022), “이기영과 충남방언”(2023) 등이 있다.
차례
AI로 점차 풀려 가는 인류의 난제들
01 문서 해독의 모범: 로제타 스톤
02 문서 해독의 기반 기술 1
03 문서 해독의 기반 기술 2
04 고문서의 전산화
05 AI와 고문서 복원 1
06 AI와 고문서 복원 2
07 조수로서의 AI
08 AI와 고문서 번역
09 AI와 텍스트 분석
10 문서 해독의 내일
책속으로
한편 샹폴리옹이 알아낸 바에 따르면 이집트 문자는 단순한 표음문자가 아니다. 성각문자는 본래 상형을 통해 만들어진 것으로 상형한 대상을 가리킬 수 있다. 이러한 용법이 지속되면서 이후에는 특정한 음가도 가리킬 수 있게 발달한 것이다. 예를 들어 ‘𓂝’의 경우 ‘팔’을 상형한 것으로 실제로 팔의 의미를 지니는데, 동시에 /ʕ/라는 음가를 가지기도 한다. 전자는 표의문자적 사용이고 후자는 표음문자적 사용에 해당한다. 여기에 더해 특이한 결정자(determinative)가 존재하는데, 이는 개별 문자에 덧붙여 그 의미나 음가를 보완하는 기호라고 할 수 있다. 이렇듯 문자에 대한 규명이 완료된 이후에 여러 언어학적 분석이 이어졌다. 먼저 성각문자는 모음을 표기하지 않고 자음만을 표기하는데, 예를 들면 한글의 ‘가나다’라는 표기를 ‘ㄱㄴㄷ’라고 표기하는 식이라 할 수 있다. 따라서 모음을 추정해 실제 발음을 복원하는 연구가 이루어질 수 있었다.
-01_“문서 해독의 모범: 로제타 스톤” 중에서
한편 언어 모델의 발전은 다양한 응용 분야에서 큰 성과를 보이고 있다. 특히 성능이 뛰어난 모델들은 전이 학습 과정을 통해 특정 과제에 최적화되어 더욱 효과적으로 사용될 수 있다. 이러한 전이 학습을 유형론적으로 비슷한 언어에 적용할 경우 더 높은 정확도를 보인다는 점이 밝혀졌으며, 이러한 특성을 바탕으로 자원이 부족한 언어에도 활용되고 있다. 이러한 점은 고대어 연구에도 적용될 수 있을 것으로 보인다. 대표적인 응용 과제로는 문서 분류, 개체명 인식, 감성 분석이 있으며, 이는 텍스트 데이터에서 저자, 시대적 특성, 장르를 분석하는 텍스트 마이닝 기법과 연결될 수 있다. 또한 기계 번역과 문장 생성은 대규모 문서 번역 및 소실된 문서의 복원에 활용될 수 있다.
-03_“문서 해독의 기반 기술 2” 중에서
2023년 대회에는 탄화된 문서의 3D 이미지를 제공하고 이를 해독한 연구자에게 상금 100만 달러를 수여하는 조건이 걸렸다. 그 결과, 세 명의 학생이 해당 문서에서 약 5% 정도를 해독하는 데 성공했다. 해당 문서는 고대 그리스 철학자인 에피쿠로스 학파와 관련된 내용으로 밝혀졌다. 에피쿠로스 학파의 여러 저작은 대부분 소실된 상태라, 이 문서의 해독은 고대 그리스 철학 연구에 중요한 진전을 가져올 것으로 기대된다. 2024년 대회에서는 문서의 90%를 해독하는 연구팀에게 10만 달러의 상금을 수여할 예정이다.
-06_“AI와 고문서 복원 2” 중에서
이제는 자연어 처리와 머신러닝 기술의 발전으로 텍스트를 다양한 방식으로 임베딩해 문서의 내용, 주제, 또는 문맥적 유사성을 수치로 표현할 수 있다. 대표적인 방식으로는 워드투벡(Word2Vec)이 있다. 워드투벡은 단어를 벡터로 변환하는 모델로, 비슷한 문맥에서 자주 등장하는 단어들이 유사한 벡터 값을 가지도록 학습된다. 이를 응용하면 단어 수준에서 텍스트 간의 유사성을 파악할 수 있으며, 특정 단어들이 여러 문헌에서 어떻게 반복되고 변형되는지 확인할 수 있다. 더 나아가 최근에는 BERT와 같은 딥러닝 기반 모델이 텍스트 연구에 적용되고 있다. 이러한 모델들은 문맥을 반영해 문장 수준의 임베딩을 생성하기 때문에, 단순한 단어 수준의 비교를 넘어 텍스트의 문맥적 관계까지 고려한 정교한 유사성 분석이 가능하다.
-09_“AI와 텍스트 분석” 중에서