책소개
AI와 TTS, 낯선 자연스러움의 해부
우리는 매일 기계의 목소리와 산다. 지하철 안내, AI 스피커, 오디오북과 콜센터까지 TTS는 곳곳에서 인간의 말을 흉내 낸다. 억양과 멈춤, 강세까지 배우며 더 자연스러워졌지만, 여전히 숨과 맥락을 읽지 못한다. 이 책은 그 어긋남을 단서로 인간 언어의 본질을 되묻는다. 연음, ㄴ 첨가, ㄴㄹ 연쇄, 경음화와 같은 한국어 음운 현상이 TTS에서 어떻게 빗나가는지 실험과 사례로 추적하고, 운율과 속도, 감정 처리의 한계를 짚는다. 엔지니어 중심 규칙 설계가 왜 현실 발화의 다양성을 놓치는지, 표준과 실제 사이의 간극이 어떻게 오류를 낳는지도 밝힌다.
나아가 생성형 AI와의 협업 집필 과정을 통해 기술이 글쓰기와 창작을 어떻게 보조하고 어디서 멈추는지 구체적으로 보여 준다. 기술 점검에서 출발해 언어를 다시 보는 인문학적 통찰을 담았다. 홀로그램이 아닌 목소리의 문제를 다루되, 진위성·프라이버시·데이터 편향 같은 윤리 쟁점과 고용 변화도 균형 있게 다룬다. 연구자·개발자·창작자에게 실전 점검표와 판단 기준을 제시하며, ‘기계의 말’을 언어 사용의 한 방식으로 받아들여야 할 전환기의 독해법을 제안한다.
200자평
TTS는 억양과 멈춤을 배웠지만 맥락과 숨을 읽지 못한다. 연음·ㄴ첨가·경음화 등 한국어 음운과 운율에서 드러나는 빗나감을 통해 기술의 한계와 윤리 쟁점을 짚고, 창작·연구·개발 판단 기준을 제시한다. 표준과 실제 발화의 간극을 사례와 실험으로 분석하고, 생성형 AI 협업 집필로 보조 한계를 보여 준다. 인공지능총서. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.
지은이
임현열
중앙대학교 국어국문학과 교수. 국어 음운론을 전공하고 인지 음운론의 시각에서 비표준 발음의 인지적 확산 양상을 분석해 박사 학위를 받았다. 이후 TTS(Text-to- Speech)가 생성하는 한국어 발화의 자연스러움을 점검하는 데 연구의 중점을 두고 연음, 경음화, 운율, 발화 속도 등 다양한 음운 및 운율 요소들이 실제로 어떻게 구현되고 있는지를 실험적으로 분석해 왔다. 최근에는 파이썬(Python)과 파셀마우스(Parselmouth)를 활용한 음향 분석 기반의 데이터 중심 연구에 집중하고 있으며, 전통 음운론과 국어 정보학의 융합을 지향하고 있다. 저서로는 2020년에 공저로 지은 《인공지능 인문학 Full Course》, 역서로는 2025년에 단독으로 옮긴 《파이썬과 언어 연구》가 있다.
차례
인간의 언어, 기계의 목소리
01 TTS 기술의 필요성과 의의
02 TTS 기술의 작동 원리
03 TTS 기술의 현재와 미래
04 연결되는 소리, 부드러운 흐름
05 개입되는 소리, 선택의 문제
06 흔들리는 소리, 경계의 선택
07 강해지는 소리, 복잡한 조건
08 운율이라는 시험대
09 속도라는 리듬, 인간과 AI의 차이
10 AI의 말, 우리가 다시 듣는 언어
책속으로
그러나 2010년대 후반부터 등장한 딥 러닝 기반의 음성 합성 모델은 TTS의 세계를 크게 변화시켰다. 구글의 타코트론(Tacotron), 패스트스피치(FastSpeech), VITS (Variational Inference with adversarial learning for Text-to-Speech) 등은 대규모 음성 데이터를 학습해 문장의 높낮이, 길이, 감정 흐름 등을 파악하고 재현하는 능력을 갖추게 되었다. TTS는 이제 텍스트를 읽는 것을 넘어 문맥, 문장 유형, 감정적 색채를 고려해 어떻게 말할 것인가를 표현하는 기술로 진화했다.
-01_“TTS 기술의 필요성과 의의” 중에서
콘텐츠 제작 측면에서는 효율성과 확장성이 TTS의 가장 큰 장점이다. 전문 성우를 섭외하고 녹음실에서 제작하던 기존 방식 대신, TTS는 빠르게 수정 가능하고, 다양한 톤을 실험할 수 있으며, 소규모 예산으로도 고퀄리티 결과를 낼 수 있는 제작 방식을 가능하게 한다. 이는 유튜브, 광고, 기업 교육 영상, 오디오 광고, 소셜 미디어 쇼츠 등 단기·다량 제작이 필요한 환경에서 특히 강점을 발휘한다. 최근에는 실시간 스트리밍 중 채팅 내용을 TTS로 읽어 주는 기능을 도입한 방송인들도 늘고 있다.
-03_“TTS 기술의 현재와 미래” 중에서
같은 시스템(GT) 안에서도 문장 맥락에 따라 [결단녁]과 [결달력]이 혼용되는 양상이 나타났다. 이는 TTS 시스템이 발음 결정에서 의미 흐름이나 문장 구조를 충분히 고려하지 못하고 있음을 보여 준다.
외래어의 경우 이 문제는 더욱 두드러진다. ‘치킨라이스’는 [치킬라이스]와 [치킨나이스]라는 두 발음이 공존할 수 있는 구조인데, 실험 결과 NP는 [치킬라이스], GT는 [치킨나이스]를 출력했다. 이는 TTS가 외래어 내의 형태소 경계를 인식하지 못하고, 단어 전체를 고정된 음성 블록처럼 처리하는 방식을 따르고 있음을 나타낸다.
‘온라인’의 경우도 마찬가지다. 이 단어는 영어의 ‘on’과 ‘line’이라는 복합어 기반 조어이지만, NP는 [올라인], GT는 [온나인]으로 출력했다. 이는 /ㄴㄹ/ 연쇄에 대한 처리 방식이 시스템 간은 물론, 시스템 내부에서도 맥락·위치·습관 인식 없이 결정되고 있다는 명백한 증거다.
-06_“흔들리는 소리, 경계의 선택” 중에서
흥미로운 것은, TTS의 속도 수치 자체가 인간 발화와 아주 극단적으로 차이가 나는 것은 아니라는 점이다. 오히려 어떤 경우에는 인간의 느린 발화보다 TTS가 빠를 수도 있다. 하지만 그 말은 여전히 어색하다. 왜일까?
문제는 속도의 ‘수치’ 그 자체가 아니라, 속도의 ‘사용 방식’에 있다. TTS는 속도를 조절하지 않고 계산된 일정한 속도를 반복하며, 강조나 멈춤, 의미 단위, 문장의 호흡 등 말을 살아 있게 만드는 리듬적 요인들을 반영하지 못한다.
예를 들어, 사람은 문장을 구성할 때 의미 단위 사이에서 속도를 살짝 늦추거나, 단어 사이에 짧은 멈춤을 삽입함으로써 정보 구조를 분명히 하거나 감정을 담는다. 하지만 TTS는 문장의 구조를 인식하지 못한 채, 단어 단위로 고르게 배분된 시간 내에서 균일하게 음절을 나열하는 방식으로 발화한다.
이러한 속도 분포는 정보 강조, 의미 전환, 발화 조율의 타이밍을 모두 무시한 구조이며, 청자에게는 “기계적으로 들리는” 근본 원인이 된다. 또한 TTS는 의미 구조나 감정 표현이 요구되는 지점에서도 속도를 조정할 수 있는 내부 판단 체계를 갖추지 못한다.
-09_“속도라는 리듬, 인간과 AI의 차이” 중에서