책소개
AI 모델 평가, 새로운 기준을 세우다
챗GPT의 등장은 기존 성능 평가 지표의 한계를 드러냈다. 정확도나 BLEU 점수만으로는 창의성, 추론 능력, 윤리성까지 포괄하는 대규모 언어 모델(LLM)과 비전 언어 모델(VLM)의 능력을 설명하기 어렵다.
이 책은 LLM과 VLM, 이미지 생성 모델 등 최신 AI를 평가하는 지표와 프레임워크를 체계적으로 정리한다. 퍼플렉시티, ROUGE, FID, CLIP 스코어 같은 기술적 기준은 물론, 산업별 특화 사례와 로봇의 체화된 추론 평가까지 다룬다. 더 나아가 AI의 안전성·윤리성·지속 가능성을 핵심 평가 축으로 제시하고, AGI를 향한 새로운 패러다임을 탐구한다. 연구개발 제안서 작성과 정책 기획에 필요한 지표를 제공하면서도, 단순한 기술 측정이 아닌 사회적 책임과 가치에 맞는 평가의 필요성을 강조한다. AI가 인류의 미래에 기여할 수 있는 방향을 찾고자 하는 연구자, 개발자, 정책 담당자에게 필요한 정보를 담았다.
200자평
기존 지표로는 LLM과 VLM의 창의성과 추론 능력을 온전히 설명할 수 없다. 최신 AI 모델의 평가 지표, 산업별 적용, 윤리와 안전까지 아우르며 미래 AI 평가 패러다임을 제시한다. 인공지능총서. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.
지은이
이정헌
경희대학교 컴퓨터공학과 교수다. 1999년부터 2011년까지 3번 스타트업을 창업해 투자금을 회수(exit)했고, 한국정보화진흥원 프로젝트 매니저(PM)를 거쳐 2013년부터 현재까지 경희대학교 컴퓨터공학과 교수로 재직 중이다. 2018년부터 전문 개인 투자자로 활동하고 있으며, AC(액셀러레이터)/VC(벤처캐피탈) 투자사를 설립해 스타트업을 발굴하고 투자하고 성장을 지원하는 투자 활동을 활발히 하고 있다. 2017년부터 4년간 중소벤처기업부 성능검증연구협의회 사무국장을 지냈다. 중소벤처혁신기업협회 협회장과 국가지식재산위원회 신지식 재산 분과에서 전문위원으로 활동했다(2013∼2017). 과기부, 산업부, 문체부, 중기부 등에서 국책과제 최고평가단 및 AI 관련 신규 과제 기획위원으로 활동 중이다. AI, 빅데이터, AR/VR, 영상 처리 분야에서 다수의 국책 연구 개발 프로젝트를 수행했으며, 세계인명사전에도 전문가로 등재되어 있다. 주요 저서로 《애즈 어 서비스다! 비트 경제의 게임체인저》(2021), 《4차 산업 시대의 역량 강화를 위한 생성형 AI 그리고 산업자동화》(2024), 《개인투자자와 AI 서비스》(2025) 등이 있다.
차례
AI 모델 성능 평가의 새로운 패러다임 시작
01 대규모 언어 모델의 성능 평가
02 비전 언어 모델의 성능 평가
03 생성 AI 모델의 성능 평가
04 파운데이션 모델의 성능 평가
05 산업별 LLM·VLM 성능 평가
06 로봇 일상화를 위한 CoT 성능 검증
07 AI 모델의 안전성과 윤리적 평가
08 AI 모델의 효율성과 지속 가능성 평가
09 미래 AI 모델 성능 평가 패러다임
10 AI 모델 성능 평가의 미래 전망
책속으로
GPT-3의 출시와 함께 시작된 LLM 시대는 기존 평가 체계의 한계를 여실히 드러냈다. 1,750억 개의 파라미터를 가진 GPT-3는 퓨샷(Few-shot) 학습 능력을 통해 별도의 미세 조정(Fine-tuning) 없이도 다양한 태스크를 수행할 수 있었다. 이는 태스크별로 특화된 모델을 학습시키고 평가하던 기존 방식에 큰 변화를 요구했다.
기존 평가 방식의 첫 번째 한계는 태스크 특화성이었다. 버트(BERT)나 로버타(RoBERTa) 같은 모델들은 특정 다운스트림 태스크에 맞춰 미세 조정되어 평가되었다. 그러나 LLM은 프롬프트만으로 다양한 태스크를 수행할 수 있어, 하나의 모델을 여러 관점에서 종합적으로 평가해야 하는 필요성이 대두되었다. 단일 태스크 평가로는 모델의 진정한 능력을 파악하기 어려워졌다.
-01_“대규모 언어 모델의 성능 평가” 중에서
음성 생성 기술은 TTS(Text-to-Speech), 음성 변환, 음성 복원 등 다양한 응용 분야를 포함한다. 웨이브넷(Wave- Net) 이후 뉴럴 보코더(Neural Vocoder)의 발전, 타코트론(Tacotron)과 패스트스피치(FastSpeech) 같은 엔드투엔드(End-to-End) 모델, 그리고 최근 발리(VALL-E) 같은 대규모 언어 모델 기반 음성 생성까지 급속히 발전했다. 각 기술의 특성에 맞는 정교한 평가 체계가 필수적이다.
-03_“생성 AI 모델의 성능 평가” 중에서
로봇이 실제 환경에서 작동할 때 마주치는 가장 큰 도전은 예측 불가능한 상황에 대한 대응이다. 공장의 정형화된 환경과 달리, 일상 환경은 끊임없이 변화하고 예상치 못한 상황이 발생한다. CoT는 이러한 불확실성을 체계적으로 다룰 수 있게 해 준다.
투명성과 신뢰성 확보: CoT를 통해 로봇의 의사 결정 과정이 투명해진다. 사용자는 로봇이 왜 특정 행동을 선택했는지 이해할 수 있으며, 이는 인간ᐨ로봇 상호작용에서 신뢰 구축의 기반이 된다. 특히 의료나 돌봄 로봇처럼 안전이 중요한 분야에서는 이러한 설명 가능성이 필수적이다.
오류 진단과 개선: 작업 실패 시 CoT는 어느 단계에서 문제가 발생했는지 정확히 파악할 수 있게 해 준다. 이를 통해 시스템 개선이 용이해지고, 같은 실수를 반복하지 않도록 학습할 수 있다.
적응적 행동 생성: 새로운 상황에 직면했을 때, CoT는 기존 지식을 조합해 창의적인 해결책을 도출할 수 있게 한다. 예를 들어, 문이 잠겨 있을 때 다른 경로를 찾거나, 도구가 없을 때 대체 방법을 모색하는 등의 적응적 행동이 가능해진다.
-06_“로봇 일상화를 위한 CoT 성능 검증” 중에서
현대 AI 시스템은 언어 이해, 시각 인식, 추론, 창의성 등 다양한 능력을 동시에 갖추고 있다. 이러한 다차원적 능력을 하나의 숫자로 요약하는 것은 불가능하며, 각 차원을 개별적으로 평가하는 것도 전체적인 능력을 파악하는 데 한계가 있다.
예를 들어, 비전 언어 모델은 이미지를 이해하고 설명하는 능력과 함께 시각적 추론, 창의적 설명 생성 등의 복합적 능력을 갖는다. 이를 평가하려면 단순한 캡션 정확도를 넘어서는 종합적 평가 체계가 필요하다.
더 나아가, 이러한 능력들 간의 상호작용과 시너지 효과를 어떻게 측정할 것인가도 중요한 과제다. 개별 능력의 합이 전체 능력과 같지 않다는 것은 AI 평가에서도 마찬가지다.
-09_“미래 AI 모델 성능 평가 패러다임” 중에서