책소개
벤치마크의 점수 뒤에 숨은 진실, AI 평가의 본질을 묻다
인공지능은 매일 더 뛰어난 성능을 기록하며 진화하고 있다. 그러나 우리는 그 성능을 무엇으로 판단하는가. AI 시대의 핵심 질문, ‘지능은 어떻게 측정되는가’에 정면으로 답한다. 오늘날 대부분의 AI 평가는 벤치마크 점수에 의존한다. 높은 점수는 곧 높은 지능으로 받아들여지지만, 그 숫자가 과연 신뢰할 수 있는 척도인지는 별개의 문제다. 잘못 설계된 문항, 복수 정답 문제, 데이터 오염과 같은 구조적 결함은 평가 결과의 신뢰도를 흔든다. 더 나아가 기업과 연구기관이 리더보드 경쟁에 몰입하면서 특정 시험에만 최적화된 ‘기형적 지능’이 등장하는 현상도 심각한 문제로 지적된다. 이러한 현실을 비판적으로 분석하며, 벤치마크가 어떻게 만들어지고 왜 왜곡되는지를 구조적으로 설명한다. 특히 생성형 AI와 피지컬 AI 시대에 접어들며 잘못된 판단이 실제 위험으로 이어질 수 있다는 점에서, 평가의 문제는 기술을 넘어 사회적 과제로 확장된다.
이 책은 다양한 평가 방식과 최신 연구를 통해 신뢰할 수 있는 지능의 기준을 모색한다. 숫자에 대한 맹신을 넘어서, 우리가 무엇을 측정하고 있으며 무엇을 놓치고 있는지를 다시 묻게 만든다.
200자평
AI의 성능은 숫자로 증명될 수 있는가. 벤치마크 점수의 한계와 왜곡 구조를 분석하며, 신뢰할 수 있는 지능의 기준을 묻는다. 데이터 오염과 리더보드 경쟁 속에서 드러나는 평가의 문제를 짚고, AI 시대에 필요한 새로운 판단 기준을 제시한다. AI문고. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.
지은이
이영호
대구교육대학교 컴퓨터교육과 교수다. 서울교육대학교를 졸업하고 동대학원에서 박사학위를 받았다. 주요 저서로 《모두의 인공지능 with 파이썬(개정2판)》(2025), 《IT 세계가 그렇게 어려운가요?》(2025), 《인공지능은 선생님을 대신할까요?》(2023), 《모두의 인공지능 with 스크래치》(2020) 등이 있다.
인공지능 모델 개발 및 성능 평가와 관련된 연구를 진행하고 있으며, 한국연구재단의 “교육용 LLM 성능평가 벤치마크 및 가이드라인 개발 연구”(2025), “자연어처리 모델 기반 질의-응답 시스템 개발 및 적용 연구”(2023) 등을 수행하고 있다.
차례
인류의 미래를 여는 열쇠, 신뢰할 수 있는 AI
01 AI 성능 평가의 역사와 기술의 공진화
02 최신 AI 평가 패러다임
03 언어 지능의 평가
04 사회적 지능의 평가
05 시각적 지능의 평가
06 신체적 지능의 평가
07 피지컬 AI의 평가
08 리더보드의 함정
09 AI 평가 방법의 오류
10 인간 정렬 평가
책속으로
최근 사회의 변화를 이끌고 있는 GPT와 같은 생성형 AI 기술은 기존의 평가 방식의 틀에서는 측정할 수 없는 요소가 있다. GLUE 등에서 사용하는 형식인 정답이 정해져 있는 객관식 문제는 생성 모델의 창의성, 논리력, 환각 여부를 측정할 수 없기 때문이다. 이에 따라 MMLU (Massive Multitask Language Understanding)와 같이 수천 개의 주제를 아우르는 방대한 지식 평가가 등장했다. 나아가 정해진 정답이 없는 문제에 대해 AI가 AI를 평가하는(LLM-as-a-Judge) 방식이나 인간의 선호도를 직접 반영하는 방식이 새로운 표준으로 자리 잡고 있다. 이는 역설적으로, 엄격한 정량적 평가에서 다시 인간의 주관적 평가 관점이 반영되는 튜링 테스트적인 정성적 요소가 결합된 형태로 회귀하는 양상을 보인다.
-01_“AI 성능 평가의 역사와 기술의 공진화” 중에서
인공지능 언어 모델의 성능이 급상승함에 따라, 기존의 평가 벤치마크들이 더 이상 모델 간의 차이를 뚜렷이 가려내지 못하는 문제가 대두되었다. 수년간 표준으로 활용된 MMLU 벤치마크에서는 최신 거대 언어 모델들이 정확도 90% 이상을 기록하며 사실상 만점에 가까운 성적을 받아왔고, 이에 따라 더 어려운 평가가 필요하다는 공감대가 형성되었다. 이러한 배경에서 AI 연구 공동체는 한층 도전적인 새로운 시험들을 속속 제안하고 있다. 그 대표적인 예로 2025년에 공개된 “인류 최후의 시험(Humanity’s Last Exam, HLE)”은 MMLU를 뛰어넘는 난이도의 종합 학술 평가로서, 수학, 인문, 자연과학 등 수십 개 분야에 걸쳐 전문가들이 출제한 2500문항으로 구성되었다. HLE는 다지선다형과 단답형 문제를 모두 포함하며, 인터넷 검색으로 즉답을 얻기 어렵도록 설계되었다.
-03_“언어 지능의 평가” 중에서
이처럼 인공지능이 몸을 가지게 되면서, 얼마나 견고하고 신뢰성 있게 움직이는지에 대한 평가 또한 중요해지게 되었다. 실제 인공지능이 생각하는 것과 행동하는 것 사이에는 물리 법칙이라는 거대한 장벽이 존재한다. 가상 시뮬레이션(Sim)에서의 지능과 실제 현실(Real)의 지능에 대한 간극을 줄이는 것이 오늘날 신체 지능(Physical AI)에서 초점을 두어야 할 중요한 개념이다.
-06_“신체적 지능의 평가” 중에서
실제 연구에 따르면 인간이 모델을 평가하는 방식에는 여러 한계가 존재한다. 그 한계에 대해 살펴보면 다음과 같다. 먼저 아레나에 참여하는 일반 대중 평가자들은 답변의 사실성이나 논리적 정합성을 검증할 전문 지식이 부족한 경우가 많다. 예를 들어 평가자들은 내용은 틀리더라도 자신감 있고, 유창하며, 친절한 어조로 말하는 모델을 선호하는 스타일 편향과 아첨의 문제가 있다. 이는 모델이 사용자의 의견에 무조건 동조하거나, 거짓 정보를 그럴듯하게 꾸며내는 아첨하는 행동을 강화한다.
-09_“AI 평가 방법의 오류” 중에서