컴북스닷컴
세상에 읽을 수 없는 책이 없게 하라
Show Navigation Hide Navigation
  • 컴북스
  • 지만지
  • 학이시습
  • 지공
  • 기획시리즈
홈 / 컴북스 / 미디어 / AI와 벤치마크, 신뢰할 수 있는 지능의 척도
9791143023162

AI와 벤치마크, 신뢰할 수 있는 지능의 척도

지은이 이영호
책소개

벤치마크의 점수 뒤에 숨은 진실, AI 평가의 본질을 묻다
인공지능은 매일 더 뛰어난 성능을 기록하며 진화하고 있다. 그러나 우리는 그 성능을 무엇으로 판단하는가. AI 시대의 핵심 질문, ‘지능은 어떻게 측정되는가’에 정면으로 답한다. 오늘날 대부분의 AI 평가는 벤치마크 점수에 의존한다. 높은 점수는 곧 높은 지능으로 받아들여지지만, 그 숫자가 과연 신뢰할 수 있는 척도인지는 별개의 문제다. 잘못 설계된 문항, 복수 정답 문제, 데이터 오염과 같은 구조적 결함은 평가 결과의 신뢰도를 흔든다. 더 나아가 기업과 연구기관이 리더보드 경쟁에 몰입하면서 특정 시험에만 최적화된 ‘기형적 지능’이 등장하는 현상도 심각한 문제로 지적된다. 이러한 현실을 비판적으로 분석하며, 벤치마크가 어떻게 만들어지고 왜 왜곡되는지를 구조적으로 설명한다. 특히 생성형 AI와 피지컬 AI 시대에 접어들며 잘못된 판단이 실제 위험으로 이어질 수 있다는 점에서, 평가의 문제는 기술을 넘어 사회적 과제로 확장된다.
이 책은 다양한 평가 방식과 최신 연구를 통해 신뢰할 수 있는 지능의 기준을 모색한다. 숫자에 대한 맹신을 넘어서, 우리가 무엇을 측정하고 있으며 무엇을 놓치고 있는지를 다시 묻게 만든다.


 
200자평

AI의 성능은 숫자로 증명될 수 있는가. 벤치마크 점수의 한계와 왜곡 구조를 분석하며, 신뢰할 수 있는 지능의 기준을 묻는다. 데이터 오염과 리더보드 경쟁 속에서 드러나는 평가의 문제를 짚고, AI 시대에 필요한 새로운 판단 기준을 제시한다. AI문고. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.


 
지은이

이영호
대구교육대학교 컴퓨터교육과 교수다. 서울교육대학교를 졸업하고 동대학원에서 박사학위를 받았다. 주요 저서로 《모두의 인공지능 with 파이썬(개정2판)》(2025), 《IT 세계가 그렇게 어려운가요?》(2025), 《인공지능은 선생님을 대신할까요?》(2023), 《모두의 인공지능 with 스크래치》(2020) 등이 있다.
인공지능 모델 개발 및 성능 평가와 관련된 연구를 진행하고 있으며, 한국연구재단의 “교육용 LLM 성능평가 벤치마크 및 가이드라인 개발 연구”(2025), “자연어처리 모델 기반 질의-응답 시스템 개발 및 적용 연구”(2023) 등을 수행하고 있다.


 
차례

인류의 미래를 여는 열쇠, 신뢰할 수 있는 AI

01 AI 성능 평가의 역사와 기술의 공진화
02 최신 AI 평가 패러다임
03 언어 지능의 평가
04 사회적 지능의 평가
05 시각적 지능의 평가
06 신체적 지능의 평가
07 피지컬 AI의 평가
08 리더보드의 함정
09 AI 평가 방법의 오류
10 인간 정렬 평가


 
책속으로

최근 사회의 변화를 이끌고 있는 GPT와 같은 생성형 AI 기술은 기존의 평가 방식의 틀에서는 측정할 수 없는 요소가 있다. GLUE 등에서 사용하는 형식인 정답이 정해져 있는 객관식 문제는 생성 모델의 창의성, 논리력, 환각 여부를 측정할 수 없기 때문이다. 이에 따라 MMLU (Massive Multitask Language Understanding)와 같이 수천 개의 주제를 아우르는 방대한 지식 평가가 등장했다. 나아가 정해진 정답이 없는 문제에 대해 AI가 AI를 평가하는(LLM-as-a-Judge) 방식이나 인간의 선호도를 직접 반영하는 방식이 새로운 표준으로 자리 잡고 있다. 이는 역설적으로, 엄격한 정량적 평가에서 다시 인간의 주관적 평가 관점이 반영되는 튜링 테스트적인 정성적 요소가 결합된 형태로 회귀하는 양상을 보인다.
-01_“AI 성능 평가의 역사와 기술의 공진화” 중에서

인공지능 언어 모델의 성능이 급상승함에 따라, 기존의 평가 벤치마크들이 더 이상 모델 간의 차이를 뚜렷이 가려내지 못하는 문제가 대두되었다. 수년간 표준으로 활용된 MMLU 벤치마크에서는 최신 거대 언어 모델들이 정확도 90% 이상을 기록하며 사실상 만점에 가까운 성적을 받아왔고, 이에 따라 더 어려운 평가가 필요하다는 공감대가 형성되었다. 이러한 배경에서 AI 연구 공동체는 한층 도전적인 새로운 시험들을 속속 제안하고 있다. 그 대표적인 예로 2025년에 공개된 “인류 최후의 시험(Humanity’s Last Exam, HLE)”은 MMLU를 뛰어넘는 난이도의 종합 학술 평가로서, 수학, 인문, 자연과학 등 수십 개 분야에 걸쳐 전문가들이 출제한 2500문항으로 구성되었다. HLE는 다지선다형과 단답형 문제를 모두 포함하며, 인터넷 검색으로 즉답을 얻기 어렵도록 설계되었다.
-03_“언어 지능의 평가” 중에서

이처럼 인공지능이 몸을 가지게 되면서, 얼마나 견고하고 신뢰성 있게 움직이는지에 대한 평가 또한 중요해지게 되었다. 실제 인공지능이 생각하는 것과 행동하는 것 사이에는 물리 법칙이라는 거대한 장벽이 존재한다. 가상 시뮬레이션(Sim)에서의 지능과 실제 현실(Real)의 지능에 대한 간극을 줄이는 것이 오늘날 신체 지능(Physical AI)에서 초점을 두어야 할 중요한 개념이다.
-06_“신체적 지능의 평가” 중에서

실제 연구에 따르면 인간이 모델을 평가하는 방식에는 여러 한계가 존재한다. 그 한계에 대해 살펴보면 다음과 같다. 먼저 아레나에 참여하는 일반 대중 평가자들은 답변의 사실성이나 논리적 정합성을 검증할 전문 지식이 부족한 경우가 많다. 예를 들어 평가자들은 내용은 틀리더라도 자신감 있고, 유창하며, 친절한 어조로 말하는 모델을 선호하는 스타일 편향과 아첨의 문제가 있다. 이는 모델이 사용자의 의견에 무조건 동조하거나, 거짓 정보를 그럴듯하게 꾸며내는 아첨하는 행동을 강화한다.
-09_“AI 평가 방법의 오류” 중에서



서지정보

발행일 2026년 4월 3일
쪽수 151 쪽
판형 128*188mm ,  210*290mm
ISBN(종이책) 9791143023162   03500   12000원
ISBN(EPUB) 9791143023186   05500   9600원
ISBN(큰글씨책) 9791143023179   03500   25000원
분류 미디어, 컴북스
AI문고AI총서인공지능인공지능총서정보이론
Facebook



위로가기



 

회사소개   알리는말씀   이용약관  유료서비스이용약관   개인정보취급방침   회사약도   페이스북컴북스   페이스북지만지
커뮤니케이션북스(주) 02880 서울시 성북구 성북로 5-11 commbooks@commbooks.com 02.7474.001 02.736.5047
대표이사 박영률 사업자등록번호 105-87-11972 통신판매업신고 제2009-서울마포-00105호 Copyright ⓒ CommunicationBooks, Inc. All Rights Reserved.
커뮤니케이션북스 홈사이트는 인터넷익스플로러9 이상, 크롬, 파이어폭스를 권장합니다.

이용약관   개인정보취급방침   페이스북컴북스   페이스북지만지
02880 서울시 성북구 성북로 5-11 (성북동1가 35-38) commbooks@commbooks.com 02.7474.001 02.736.5047
대표이사 박영률 사업자등록번호 105-87-11972 통신판매업신고 제2009-서울마포-00105호 Copyright ⓒ CommunicationBooks, Inc. All Rights Reserved.
커뮤니케이션북스 홈사이트는 인터넷익스플로러9 이상, 크롬, 파이어폭스를 권장합니다.

툴바로 바로가기
    • 컴북스 소개
    • 컴북스 도서
    • 주제로 찾기
      • 커뮤니케이션
      • 미디어
      • 저널리즘
      • 광고·홍보·마케팅
      • 경제경영
      • 문화
      • 영화
      • 정기간행물
      • 한국어
    • 시리즈로 찾기
      • 한국시나리오걸작선
      • 한국의 저널리스트
      • 커뮤니케이션이해총서
      • 컴북스이론총서
      • 만화웹툰이론총서
      • 만화웹툰작가평론선
      • 저널리즘총서
      • 리얼미디어
      • 컴북스팸플릿
      • 아트코리아랩총서
      • AI총서
    • 자료실
    • 지만지 소개
    • 지만지 도서
    • 주제로 찾기
      • 문학
      • 사회
      • 인문
      • 역사
      • 예술
      • 자연
    • 지만지드라마 소개
    • 지만지드라마 도서
    • 장르로 찾기
      • 희곡
      • 연극이론
    • 지만지드라마닷컴
    • 지만지한국문학 소개
    • 지만지한국문학 도서
    • 장르로 찾기
      • 시
      • 소설
      • 수필
      • 평론
      • 문집
      • 동화
      • 동시
    • 시리즈로 찾기
      • 초판본 한국소설문학선집
      • 초판본 한국시문학선집
      • 초판본 한국문학평론선집
      • 한국동화문학선집
      • 한국동시문학선집
      • 한국수필선집
      • 육필시집
      • 지역 고전학 총서
      • 한국 고전소설 등장인물 사전
      • 한국 고전소설사 큰사전
    • 학이시습 소개
    • 학이시습 도서
    • 주제로 찾기
      • 인적 자원 개발
      • 새 시대의 공교육
      • 교사를 위한 수업 매뉴얼
      • 학습 이론&역사
      • 진로설계학습
      • 일상에서배우기
      • 자서전·전기
      • 문해 학습
      • 외국인을위한한국어읽기
    • 지식공작소 소개
    • 지식공작소 도서
    • 주제로 찾기
      • 경제/경영
      • 달리기/마라톤
      • 인문교양
      • 자기계발
      • 자서전/회고록
    • 오디오북스 소개
    • 오디오북스 도서
    • 시리즈로 찾기
      • 100인의 배우, 우리 문학을 읽다
      • 100인의 배우, 세계 문학을 읽다
      • 길용우가 읽는 박태원 삼국지
      • 법정스님 108법문 (상)
      • 베개 타고 떠나는 이야기 여행
      • 빨강머리 앤 1권 초록지붕 집 이야기
      • 빨강머리 앤 2권 에이번리 이야기
      • 빨강머리 앤 3권 레드먼드 이야기
      • 세계환상문학걸작선
      • 셰익스피어 4대 비극
    • 큰글자책 소개
    • 큰글자책 파트너사
    • 문의
    • 출간문의
    • FAQ