컴북스닷컴
세상에 읽을 수 없는 책이 없게 하라
Show Navigation Hide Navigation
  • 컴북스
  • 지만지
  • 학이시습
  • 지공
  • 기획시리즈
홈 / 컴북스 / 미디어 / AI 모델 성능 평가, LLM·VLM과 미래 AI 모델
9791143010322

AI 모델 성능 평가, LLM·VLM과 미래 AI 모델

지은이 이정헌
책소개

AI 모델 평가, 새로운 기준을 세우다
챗GPT의 등장은 기존 성능 평가 지표의 한계를 드러냈다. 정확도나 BLEU 점수만으로는 창의성, 추론 능력, 윤리성까지 포괄하는 대규모 언어 모델(LLM)과 비전 언어 모델(VLM)의 능력을 설명하기 어렵다.
이 책은 LLM과 VLM, 이미지 생성 모델 등 최신 AI를 평가하는 지표와 프레임워크를 체계적으로 정리한다. 퍼플렉시티, ROUGE, FID, CLIP 스코어 같은 기술적 기준은 물론, 산업별 특화 사례와 로봇의 체화된 추론 평가까지 다룬다. 더 나아가 AI의 안전성·윤리성·지속 가능성을 핵심 평가 축으로 제시하고, AGI를 향한 새로운 패러다임을 탐구한다. 연구개발 제안서 작성과 정책 기획에 필요한 지표를 제공하면서도, 단순한 기술 측정이 아닌 사회적 책임과 가치에 맞는 평가의 필요성을 강조한다. AI가 인류의 미래에 기여할 수 있는 방향을 찾고자 하는 연구자, 개발자, 정책 담당자에게 필요한 정보를 담았다.


 
200자평

기존 지표로는 LLM과 VLM의 창의성과 추론 능력을 온전히 설명할 수 없다. 최신 AI 모델의 평가 지표, 산업별 적용, 윤리와 안전까지 아우르며 미래 AI 평가 패러다임을 제시한다. 인공지능총서. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.


 
지은이

이정헌
경희대학교 컴퓨터공학과 교수다. 1999년부터 2011년까지 3번 스타트업을 창업해 투자금을 회수(exit)했고, 한국정보화진흥원 프로젝트 매니저(PM)를 거쳐 2013년부터 현재까지 경희대학교 컴퓨터공학과 교수로 재직 중이다. 2018년부터 전문 개인 투자자로 활동하고 있으며, AC(액셀러레이터)/VC(벤처캐피탈) 투자사를 설립해 스타트업을 발굴하고 투자하고 성장을 지원하는 투자 활동을 활발히 하고 있다. 2017년부터 4년간 중소벤처기업부 성능검증연구협의회 사무국장을 지냈다. 중소벤처혁신기업협회 협회장과 국가지식재산위원회 신지식 재산 분과에서 전문위원으로 활동했다(2013∼2017). 과기부, 산업부, 문체부, 중기부 등에서 국책과제 최고평가단 및 AI 관련 신규 과제 기획위원으로 활동 중이다. AI, 빅데이터, AR/VR, 영상 처리 분야에서 다수의 국책 연구 개발 프로젝트를 수행했으며, 세계인명사전에도 전문가로 등재되어 있다. 주요 저서로 《애즈 어 서비스다! 비트 경제의 게임체인저》(2021), 《4차 산업 시대의 역량 강화를 위한 생성형 AI 그리고 산업자동화》(2024), 《개인투자자와 AI 서비스》(2025) 등이 있다.


 
차례

AI 모델 성능 평가의 새로운 패러다임 시작

01 대규모 언어 모델의 성능 평가
02 비전 언어 모델의 성능 평가
03 생성 AI 모델의 성능 평가
04 파운데이션 모델의 성능 평가
05 산업별 LLM·VLM 성능 평가
06 로봇 일상화를 위한 CoT 성능 검증
07 AI 모델의 안전성과 윤리적 평가
08 AI 모델의 효율성과 지속 가능성 평가
09 미래 AI 모델 성능 평가 패러다임
10 AI 모델 성능 평가의 미래 전망


 
책속으로

GPT-3의 출시와 함께 시작된 LLM 시대는 기존 평가 체계의 한계를 여실히 드러냈다. 1,750억 개의 파라미터를 가진 GPT-3는 퓨샷(Few-shot) 학습 능력을 통해 별도의 미세 조정(Fine-tuning) 없이도 다양한 태스크를 수행할 수 있었다. 이는 태스크별로 특화된 모델을 학습시키고 평가하던 기존 방식에 큰 변화를 요구했다.
기존 평가 방식의 첫 번째 한계는 태스크 특화성이었다. 버트(BERT)나 로버타(RoBERTa) 같은 모델들은 특정 다운스트림 태스크에 맞춰 미세 조정되어 평가되었다. 그러나 LLM은 프롬프트만으로 다양한 태스크를 수행할 수 있어, 하나의 모델을 여러 관점에서 종합적으로 평가해야 하는 필요성이 대두되었다. 단일 태스크 평가로는 모델의 진정한 능력을 파악하기 어려워졌다.
-01_“대규모 언어 모델의 성능 평가” 중에서

음성 생성 기술은 TTS(Text-to-Speech), 음성 변환, 음성 복원 등 다양한 응용 분야를 포함한다. 웨이브넷(Wave- Net) 이후 뉴럴 보코더(Neural Vocoder)의 발전, 타코트론(Tacotron)과 패스트스피치(FastSpeech) 같은 엔드투엔드(End-to-End) 모델, 그리고 최근 발리(VALL-E) 같은 대규모 언어 모델 기반 음성 생성까지 급속히 발전했다. 각 기술의 특성에 맞는 정교한 평가 체계가 필수적이다.
-03_“생성 AI 모델의 성능 평가” 중에서

로봇이 실제 환경에서 작동할 때 마주치는 가장 큰 도전은 예측 불가능한 상황에 대한 대응이다. 공장의 정형화된 환경과 달리, 일상 환경은 끊임없이 변화하고 예상치 못한 상황이 발생한다. CoT는 이러한 불확실성을 체계적으로 다룰 수 있게 해 준다.
투명성과 신뢰성 확보: CoT를 통해 로봇의 의사 결정 과정이 투명해진다. 사용자는 로봇이 왜 특정 행동을 선택했는지 이해할 수 있으며, 이는 인간ᐨ로봇 상호작용에서 신뢰 구축의 기반이 된다. 특히 의료나 돌봄 로봇처럼 안전이 중요한 분야에서는 이러한 설명 가능성이 필수적이다.
오류 진단과 개선: 작업 실패 시 CoT는 어느 단계에서 문제가 발생했는지 정확히 파악할 수 있게 해 준다. 이를 통해 시스템 개선이 용이해지고, 같은 실수를 반복하지 않도록 학습할 수 있다.
적응적 행동 생성: 새로운 상황에 직면했을 때, CoT는 기존 지식을 조합해 창의적인 해결책을 도출할 수 있게 한다. 예를 들어, 문이 잠겨 있을 때 다른 경로를 찾거나, 도구가 없을 때 대체 방법을 모색하는 등의 적응적 행동이 가능해진다.
-06_“로봇 일상화를 위한 CoT 성능 검증” 중에서

현대 AI 시스템은 언어 이해, 시각 인식, 추론, 창의성 등 다양한 능력을 동시에 갖추고 있다. 이러한 다차원적 능력을 하나의 숫자로 요약하는 것은 불가능하며, 각 차원을 개별적으로 평가하는 것도 전체적인 능력을 파악하는 데 한계가 있다.
예를 들어, 비전 언어 모델은 이미지를 이해하고 설명하는 능력과 함께 시각적 추론, 창의적 설명 생성 등의 복합적 능력을 갖는다. 이를 평가하려면 단순한 캡션 정확도를 넘어서는 종합적 평가 체계가 필요하다.
더 나아가, 이러한 능력들 간의 상호작용과 시너지 효과를 어떻게 측정할 것인가도 중요한 과제다. 개별 능력의 합이 전체 능력과 같지 않다는 것은 AI 평가에서도 마찬가지다.
-09_“미래 AI 모델 성능 평가 패러다임” 중에서



서지정보

발행일 2025년 9월 24일
쪽수 176 쪽
판형 128*188mm ,  210*290mm
ISBN(종이책) 9791143010322   03500   12000원
ISBN(EPUB) 9791143010346   05500   9600원
ISBN(큰글씨책) 9791143010339   03500   25000원
분류 미디어, 컴북스
기계공학인공지능인공지능총서정보이론
Facebook



위로가기



 

회사소개   알리는말씀   이용약관  유료서비스이용약관   개인정보취급방침   회사약도   페이스북컴북스   페이스북지만지
커뮤니케이션북스(주) 02880 서울시 성북구 성북로 5-11 commbooks@commbooks.com 02.7474.001 02.736.5047
대표이사 박영률 사업자등록번호 105-87-11972 통신판매업신고 제2009-서울마포-00105호 Copyright ⓒ CommunicationBooks, Inc. All Rights Reserved.
커뮤니케이션북스 홈사이트는 인터넷익스플로러9 이상, 크롬, 파이어폭스를 권장합니다.

이용약관   개인정보취급방침   페이스북컴북스   페이스북지만지
02880 서울시 성북구 성북로 5-11 (성북동1가 35-38) commbooks@commbooks.com 02.7474.001 02.736.5047
대표이사 박영률 사업자등록번호 105-87-11972 통신판매업신고 제2009-서울마포-00105호 Copyright ⓒ CommunicationBooks, Inc. All Rights Reserved.
커뮤니케이션북스 홈사이트는 인터넷익스플로러9 이상, 크롬, 파이어폭스를 권장합니다.

툴바로 바로가기
    • 컴북스 소개
    • 컴북스 도서
    • 주제로 찾기
      • 커뮤니케이션
      • 미디어
      • 저널리즘
      • 광고·홍보·마케팅
      • 경제경영
      • 문화
      • 영화
      • 정기간행물
      • 한국어
    • 시리즈로 찾기
      • 한국시나리오걸작선
      • 한국의 저널리스트
      • 커뮤니케이션이해총서
      • 컴북스이론총서
      • 만화웹툰이론총서
      • 만화웹툰작가평론선
      • 저널리즘총서
      • 리얼미디어
      • 컴북스팸플릿
      • 아트코리아랩총서
      • 인공지능총서
    • 자료실
    • 지만지 소개
    • 지만지 도서
    • 주제로 찾기
      • 문학
      • 사회
      • 인문
      • 역사
      • 예술
      • 자연
    • 지만지드라마 소개
    • 지만지드라마 도서
    • 장르로 찾기
      • 희곡
      • 연극이론
    • 지만지드라마닷컴
    • 지만지한국문학 소개
    • 지만지한국문학 도서
    • 장르로 찾기
      • 시
      • 소설
      • 수필
      • 평론
      • 문집
      • 동화
      • 동시
    • 시리즈로 찾기
      • 초판본 한국소설문학선집
      • 초판본 한국시문학선집
      • 초판본 한국문학평론선집
      • 한국동화문학선집
      • 한국동시문학선집
      • 한국수필선집
      • 육필시집
      • 지역 고전학 총서
      • 한국 고전소설 등장인물 사전
      • 한국 고전소설사 큰사전
    • 학이시습 소개
    • 학이시습 도서
    • 주제로 찾기
      • 인적 자원 개발
      • 새 시대의 공교육
      • 교사를 위한 수업 매뉴얼
      • 학습 이론&역사
      • 진로설계학습
      • 일상에서배우기
      • 자서전·전기
      • 문해 학습
      • 외국인을위한한국어읽기
    • 지식공작소 소개
    • 지식공작소 도서
    • 주제로 찾기
      • 경제/경영
      • 달리기/마라톤
      • 인문교양
      • 자기계발
      • 자서전/회고록
    • 오디오북스 소개
    • 오디오북스 도서
    • 시리즈로 찾기
      • 100인의 배우, 우리 문학을 읽다
      • 100인의 배우, 세계 문학을 읽다
      • 길용우가 읽는 박태원 삼국지
      • 법정스님 108법문 (상)
      • 베개 타고 떠나는 이야기 여행
      • 빨강머리 앤 1권 초록지붕 집 이야기
      • 빨강머리 앤 2권 에이번리 이야기
      • 빨강머리 앤 3권 레드먼드 이야기
      • 세계환상문학걸작선
      • 셰익스피어 4대 비극
    • 큰글자책 소개
    • 큰글자책 파트너사
    • 로그인
    • 회원가입
    • 문의
    • 출간문의
    • FAQ