책소개
정확도 너머, 신뢰를 설계하다
AI가 생활과 산업 전반을 움직이는 지금, 관건은 ‘얼마나 똑똑한가’가 아니라 ‘얼마나 제대로 작동하는가’다. 이 책은 혼동 행렬과 정밀도·재현율·F1의 기초부터 불균형 데이터, 임계값 튜닝, ROC-AUC를 거쳐 지연시간, 메모리, 에너지 효율까지 성능을 입체적으로 설계하는 방법을 안내한다. 의료·제조·금융·리테일 사례로 지표 선택의 맥락을 짚고, 공정성·설명가능성·안전성 준거를 현업 기준으로 정리한다. 국책 R&D 제안서에서 평가지표를 설정하는 요령과 흔한 함정을 제시하고, 배포 후 성능 모니터링과 재평가 체계를 통해 모델 드리프트에 대응하는 실무 프로세스를 제안한다.
정확도 99%의 환상을 걷고, 목적에 맞는 지표 조합으로 신뢰 가능한 AI를 구축하도록 돕는다. 현장 실패 사례를 해부하며 ‘정답률 착시’를 경계하고, 비용 민감도와 오류비용 테이블, 캘리브레이션, 강건성, 도메인 시프트와 데이터 드리프트, 적대적 입력에 대한 회복력까지 평가의 범위를 확장한다. 추천·검색·검출·요약·생성형 모델의 특성별 지표와 A/B 테스트, 오프라인-온라인 연계 실험 설계도 다룬다. 평가 결과 보고 포맷과 거버넌스 체크리스트를 제공해 조직의 의사결정을 돕는다.
200자평
정확도 하나로는 부족하다. 이 책은 혼동 행렬과 정밀도·재현율·F1의 기초, ROC-AUC와 임계값 튜닝, 지연시간·메모리·에너지 효율까지 아우르는 평가 설계를 안내한다. 의료·제조·금융 사례로 공정성·설명가능성·안전성의 기준을 제시하고, 국책 R&D 제안서 지표 설정과 배포 후 모니터링·재평가 절차까지 실무적으로 정리한다. 인공지능총서. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.
지은이
이정헌
경희대학교 컴퓨터공학과 교수다. 1999년부터 2011년까지 3번 스타트업을 창업해 투자금을 회수(exit)했고, 한국정보화진흥원 프로젝트 매니저(PM)를 거쳐 2013년부터 현재까지 경희대학교 컴퓨터공학과 교수로 재직 중이다. 2018년부터 전문 개인 투자자로 활동하고 있으며, AC(액셀러레이터)/VC(벤처캐피탈) 투자사를 설립해 스타트업을 발굴하고 투자하고 성장을 지원하는 투자 활동을 활발히 하고 있다. 2017년부터 4년간 중소벤처기업부 성능검증연구협의회 사무국장을 지냈다. 중소벤처혁신기업협회 협회장과 국가지식재산위원회 신지식 재산 분과에서 전문위원으로 활동했다(2013∼2017). 과기부, 산업부, 문체부, 중기부 등에서 국책과제 최고평가단 및 AI 관련 신규 과제 기획위원으로 활동 중이다. AI, 빅데이터, AR/VR, 영상 처리 분야에서 다수의 국책 연구 개발 프로젝트를 수행했으며, 세계인명사전에도 전문가로 등재되어 있다. 주요 저서로 《애즈 어 서비스다! 비트 경제의 게임체인저》(2021), 《4차 산업 시대의 역량 강화를 위한 생성형 AI 그리고 산업자동화》(2024), 《개인투자자와 AI 서비스》(2025) 등이 있다.
차례
AI 모델 성능 평가의 중요성
01 AI 모델 성능 평가 기초
02 분류 모델의 성능 평가
03 회귀 및 순위 모델 성능 평가
04 이미지 인식 및 분할 모델 성능 평가
05 의료 분야 AI 모델 성능 평가
06 제조 분야 AI 모델 성능 평가
07 금융 분야 AI 모델 성능 평가
08 패션 및 리테일 분야 AI 모델 성능 평가
09 산업별 테스트 세트와 벤치마크 구축
10 AI 모델 성능 평가의 실무 가이드
책속으로
AI 모델 성능 평가의 주요 목적은 다음과 같다. 첫째, 모델의 예측 정확도와 신뢰성을 정량적으로 측정한다. 이를 통해 모델이 실제 문제 해결에 적합한지 판단할 수 있다. 둘째, 여러 모델을 공정하게 비교하여 최적의 모델을 선택할 수 있는 기준을 제공한다. 셋째, 모델의 취약점을 발견하고 개선 방향을 도출한다. 넷째, 이해관계자들에게 모델의 성능을 객관적으로 전달할 수 있는 근거를 마련한다.
-01_“AI 모델 성능 평가 기초” 중에서
환자 우선순위 결정에서는 순위 정확도가 생명을 좌우할 수 있다. 응급실 중증도 분류나 장기 이식 대기자 순위에서는 고위험 환자가 상위에 오는지를 중점적으로 평가한다. Precision@k보다는 Recall@k가 더 중요할 수 있다. 치료 효과 예측에서는 개인별 치료 반응의 이질성을 고려한다. 평균적인 예측 정확도보다는 극단적인 반응을 보일 환자를 정확히 식별하는 것이 중요하므로, 분위수 회귀와 예측 구간의 정확도를 함께 평가한다.
-03_“회귀 및 순위 모델 성능 평가” 중에서
제조 현장에서 AI 기반 품질 검사 시스템의 성능을 평가할 때 가장 중요한 두 가지 지표는 결함 탐지율과 오탐률이다. 이 두 지표는 서로 상충 관계이며, 산업별 특성에 따라 최적의 균형점이 달라진다. 단, 여기서 제시하는 성능 평가 수치는 제조 분야에서 알려진 논문이나 시스템의 수치를 제시한 것으로 실제 제조 분야에서는 이 장에서 요구하는 것보다 더 높은 수준의 성능을 요구할 수 있다.
-06_“제조 분야 AI 모델 성능 평가” 중에서
도메인 특화 데이터 세트를 구축하기 위해서는 먼저 해당 산업의 데이터 특성을 깊이 이해해야 한다. 의료 분야는 개인정보 보호가 최우선이며, 질병의 희귀성으로 인한 클래스 불균형이 심각하다. 제조 분야는 결함 데이터가 극도로 희소하고, 환경 변화에 따른 데이터 분포 변화가 빈번하다. 금융 분야는 시계열 특성이 강하고 규제 준수가 필수다.
-09_“산업별 테스트 세트와 벤치마크 구축” 중에서