책소개
확률 표집 이후의 세계, 조사는 어떻게 신뢰를 설계하는가
응답률 5%의 시대, 통계적 ‘이상’을 넘어 현실적 ‘진실’을 찾는다
비확률 표집을 과학적이고 정교하게 설계하려는 조사 방법론 가이드북
조사 방법론의 교과서적 이상과 현장의 냉혹한 현실 사이에서, 오늘날 조사가 무엇을 선택해야 하는지를 묻는다. 확률 표집은 모든 구성원이 표본으로 뽑힐 기회를 가진다는 원리 위에서 과학성과 민주주의를 동시에 지탱해 왔다. 무작위 전화 걸기와 같은 방법은 오차 범위와 신뢰 수준을 계산 가능한 것으로 만들며 여론을 정밀하게 추론할 수 있게 했다. 그러나 스팸과 피싱이 일상이 된 환경, 급락한 응답률, 폭증한 조사 비용은 그 이상을 지속하기 어렵게 만들었다. 특히 주소 기반 표집틀이 부재한 한국의 현실에서 전화번호 중심의 확률 표집은 모집단을 대표하지 못하는 ‘기울어진 운동장’이 되었다.
이 책은 확률 표집의 황금기가 왜 끝났는지를 무응답 편향과 포함 오류라는 구조적 문제를 통해 설명한다. 응답하는 소수는 더 이상 침묵하는 다수를 대표하지 못하고, 휴대전화 중심 사회는 기존 표집틀의 전제를 무너뜨렸다. 이러한 변화는 단지 기술의 문제가 아니라 신뢰의 문제다. 2016년 미국 대선과 브렉시트 예측 실패는 확률 표집이 더 이상 자동으로 정확성을 보장하지 않는다는 사실을 드러냈다.
저자는 여기서 비확률 표집을 단순한 차선이나 편법으로 다루지 않는다. 미국과 한국의 서로 다른 역사적 경로를 비교하며, 한국 조사 시장에서 할당 조사가 관행으로 굳어진 이유를 구조적으로 분석한다. 이는 과학적 신념의 결핍이 아니라, 제약 속에서 최선을 찾으려는 실용적 선택의 결과였음을 짚는다. 문제는 비확률 표집 그 자체가 아니라, 선택 편향을 어떻게 인식하고 통제하느냐다.
비확률 표집을 ‘불완전한 재료’로 인정한 뒤, 그 재료로 가장 튼튼한 다리를 놓는 방법을 단계적으로 제시한다. 목표 모집단 정의와 할당 변수 설계, 현장 관리와 온라인 패널 운용, 선택 편향의 심리적 기원과 통계적 보정 기법까지 실무와 이론을 아우른다. 동시에 사후 보정이 만능이 아님을 경고하며, 조사 품질의 평가와 한계의 투명한 보고라는 연구 윤리를 강조한다. 나아가 인공지능과 빅데이터 시대에 표본 설계가 나아갈 책임 있는 방향까지 조망한다.
‘최선이 아닌 차선’을 선택해야 하는 시대에, 그 차선을 얼마나 정직하고 엄격하게 설계할 수 있는지를 묻는 책이다. 조사 연구자뿐 아니라 언론인, 정책 결정자, 데이터 소비자 모두에게 필요한 공통의 언어를 제안한다.
200자평
응답률 붕괴 이후의 조사 현실을 직시하는 책이다. 확률 표집의 이상이 왜 더 이상 작동하지 않는지 짚고, 비확률 표집을 관행이 아닌 설계의 문제로 다룬다. 선택 편향을 통제하는 구체적 방법과 연구 윤리를 제시하며, 신뢰를 다시 세우기 위한 조사 방법론의 현재를 보여 준다.
지은이
오승호
20여 년간 조사 회사에서 ‘서베이 컨설턴트’로 일하고 있다. 한국외국어대학교 러시아어과에서 학사학위를, 서강대학교 정치외교학과에서 석사학위를 받았다. 대학 2학년 시절 정치학방법론 강의에서 설문지 작성에 대한 강의에 큰 흥미를 느꼈고, 이후 관련 일을 소위 업으로 삼고자 사회 조사분석사 2급(2002.11.11)을 취득했다. 연구 논문으로는 “웹기반 선거여론 조사의 쟁점과 신뢰성 제고 방안 연구”(조성겸·오승호. 2021), “Web Survey Sampling Methods that Minimize Political Bias: PPS with Benchmarking Weight as a Size Variable”(Park Seunghwan·Oh Seungho, 2024 WAPOR CONFERENCE) 등이 있다. 서베이 방법론에 전반적으로 관심이 많으며, 특히 웹서베이에 대한 열정은 ‘덕후’ 수준이라는 주위의 평가를 듣곤 한다. 서베이 방법론과 관련해 개인 블로그(https://method-survey.blogspot.com/)도 운영하고 있다.
차례
확률 표집의 이상과 비확률 표집의 현실
01 왜 비확률 표집인가?
02 비확률 표집이란 무엇인가
03 할당 표집 설계의 첫걸음
04 할당 표집의 실행과 통제
05 온라인 패널과 결합 할당
06 선택 편향의 이해
07 편향을 줄이는 설계 전략
08 가중치를 이용한 사후 보정
09 비확률 표본의 품질 평가와 보고
10 비확률 표집의 미래
책속으로
확률 표집의 위기 속에서 비확률 표집이 부상하는 현상은 전 세계적이지만, 그 역사적 경로는 국가별로 상이한 궤적을 그려왔다. 특히 미국과 한국의 사례는 비확률 표집을 둘러싼 고민의 결이 어떻게 다른지를 명확히 보여 준다. (…) 이처럼 미국이 ‘확률 표집의 실패’ 이후 그 대안을 모색하는 과정에서 비확률 표집을 재소환했다면, 한국은 ‘확률 표집의 부재’ 속에서 비확률 표집을 관행으로 발전시켜 온 셈이다. 서로 다른 길을 걸어왔지만, 두 국가의 조사 전문가들은 이제 ‘어떻게 하면 선택 편향을 통제할 것인가’라는 동일한 질문 앞에서 만나고 있다. 이 책은 바로 이러한 한국적 현실에 발을 딛고, 우리의 고민을 보다 정직하고 깊이 있게 다루려는 시도다.
“확률 표집의 이상과 비확률 표집의 현실” 중에서
결론적으로, 성·연령·지역 할당을 아무리 정교하게 채운다 하더라도, 그 표본은 ‘대한민국 국민의 축소판’이 아니라 ‘조사에 쉽게, 그리고 자발적으로 참여하는 사람들의 축소판’에 가까워지게 된다. 이는 확률 표집의 기본 원리를 근본적으로 위배하며, 표본의 결과를 모집단 전체로 일반화할 수 있는 통계적 기반이 없음을 의미한다.
“01_왜 비확률 표집인가?” 중에서
결국, 실행 단계에서의 엄격한 통제는 편향의 크기를 줄여주는 역할을 할 뿐, 편향의 존재 자체를 없애지는 못한다. 따라서 우리는 현장 조사가 완료된 데이터가 여전히 잠재적 편향을 안고 있다는 사실을 겸허히 받아들여야 한다. 이 남겨진 편향의 문제를 어떻게 다룰 것인가? 이 질문은 우리를 자연스럽게 다음 단계, 즉 수집된 데이터를 통계적으로 보정하고 분석하는 과정으로 이끈다.
“04_할당 표집의 실행과 통제” 중에서
확률 표집은 바로 이 선택 편향의 문제를 ‘무작위화(Randomization)’라는 강력한 무기로 해결한다. 모든 구성원에게 동등한 선택 기회를 부여함으로써, 연구자의 의도나 응답자의 특성이 표본 선택 과정에 개입할 여지를 원천적으로 차단한다. 하지만 비확률 표집은 이 무작위화라는 안전장치가 부재하기에, 선택 편향의 위협에 고스란히 노출될 수밖에 없다. 할당표를 통해 몇 가지 ‘관찰 가능한 변수’를 통제할 수는 있지만, 표본 선택에 영향을 미치는 수많은 ‘관찰 불가능한 변수’들은 전혀 통제되지 않기 때문이다.
“06_선택 편향의 이해” 중에서
편향을 줄이는 전략의 기본 원칙은 명확해진다. 바로 “최종 선택 단계에 개입하는 임의성, 즉 선택의 재량을 가능한 한 최소화하는 것”이다. 좋은 설계 전략이란 조사원이나 응답자가 자신의 편의나 성향에 따라 표본에 포함되거나 배제될 수 있는 수많은 가능성의 경로를 미리 차단하고, 연구자가 의도한 방향으로 표본이 구성되도록 강력한 제약 조건을 설정하는 과정이다.
“07_편향을 줄이는 설계 전략” 중에서
가중치(Weight)를 이용한 사후 보정은 바로 이 문제를 해결하기 위한 통계적 기법이다. 각 응답자에게 서로 다른 가중값을 부여하여, 표본의 주요 특성 분포가 사전에 알려진 모집단의 분포와 정확하게 일치하도록 인위적으로 조정하는 과정이다. 이는 마치 색감이 왜곡된 사진을 보정 프로그램을 통해 실제 색감에 가깝게 조정하는 것과 같다. 과소 대표된 집단에 속한 응답자에게는 1보다 큰 가중치를 부여해 그들의 목소리를 더 크게 만들고, 과대 대표된 집단의 응답자에게는 1보다 작은 가중치를 부여해 그들의 영향력을 줄이는 것이다. 이 과정을 통해 우리는 비로소 표본 데이터를 가지고 모집단 전체를 추정할 수 있는 최소한의 정당성을 확보하게 된다.
“08_가중치를 이용한 사후 보정” 중에서
좋은 조사는 좋은 데이터를 생산하는 것에서 끝나지 않는다. 그 데이터가 어떻게 만들어졌으며, 어떤 한계를 가지는지에 대해 모든 이용자에게 투명하게 공개하는 책임감 있는 ‘보고(reporting)’를 통해 완성된다. 특히 비확률 표본 조사에서는 이러한 투명성이 무엇보다 중요하다.
“09_비확률 표본의 품질 평가와 보고” 중에서
미래의 표본 설계는 더 이상 전통적인 설문조사의 틀 안에만 머무르지 않는다. 그 경계를 넘어, 사람들에게 직접 묻지 않고도 여론과 행동을 파악할 수 있는 새로운 데이터의 원천, 즉 빅데이터(Big Data)와의 융합을 모색하고 있다. 소셜 미디어의 게시글, 포털의 검색 기록, 스마트폰의 위치 정보, 신용카드의 거래 내역 등 우리가 디지털 세상에 남기는 수많은 흔적들은 그 자체로 거대한 여론의 데이터베이스가 된다.
빅데이터가 가진 매력은 명확하다. 첫째, 압도적인 규모와 실시간성이다. 수천 명을 대상으로 하는 설문조사와 달리 빅데이터는 수백, 수천만 명의 행동을 거의 실시간으로 분석할 수 있다. 둘째, ‘가공되지 않은’ 생생함이다. 설문조사의 정제된 질문을 거치지 않은, 사람들의 자연스러운 생각과 행동이 담겨 있다고 여겨진다.
“10_비확률 표집의 미래” 중에서