책소개
데이터로 읽는 공기, AI로 해석하는 미세먼지
미세먼지는 더 이상 단순한 환경 문제가 아니다. 그것은 폐와 혈관을 넘어 전신과 다음 세대까지 위협하는 보이지 않는 독성 물질이며, 연간 10조 원 이상의 사회적 비용을 유발하는 구조적 위험이다. 그러나 우리는 팬데믹 이후 마스크를 벗으며 이 위협에 대한 감각마저 놓치고 있다. 이 책은 이러한 인식의 공백에서 출발한다. 미세먼지를 단순히 ‘예보하는 대상’이 아니라 ‘이해하고 해석해야 할 현상’으로 재정의한다. 기존의 물리 기반 예측 모델이 포착하지 못했던 복잡한 대기 변동과 비선형 패턴을 인공지능이 어떻게 읽어내는지를 구체적으로 보여 준다. 특히 기상 조건에 따라 오염의 기원이 달라진다는 점에 주목해, 데이터 기반 레짐 분류와 앙상블 모델을 결합한 새로운 예측 방식을 제시한다. 공개 데이터와 오픈소스만으로도 의미 있는 결과를 도출할 수 있음을 실증하며, 환경 문제 해결의 새로운 접근 가능성을 제안한다. 복잡한 자연 현상을 데이터와 알고리즘으로 이해하는 시대의 사고 전환을 촉구하며, 보이지 않는 공포를 읽는 법을 제시한다.
200자평
미세먼지는 건강과 경제를 동시에 위협하는 보이지 않는 재난이다. 인공지능을 통해 미세먼지의 패턴과 기원을 분석하고, 기존 예보의 한계를 넘어서는 새로운 예측 방식을 제시한다. 공개 데이터와 머신러닝만으로도 환경 문제를 해석할 수 있음을 보여 주며, 기술과 환경의 결합이 만들어낼 미래를 탐색한다. AI문고. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.
지은이
이준호
한양대학교 비즈니스인포매틱스학과 석사과정에 재학 중이다. 미세먼지에 관한 “미세먼지 예측을 위한 머신러닝 모델 비교 연구” 논문을 출판하였으며 현재까지 관련 연구를 꾸준히 탐색 중이다. 현재는 경영 정보, Data analytics를 공부 중이며 데이터를 통한 비즈니스 모델 창출을 목표로 하고 있다. 최근 자연어처리를 이용한 ESG 그린워싱 탐지에 관한 석사 논문을 구상 중에 있다.
차례
보이지 않는 공포, AI로 패턴을 찾아 예측하다
01 미세먼지와 사회적 비용
02 기후와 미세먼지
03 확률로 가르다
04 나무를 모아 숲을 만들다
05 기원을 추적하다
06 이동 시간을 측정하다
07 정체와 이류
08 오차를 해부하다
09 관계를 수치로 잡다
10 데이터가 숨을 읽는다
책속으로
미세먼지는 우리의 건강뿐 아니라 경제적으로도 큰 타격을 준다. 의료비만 따져도 규모는 상당하다. 건강보험심사평가원의 통계에 따르면 천식, 만성 폐쇄성 폐질환(COPD), 알레르기 비염 등 대기오염 관련 질환의 연간 진료비는 수조 원에 달한다. 이 가운데 미세먼지의 직접적 기여분을 산출하기는 어렵지만, 고농도 미세먼지 시기에 호흡기·심혈관 질환 관련 응급실 내원 건수가 평상시 대비 10∼20% 증가한다는 연구 결과들은 인과 관계를 간접적으로 시사한다. 노인과 어린이, 기저 질환자처럼 취약 계층에서는 이 수치가 더 높게 나타난다. 그러나 의료비는 사회적 비용의 일부일 뿐이다. 경제학에서는 조기 사망으로 인한 미래 소득 상실, 병가와 생산성 저하로 인한 노동 손실, 야외 활동 기피에 따른 소비 감소를 모두 사회적 비용으로 계산한다. 특히 조기 사망 비용은 통계적 생명 가치(VSL, Value of Statistical Life)라는 개념을 이용해 화폐로 환산하는데, 이것이 전체 사회적 비용에서 가장 큰 비중을 차지한다.
-01_“미세먼지와 사회적 비용” 중에서
어떤 분류 모델도 완벽하지 않다. 레짐이 전환되는 경계 시간대, 예컨대 맑은 날 아침에서 흐리고 비가 오는 오후로 전환될 때, 또는 대기 정체가 해소되고 바람이 강해지는 순간, 이 전환점을 정확히 포착하는 것은 어렵다. 5분할 시계열 교차 검증에서 특정 구간의 결정 계수가 0.53까지 내려간 것은 이 전환기 불확실성이 집중된 결과다. 그럼에도 레짐 조건부 접근의 가치는 이 불확실성을 제거하는 데 있지 않다. 전환 경계의 애매함은 어떤 분류 체계도 피할 수 없는 현실이다. 중요한 것은 레짐이 안정적으로 유지되는 시간대 전체의 대다수를 차지하는 것에서 각 레짐 특화 모델이 단일 모델보다 훨씬 정교한 예측을 한다는 것이다. 불완전한 분류라도 ‘날씨 상태에 따라 다른 모델을 쓴다’는 원칙 자체가 예측 성능을 높이는 구조적 이점을 만든다.
-03_“확률로 가르다” 중에서
시간 지연이 예측에 얼마나 중요한지를 보여 주는 간단한 비교가 있다. 지연 0시간, 즉 동시 값을 사용했을 때 백령도 PM10과 수원 PM10의 상관 계수는 전체 데이터 기준으로 0.3 수준에 그친다. 그러나 레짐별 최적 지연을 적용하면 이 상관이 유의미하게 높아진다. 특히 기온 역전 이류형 레짐에서 3시간 지연을 적용했을 때 상관 계수가 크게 뛰어오른다. 이 차이가 모델 입력의 질을 결정하고, 결국 예측 정확도로 이어진다. 기상 데이터를 그대로 넣느냐, 물리적 이동 시간을 반영해 정렬하고 넣느냐의 차이가 결정 계수 0.583에서 0.7981로의 도약에 기여한 핵심 설계 결정 중 하나다.
-06_“이동 시간을 측정하다” 중에서
레짐별 상관 계수를 실제로 계산하면 이 차이가 수치로 드러난다. 기온 역전 이류형에서 인천ᐨ수원 상관은 전체 평균 0.882보다 높은 수준으로 나타나는 반면, 강수 세정형에서는 강수가 두 지점에 서로 다른 시점과 강도로 내리기 때문에 상관이 낮아진다. 백령도ᐨ수원 상관도 마찬가지다. 해륙풍 순환형에서는 편서풍이 비교적 일정하게 불어 백령도 신호가 수원에 안정적으로 전달되지만, 대기 정체형에서는 이류 자체가 약해 백령도와 수원이 각각 독립적인 오염 축적 과정을 거친다. 같은 두 지점 사이의 상관 계수가 기상 상태에 따라 이렇게 달라진다는 사실은, 단일 상관 계수로 이 관계를 요약하는 것이 얼마나 많은 정보를 잃는지를 보여 준다.
-09_“관계를 수치로 잡다” 중에서