책소개
21세기가 원하는 직업, 데이터과학자 되기
데이터과학자가 되기 위한 지식을 구체적으로 제공한다. 데이터과학자라는 직업이 “21세기 가장 섹시한 직업”으로 알려진 이후, 이 분야에 대한 관심은 커졌지만 여전히 많은 이들이 데이터과학자가 하는 일과 필요한 역량을 잘 모르고 있다. 데이터과학자의 기초 지식과 역량을 설명하고, 실제 업무에서의 어려움과 이를 극복하는 과정을 공유한다. 데이터과학자와 데이터분석가의 차이점을 명확히 하고, 데이터과학자로서의 역할을 제대로 수행하기 위한 사고방식과 역량을 설명한다. 코딩, 데이터 리터러시, 커뮤니케이션 능력은 필수적인 역량으로, 특히 프로그래밍 언어의 활용법에 중점을 둔다. 데이터과학자가 실제로 일하는 방식과 직면하는 문제들, 비즈니스와 공공 영역에서의 구체적인 역할을 다룬다. 데이터가 부족한 상황에서의 해결책, 공공 분야에서의 데이터 활용 사례를 통해 실무에 도움이 될 정보를 제공한다. 또한 데이터과학자로서 경로를 설정하고, AI와 데이터과학의 융합을 통해 새로운 기회를 창출하는 방법을 제시한다. AI 시대, 데이터과학자는 단순한 분석자가 아닌 전략적 통찰을 제공하는 전문가로 자리매김하고 있다. 데이터과학자의 길을 걷고자 하는 이들에게 실질적인 가이드를 제공한다.
200자평
데이터과학자가 되기 위한 기초 지식과 역량을 구체적으로 소개한다. 데이터의 중요성, 데이터과학자와 데이터분석가의 차이, 코딩 및 커뮤니케이션 능력 등 핵심 역량을 설명한다. 데이터과학자의 비즈니스와 공공 영역에서의 역할과 그들이 직면하는 문제를 다룬다.
지은이
이선형
한국형사·법무정책연구원의 부연구위원이자 서강대학교 사회학과 겸임교수다. 연세대학교에서 사회학 박사학위를 받았다. 퍼포먼스바이TBWA의 데이터팀 팀장(2018∼2021)으로 일했고, 2022년부터 서강대학교 사회학과에서 계량분석실습, 연구방법실습, 캡스톤디자인 수업인 소셜 빅데이터 분석 강의를 하고 있다. 최근 수행한 연구 과제는 “자살유발정보 모니터링센터 구축 방안 마련 연구”(2023), “형사정책 분야의 국정과제 기여도 향상을 위한 인공지능기술 적용방안 연구”(2023), “개인 일상모델 기반 일탈탐지 AI 전자감독 기술개발”(2024) 등이 있으며, 주요 논문은 “Generation Mechanism of Social Meanings to ‘Anger’ Analysis of a Media Report on Violent Crime by Using Word2vec”(2018), “최근 청소년 마약류 범죄 현황과 특성”(2023) 등이 있다.
차례
AI 시대에 데이터과학자 되기
01 데이터, 빅데이터, 데이터과학
02 데이터과학자의 필요성
03 데이터과학자의 핵심 역량
04 데이터과학자와 도메인 지식
05 비즈니스 분야의 데이터과학자
06 공공 영역의 데이터과학자
07 현실적 문제와 도전 과제
08 데이터과학자로의 전환
09 데이터과학자의 커리어 패스
10 변화를 준비하는 데이터과학자
책속으로
데이터과학 분야에서 중요한 것은 인사이트 발굴을 위한 전체 프로세스의 설계인데, 서로의 영역을 잘 모르는 협업 체계에서는 어려운 일이다. 따라서 협업 체계를 강화하거나 각 분야 전문가가 교육을 받아 다른 영역을 이해하는 방식으로 데이터과학 분야는 발전했다. 사실 한 명의 전문가가 모든 영역을 섭렵한다는 것은 현실적으로 불가능하며 협업은 효과적인 성공을 이끌 가능성이 높아 데이터과학 분야의 기본 요소이기도 하다. 그런데 탄탄한 협업 체계에서도 목표에 맞는 데이터를 수집, 분석, 해석, 적용할 수 있는 전문가인 데이터과학자를 필요로 하게 되었다. 데이터과학에는 각 영역에 대한 이해를 바탕으로 하는 팀워크로도 해결할 수 없는 영역이 존재하기 때문이다.
-01_“데이터, 빅데이터, 데이터과학” 중에서
데이터과학자의 역량으로 코딩과 프로그래밍 실력이 얼마나 중요한지를 설명하기 전에 두 가지가 조금 다른 일이라는 것을 이해할 필요가 있다. 코딩은 기계나 컴퓨터가 이해할 수 있는 형식으로 명령어를 작성하는 과정이며, 프로그래밍은 소프트웨어나 애플리케이션을 개발하는 전체 과정이다. 예를 들어 계산기 앱을 만들기 위해서는 계산기 인터페이스 설계, 계산 기능을 위한 알고리즘 구현, 테스트와 오류 수정, 업그레이드의 과정이 필요하며 이 전체가 프로그래밍이다. 그리고 덧셈과 뺄셈 계산식의 구현을 코딩으로 작업한다. 프로그래밍 안에 코딩과정이 포함되지만 분명한 차이가 있다.
-03_“데이터과학자의 핵심 역량” 중에서
소셜미디어 데이터는 공공 분야 데이터과학자에게 중요한 데이터 소스다. 가장 많이 활용되는 출처는 온라인 커뮤니티와 언론사 데이터로, 다른 출처에 비해 데이터 수집에 큰 제한이 없다. 온라인 커뮤니티는 비즈니스 영역에서도 상품 리뷰나 추천과 관련해서 많이 활용하는데, 공공 영역에서도 비슷한 목적으로 사용한다. 예를 들어 저출산 정책에 대한 맘카페의 의견, 불법 거래 관련 게시글, 특정 집단에 대한 혐오 발언을 분석 대상으로 선정해 데이터를 수집할 수 있다. 언론사의 경우 빅카인즈(BIGKINDS)라는 뉴스 빅데이터 서비스로부터 데이터를 일부 다운로드할 수 있으며 더 많은 기사를 원한다면 직접 언론 기사를 수집할 수도 있다.
-06_“공공 영역의 데이터과학자” 중에서
처음 데이터과학자로 취업하는 사람이거나 주니어 과학자라면 데이터분석가, 데이터엔지니어, BI(비즈니스 인텔리전스) 분석가 등 데이터 관련 역할을 담당할 수 있다. 바로 데이터과학자 직무를 맡지 않더라도 이러한 역할을 통해 실무에서 데이터 처리와 분석 기술을 연마할 수 있다. 그리고 주니어 데이터과학자에게는 고도의 기술이 필요한 업무나 과도한 책임이 주어지지 않으므로 환경에 적응하는 것에 집중할 필요가 있다. 특히 학부 과정에서 배운 내용은 바로 실무에 적용하기 어려우므로 데이터과학 관련 온라인 학습이나 커뮤니티, 세미나 등을 통해 기술과 도구 활용을 훈련해야 한다.
-09_“데이터과학자의 커리어 패스” 중에서