R를 이용한 사회과학데이터 분석 기초편
2562호 | 2015년 4월 29일 발행
백영민이 안내하는 R 입문
백영민이 쓴 <<R를 이용한 사회과학데이터 분석 기초편>>
R는 뭐가 다른가?
오픈 소스다. 무료다.
분석 라이브러리가 다양하다.
최신 고급 분석 기법도 공짜다.
메뉴 방식이 아니다.
그래서 유연성과 확장성이 탁월하다.
그래픽도 훌륭하다.
R, 지금 시작해야 한다.
“사회가 복잡해지고 전산화가 촉진되면서 자료의 양이 폭발적으로 늘어나고 있다. 전문적인 프로그래머가 아니더라도, 사회과학자는 실험이나 설문조사를 포함한 자료를 분석하고 요약하여 독자나 청중에게 효과적으로 전달해야 한다. 실험이나 설문조사 자료를 이용하지 않는 사회과학자라 해도 전산화된 사회 현실을 이해하고 올바른 방향을 제시하려고 한다면, 프로그래밍의 원리를 모르고서는 적합한 이론을 수립하는 것이 매우 어렵다.”
‘머리말’, <<R를 이용한 사회과학데이터 분석 기초편>>, v쪽.
여기서 말하는 프로그래밍이란 뭘 뜻하는가?
주어진 원데이터를 정형화해 새로운 데이터로 전환하는 것을 말한다. 자신의 생각을 글로 표현하는 과정과 유사하다.
프로그래밍과 글쓰기가 같은 것인가?
그렇다. 둘 다 특정 문법에 바탕을 두고 쓰기 때문이다. 좋은 글을 쓰려면 문법에 능통해야 하듯 좋은 통곗값을 얻으려면 프로그래밍에 능통해야 한다.
프로그래밍에서 문법은 어떤 역할을 하는가?
확실히 익혀 두지 않으면 원데이터가 아무리 풍부해도 이를 제어할 수 없게 된다. 데이터에서 의미를 추출하고 타인과 소통 가능한 지식을 뽑아내는 것도 불가능해진다.
이 책, <<R를 이용한 사회과학데이터 분석>>은 무엇을 말하는 책인가?
R프로그래밍의 기초 문법을 설명한다. 사회과학 분야에서 정량화된 데이터를 바탕으로 통계 분석을 실시할 때 R프로그래밍을 어떻게 활용해야 하는지 정리했다.
R가 뭔가?
오픈소스 기반의 통계 분석, 자료 처리, 그래픽 작업을 위한 컴퓨터 소프트웨어다. 프로그래밍 언어이기도 하다.
SPSS와 유사한 소프트웨어인가?
통계 분석에 이용된다는 점에서 같은 종류의 소프트웨어라고 할 수 있다. SPSS는 상업용 통계 소프트웨어다. 그래서 표현력에 제한되어 있다. R는 이것보다 표현력이 더 풍부하다.
‘상업용 소프트웨어의 표현력 제한’이란 무엇을 의미하는가?
이들 소프트웨어의 장점은 사용이 쉽다는 데 있다. 소프트웨어 메뉴판에서 원하는 옵션을 클릭하는 방식으로 통계 분석을 실행할 수 있기 때문이다. 하지만 바로 그 이유 때문에 메뉴에 의존하게 되고 그 결과 정형화된 통계 분석이 양산되는 단점이 있다.
R는 다른가?
프로그램 명령문을 직접 짜는 방식이라서 유연성과 확장성이 탁월하다. 프로그래밍 문법만 잘 익힌다면 다채로운 사용이 가능하다. 기초적인 데이터 관리에서부터 고급 통계 분석까지 커버할 수 있다.
R의 확장성은 어디까지인가?
오픈 소스다. 무료다. 데이터를 다루는 거의 모든 분과에서 R가 이용되는 추세다. 통계학과를 비롯한 이공 계열에서 많이 써 왔다. 최근엔 데이터 마이닝과 데이터 과학 분야에서 점점 더 많은 연구자와 분석가들의 사랑을 받고 있다. 사회과학 분야에서도 이용자가 늘고 있다.
R의 인기 원인은?
여러 분과의 수많은 사람들이 분석 라이브러리를 개발해 놓았다. 그래서 언제든 최신의 고급 분석 기법을 배울 수 있다. 그래픽도 매우 훌륭하다. 데이터 마이닝과 같이 데이터 시각화가 중요한 필드에서 큰 인기를 얻고 있다.
사회과학에서 R의 전망은?
데이터 분석이 필요한 모든 학자들이 활용할 수 있다. 데이터 저널리즘을 꿈꾸는 사람이라면 R를 이용하여 데이터를 효과적으로 관리하고 제시할 수 있다. 광고나 홍보에 종사하는 사람들도 효과적인 보고서 작성과 프레젠테이션에 활용할 수 있다.
R를 내 것으로 만드는 방법은?
눈과 머리로 공부하지 말 것. 엉덩이와 손가락으로 공부할 것. 연습, 연습, 연습. 프로그래밍 언어를 배우는 데는 왕도가 없다. 기존 사례를 반복 학습하고 완전히 자기 것으로 만드는 유일한 방법은 연습뿐이다.
당신은 누구인가?
백영민이다. 연세대학교 언론홍보영상학부 교수다.