티스토리 뷰

혼자 공부하는 R 데이터 분석

한빛미디어에서 발간되는 혼공 시리즈에 R이 추가됐다! 이 시리즈는 개발 언어를 잘 모르는 사람을 대상으로 하기 때문에 진입 장벽이 낮다. 혼자 공부하는 R 데이터 분석은 우연한 기회로 베타 리딩에 참여한 책이다.

"혼자 공부하는"이라는 제목에서 느껴지듯이 대상 독자에 제한이 없다. R이라는 언어나 프로그래밍 지식이 없어도 상관없다. 변수, 함수, 벡터, 행렬 등 아주 기본적인 개념부터 짚어나가기 때문에 혼자 공부하는데 무리가 없다. 데이터 분석을 위한 프로그래밍 언어로는 R 외에도 파이썬도 많이 사용되지만 선택은 사용자의 몫이다. 파이썬은 대중화되어 있기 때문에 이미 파이썬을 다뤄본 사람이라면 데이터 분석도 파이썬으로 하는 게 편할지 모르겠다. 한편 R의 경우는 파이썬에 비해 강력한 시각화를 자랑한다. ( 파이썬도 Matplotlib을 활용하면 꽤나 시각화할 수 있지만. )

책 서두는 R 프로그래밍에 대한 전반적인 설명으로 시작된다. 실습을 위해 RGui, R 스튜디오를 설치하는 방법부터 기본적인 실습을 위해 변수에 값을 넣어주고 출력하는 방법을 알려주는 등 기초적인 내용을 다룬다. 한 단원이 끝날 때마다 키워드로 핵심 포인트를 정리해주는데 이것만 봐도 빠르게 감을 잡을 수 있겠다. 그리고 바로 이어지는 확인 문제를 통해 제대로 공부했는지 스스로 체크해볼 수 있다. 이런 게 혼공의 묘미 아니겠나 :) 

칼라도 적당한 위치에 사용되고 있어서 한결 편하게 책을 읽을 수 있다. 

 

중반부에는 데이터를 탐색하고 가공, 구조 변경하는 다양한 방법을 설명한다. 탐색 / 가공 / 구조 변경 / 정제 등은 데이터를 다루는 일을 하게 된다면 transform 이라는 이름으로 실무에서 어떤 형식으로든 자주 사용되는 과정이기 때문에 큰 그림을 익혀두면 좋다. 

후반부로 들어가면 본격적인 ggplot2 패키지로 그래프를 그리며 시각화를 배운다. 그리고 끝으로 프로젝트를 다루며 실력을 다지는 시간을 갖는다. 총 네 개의 프로젝트를 다루는데 "1) 지역별 국내 휴양림 분포 비교하기 2) 해외 입국자 추이 확인하기 3) 지도에서 코로나19 선별 진료소 위치 확인하기 4) 서울시 지역별 미세먼지 농도 차이 비교하기"가 있다. 하나씩 천천히 따라 하다 보면 R에 대한 감각을 온전히 갖게 될 거다. 책은 끝으로 데이터 분석 보고서 공유하기라는 챕터로 마무리된다. 

개인적으로 여러 프로그래밍 언어를 다뤄봤지만 R은 이 책을 통해 처음 접했다. 평소 프로그래밍 교육에 대한 관심이 많았기 때문에 이 책을 베타 리딩 할 때 과연 이 책이 초보자를 위해 적합한지 위주로 살펴봤던 것 같다. 그런 관점에서 봤을 때 입문자에게 혼공 시리즈는 아주 훌륭한 선택이 될 거다. 데이터 분석을 위해 R을 공부하기로 마음먹었고 책을 고민 중이라면 이 책은 좋은 선택지가 될 거다. R과 관련된 여러 책을 읽어보지 못한 상태로 말하기는 조심스럽지만 적어도 이 책은 프로그래밍 허들이 느껴지지 않을 정도로 쉽게 쓰여있다. 

 


한빛미디어 베타 리딩 활동을 하고 책을 제공받아 작성된 서평입니다.


댓글
댓글쓰기 폼