본문 바로가기

book

Do it! 쉽게 배우는 파이썬 데이터 분석

이 책은 처음 접할때 매우 흥미로운 부분이 있었습니다.

저자분은 R을 통해서 인기가 많은 책을 출간하신 "김영우" 필자 분입니다.

보통 처음 데이터 분석을 하려고 할때 가지는 첫 고민이 "R", "Python" 중어 어떠한 언어을 선택할지 여부입니다.

 

R, Python 의 장단이 있고 많은 관련 글들이 있습니다.

저저분이 기존에 R에 대해서 출간하신 책은 아래 2권 입니다.

Do it! 시리즈에 R관련 책으로 많이 알려져 있습니다.

이번에 R을 전문적으로 다루시는 저자분의 Python책은 어떤 방식으로 내용이 구성되어 있는지 

많은 호기심이 들게 되는 책입니다.

☞ <Do it! 쉽게 배우는 R 데이터 분석>과 동일하게 구성해서 연습문제와 정답이 있다고 합니다.

     기존의 R책을 통해서 학습하신 독자분을 1:1로 Python으로 동일한 기능을 어떻게 구현하는지

     좋은 경험을 하실수 있을거 같습니다.

 

 

■ 책 소개

초급사용자도 쉽게 데이터를 분석하기 위한 타케팅되어 있으며,

실습위주로 튜토리얼 방식으로 구성되어 있다고 되어 있습니다.

☞ 저저분이 의도가 좀더 명확히 담겨진 길이라서 첨부합니다.

 

■ 사용되는 패키지

책에서 사용되는 패키지를 보면 책의 방향성을 조금 알수 있지 않을까요?

눈에 잘 익수하지 않은 패키지도 보이고, 그것에 공부를 해보면 좋을거 같습니다.

 

데이터 분석에 필수적인 numpy && pandas

화면 그래픽구성을 위한 folium , matplotlib, plotly, seaborn

머신러닝을 위한 scikit-learn

형태소 분석을 위한 konlpy

추가적으로 데이터 분석을 설명하기 위해서 다양한 패키지를 사용하는 방법이 제공되고 있습니다.

 

■ 책의 구성

독자분들에게 skill을 알려주는 방향보다 데이터 분석시, 어떠한 기준 조건을 가지고 접근을 하고

그래서 그런 경우에 기준을 정하고 그때 python에 어떠한 기능을 이용하라는 방법으로 설명되어 있습니다.

 

실제 업무에 활용하려면, 책에 있는것고 다른 상황을 고려하고 책에서는 언급이 되어 있는 부분은 아니지만

다른 방향을 찾아가는 것을 자연스럽게 학습 할 수 있습니다.

 

  • 자연스럽게 python 문법을 익히게 됩니다.
    • 함수, 패키지, 튜플, 딕셔너리
  • 알아두면 좋아요! (팁 제공)
    • 곳곳에 진행하는데 생각꺼리를 제공해줍니다.
    • 저자분이 함께 고민해볼 사항이 조금더 현실적인 이야기를 제공합니다.

  • [데이타를 Loading&&Control] 우선 데이터를 불러와야 무언가 해볼수 있습니다.
    • 자연스럽게 pandas를 이용해서 진행
      • 축을 기준으로 loc, iloc을 구성하는 방법
    • numpy도 사용해서 결측치등에 활용합니다.
  • [Visualize를 통해서 분석내용 표현하기] 화면에 출력해서 실제 분석준비를 합니다.
    • 자연스럽게 차트를 구성합니다.
    • 일반적으로 사용되는 거의 모든 차트를 구성할수 있습니다. (파이, 산점도, 막대, 상자그래프 등등)
    • seaborn사용
  • [실제 데이터를 이용해서 분석하기] 실무처럼 분석해보기
    • 한국복지패널 데이터
    • 대통령 연설문
  • 조금더 다양하게 그래프 만들기
    • plotly
  • 조금더 다양한 분석 진행해보기
    • 통계분석 기법을 통한 가설검증
      • scipy를 통한 검증
      • 상관검증
    • 머신러닝이용한 예측
      • 사이킷런을 이용해서 머신러닝 알고리즘 중에 하나인 의사결정 트리