본문 바로가기

분류 전체보기

(135)
데이터 로딩과 저장, 파일형식 (chap6) 텍스트 파일에서 데이타 읽기 pandas형식에 맞게 DataFrame객체로 불러오는 다양한 함수 제공 (P.237) read_csv, read_table, read_sql, read_excel, read_json등 제공 다양한 Third-Part 저장형태 제공한다는 생각이 듬 read_sas : SAS시스템의 저장형태 read_hdf : HDFS 파일 형태 read_stata : Stata파일 형태 read_csv 데이터 형식이 없어서, 타입추론을 수행한다. csv에서는 날짜 형태의 데이타를 어떻게 식별하고 처리할까? read_cvs와 read_table 함수 인자 (P.244) cvs는 ,로 구분된 파일형태이니, 구분자로 구분해서 불러올수 있다. pd.read_table('examples/ex1.csv..
pandas 시작하기 (chap5) 주제 : pandas # 자료구조 Series와 DataFrame가 있다. Series tmp = pd.Series([1,2,-5,-2]) tmp.values tmp.index tmp = pd.Series([1,2,-5,-2], index=['a','b','c','d']) index를 통해서 색인을 할당할수 있다 data = {"a" : 1, "b":2, "c":3} tmp = pd.Series(data) // 이런식으로 index를 별도로 명명하지 않고 생성 가능 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조 고정길이의 정령된 사전형이라고 개념을 잡기 파이선의 사전형(Dictionary)와 비슷한 개념 색인이라는 데이타 앞에 연관 이름 존재 (기본 적으로 0부터 할당되어짐) 색인을 통해서 값..
D3.js 현재 보면서 느끼는점 (version 7) 데이타의 Visualization은 이제 기본이다. 기획자 입장에서는 좀 더 interactive한 화면을 기획해야 하고, 개발자 입장에서는 좀 더 힘들어지는 부분이다. 회사에서 Backend / Frontend개발자가 구분되어 있는 경우도 있지만 Frontend개발자도 html/css의 publishing을 주로 역활을 하고, 다양한 차트의 Interact에 대해서는 개발자가 진행하는 경우가 많다. 세상에는 다양한 오픈소스 차트 Library가 있고, 유료로 제공되는 js들도 많이 있고, 사용률이 높다. 그중에서 좀더 다양한 화면을 구현할때, 검토하는 것이 d3.js이다. 처음 d3.js를 검색하고, https://d3js.org/ 에 들어가면, 어떤 느낌이 드실지 모르겠다. Step1) 접속후에 90..
Numpy기본 : 배열과 백터 연산 (chap4) Numpy : 파이선에서 산술계산을 위한 가장 중요한 필수 패키지 반복문을 사용하지 않고, 간결한 배열 연산을 사용해 많은 데이타 처리가 용이하다 → 특히, 브로드캐스팅은 강력한 벡터 연산 방법이다. 생각해보기 : 접근할때, 데이타를 배열 위주로 프로그래밍 한다고 생각의 틀이 변경되어야 할거 같다. sql을 처음 접하고 쿼리를 작성할 때, 데이타 간의 relation을 잘 생각하면 더 쉽게 어려운 쿼리를 작성하는 것과 비슷한 윈리!! ndarray : 다차원 배열 객체 N차원의 배열객체 대규모 데이터 집합을 담을 수 있는 유연한 자료구조 전체 데이타 블록에 수학적인 연산을 수행 지원 type : numpy.ndarray P.136 : data + data를 수행하는데, 출력되는 데이타가 이해가 되지 않는..
파이썬 언어 기본, IPython, Jupyter 노트북 (chap2) # Jupyter기능 아나콘다 사용시 필요한 Library를 pip install ~로 설치도 가능하지만, 아래 화면처럼 검색후에 Apply를 누르면 Stable 버전이 설치되며, 편하게 설치가 가능합니다. 탭 자동 완성 기능 일반적으로 탭을 통해서 코드 자동완성 기능이 제공된다. an 입력후에 tab을 누르면, 자동 Assistance기능 b. (점)을 입력후에 탭을 누르면, 추가 입력 할 수 있는 메소드, 속성 제공 물음표 ? 를 통해서 typeof같은 기능 확인하기 : 자기관찰 변수, 객체등에 대해서 ? 를 통해서 타입정보등 기본정보 조회하기 ?? 물음표 2개를 입력하면 사용자 정의 코드의 내용이 출력된다 IPython관련 명령어 Jupyter소스를 보게 되면 코드에서 %로 시작하는 명령어를 볼 수..
시작하기전 개념 설명 (chap1) # 필수 파이썬 라이브러리 내 기억에 처음에는 numpy가 개발되었는데, 좀더 쉽게 Sql, 엑셀과 같은 표 형태의 데이타를 처리하기 위해서 Pandas가 개발된 것으로 알고 있다 예전에 생활코딩에 이고잉님이 이런 이야기를 한적이 있다. 데이타를 정리하기 위해서 표라는 row , column의 아주 훌륭한 정리법이라고, 세무사에서 기업의 재무재표등을 계산하는것도 처음에는 엑셀부터 시작하고 실제 DB에서 정보를 출력하는 형태도 Grid표 이다. 1) Numpy : 파이썬 산술 계산의 추줓돌 같은 라이브러리 자료구조, 알고리즘 산술 데이터를 다룸 다차원 배열객체 ndarry 배열 원소를 다루거나 배열간의 수학계산 수행 디스크로 부터 배열기반의 데이타 읽고 쓰기 가능 선형대수 계산, 푸리에 변환, 난수 생성기..
파이썬 라이브러리를 활용한 데이터 분석(Python for Data Analysis 해당 책의 저자 "웨스 맥키니"는 pandas를 개발한 오픈소스 개발한 개발자이다. 실제 오픈소스 개발한 저자의 책이니, 다른 책보다 처음 개념을 잡기에 좋을것으로 생각이 되었다. 현재 원서 말고 한글로 번역된 책은 2판이 판매되고 있다. 초판 : 2013년 2판 : 2019년 파이선 버전도 업그레이드 되고, 최근에 개편된 버전이 나온것이니, 소스 코드도 3.x버전으로 문제없이 쉽고 볼수 있을것 같다. 2판에 주요 변경사항은 아래와 같다고 한다. 파이선 코드 3.6 기반으로 수정 아나콘다 배포판 및 필수 파이선 패치지 기준 설명 pandas버전을 2017년 최신으로 갱신 (최근에는 좀더 최신이 나왔겠지만 그래도 최신) pandas 고급 사용법 및 고급팀 statsmodels와 scikit-learn 라이..