본문 바로가기

파이선

(10)
시계열 (chap11) 시간 내에서 특정 순간의 타임스탬프 2000년 1월, 2020년도 전체 같은 고정된 기간 시작과 끝 타임스탬프로 표시되는 시간 간격 실험 혹은 경과시간 pandas는 표준 시계열 도구와 데이터 알고리즘을 제공 날짜, 시간 자료형, 도구 날짜와 시간 자료형 : datatime, time datetime : 날짜+시간+마이크로초까지 포함 (2021-09-15 18:10:31.862057) datetime(2011, 1, 7) : 2011-01-07 00:00:00 datetime(2008, 6, 24, 8,15,20,10) : 2008-06-24 08:15:20.000010 년, 월, 일, 시, 분, 초, 밀리세컨드 로 구성된다. timedelta 시간에 대해서 해당 일자에 +,- 을 수행한다. 여기서 사용..
데이타 집계와 그룹연산 (chap10) SQL같은 쿼리문은 그룹 연산에 제약이 있다. 아주 복잡한 그룹연산도 pandas객체나, Numpy배열을 받는 함수의 조합으로 해결 가능 ▶ 하나 이상의 키( 함수, 배열, DataFrame의 컬럼이름)을 이용해서 pandas객채를 여러조각으로 나누는 방법 ▶ 합계, 평균, 표준편차, 사용자 정의 함수 같은 그룹 요약 통계를 계산하는 방법 ▶ 정규화, 선형회귀, 등급 또는 부분집합 선택 같은 집단 내 변형이나 다른 조작을 적용하는 방법 ▶ 피벗테이블과 교차일람표를 구하는 방법 ▶ 변위치 분석과 다른 통계 집단 분석을 수행하는 방법 Groupby 매카니즘 분리 → 적용 → 결합 (기존에 sql에 table에서는 할수 없는 개념이다.) 1) 분리 : 데이타를 하나 이상의 key를 기준으로 분리한다. Data..
데이터 준비하기:조인,병합,변형 (chap8) Pandas의 계층적인 색인 개념을 통해서, 데이터를 관리하자!! 계층적 색인 다중(둘이상)의 색인 단계를 정할수 있다. 높은차원의 데이타를 낮은 차원의 형식으로 처리함 Series의 index를 List의 List(or 배열)로 색인을 구성할수 있다. 2개의 차이를 보면, 왼쪽 색인 영역이 2개 생긴다고 보면 된다. 하위 계층을 선택하는 것도 가능 해당 데이타에서 1,2,3 Level의 추출하기 unstack, stack함수 : 행,열을 변경하여서 새롭게 배열 구성 T함수도 행,열을 변경하는 것인데, 여기서 동작은 되지 않는다. 인덱스는 크게 4가지 형태로 구성할수 있다. swaplevel : 계층의 순서를 바꾸고 정렬하기 frame.swaplevel('key1', 'key2') 실제 데이타가 변경 되..
데이터 정제 및 준비 (chap7) 목적 : 데이타가 모두 정형화 되어서 DB에만 저장되어 있다면 크게 영향(?) 이 없을것도 같은데, 비정형 데이타 형식이면 비중이 더 높을거 같다. 누락된 데이타 처리하기 pandas에서 na의 정의 존재하지 않거나, 존재하더라도 수집과정에서 검출되지 않은것을 의미 np.nan 파이선의 None값도 NA값으로 처리 na메소드 : P.271 (dropna, fillna, isnull, notnull) 누락된 데이타 골라내기 (2가지 관점으로 접근 : Series / DataFrame) DataFrame 보통 시계열 데이터 처리할때 사용하는 경우가 많다. 로우&&컬럼 2가지 모두 체크 dropna(how='all') 로우 or 컬럼 1가지라도 na 포함하는 경우 제외 dropna() : 1가지라도 있으면 제..
데이터 로딩과 저장, 파일형식 (chap6) 텍스트 파일에서 데이타 읽기 pandas형식에 맞게 DataFrame객체로 불러오는 다양한 함수 제공 (P.237) read_csv, read_table, read_sql, read_excel, read_json등 제공 다양한 Third-Part 저장형태 제공한다는 생각이 듬 read_sas : SAS시스템의 저장형태 read_hdf : HDFS 파일 형태 read_stata : Stata파일 형태 read_csv 데이터 형식이 없어서, 타입추론을 수행한다. csv에서는 날짜 형태의 데이타를 어떻게 식별하고 처리할까? read_cvs와 read_table 함수 인자 (P.244) cvs는 ,로 구분된 파일형태이니, 구분자로 구분해서 불러올수 있다. pd.read_table('examples/ex1.csv..
pandas 시작하기 (chap5) 주제 : pandas # 자료구조 Series와 DataFrame가 있다. Series tmp = pd.Series([1,2,-5,-2]) tmp.values tmp.index tmp = pd.Series([1,2,-5,-2], index=['a','b','c','d']) index를 통해서 색인을 할당할수 있다 data = {"a" : 1, "b":2, "c":3} tmp = pd.Series(data) // 이런식으로 index를 별도로 명명하지 않고 생성 가능 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조 고정길이의 정령된 사전형이라고 개념을 잡기 파이선의 사전형(Dictionary)와 비슷한 개념 색인이라는 데이타 앞에 연관 이름 존재 (기본 적으로 0부터 할당되어짐) 색인을 통해서 값..
Numpy기본 : 배열과 백터 연산 (chap4) Numpy : 파이선에서 산술계산을 위한 가장 중요한 필수 패키지 반복문을 사용하지 않고, 간결한 배열 연산을 사용해 많은 데이타 처리가 용이하다 → 특히, 브로드캐스팅은 강력한 벡터 연산 방법이다. 생각해보기 : 접근할때, 데이타를 배열 위주로 프로그래밍 한다고 생각의 틀이 변경되어야 할거 같다. sql을 처음 접하고 쿼리를 작성할 때, 데이타 간의 relation을 잘 생각하면 더 쉽게 어려운 쿼리를 작성하는 것과 비슷한 윈리!! ndarray : 다차원 배열 객체 N차원의 배열객체 대규모 데이터 집합을 담을 수 있는 유연한 자료구조 전체 데이타 블록에 수학적인 연산을 수행 지원 type : numpy.ndarray P.136 : data + data를 수행하는데, 출력되는 데이타가 이해가 되지 않는..
파이썬 언어 기본, IPython, Jupyter 노트북 (chap2) # Jupyter기능 아나콘다 사용시 필요한 Library를 pip install ~로 설치도 가능하지만, 아래 화면처럼 검색후에 Apply를 누르면 Stable 버전이 설치되며, 편하게 설치가 가능합니다. 탭 자동 완성 기능 일반적으로 탭을 통해서 코드 자동완성 기능이 제공된다. an 입력후에 tab을 누르면, 자동 Assistance기능 b. (점)을 입력후에 탭을 누르면, 추가 입력 할 수 있는 메소드, 속성 제공 물음표 ? 를 통해서 typeof같은 기능 확인하기 : 자기관찰 변수, 객체등에 대해서 ? 를 통해서 타입정보등 기본정보 조회하기 ?? 물음표 2개를 입력하면 사용자 정의 코드의 내용이 출력된다 IPython관련 명령어 Jupyter소스를 보게 되면 코드에서 %로 시작하는 명령어를 볼 수..