파이선
데이터 로딩과 저장, 파일형식 (chap6)
영쓰keep
2021. 9. 2. 19:34
- 텍스트 파일에서 데이타 읽기
- pandas형식에 맞게 DataFrame객체로 불러오는 다양한 함수 제공 (P.237)
- read_csv, read_table, read_sql, read_excel, read_json등 제공
- 다양한 Third-Part 저장형태 제공한다는 생각이 듬
- read_sas : SAS시스템의 저장형태
- read_hdf : HDFS 파일 형태
- read_stata : Stata파일 형태
- read_csv
- 데이터 형식이 없어서, 타입추론을 수행한다.
- csv에서는 날짜 형태의 데이타를 어떻게 식별하고 처리할까?
- read_cvs와 read_table 함수 인자 (P.244)
- cvs는 ,로 구분된 파일형태이니, 구분자로 구분해서 불러올수 있다. pd.read_table('examples/ex1.csv', sep=',')
- pd.read_csv('test.csv', skiprow[2,3,4])
- pd.read_csv('test.csv', na_values=['NULL'])
- pd.read_csv('test.csv', nrows=5)
- pd.read_csv('examples/ex2.csv', header=None)
header를 생성하지만 0,1,2,~의 값이 할당된다.
header설정 안한 화면, csv의 1줄을 Header로 식별해서 table을 구성한다
- pd.read_csv('examples/ex2.csv', names=names, index_col='message')
- parsed = pd.read_csv('examples/csv_mindex.csv',index_col=['key1', 'key2'])
- pd.isnull(result) : 해당 값이 null이면 True, 아니면 False로 할당
- na_values를 이용해서 선택적으로 값을 null로 만들수 있다.
- pd.options.display.max_rows = 10
- 초기 출력하는 값에 대한 설정
- pd.read_csv('examples/ex6.csv', nrows=5)
- 파일의 첫부분부터 몇 line을 출력할지 설정
- 기존에 있는 구분자를 변경하는 기능
- NULL인것 지정한 값으로 설정하기
- data.to_csv(sys.stdout, na_rep='널체크')
- index와 header정보 모두 삭제하기
- data.to_csv(sys.stdout, index=False, header=False)
- data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])
- 이진 데이터 형식
- WEB-API 사용
- 데이타 베이스 사용