데이터 로딩과 저장, 파일형식 (chap6)

텍스트 파일에서 데이타 읽기
- pandas형식에 맞게 DataFrame객체로 불러오는 다양한 함수 제공 (P.237)
  - read_csv, read_table, read_sql, read_excel, read_json등 제공
  - 다양한 Third-Part 저장형태 제공한다는 생각이 듬
    - read_sas : SAS시스템의 저장형태
    - read_hdf : HDFS 파일 형태
    - read_stata : Stata파일 형태
- read_csv
  - 데이터 형식이 없어서, 타입추론을 수행한다.
  - csv에서는 날짜 형태의 데이타를 어떻게 식별하고 처리할까?
- read_cvs와 read_table 함수 인자 (P.244)
  - cvs는 ,로 구분된 파일형태이니, 구분자로 구분해서 불러올수 있다. pd.read_table('examples/ex1.csv', sep=',')
  - pd.read_csv('test.csv', skiprow[2,3,4])
  - pd.read_csv('test.csv', na_values=['NULL'])
  - pd.read_csv('test.csv', nrows=5)
  - pd.read_csv('examples/ex2.csv', header=None)
    header를 생성하지만 0,1,2,~의 값이 할당된다.
    
    header설정 안한 화면, csv의 1줄을 Header로 식별해서 table을 구성한다
    - pd.read_csv('examples/ex2.csv', names=names, index_col='message')
    - parsed = pd.read_csv('examples/csv_mindex.csv',index_col=['key1', 'key2'])
    - pd.isnull(result) : 해당 값이 null이면 True, 아니면 False로 할당
    - na_values를 이용해서 선택적으로 값을 null로 만들수 있다.
    - pd.options.display.max_rows = 10
      - 초기 출력하는 값에 대한 설정
    - pd.read_csv('examples/ex6.csv', nrows=5)
      - 파일의 첫부분부터 몇 line을 출력할지 설정
    - 기존에 있는 구분자를 변경하는 기능
    - NULL인것 지정한 값으로 설정하기
      - data.to_csv(sys.stdout, na_rep='널체크')
    - index와 header정보 모두 삭제하기
      - data.to_csv(sys.stdout, index=False, header=False)
      - data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])
        
        index정보는 삭제하고, 컬럼 정보만 넣기
이진 데이터 형식
WEB-API 사용
데이타 베이스 사용

'파이선' 카테고리의 다른 글

데이터 준비하기:조인,병합,변형 (chap8) (1)	2021.09.05
데이터 정제 및 준비 (chap7) (0)	2021.09.02
pandas 시작하기 (chap5) (1)	2021.09.01
Numpy기본 : 배열과 백터 연산 (chap4) (0)	2021.08.30
파이썬 언어 기본, IPython, Jupyter 노트북 (chap2) (2)	2021.08.29

방향만 맞으면 괜찮아

데이터 로딩과 저장, 파일형식 (chap6)

'파이선' 카테고리의 다른 글

티스토리툴바

데이터 로딩과 저장, 파일형식 (chap6)

'파이선' 카테고리의 다른 글

'파이선' Related Articles

티스토리툴바