본문 바로가기

파이선

데이터 로딩과 저장, 파일형식 (chap6)

  • 텍스트 파일에서 데이타 읽기
    • pandas형식에 맞게 DataFrame객체로 불러오는 다양한 함수 제공 (P.237)
      • read_csv, read_table, read_sql, read_excel, read_json등 제공
      • 다양한 Third-Part 저장형태 제공한다는 생각이 듬
        • read_sas : SAS시스템의 저장형태
        • read_hdf : HDFS 파일 형태
        • read_stata : Stata파일 형태
    • read_csv
      • 데이터 형식이 없어서, 타입추론을 수행한다.
      • csv에서는 날짜 형태의 데이타를 어떻게 식별하고 처리할까?
    • read_cvs와 read_table 함수 인자 (P.244)
      • cvs는 ,로 구분된 파일형태이니, 구분자로 구분해서 불러올수 있다. pd.read_table('examples/ex1.csv', sep=',') 
      • pd.read_csv('test.csv', skiprow[2,3,4])
      • pd.read_csv('test.csv', na_values=['NULL'])
      • pd.read_csv('test.csv', nrows=5)
      • pd.read_csv('examples/ex2.csv', header=None)
        header를 생성하지만 0,1,2,~의 값이 할당된다.
        header설정 안한 화면, csv의 1줄을 Header로 식별해서 table을 구성한다

        • pd.read_csv('examples/ex2.csv', names=names, index_col='message')
        • parsed = pd.read_csv('examples/csv_mindex.csv',index_col=['key1', 'key2'])
        • pd.isnull(result) : 해당 값이 null이면 True, 아니면 False로 할당
        • na_values를 이용해서 선택적으로 값을 null로 만들수 있다.
        • pd.options.display.max_rows = 10
          • 초기 출력하는 값에 대한 설정
        • pd.read_csv('examples/ex6.csv', nrows=5)
          • 파일의 첫부분부터 몇 line을 출력할지 설정
        • 기존에 있는 구분자를 변경하는 기능
        • NULL인것 지정한 값으로 설정하기
          • data.to_csv(sys.stdout, na_rep='널체크')
        • index와 header정보 모두 삭제하기
          • data.to_csv(sys.stdout, index=False, header=False)
          • data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c']) 
            • index정보는 삭제하고, 컬럼 정보만 넣기
  • 이진 데이터 형식
  • WEB-API 사용
  • 데이타 베이스 사용