data life

데이터셋 불러오기 본문

Data-Analysis/pandas

데이터셋 불러오기

주술회전목마 2022. 5. 23. 08:49

pandas 입출력

read_csv() : 쉼표로 구분된 값(csv) 파일을 DataFrame으로 읽어줌

  • filepath_or_buffer : 불러올 파일 경로 혹은 url (인수는 생략가능)
  • sep : 데이터를 구분할 구분자 지정 (기본 값 ',')
  • header : 열(column)에 지정할 항목 지정
  • encoding : 파일의 인코딩 지정

read_excel() :Excel 파일을 pandas DataFrame으로 읽어줌

  • sheet_name 
    • 기본값 0: 첫 번째 시트
    • 1 : 두 번째 시트
    • "Sheet1" : 이름이 "Sheet1"인 시트 로드
    • [0, 1, "Sheet5"] : 첫 번째, 두 번째 및 "Sheet5"라는 시트를 DataFrame 의 dict로 로드
    • 없음 : 모든 워크시트

 

pandas 결측치 확인

isnull(), isna()

  • 결측값 : True(1)
  • 결측이 아닌 값 : False(0)
    isnull().sum()
    결측값의 합계를 통해 각 컬럼 별 결측치를 확인할 수 있다.

<-> notnull(), notna()

 

pandas 결측치 제거

dropna() : 결측치를 제거시에 유용하게 사용되는 함수

 

DataFrame.dropna(selfaxis=0how='any'thresh=Nonesubset=Noneinplace=False)

  • how 
    • 'any' : axis 매개변수에 따라 결정된 행 혹은 열에 결측치가 하나라도 있으면 삭제
    • 'all' : 모든 값이 결측치여야 삭제
  • thresh : 행(혹은 열)에 있는 결측치가 아닌 데이터의 개수의 기준을 설정
  • subset : 입력된 칼럼을 기준으로 결측치를 처리

 

pandas 결측치 대체

fillna() : 결측치를 대체하기 위해 사용

fillna함수에 값을 넘겨주면 해당 값으로 데이터프레임의 모든 결측치가 대체

 

DataFrame.fillna(selfvalue=Nonemethod=Noneaxis=Noneinplace=Falselimit=Nonedowncast=None)

  • method
    • ffill/pad : 앞의 데이터로 뒤의 결측치를 대체
    • backfill/bfill : 뒤의 데이터로 앞의 결측치를 대체
  • inplace bool, 기본값 FalseTrue이면 제자리에 채웁니다