데이터: 결측치 및 이상치 – thresh 파라미터
ㅁ 결측치 및 이상치
ㅇ 정의:
데이터프레임에서 결측치가 포함된 행 또는 열을 제거할 때, 최소한으로 남아야 하는 비결측값의 개수를 지정하는 파라미터. pandas의 dropna() 메서드에서 사용됨.
ㅇ 특징:
– dropna(thresh=n) 형태로 사용하며, 비결측값이 n개 미만인 행/열을 제거함.
– axis 파라미터와 함께 사용하여 행 기준(axis=0) 또는 열 기준(axis=1)으로 적용 가능.
– 특정 열만 대상으로 하려면 subset 파라미터와 함께 사용 가능.
ㅇ 적합한 경우:
– 데이터셋에서 결측치가 일부 존재하더라도 일정 수준 이상의 데이터가 확보된 행/열만 유지하고 싶은 경우.
– 결측치 비율이 높은 행/열을 효율적으로 제거하고자 할 때.
ㅇ 시험 함정:
– thresh 값은 ‘비결측값 개수’ 기준이지 ‘결측치 개수’ 기준이 아님.
– subset과 함께 사용할 경우, 지정한 subset 내에서만 thresh 조건이 적용됨.
– axis 기본값은 0(행 기준)임을 혼동하기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
O: dropna(thresh=3)는 비결측값이 3개 미만인 행을 제거한다.
X: dropna(thresh=3)는 결측치가 3개 이상인 행을 제거한다.
ㅁ 추가 학습 내용
thresh 파라미터는 결측치 개수가 아니라 비결측치 개수를 기준으로 동작한다. subset과 axis를 함께 사용하면 특정 열이나 행에만 적용할 수 있다. 예를 들어 axis=1, thresh=2는 비결측값이 2개 미만인 열을 제거한다. thresh는 how 파라미터와 동시에 사용할 수 없다. 결측치 처리 전략(평균 대체, 중앙값 대체 등)과 함께 자주 사용된다. 시험에서는 thresh의 기준이 비결측값 개수임을 묻는 함정 문제가 자주 나오므로 주의해야 한다.