데이터: 결측치 및 이상치 – thresh 파라미터

ㅁ 결측치 및 이상치

ㅇ 정의:
데이터프레임에서 결측치가 포함된 행 또는 열을 제거할 때, 최소한으로 남아야 하는 비결측값의 개수를 지정하는 파라미터. pandas의 dropna() 메서드에서 사용됨.

ㅇ 특징:
– dropna(thresh=n) 형태로 사용하며, 비결측값이 n개 미만인 행/열을 제거함.
– axis 파라미터와 함께 사용하여 행 기준(axis=0) 또는 열 기준(axis=1)으로 적용 가능.
– 특정 열만 대상으로 하려면 subset 파라미터와 함께 사용 가능.

ㅇ 적합한 경우:
– 데이터셋에서 결측치가 일부 존재하더라도 일정 수준 이상의 데이터가 확보된 행/열만 유지하고 싶은 경우.
– 결측치 비율이 높은 행/열을 효율적으로 제거하고자 할 때.

ㅇ 시험 함정:
– thresh 값은 ‘비결측값 개수’ 기준이지 ‘결측치 개수’ 기준이 아님.
– subset과 함께 사용할 경우, 지정한 subset 내에서만 thresh 조건이 적용됨.
– axis 기본값은 0(행 기준)임을 혼동하기 쉬움.

ㅇ 시험 대비 “패턴 보기” 예시:
O: dropna(thresh=3)는 비결측값이 3개 미만인 행을 제거한다.
X: dropna(thresh=3)는 결측치가 3개 이상인 행을 제거한다.

ㅁ 추가 학습 내용

thresh 파라미터는 결측치 개수가 아니라 비결측치 개수를 기준으로 동작한다. subset과 axis를 함께 사용하면 특정 열이나 행에만 적용할 수 있다. 예를 들어 axis=1, thresh=2는 비결측값이 2개 미만인 열을 제거한다. thresh는 how 파라미터와 동시에 사용할 수 없다. 결측치 처리 전략(평균 대체, 중앙값 대체 등)과 함께 자주 사용된다. 시험에서는 thresh의 기준이 비결측값 개수임을 묻는 함정 문제가 자주 나오므로 주의해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*