ㅁ 신경망 구조 ㅇ 정의: 인공 신경망의 구조적 설계를 의미하며, 입력층, 은닉층, 출력층의 배치와 연결 방식을 포함한다. 특정 문제 유형(이미지, 시계열, 자연어 처리 등)에 따라 최적화된 구조가 다르다. ㅇ 특징: – 데이터 특성에 맞춘 계층 설계 필요 – 파라미터 수, 연산량, 학습 속도에 직접 영향 – 과적합 방지를 위한 규제(regularization)와 함께 설계 고려 ㅇ 적합한
ㅁ 표형 데이터 증강 ㅇ 정의: 표형 데이터 증강은 표 형태(행과 열 구조)의 데이터를 인위적으로 변형·생성하여 학습 데이터의 다양성과 균형을 확보하는 기법이다. ㅇ 특징: – 주로 데이터 불균형 문제를 해결하기 위해 사용된다. – 원본 데이터의 구조와 통계적 특성을 유지하면서 새로운 데이터셋을 만든다. – 과적합 방지와 모델 일반화 성능 향상에 도움을 준다. ㅇ 적합한 경우: –
ㅁ 표형 데이터 증강 ㅇ 정의: 표형 데이터 증강은 표 형태(tabular)의 데이터셋에서 데이터 수를 늘려 모델의 학습 성능을 향상시키는 기법으로, 주로 불균형 데이터 문제를 해결하기 위해 사용됨. ㅇ 특징: – 데이터의 행(row)을 인위적으로 생성하거나 복제 – 클래스 불균형(Class Imbalance) 해소 목적 – 원본 데이터의 통계적 특성을 유지하는 것이 중요 ㅇ 적합한 경우: – 분류 문제에서
ㅁ 표형 데이터 증강 ㅇ 정의: 표형 데이터 증강은 표 형태(행과 열 구조)의 데이터셋에서 데이터 불균형 문제를 해결하거나 모델 일반화를 향상시키기 위해 기존 데이터를 변형하거나 새로운 데이터를 생성하는 기법이다. ㅇ 특징: – 주로 클래스 불균형이 심한 분류 문제에서 사용됨 – 원본 데이터의 통계적 특성을 유지하면서 새로운 샘플 생성 – 과적합 방지를 위해 무작위성(randomness)을 포함 ㅇ
ㅁ 표형 데이터 증강 ㅇ 정의: 표형 데이터 증강은 표 형태의 구조화된 데이터에서 데이터의 양과 다양성을 늘리기 위해 기존 데이터를 변형, 합성, 생성하는 기법을 말한다. ㅇ 특징: – 수치형, 범주형, 혼합형 데이터 모두에 적용 가능 – 데이터 불균형 문제를 완화하는 데 자주 사용 – 원본 데이터의 통계적 특성을 유지하는 것이 중요 ㅇ 적합한 경우: –
ㅁ 오디오 증강 ㅇ 정의: – 오디오 데이터를 인위적으로 변형하여 학습 데이터의 다양성을 확보하는 기법. – 배경 잡음 추가, 속도 변화, 주파수 왜곡, 스펙트로그램 변환 등 다양한 방법이 포함됨. ㅇ 특징: – 원본 데이터의 라벨은 유지하면서 입력 특성만 변형. – 데이터 부족 문제 완화 및 모델의 일반화 성능 향상. – 음성 인식, 화자 식별, 감정
ㅁ 오디오 증강 ㅇ 정의: 오디오 데이터에 다양한 변형을 가하여 데이터셋을 확장하고 모델의 일반화 성능을 향상시키는 기법. ㅇ 특징: – 원본 오디오의 의미를 크게 훼손하지 않는 범위에서 변형을 적용. – 배경 소음, 속도 변화, 음높이 조정 등 다양한 방법 존재. – 음성 인식, 감정 분석, 환경 소리 분류 등에서 활용. ㅇ 적합한 경우: – 학습
ㅁ 오디오 증강 ㅇ 정의: 원본 오디오 데이터의 특성을 유지하면서 주파수 성분을 변형하여 데이터 다양성을 확보하는 기법. ㅇ 특징: – 음성 인식, 음악 장르 분류 등 오디오 기반 모델 학습 시 데이터 부족 문제를 완화. – 시간 길이는 유지하되 주파수를 변환하여 음의 높낮이를 변화. – 배경 잡음 추가, 시간 스트레칭 등 다른 증강 기법과 조합
ㅁ 오디오 증강 ㅇ 정의: 오디오 데이터의 길이를 늘리거나 줄이면서도 음의 높이(pitch)는 변경하지 않는 기술로, 학습 데이터의 다양성을 확보하기 위해 사용됨. ㅇ 특징: – 재생 속도를 조절하되, 주파수 스펙트럼의 중심은 유지 – 음성 인식, 음악 장르 분류 등에서 데이터 편향을 줄이는 데 유용 – STFT(Short-Time Fourier Transform) 기반 알고리즘이 주로 사용됨 ㅇ 적합한 경우: –
ㅁ 텍스트 증강 ㅇ 정의: 원본 텍스트 데이터의 특정 단어나 구를 다른 문자, 기호, 또는 난수로 치환하여 민감한 정보를 보호하거나 데이터 다양성을 높이는 기법. ㅇ 특징: – 개인정보(이름, 주민번호, 전화번호 등)나 기밀 정보를 비식별화. – 텍스트의 문맥 구조를 유지하면서 일부 토큰만 변경. – 규칙 기반, 패턴 매칭, 또는 랜덤 치환 방식 사용. – 데이터 보안과