데이터 전처리: 라벨링 방법 – 자기지도학습

ㅁ 라벨링 방법 ㅇ 정의: 라벨이 없는 데이터에서 데이터 자체의 구조나 패턴을 활용하여 학습 데이터를 생성하고 학습하는 방법. 사람이 직접 라벨을 부여하지 않고, 데이터의 일부를 가공하여 가짜 라벨(pseudo-label)을 생성함. ㅇ 특징: – 대량의 비라벨 데이터 활용 가능 – 라벨링 비용과 시간이 절감됨 – 사전 학습(pretraining) 후 지도학습에 활용되는 경우 많음 – 대표적으로 BERT의 마스크드 언어

데이터 전처리: 라벨링 방법 – 액티브 러닝

ㅁ 라벨링 방법 1. 액티브 러닝 ㅇ 정의: – 머신러닝 모델이 학습 과정에서 스스로 가장 정보 가치가 높은 데이터를 선택하여 사람(전문가)에게 라벨링을 요청하는 방법. – 전체 데이터 중 일부만 라벨링하여도 높은 성능을 목표로 함. ㅇ 특징: – 라벨링 비용 절감 가능. – 모델이 불확실성이 높은 표본을 우선 선택. – 반복적인 학습-선택-라벨링 과정으로 성능 향상. –

데이터 전처리: 라벨링 방법 – 수동 라벨링

ㅁ 라벨링 방법 ㅇ 정의: 사람이 직접 데이터(이미지, 텍스트, 음성 등)에 적절한 라벨을 부여하는 방식으로, 주로 전문 지식이나 맥락 이해가 필요한 경우 사용됨. ㅇ 특징: – 정확도가 높으나 시간과 비용이 많이 소요됨 – 대규모 데이터셋 구축에는 비효율적일 수 있음 – 도메인 전문가가 참여하면 품질이 향상됨 ㅇ 적합한 경우: – 데이터의 복잡성이 높아 자동화가 어려운 경우

AI 트렌드: 의료 AI – 약물 발견 AI

ㅁ 의료 AI ㅇ 정의: 인공지능 기술을 활용하여 의료 분야의 진단, 치료, 예측, 관리 등을 지원하는 시스템 및 응용 기술. ㅇ 특징: – 대규모 의료 데이터(영상, 유전체, 임상 기록 등)를 분석하여 의사결정을 보조. – 규제와 윤리적 검토 필요성이 높음. – 실시간 분석과 예측 가능. ㅇ 적합한 경우: – 의료 영상 판독, 질병 조기 예측, 신약

AI 트렌드: 의료 AI – Digital Twin

ㅁ 의료 AI ㅇ 정의: 실제 환자의 생리적, 병리적 상태를 디지털 환경에서 동일하게 모사한 가상 모델로, 환자 맞춤형 진단·치료 시뮬레이션에 활용되는 기술. ㅇ 특징: – 환자 개개인의 의료 데이터(유전체, 영상, 생체신호 등)를 기반으로 동적 업데이트 가능 – 치료 전 가상 시뮬레이션을 통해 부작용 및 효과 예측 가능 – IoT 의료기기, 웨어러블 센서, EMR과 연동되어 실시간

AI 트렌드: 의료 AI – EHR 분석

ㅁ 의료 AI ㅇ 정의: 인공지능 기술을 활용하여 의료 데이터(영상, 생체신호, 진료기록 등)를 분석·예측·지원하는 분야. ㅇ 특징: – 환자 맞춤형 진단과 치료 계획 수립 가능 – 대규모 의료 데이터 처리 및 패턴 분석 – 규제와 개인정보 보호 이슈 존재 ㅇ 적합한 경우: – 진단 정확도 향상 필요 시 – 의료 자원 부족 지역에서 원격진료 지원

AI 트렌드: 의료 AI – 의료影像 분석

ㅁ 의료 AI ㅇ 정의: 의료 분야에서 인공지능 기술을 활용하여 진단, 치료, 예후 예측 등을 지원하는 기술로, 특히 의료影像 분석은 CT, MRI, X-ray 등 의료 영상을 분석하여 질병을 식별하거나 진행 상태를 평가하는 것을 의미함. ㅇ 특징: – 대규모 의료 영상 데이터와 딥러닝 기반의 컴퓨터 비전 기술을 결합하여 높은 정확도의 진단 지원 가능 – 의사의 판독

AI 트렌드: 합성 데이터 – Procedural Generation

ㅁ 합성 데이터 ㅇ 정의: 실제 데이터를 수집하지 않고 알고리즘, 규칙, 수학적 모델 등을 이용해 인공적으로 생성한 데이터. ㅇ 특징: – 개인정보 침해 위험이 낮음 – 실제 데이터 수집 비용과 시간이 절감됨 – 데이터 다양성 확보 가능 – 품질은 생성 알고리즘의 정밀도에 의존 ㅇ 적합한 경우: – 실제 데이터 확보가 어렵거나 비용이 많이 드는 경우

AI 트렌드: 합성 데이터 – GAN-based Simulation

ㅁ 합성 데이터 ㅇ 정의: 실제 데이터를 수집하지 않고, 인공지능 모델을 활용하여 인공적으로 생성한 데이터. 주로 데이터 부족, 프라이버시 문제, 비용 절감을 위해 사용됨. ㅇ 특징: – 실제 데이터와 유사한 통계적 특성을 가짐 – 데이터 라벨링이 용이하고, 특정 상황을 의도적으로 생성 가능 – 데이터 편향을 줄이거나 다양한 시나리오를 실험할 수 있음 ㅇ 적합한 경우: –

AI 트렌드: 합성 데이터 – Synthetic Data

ㅁ 합성 데이터 ㅇ 정의: 실제 데이터를 수집하지 않고, 알고리즘이나 시뮬레이션을 통해 인위적으로 생성한 데이터. 개인정보 보호, 데이터 부족 문제 해결을 위해 활용됨. ㅇ 특징: – 개인정보 유출 위험이 없음 – 실제 데이터의 통계적 특성을 모방 가능 – 데이터 편향을 조정하거나 희귀 케이스를 인위적으로 생성 가능 – 생성 품질은 원본 데이터 품질과 생성 알고리즘 성능에