Pytorch로 시작하는 딥러닝 입문(01-04 Machine Learning Workflow)

2024. 1. 30. 12:59딥러닝 모델: 파이토치

♣ 머신 러닝 워크플로우

데이터를 수집하고 머신 러닝을 하는 과정

 

1. 수집(Acquisition)

머신 러닝을 하기 위해 필요한 데이터를 수집하는 과정

 

2. 점검 및 탐색(Insepction and exploration, EDA)

수집한 데이터를 점검하고 탐색하는 단계. 

데이터의 구조, 노이즈 데이터, 머신러닝 적용을 위해서 데이터를 어떻게 정제할 지 등을 파악함.

탐색적 데이터 분석(Exploratory Data Analysis, EAD) 단계라고도 하는데 독립 변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등을 점검하며 데이터의 특징과 구조적 관계를 알아내는 과정임. 

 

간단한 시각화와 통계 테스트를 진행하기도 함. 

 

3. 전처리 및 정제(Preprocessing and Cleaning)

데이터 전처리 과정. 만약 자연어 처리라면 토큰화, 정제, 정규화, 불용어 제거 등의 단계를 포함함.

 

4. 모델링 및 훈련(Modeling and Training)

데이터 전처리가 끝나면 머신 러닝에 대한 코드를 작성하는 모델링 단계에 진입. 

적절한 머신 러닝 알고리즘을 선택하여 모델링한 후, 전처리된 데이터를 머신 러닝 알고리즘을 통해 학습(훈련이라고도 함, training)함. 훈련이 제대로 되었다면 그 후에 원하는 task를 수행할 수 있게 됨. 

 

주의할 점은 모든 데이터를 학습시켜서는 안된다는 점임. 데이터 일부는 테스트용으로 두고 훈련용 데이터만 훈련에 사용해야 함. 그래야 과적합 상황을 막을 수 있음. 가장 좋은 것은 훈련용, 검증용, 테스트용으로 데이터를 나눈 뒤 훈련용 데이터만 훈련에 사용하는 것이다. 

 

5. 평가(Evaluation)

테스트용 데이터로 성능 평가. 기계가 예측한 데이터가 테스트용 데이터의 실제 정답과 얼마나 가까운지를 측정하여 평가한다. 

 

6. 배포(Deployment)

기계가 성공적으로 훈련되었다고 판단되면 완성된 모델을 배포함.