Pytorch로 시작하는 딥러닝 입문(01-05 데이터 분리, Splitting Data)
2024. 1. 30. 13:26ㆍ딥러닝 모델: 파이토치
♣ 데이터를 분리하는 방법(독립변수, 종속변수)
1. zip 함수를 이용하여 분리하기
zip 함수는 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할을 함.
리스트의 리스트 구성에서 zip 함수는 X(독립변수)와 y(종속변수)를 분리하는 데 유용함.
각 데이터에서 첫 번째로 등장한 원소들끼리 묶이고, 두 번째로 등장한 원소들끼리 묶임. 이를 각각 X, y 데이터로 사용
2. 데이터프레임을 이용하여 분리하기
데이터프레임은 각 열에 접근이 가능하므로 이를 이용하면 손쉽게 X 데이터와 y 데이터를 분리할 수 있음
3. Numpy 이용하여 분리하기(slicing 이용)
♣ 테스트 데이터 분리하기
이미 X와 y가 분리된 데이터에 대해 테스트 데이터를 분리하는 과정.
1. 사이킷 런 이용하여 분리하기: train_test_split()
X = 독립 변수 데이터
y = 종속 변수 데이터
test_size = 테스트용 데이터 개수(비율)
train_size = 학습용 데이터 개수(비율)
random_state = 난수 시드
출력 결과를 보면 데이터를 어느 부분에서 자른 것이 아니라 데이터의 순서가 전반적으로 섞이면서 분리된 것을 알 수 있음. random_state의 값을 바꾸면 데이터가 다른 순서로 섞여서 다른 결과가 나올 수 있음.
2. 수동으로 분리하기
수동으로 데이터를 섞은 후 slicing 을 이용하여 데이터 분리
'딥러닝 모델: 파이토치' 카테고리의 다른 글
Pytorch로 시작하는 딥러닝 입문(02-02 텐서 조작하기) (1) | 2024.01.31 |
---|---|
Pytorch로 시작하는 딥러닝 입문(02-01 파이토치 패키지의 기본 구성) (0) | 2024.01.30 |
Pytorch로 시작하는 딥러닝 입문(01-04 Machine Learning Workflow) (1) | 2024.01.30 |
AdamW (0) | 2023.11.12 |
albumentations (0) | 2023.11.03 |