Pytorch로 시작하는 딥러닝 입문(01-05 데이터 분리, Splitting Data)

2024. 1. 30. 13:26딥러닝 모델: 파이토치

♣ 데이터를 분리하는 방법(독립변수, 종속변수)

1. zip 함수를 이용하여 분리하기

zip 함수는 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할을 함. 

리스트의 리스트 구성에서 zip 함수는 X(독립변수)와 y(종속변수)를 분리하는 데 유용함. 

 

각 데이터에서 첫 번째로 등장한 원소들끼리 묶이고, 두 번째로 등장한 원소들끼리 묶임. 이를 각각 X, y 데이터로 사용

 

 

2. 데이터프레임을 이용하여 분리하기

 

데이터프레임은 각 열에 접근이 가능하므로 이를 이용하면 손쉽게 X 데이터와 y 데이터를 분리할 수 있음

 

 

 

3. Numpy 이용하여 분리하기(slicing 이용)

 

 

♣ 테스트 데이터 분리하기

이미 X와 y가 분리된 데이터에 대해 테스트 데이터를 분리하는 과정. 

 

1. 사이킷 런 이용하여 분리하기: train_test_split()

 

 

X =  독립 변수 데이터

y = 종속 변수 데이터

test_size = 테스트용 데이터 개수(비율)

train_size = 학습용 데이터 개수(비율)

random_state = 난수 시드 

 

 

 

출력 결과를 보면 데이터를 어느 부분에서 자른 것이 아니라 데이터의 순서가 전반적으로 섞이면서 분리된 것을 알 수 있음. random_state의 값을 바꾸면 데이터가 다른 순서로 섞여서 다른 결과가 나올 수 있음. 

 

 

 

2. 수동으로 분리하기

수동으로 데이터를 섞은 후 slicing 을 이용하여 데이터 분리