Pytorch로 시작하는 딥러닝 입문(10-04. 한국어에서의 언어 모델)

2024. 4. 6. 08:45딥러닝 모델: 파이토치

영어나 기타 언어에 비해서 한국어는 언어 모델로 다음 단예를 예측하기가 훨씬 까다롭니다. 

 

1. 한국어는 어순이 중요하지 않다. 

 

한국어는 어순이 중요하지 않다. 이전 단어가 주어졌을 때 다음 단어가 나타날 확률을 구해야 하는데 어순이 중요하지 않다는 것은 다음 단어로 어떤 단어든 등장할 수 있다는 의미이다. 

 

예를 들면

 

4개의 문장이 전부 의미가 통하는 것을 알 수 있다. '나는' 이라는 주어를 생략해도 말이 된다. 이렇게 단어 순서를 뒤죽박죽으로 바꿔놔도 한국어는 의미가 전달되기 때문에 확률에 기반한 언어 모델이 다음 단어를 제대로 예측하기가 어렵다. 

 

 

2. 한국어는 교착어이다. 

 

띄어쓰기 단위인 어절 단위로 토큰화를 할 경우, 문장에서 발생 가능한 단어의 수가 크게 늘어난다. 대표적인 예로 교착어인 한국어에는 '조사'가 있다. 가령 '그녀' 라는 단어 하나만 해도 그녀가, 그녀를, 그녀의, 그녀와, 그녀로, 그녀께서, 그녀처럼 등 수많은 경우가 존재한다. 따라서 한국어에서는 토큰화를 사용하여 접사나 조사 등을 분리하는 것이 중요한 작업이 된다. 

 

 

3. 한국어는 띄어쓰기가 제대로 지켜지지 않는다. 

 

한국어는 띄어쓰기를 제대로 하지 않아도 의미가 전달되며 띄어쓰기 규칙이 까다로운 언어이기도 하다. 따라서 한국어 코퍼스에서 띄어쓰기가 제대로 지켜지지 않는 경우가 많다. (코퍼스 안에 띄어쓰기가 제대로 되지 않은 데이터들이 들어갈 수 있다는 것. )토큰이 제대로 분리되지 않은 채 훈련 데이터로 사용된다면 언어 모델을 제대로 동작하지 않는다.