적절한 번역용어가 생각나지 않아서 영어 단어를 그대로 사용한다.
Lemmatization을 한 마디로 말하자면, 문장 속에서 다양한 형태로 활용된(inflected) 단어의 표제어(lemma)를 찾는 일이다. 여기서 말하는 표제어란 사전에서 단어의 뜻을 찾을 때 쓰는 기본형이라고 생각하면 된다. 예를 들어, ‘아름다운’이 Lemmatization을 거치면 ‘아름답다’가 된다.
Lemmatization은 그 단어가 쓰인 문맥까지 고려한다는 점에서 Stemming과는 살짝 다르다. Stemming은 단어 그 자체만을 고려하지만, Lemmatization은 그 단어가 문장 속에서 어떤 품사(Part-of-speech)로 쓰였는지까지 판단해야 한다.
영어를 예로 들면, (한국어에서는 적절한 예가 떠오르지 않는다.) ‘flies’가 주어졌을 때, Stemming은 단순히 이 단어의 어근을 내놓는데 비해, Lemmatization은 문장 속에서 ‘files’가 동사 ‘날다’ 와 명사 ‘파리’ 중 어떤 뜻으로 쓰였는지까지 결정할 수 있어야 한다. 그렇기 때문에 Lemmatization을 수행하려면 문장 구조 분석 같은 언어적 이해가 필요하고 따라서 Stemming에 비해 복잡한 처리 과정을 거쳐야 한다.
참고자료: http://en.wikipedia.org/wiki/Lemmatisation
Lemmatization을 한 마디로 말하자면, 문장 속에서 다양한 형태로 활용된(inflected) 단어의 표제어(lemma)를 찾는 일이다. 여기서 말하는 표제어란 사전에서 단어의 뜻을 찾을 때 쓰는 기본형이라고 생각하면 된다. 예를 들어, ‘아름다운’이 Lemmatization을 거치면 ‘아름답다’가 된다.
Lemmatization은 그 단어가 쓰인 문맥까지 고려한다는 점에서 Stemming과는 살짝 다르다. Stemming은 단어 그 자체만을 고려하지만, Lemmatization은 그 단어가 문장 속에서 어떤 품사(Part-of-speech)로 쓰였는지까지 판단해야 한다.
영어를 예로 들면, (한국어에서는 적절한 예가 떠오르지 않는다.) ‘flies’가 주어졌을 때, Stemming은 단순히 이 단어의 어근을 내놓는데 비해, Lemmatization은 문장 속에서 ‘files’가 동사 ‘날다’ 와 명사 ‘파리’ 중 어떤 뜻으로 쓰였는지까지 결정할 수 있어야 한다. 그렇기 때문에 Lemmatization을 수행하려면 문장 구조 분석 같은 언어적 이해가 필요하고 따라서 Stemming에 비해 복잡한 처리 과정을 거쳐야 한다.
참고자료: http://en.wikipedia.org/wiki/Lemmatisation

