국어사전의 미시정보를 이용한 동형이의어 구별 방안 연구
- Abstract
- 언어의 중의성은 정보검색이나 자연언어처리 분야에서 정확률을 저하시키고 시스템의 효율성을 떨어뜨리는 요인으로 작용하고 있다. 언어의 중의성은 동형이의어나 다의어와 같이 단어의 형태적 동일성에서 발생되는데, 한국어는 동형이의어의 비율이 높기 때문에 효율적인 정보처리를 위해서는 동형이의어에 대한 식별이 우선적으로 해결되어야 한다.
본 논문은 지금까지 한국어의 동형이의어 구별 방안들이 가지고 있던 상호 호환성 문제를 해결하기 위하여, 국어사전의 미시정보를 이용하는 방법을 제안하고자 한다. 단어의 속성 정보를 이용하여 동형이의어의 식별 방법을 개발한다면 상호 호환성과 지속성이 보장될 수 있을 것이다.
먼저, 국어사전의 구조와 미시정보에 대한 분석을 통해, 범용적인 동형이의어의 식별자로 사용되기 위한 미시정보의 선정 기준을 다음과 같이 설정하였다. 첫째, 사전 편찬 방향이나 편찬자에 따라 내용이 달라지지 않을 것, 둘째, 대부분의 표제어에 기술될 수 있는 요소일 것, 셋째, 정보의 집필이 쉽고 명료할 것의 세 가지이다. 이 기준에 따라 ‘원어 정보, 발음 정보, 조어 방법, 품사 정보, 용언의 불규칙 활용 정보, 방언/비표준어의 대응 표준어’ 여섯 가지 미시정보를 동형이의어의 식별자로 선정하였다.
다음으로, 여섯 가지 미시정보들이 동형이의어의 식별자로서 활용될 수 있을지 확인하기 위해 고려대 한국어대사전을 대상으로 각 미시정보별 식별률을 분석하였다. 식별률 분석 방법으로는, 첫째, 고려대 한국어대사전에 수록된 전체 표제어 가운데 여섯 가지 미시정보가 표기된 표제어를 각각 추출하고, 둘째, 미시정보별 표제어 그룹 내에서 동형이의어 관계가 발생되는 표제어를 확인한 다음, 셋째, 미시정보별 표제어 그룹의 동형이의어를 대상으로 해당 미시정보를 통해 구별되는 표제어의 비율을 통해 확인하였다. 여섯 가지 미시정보별 식별률은 방언/비표준어 97.64%, 원어 정보 95.00%, 품사 정보 12.90%, 발음 정보 6.50%, 조어 방법 5.24%, 활용 정보 1.90% 순으로 나타났다. 또한 미시정보의 종합적인 식별률 분석을 위해 여섯 가지 미시정보를 동형이의어의 식별자로 하나씩 추가함으로써 각 미시정보의 식별률 증가 추이도 함께 살펴 보았다. 처음 원어 정보의 식별률은 80.83%로 나타났으며, 이후 발음 정보 82.53%, 품사 정보 87.57%, 방언/비표준어 93.09%, 조어 방법 93.39%, 마지막 활용 정보까지 추가한 최종 식별률은 93.39%로 나타났다.
마지막으로, 금성판 국어대사전, 우리말큰사전, 표준국어대사전, 고려대 한국어대사전을 대상으로 각각의 미시정보가 사전마다 어떻게 기술되어 있는지 살펴보고, 이들 미시정보를 식별자로 활용하기 위한 기술 방법을 XML 형식으로 제시하였다. 네 개의 사전들은 위의 여섯 가지 미시정보의 기술에 있어서 대부분 일치하고 있으나, 미시정보에 대한 표기 방법에 있어서는 사전마다 약간의 차이가 있었다. 따라서 이들 미시정보를 식별자로 사용하기 위해서는 사전에서 기술된 미시정보에 대하여 정규화 과정이 필요하였다. 특히 원어, 발음, 품사와 같은 미시정보의 경우 두 개 이상이 나타날 수 있었는데, 이에 대한 처리 방법으로 XML DTD 모델과 XML 데이터를 작성하여 예시하였다.
- Author(s)
- 양경용
- Issued Date
- 2010
- Awarded Date
- 2010-08
- Type
- Thesis
- Keyword
- 동형이의어
- URI
- http://dspace.hansung.ac.kr/handle/2024.oak/6628
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.