비정형 텍스트에서 BERT 기반 지식그래프 생성을 통한 BCG Matrix 시각화
- Abstract
- 자연어 처리란 전산 자원을 활용하여 사람들의 언어를 이해하고, 생성 하거나 번역하는 등 다양한 활용 분야를 다루는 인공지능을 말한다. 최근 자연어 처리 모델은 딥러닝 기반으로 급격한 향상을 이루어내고 있으며 이들 언어 모델은 다양한 분야에서 인간의 지능에 근접한 능력을 보여주고 있다. 하지만 긴 문장에 대한 처리 일관성의 한계가 있으며 인간의 상식적인 수준의 물리적인 세계는 잘 이해하지 못하고 있다. 그리고 상호작용이 일어나는 복합적인 도메인에 대해서는 많은 문맥이 결여되어 있다. 도메인에 적합한 문장 수준의 임베딩 데이터를 학습시켜 활용하면 비즈니스 컨설팅 기반의 대용량 텍스트 데이터에서 차트, 그래프, 그림 등 원하는 보고서 생성을 위한 언어모델을 효율적으로 학습할 수 있다. 본 연구는 국내 증시 상장기업 전자공시 사이트에서 비정형 기업정보를 텍스트로 수집하여 BERT 기반의 딥러닝 자연어 처리 모델의 학습용 임베딩 데이터를 생성한다. 지식그래프는 멀티 도메인 사이의 객체 및 관계에 대한 문제 해결 능력을 향상시키기 위한 Tool로써 활용하여 비즈니스 컨설팅 보고서를 생성하는 시각화에 관한 연구를 수행하였다. 또한 딥러닝 기반의 자연어 언어 모델의 학습에서 중요한 역할을 차지하는 임베딩 데이터의 정확성을 향상시키기 위한 Special Token인 컨설팅 카테고리 성격의 [CON] Token과 해당 리포팅 보고서의 관계(Relation) 값의 특성을 갖는 [REP]를 추가하는 연구를 수행하였다. 해당 데이터를 기반으로 BERT 사전학습모델을 이용하여 Special Token, 즉 [CON]토큰과 해당 [REP] 토큰을 추가하는 BPE (Byte Pair Encoding)을 통하여 임베딩 데이터를 생성한다. 그리고 컨설팅 도메인 영역과 이에 해당하는 로직 생성을 위한 BERT 기반의 사전학습(Pre-train)을 수행하여 어휘사전(Vocab)을 생성한다. 확장된 임베딩 데이터 기반으로 ETRI 엑소브레인의 API를 활용하여 개체 및 관계를 생성한다. 지식그래프의 개체명 분석 및 의존 구문 분석을 통하여 BCG Matrix의 요소인 개체 및 관계, [CON[과 [REP]의 강조를 통하여 유의미한 분류체계를 구현한다. 이를 기반으로 추가된 토큰과 지식그래프의 개체와 관계에 의해 맵핑된 임베딩 데이터에서 BCG Matrix 차트를 생성할 수 있는 요소(Element)를 추출하여 비즈니스 로직을 적용하여 시각화한다. 본 연구는 딥러닝 기반의 학습이 필요한 과정에서 자원과 기능상의 한계가 있었다. 그래서 비정형 텍스트에서 비즈니스 컨설팅 보고서 생성을 자동화하는 프로세스를 검증하는 방법으로 toy example 형태로 구현하였다. 또한 딥러닝 기반의 자연어 처리 모델의 학습에서 중요한 역할을 수행하는 임베딩 데이터의 품질을 검증하는 방법으로는 문장/단어 유사도를 사용하였다. 비록 학습데이터의 부족 및 학습 시간에 제약으로 보완이 필요하지만 향후 비즈니스 컨설팅 영역의 통합된 연구환경을 구성하면 자동화된 프로세스를 통하여 충분히 학습된 모델을 생성할 수 있다.
- Author(s)
- 박병철
- Issued Date
- 2021
- Awarded Date
- 2021-02
- Type
- Thesis
- Keyword
- BERT; Text to Knowledge Graph; Word embedding; BCG Matrix
- URI
- http://dspace.hansung.ac.kr/handle/2024.oak/7436
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.