OAK

사용자 정의 분류체계에 따른 딥러닝 기반의 특허문서 자동분류

Metadata Downloads
Abstract
기술 혁신에 대한 권리를 보호하는 특성을 가진 특허는 대부분의 기업에서 중요한 자산으로 간주된다. 또한 특허는 기술 발전과 다양화를 대표할수 있는 충분한 소스를 제공하므로 기술 몇 혁신 확산에 중요한 역할을 한다. 이러한 특허를 이용해서 기술발전의 추이, 경쟁사 기술 분석 등의 특허분석을 수행하기 위해서는 특허문서의 분류가 선행되어야 한다. 일반 기업의 목적에 맞는 특허분석을 위해서는 International Patent Classification(IPC), Cooperative Patent Classification(CPC) 등의 공식적인 분류체계보다는 사용자 정의 분류체계가 필요하며 사용자 분류체계에 의해 분류된 특허가 특허분
석의 핵심 재료가 된다. 이러한 특허문서 분류는 전문가에 의해 대부분 수작업으로 진행되므로 많은 비용과 시간이 소요된다. 이러한 시간과 비용을 줄이기 위해 다양한 사용자 분류체계에 맞는 특허문서 분류를 자동으로 수행할
수 있도록 딥러닝을 이용한 최적의 분류모델을 찾는 것이 이 연구의 목적이다.
3가지 분류 데이터셋을 정의하고 각 데이터셋의 80%를 훈련데이터로 사용하고 20%를 테스트 데이터로 사용하였다. 키워드 기반의 분류 알고리즘 2개와 문장 기반의 분류 알고리즘 3개 총 5가지의 딥러닝 알고리즘을 선택하였다. 각 알고리즘 별로 다수의 분류모델을 만들어 각 데이터셋의 테스트데이터의 분류 정확도를 측정하였다. 또한 분류모델의 결과를 조합하여 앙상블 기법을 사용하여 각 데이터셋의 테스트데이터의 분류 정확도를 측정하였다. 3가지 데이터셋에 모두 최고의 분류정확도를 가지는 단일 분류 모델은 존재하지 않았다. 앙상블 기법은 3가지 데이터셋중 하나의 데이터셋에서는 최고의 분류정확도를 보였고 2가지 데이터셋에서는 2순위의 분류 정확도를 기록하였다.
본 연구의 목적인 다수의 사용자 분류체계에 적합한 특허분류를 위한 모델은 특정 알고리즘을 사용하는 단일 분류보다는 다수의 분류모델을 조합하는 앙상블 기법을 사용한 분류모델이 적합하다는 결과를 얻었다. 이러한 실험 결과를 바탕으로 본 연구에서는 사용자 정의 분류체계에 맞는 특허문서 자동분류를 위한 분류 아키텍처를 제안하였다. 이러한 특허문서 자동분류 아키텍쳐가 실제 특허분류 업무에 사용되어 특허 도메인 전문가들은 특허분석에 보다 집중할 수 있는 환경이 만들어지길 기대한다.|Patents with properties that protect the right to technological innovation are considered and important asset for most companies. Patents also play an important role in the diffusion of some technological innovations as they provide a sufficient source to represent technological advancement and diversification. In order to perform patent analysis such as technology development trend and competitor technology analysis using
these patents, the classification of patent documents must be preceded. For patent analysis suitable for the purpose of a general company, a user-defined classification system defined by a domain expert is more
suitable than an official classification system such as International Patent Classification (IPC) or Cooperative Patent Classification (CPC). The classification of patent documents is mostly done manually by experts, so it takes a lot of time and cost. The purpose of this study is to find an optimal classification model using deep learning to automatically perform patent document classification suitable for various user classification
systems to reduce such time and cost. Three classification datasets were defined, and 80% of each dataset was used as training data and 20% was used as test data. Two keyword-based classification algorithms and
three sentence-based classification algorithms were selected for a total of five deep learning algorithms. A number of classification models were created for each algorithm and the classification accuracy of the test data of each dataset was measured. In addition, the classification accuracy of the test data of each dataset was measured using the ensemble method by combining the results of the classification model. There was no single classification model with the highest classification accuracy in all three datasets. The ensemble method showed the highest classification accuracy in one dataset among the three datasets, and the second-ranked
classification accuracy was recorded in two datasets. As a model for patent classification suitable for the multiple user classification system, the purpose of this study, it was found that a classification model using an
ensemble technique that combines multiple classification models is more suitable than a single classification using a specific algorithm. Based on the experimental results, in this study, a classification architecture for
automatic classification of patent documents suitable for a user-defined classification system was proposed. It is expected that the proposed patent document automatic classification architecture will be used in the
actual patent classification task, creating an environment where patent domain experts can focus more on patent analysis.
Author(s)
김성훈
Issued Date
2022
Awarded Date
2022-02
Type
Thesis
URI
http://dspace.hansung.ac.kr/handle/2024.oak/7465
Advisor
김승천
Degree
Doctor
Publisher
한성대학교 대학원
Appears in Collections:
스마트융합컨설팅학과 > 1. Thesis
Authorize & License
  • Authorize공개
Files in This Item:
  • There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.