소규모 학습 데이터와 전이 학습을 활용한 경제정책 불확실성 지수
- Abstract
- Uncertainty is a major factor influencing the formation of expectations, decision-making by economic agents, and the real economy. However, as it is not directly observable, various efforts have been made to measure it. In particular, the Economic Policy Uncertainty (EPU) index proposed by Baker et al. (2016) is a representative example that measures uncertainty using big data. It calculates uncertainty based on the frequency of news articles that simultaneously contain three word groups: economic terms, policy terms, and uncertainty-related terms. However, measuring uncertainty solely based on the frequency of specific keywords may lead to overestimation and fails to capture the diverse contextual information embedded in news content. To address these limitations of the existing EPU index, this study proposes a new EPU index that leverages machine learning–based sentiment analysis.
To perform machine learning–based sentiment analysis, it is necessary to construct a sentiment classification model. However, building such a model requires large-scale labeled data and the use of state-of-the-art natural language processing techniques, which impose significant time and resource burdens that are difficult for individual researchers or small research teams to bear. To alleviate these practical constraints, this study proposes a sentiment classification model that utilizes small-scale training data (approximately 20,000 labeled data) in combination with transfer learning. In particular, considering the high computational cost and inference latency of pre-trained language models (PLMs) such as BERT, this study focuses on demonstrating that useful models can still be built by using word embedding models for transfer learning.
Meanwhile, this study argues that, because the downstream task in this research is relatively simple, the difference between the EPU index constructed using a high-performance sentiment classification model and that constructed using the proposed model would not be significant. To empirically verify this claim, a separate sentiment classification model was developed using a BERT-based PLM, and the EPU index generated from that model was used as a benchmark for comparison. Various usefulness evaluations were then conducted using both EPU indices to empirically support the argument of this study.
The research process was conducted in six stages: ① news article collection, ② text preprocessing, ③ embedding model construction, ④ sentiment classification model construction, ⑤ comparison model construction, and ⑥ usefulness evaluation. For ① news article collection, article titles were gathered using the keyword sets proposed by Lee Geung-hee et al. (2020). After removing duplicate and irrelevant articles, the titles were searched on portal sites to collect the full texts.
② Text preprocessing was carried out in five stages: pre-cleaning, corpus definition, sentence tokenization, user dictionary construction, and morphological analysis. In the pre-cleaning process, unnecessary strings were removed, special characters were converted, and words within parentheses were deleted. The corpus was defined at the sentence level. For sentence tokenization, various sentence splitters were evaluated to identify the most suitable one for this study. The evaluation criteria included processing speed, accuracy, and the Dice Coefficient. As a result, NLTK demonstrated superior performance in both segmentation accuracy and processing speed. The user dictionary was constructed using the noun extractor from soynlp, resulting in a dictionary consisting of 71,126 common nouns and 16,787 proper nouns. In the morphological analysis stage, various morphological analyzers were evaluated to determine the one best suited for this study. The evaluation was divided into part-of-speech tag comparison, ambiguity assessment, processing speed comparison, and review of compatibility with the user dictionary. As a result, Kiwi was selected as the morphological analyzer for this study.
③ The word embedding models were constructed by comparing three methodologies: Word2Vec, FastText, and GloVe. After building each embedding model, performance evaluations were conducted to select the most suitable model for this study. The evaluation was divided into three parts: word analogy evaluation, word similarity evaluation, and extrinsic evaluation. The extrinsic evaluation measured performance improvement in the sentiment classification task. The results showed that Word2Vec achieved the best performance across all three evaluation categories.
④ The sentiment classification models were constructed based on three deep learning architectures: RNN, CNN, and Transformer. Various neural network structures and hyperparameter configurations were explored to derive optimal performance. For the RNN architecture, model variants incorporating attention mechanisms were considered, including LSTM, BiLSTM, GRU, and BiGRU. The CNN models were designed based on the CNN-non-static and CNN-multichannel structures introduced by Kim (2014). In model evaluation, the Transformer-based model achieved the highest performance in terms of F1 Score. However, the performance difference with the BiGRU+Attention model was only 0.11 percentage points. Moreover, the BiGRU+Attention model showed inference speeds twice as fast as the Transformer model. Therefore, BiGRU+Attention was selected as the optimal model for this study, given its strong performance in both classification accuracy and inference efficiency.
⑤ The comparison models were constructed using transfer learning with BERT-based pre-trained language models (PLMs). Specifically, KLUE–BERT trained on general-domain data, KPF-BERT specialized for news articles, and KF-DeBERTa specialized for the financial domain were employed. In model evaluation, KF-DeBERTa achieved the highest F1 Score. However, the performance difference with KPF-BERT was only about 0.15 percentage points. Furthermore, inference speed analysis showed that KPF-BERT was faster than KF-DeBERTa. Based on this, KPF-BERT was selected as the optimal comparison model in this study.
⑥ The usefulness evaluation was conducted in three parts: correlation analysis with economic statistics, analysis of the effects of uncertainty on the macroeconomy, and forecasting performance evaluation using a nowcasting model. To assess the appropriateness and robustness of the EPU index, the following four indices were used: the EPU index constructed using the proposed model (EPU_small), the EPU index constructed using the comparison model (EPU_BERT), the original EPU index developed by Baker et al. (2016) (EPU), and the EPU index proposed by Cho and Kim (2023) (EPU_KOREA).
In the correlation analysis with economic statistics, cross-correlation analysis was conducted to evaluate the leading property of each EPU index and its relationship with macroeconomic indicators. The results showed that EPU_small exhibited the highest correlation with all indicators except for the VIX index, and it was found to lead monthly economic indicators by 1 to 5 months and quarterly indicators by 0 to 1 quarter. The EPU index showed a positive correlation with the leading composite index, a negative correlation with exchange rate volatility, and a positive correlation with goods exports and imports. In contrast, EPU_KOREA showed positive correlations with private consumption, facility investment, and goods exports—results that do not align with established economic theory. Additionally, EPU_BERT exhibited the same maximum correlation lags as EPU_small, and their correlation coefficients were found to be highly similar.
In the analysis of the effects of uncertainty on the macroeconomy, Granger causality tests and impulse response analysis based on VAR models were conducted to verify the exogeneity of the EPU indices and to determine whether they have policy-relevant implications in relation to macroeconomic variables. Referring to previous studies, the analysis was divided into two parts: one using monthly economic variables and the other using quarterly economic variables. In the Granger causality test using monthly economic variables, EPU_small and EPU_BERT showed the most distinct exogeneity with respect to the industrial production growth rate, stock return, and employment growth rate. For the KRW/USD exchange rate, EPU_KOREA exhibited the most distinct exogeneity. In the Granger causality test using quarterly economic variables, EPU_small and EPU_BERT showed the strongest exogeneity across all variables. In the impulse response analysis using monthly economic variables, EPU_small and EPU_BERT were found to significantly reduce the industrial production growth rate, stock return, and employment growth rate, while significantly increasing the KRW/USD exchange rate and the inflation rate. In contrast, EPU and EPU_KOREA showed statistically significant effects only on stock return and the KRW/USD exchange rate, with the other variables remaining statistically insignificant throughout the analysis period. In the impulse response analysis using quarterly economic variables, EPU_small and EPU_BERT were found to significantly lower consumer and investment sentiment, the lending attitude index of large enterprises, and the general household lending attitude index, while significantly increasing the credit spread. On the other hand, EPU and EPU_KOREA showed statistical significance only for consumer sentiment and credit spread, with the remaining variables remaining statistically insignificant over the entire period.
In the forecasting performance evaluation using a nowcasting model, a DFM-based nowcasting model was constructed to examine whether each EPU index contributes to improving the nowcast of GDP. In the out-of-sample forecasting results, the baseline model without any EPU index recorded an RMSE of 0.9107 and an MAE of 0.6346. All four models incorporating EPU indices showed improvements in forecasting performance based on RMSE. In particular, the model incorporating EPU_small recorded an RMSE of 0.8914 and an MAE of 0.6273, demonstrating the best forecasting accuracy on both metrics. The model using EPU_BERT also showed similar performance, with an RMSE of 0.8925 and an MAE of 0.6294. In contrast, the models incorporating EPU and EPU_KOREA recorded slightly lower RMSE values than the baseline, but their MAE values were higher, indicating increased forecast errors by that metric. These results suggest that the EPU index developed in this study provides greater real-world explanatory power than existing EPU indices and can serve as a useful informational variable in nowcasting models.
The contributions of this study are as follows. First, it quantitatively compared and evaluated the performance of various text preprocessing tools based on news articles written in formal written language. Second, it developed a word embedding model specialized in the economic policy domain and conducted comparative evaluations of different word embedding techniques. Third, it compared and evaluated deep learning architectures to derive optimal performance and presented meaningful implications. Fourth, this study is the first to construct a sentiment classification model by directly creating labeled data based on Korean news articles and utilizing small-scale training data in combination with transfer learning. Fifth, this study is the first to conduct an application-oriented comparison of the utility of PLM and word embedding model. Sixth, it overcame methodological limitations of existing EPU indices and developed a new uncertainty index with stronger real-world explanatory power. Seventh, by employing small-scale training data, it provided an empirical foundation for constructing sub-sectoral EPU indices and laid the groundwork for the development of various information variables based on news articles.| 불확실성은 경제주체의 기대 형성과 의사결정, 그리고 실물 경제에 영향을 미치는 주요 요소임에도, 그 자체가 관측되지 않아 이를 측정하려는 다양한 노력이 진행되어왔다. 특히, Baker et al.(2016)이 제안한 경제정책 불확실성 지수(Economic Policy uncertainty Index, EPU)는 빅데이터를 활용하여 불확실성을 측정한 대표적인 사례로, 3개의 단어군(경제 단어군, 정책 단어군, 불확실성 단어군)이 동시에 포함된 뉴스기사의 빈도를 기반으로 불확실성을 측정한다. 그러나 이처럼 특정 키워드의 출현 빈도만으로 불확실성을 측정하게 되면 불확실성을 과대 측정하는 문제가 발생할 수 있으며, 뉴스기사가 내포한 다양한 문맥적 정보를 고려할 수도 없다. 이러한 기존 EPU 지수의 한계를 보완하기 위해 본 연구에서는 기계학습 기반의 감성 분석을 활용한 새로운 EPU 지수를 제안하였다.
기계학습 기반의 감성 분석을 수행하기 위해서는 감정 분류 모형을 구축하는 과정이 필요하다. 그러나 이를 구축하기 위한 대규모 라벨링 데이터의 확보와 최신 자연어 처리 기법의 활용은 개인 연구자나 소규모 연구팀이 감당하기 어려운 막대한 시간적·자원적 부담을 요구한다. 본 연구는 이러한 현실적 제약을 완화하기 위해 소규모 학습 데이터(약 20,000개의 라벨링 데이터)와 전이 학습을 활용한 감정 분류 모형을 제안하였다. 특히, BERT와 같은 사전 훈련된 언어 모형(Pre-trained Language Model, PLM)의 높은 컴퓨팅 비용과 추론 지연 문제를 고려하여 단어 임베딩 모형을 전이 학습에 활용하여도 실용성 있는 모형을 구축하는데 주안점을 두었다.
한편, 본 연구는 본 연구의 다운스트림 태스크 난이도가 비교적 쉬운 편에 속하기 때문에 고성능 감정 분류 모형으로 작성한 EPU 지수와 본 연구 모형으로 작성한 EPU 지수 간의 차이가 크지 않을 것이라 주장한다. 본 연구에서는 이를 검증하기 위해 BERT 계열의 PLM을 활용하여 감정 분류 모형을 구축하는 과정을 별도로 다루고, 해당 모형으로 작성한 EPU 지수를 본 연구의 비교지표로 활용하였다. 그리고 두 EPU 지수로 다양한 유용성 평가를 수행하여 본 연구의 주장을 실증적으로 뒷받침하였다.
연구 과정은 ① 뉴스기사 수집, ② 텍스트 전처리, ③ 임베딩 모형 구축, ④ 감정 분류 모형 구축, ⑤ 비교 대상 모형 구축, ⑥ 유용성 평가로 나누어 수행하였다. ① 뉴스기사 수집은 이긍희 외(2020)의 단어군을 활용하여 기사 제목을 수집한 뒤, 중복 및 예외 기사를 제거한 후, 해당 기사 제목을 포털사이트에 검색하는 방식으로 수행되었다.
② 텍스트 전처리는 사전 정제, 말뭉치 정의, 문장 토큰화, 사용자 사전 구축, 형태소 분석의 5단계로 구분하여 수행하였다. 사전 정제 과정에서는 불필요한 문자열 제거, 특수 문자 변환, 소괄호 내의 단어 제거 등의 작업을 수행하였고, 말뭉치는 문장으로 정의하였다. 문장 토큰화 과정에서는 본 연구에 적합한 문장 분리기를 선정하기 위해 다양한 문장 분리기들의 성능을 평가하였다. 평가는 처리 속도, 정답률, Dice Coefficient를 기준으로 수행되었으며, 평가 결과에서는 NLTK가 문장 분리 정확도와 처리 속도 모두에서 우수한 성능을 보였다. 사용자 사전 구축은 soynlp의 명사 추출기를 활용하였으며, 그 결과 일반명사 71,126개와 고유명사 16,787개로 구성된 사용자 사전이 구축되었다. 형태소 분석 과정에서도 본 연구에 적합한 분석기를 선정하기 위해 다양한 형태소 분석기들의 성능을 평가하였다. 평가는 품사 목록 비교, 모호성 평가, 처리 속도 비교, 사용자 사전 활용 가능성 검토로 구분하여 수행하였으며, 그 결과 Kiwi가 본 연구의 형태소 분석기로 선정되었다.
③ 단어 임베딩 모형은 Word2Vec, FastText, GloVe의 세 가지 방법론을 비교하여 구축하였으며, 각 임베딩 모형을 구축한 후에는 성능 평가를 통해 본 연구의 최적 모형을 선정하였다. 평가는 단어 유추 평가, 단어 유사도 평가, 외재적 평가로 나누어 수행하였으며, 외재적 평가는 감정 분류 태스크에서의 성능 향상을 측정하였다. 평가 결과에서는 Word2Vec가 세 가지 평가 모두에서 가장 우수한 성능을 나타내었다.
④ 감정 분류 모형은 RNN, CNN, 트랜스포머의 세 가지 딥러닝 아키텍처를 기반으로 구축하였으며, 다양한 신경망 구조와 하이퍼라미터 설정을 검토하여 최적의 성능을 도출하였다. 이때, RNN은 LSTM, BiLSTM, GRU, BiGRU에 어텐션 메커니즘을 적용한 구조를 고려하였고, CNN은 Kim(2014)의 연구에서 소개된 CNN-non-static과 CNN-multichannel을 기반으로 설계하였다. 모형 평가에서는 트랜스포머 모형이 F1 Score를 기준으로 가장 높은 성능을 기록하였으나, BiGRU+Attention 모형과의 성능 차이가 0.11%P밖에 나타나지 않았다. 또한, 추론 시간은 BiGRU+Attention이 트랜스포머 모형보다 2배 빠른 속도를 나타내, 본 연구에서는 BiGRU+Attention이 본 연구의 최적 모형이라 판단하였다.
⑤ 비교 대상 모형은 BERT 계열의 PLM을 전이 학습에 활용하여 구축하였으며, PLM은 범용 도메인에서 학습된 KLUE–BERT와 뉴스기사 도메인에 특화된 KPF-BERT, 그리고 금융 도메인에 특화된 KF-DeBERTa를 활용하였다. 모형 평가에서는 F1 Score를 기준으로 KF-DeBERTa가 가장 높은 성능을 기록하였으나, KPF-BERT와의 성능 차이는 약 0.15%P밖에 나타나지 않았다. 또한, 추론 속도는 KPF-BERT가 KF-DeBERTa보다 더 빠른 것으로 분석되어 본 연구에서는 KPF-BERT가 본 연구의 최적 모형이라 판단하였다.
⑥ 유용성 평가는 경제통계와의 상관관계 분석, 불확실성이 거시경제에 미치는 영향 분석, 당기예측 모형을 활용한 예측력 평가로 나누어 수행하였다. EPU 지수는 본 연구 모형으로 작성한 EPU 지수(EPU_small), 비교 대상 모형으로 작성한 EPU 지수(EPU_BERT), Baker et al.(2016)이 작성한 EPU 지수(EPU), Cho and Kim(2023)이 작성한 EPU 지수(EPU_KOREA)를 각각 사용하여 EPU 지수의 적합성과 강건성을 확인하였다.
경제통계와의 상관관계 분석에서는 EPU 지수의 선행성과 경제지표와의 연관성을 평가하기 위해 교차상관관계 분석을 수행하였다. 분석 결과, EPU_ small은 VIX 지수를 제외한 모든 지표와 가장 높은 상관관계를 나타냈으며, 월별 경제통계와는 1~5개월, 분기별 경제통계와는 0~1분기 선행하는 것으로 분석되었다. EPU는 경기 선행지수와 양(+), 환율 변동성과 음(-), 재화 수출입과 양(+)의 상관관계를 나타냈으며, EPU_KOREA는 민간소비, 설비투자, 재화 수출과 양(+)의 상관관계를 나타내어 경제이론과 부합하지 않는 결과를 보였다. 또한, EPU_BERT는 EPU_small과 최대상관시차가 동일하고 상관계수 값도 매우 유사하게 나타났다.
불확실성이 거시경제에 미치는 영향 분석에서는 EPU 지수의 외생성을 확인하고, 거시경제변수와의 관계에 있어서 정책적 의미를 지니는지를 확인하기 위해 그랜저 인과관계 검정과 VAR 모형의 충격반응분석을 수행하였다. 동 분석은 선행연구들을 참고하여 월별 경제변수를 이용한 분석과 분기별 경제변수를 이용한 분석으로 나누어 수행되었다. 월별 경제변수를 이용한 그랜저 인과관계 검정에서는 EPU_small과 EPU_BERT가 산업생산증가율, 주가수익률, 취업자 수 증가율에 대해 가장 뚜렷한 외생성을 나타냈으며, 원/달러 환율은 EPU_KOREA가 가장 뚜렷한 외생성을 나타냈다. 분기별 경제변수를 이용한 그랜저 인과관계 검정에서는 EPU_small과 EPU_BERT가 모든 변수에 대해 가장 뚜렷한 외생성을 나타냈다. 월별 경제변수를 이용한 충격반응분석에서는 EPU_small과 EPU_BERT가 산업생산증가율, 주가수익률, 취업자 수 증가율을 유의하게 감소시키고, 원/달러 환율과 물가상승률을 유의하게 상승시키는 것으로 나타났다. 반면, EPU와 EPU_KOREA는 주가수익률과 원/달러 환율을 제외한 나머지 변수가 전체 기간에 걸쳐 통계적으로 유의하지 않았다. 분기별 경제변수를 이용한 충격반응분석에서는 EPU_small과 EPU_BERT가 소비 및 투자 심리, 대기업 대출태도지수, 가계(일반) 대출태도지수를 유의하게 하락시키고, 신용스프레드는 유의하게 상승시키는 것으로 분석되었다. 반면, EPU와 EPU_KOREA는 소비심리지표와 신용스프레드만 통계적으로 유의하고, 나머지 변수는 전체 기간이 통계적으로 유의하지 않았다.
당기예측 모형을 활용한 예측력 평가에서는 DFM을 기반으로 당기예측모형을 구축하고, 각 EPU 지수가 GDP 당기예측 향상에 도움이 되는지를 살펴보았다. 표본외 예측 수행 결과, EPU 지수를 반영하지 않은 기준 모형(baseline)은 RMSE 0.9107, MAE 0.6346을 기록하였으며, EPU 지수가 반영된 4개의 모형은 모두 RMSE 기준에서 예측 성능의 개선을 보였다. 특히, EPU_small이 반영된 모형은 RMSE 0.8914, MAE 0.6273을 기록하여 두 지표 모두에서 가장 우수한 예측력을 나타냈으며, EPU_BERT가 반영된 모형 또한 RMSE 0.8925, MAE 0.6294를 기록하여 이와 매우 유사한 예측력을 나타냈다. 반면, EPU와 EPU_KOREA가 반영된 모형은 RMSE를 기준으로는 Baseline보다 소폭 낮은 값을 기록하였으나, MAE를 기준으로는 오히려 예측오차가 증가하였다. 이러한 결과는 본 연구에서 작성한 EPU 지수가 기존 EPU 지수들보다 높은 현실설명력을 제공하며, 당기예측 모형의 유용한 정보변수로 활용될 수 있음을 시사한다.
본 연구의 의의는 다음과 같다. 첫째, 문어체로 작성되는 뉴스기사를 기반으로 다양한 텍스트 전처리 도구들의 성능을 정량적으로 비교·평가하였다는 점이다. 둘째, 경제정책 도메인에 특화된 단어 임베딩 모형을 구축하고, 단어 임베딩 기법을 비교·평가하였다는 점이다. 셋째, 딥러닝 아키텍처를 비교·평가하여 최적의 성능을 도출하고, 유의미한 시사점을 제시하였다는 점이다. 넷째, 한글 뉴스기사를 기반으로 직접 라벨링 데이터를 구축하고, 소규모 학습 데이터와 전이 학습을 활용하여 감정 분류 모형을 구축한 최초의 사례라는 점이다. 다섯째, 처음으로 PLM과 단어 임베딩 모형의 실용성을 실무적으로 비교하였다는 점이다. 여섯째, 기존 EPU 지수의 방법론적 한계를 극복하고, 보다 현실설명력이 높은 불확실성 지수를 개발하였다는 점이다. 일곱째, 소규모 학습 데이터를 사용함으로써 하위 부문별 EPU 지수 구축을 위한 실증적 기반을 마련하고, 나아가 뉴스기사를 활용한 다양한 정보변수 개발의 토대를 제공하였다는 점이다.
- Author(s)
- 이천우
- Issued Date
- 2025
- Awarded Date
- 2025-08
- Type
- Thesis
- Keyword
- 경제정책 불확실성 지수; 소규모 학습 데이터; 전이 학습; 빅데이터; 자연어 처리; 인공 신경망; 딥러닝
- URI
- http://dspace.hansung.ac.kr/handle/2024.oak/10457
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.