Secu sLLM: 데스크톱 환경용 시큐어 코딩 특화 sLLM
- Abstract
- 컴퓨팅 환경과 생성형 AI의 발전으로 인해 모든 산업에서 IT의 중요성이 필수적으로 요구되고 있다. 이에 따라 모든 기업은 IT 관련 부서를 조직하여 운영하고 있으며, 국가에서는 "SW 보안 개발 가이드"를 준수하여 개발할 것을 의무화하고 있다. 그러나 서비스 출시를 서두르는 신생기업이나 IT 개발 인력이 부족한 기업들은 해당 가이드의 시큐어 코딩 지침에 맞춰 개발하지 못하는 사례가 많다. 이러한 문제에 대한 대응책으로 생성형 AI를 활용한 시큐어 코딩 개발 방법이 제시되고 있다. 하지만 이 방법 역시 두 가지 문제점 을 가지고 있다. 첫째, 생성형 AI의 특성상 새로운 데이터를 끊임없이 학습하므로 기업의 기밀 코드 및 민감한 정보가 학습 데이터로 사용될 위험성이 존재한다. 둘째, 사용량에 따라 비용이 발생하는 금전적인 문제가 있다. 이에 대한 또 다른 대응책으로 오픈소스 기반의 LLM 모델을 로컬 환경에서 구축하여 활용하는 방법이 있지만, 이 역시 두 가지 문제점이 있다. 첫째, 한국어 성능이 우수한 LLM은 일반적인 사무 환경의 컴퓨팅 사양으로는 원활하게 구동하기 어려운 고사양을 요구한다. 둘째, 해당 모델이 시큐어 코딩에 특화된 것이 아니라 범용적으로 학습된 모델이므로 개발 보안에서 원하는 결과를 얻지 못할 수 있다. 따라서 본 논문에서는 일반적인 컴퓨팅 환경에서도 원활히 구동될 수 있는 sLLM을 활용하고자 한다. sLLM은 앞서 언급한 상용 LLM 서비스의 학습 데이터 유출 문제와 고사양 컴퓨팅 환경에서의 모델 구축 제약을 해결할 수 있어, 시큐어 코딩에 특화된 모델로 설계하여 활용할 수 있다. 제안하는 모델은 한국인터넷진흥원이 제시한 "언어별 시큐어 코딩 가이드"를 기반으로 검증된 단체들의 시큐어 코딩 자료를 학습하여, 소스 코드의 보안 약점을 검사하는 데 활용하고자 한다.| As computing environments and generative AI continue to evolve, IT has become an indispensable factor in all industries. As a result, companies have established and are operating IT departments, and governments are mandating compliance with the SW Security Development Guide during the development process. However, many startups rushing to release their services, as well as companies with insufficient IT personnel, fail to adhere to these secure coding guidelines. To address this, a secure coding development approach utilizing generative AI has been proposed. However, this approach also faces two major challenges. First, due to the continuous learning characteristic of generative AI, there is a risk that confidential corporate code and sensitive information may be incorporated into the training data. Second, costs arise according to usage. Another proposed solution is to build and utilize open-source based LLM models in local environments, but this too presents two issues. First, LLMs with strong Korean language capabilities typically require high-performance computing resources that are difficult to secure in a standard office setting. Second, since these models are trained on general-purpose data rather than being specialized in secure coding, they may fail to produce the desired outcomes in terms of development security. In response, this paper aims to leverage a small Large Language Model (sLLM) capable of running smoothly even on low-spec computing environments. By employing sLLM, the risks associated with data leakage in commercial LLM services and the challenges posed by high-performance computing requirements can be overcome. Furthermore, this model can be designed and utilized specifically for secure coding. The proposed model is trained on secure coding materials verified by authoritative organizations, in accordance with the Secure Coding Guide by Programming Language issued by the Korea Internet and Security Agency, allowing it to effectively detect security vulnerabilities in source code.
- Author(s)
- 이찬우
- Issued Date
- 2025
- Awarded Date
- 2025-02
- Type
- Thesis
- Keyword
- LLM; sLLM; 시큐어 코딩; 인공지능 보안; 데스크톱 환경
- URI
- http://dspace.hansung.ac.kr/handle/2024.oak/6236
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.