단일 참조 이미지 기반 확산 모델의 효율적인 영상 생성 방법론
- Abstract
- 최근 이미지 생성 연구는 표현 학습의 발전에 힘입어 놀라운 성장을 이루었으나, 대부분의 혁신적인 모델들은 대량의 학습 데이터에 크게 의존한다는 한계가 있다. 본 연구는 단일 참조 이미지만으로 고품질의 다양한 이미지를 생성할 수 있는 새로운 확산 모델을 제안한다. 제안된 방법은 웨이블릿 도메인에서의 주파수 분해와 계층적 스케일 구조를 결합 하여, 기존 방식들이 가진 아티팩트 누적 문제를 해결하였다. 특히, 제한된 수용 영역을 갖는 U-Net 아키텍처를 도입하여 전역적 정보의 과적합을 방지하고, 웨이블릿 변환을 통해 주파수 도메인에서의 효과적인 특징 학습을 가능하게 하였다. 실험을 통해 제안된 모델이 기존 단일 이미지 생성 방법들과 비교하여 우수한 시각적 품질과 다양성을 보임을 확인하였으며, 이미지 조화와 같은 실제 응용에서도 효과적으로 활용될 수 있음을 검증하였다. 또한 제안된 모델은 기존 확산 모델의 긴 샘플링 시간을 대폭 단축하여 계산 효율성을 개선하였으며, 임의의 해상도에서도 안정적인 이미지 생성이 가능한 장점을 보였다. 본 연구는 제한된 데이터 환경에서의 이미지 생성 문제에 대한 새로운 해결책을 제시하며, 다양한 실용적 응용 가능성을 보여준다. 향후 연구에서는 본 방법론을 확장하여 더 빠른 추론 속도와 향상된 이미지 품질을 달성하는 것을 목표로 한다. | Recent advances in representation learning have led to remarkable progress in image synthesis. However, most innovative models heavily rely on large-scale training datasets, limiting their practical applications. This paper presents a novel diffusion model that can generate diverse, high-quality images from a single reference image. Our proposed method combines wavelet domain frequency decomposition with a hierarchical scale structure to address the artifact accumulation problem inherent in existing approaches. Specifically, we introduce a U-Net architecture with restricted receptive fields to prevent overfitting to global information, while enabling effective feature learning in the frequency domain through wavelet transforms. Through extensive experiments, we demonstrate that our model achieves superior visual quality and diversity compared to existing single-image generation methods, and validates its effectiveness in real-world applications such as image harmonization. Furthermore, our proposed model significantly reduces the lengthy sampling time of conventional diffusion models, improving computational efficiency while enabling stable image generation at arbitrary resolutions. Our research presents a novel solution to the image generation problem in limited data environments and demonstrates various practical applications. The quantitative and qualitative evaluations show that our method outperforms previous approaches across multiple metrics, including LPIPS diversity scores and no-reference image quality assessments. Future work will focus on extending this methodology to achieve faster inference speeds and enhanced image quality through advanced optimization techniques.
- Author(s)
- 김지수
- Issued Date
- 2025
- Awarded Date
- 2025-02
- Type
- Thesis
- Keyword
- 확산 모델; 단일 이미지 생성; 웨이블릿 변환
- URI
- http://dspace.hansung.ac.kr/handle/2024.oak/6867
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.