OAK

비디오월 제어시스템을 위한 손동작과 음성 기반 멀티모달 상호작용에 관한 연구

Metadata Downloads
Abstract
디스플레이 산업 발전으로 다양한 인터페이스를 통해 컴퓨터와 상호 작용하는 부분이 증가하고 있다. 마우스나 키보드의 직접적인 제어 없이 손동작이나 음성으로 컴퓨터를 제어하거나 자동차 안에서 손동작 및 음성 명령으로 음악을 듣거나 길 안내를 할 수 있다. 음성과 손동작 인식 기술은 엔터테인먼트, 의료, 로보틱스, 스마트시티 등에 다양한 응용 분야에 적용이 되고 있다. 자율주행자동차, 자율경비로봇, 자율배달로봇이 도시를 활보하고, 드론 택시가 하늘을 날아다니는 스마트 시티의 중요성이 커지고 있다. 도시의 다양한 문제를 모니터링하고 관제하는 스마트 통합관제센터의 기능도 고도화되고 있다. 도시뿐만 아니라 철도, 발전소, 제조, 건설 등의 안전에 대한 모니터링이 휠씬 강화되고, 중대재해법 시행으로 기업주의 관리 감독이 더욱 엄중해졌다.
본 연구는 스마트 통합관제시스템의 CCTV영상을 모니터링하고 제어가 되는 시스템인 비디오월 제어시스템과 자연 친화적인 방법으로 상호작용하는 기능을 개발하여 관제센터 운영자가 효율적으로 모니터링하는 것을 목표로 한다. 손동작 인식하기 위해 웹카메라(RGB), 3D 카메라, Leap Motion, LiDAR 인터페이스 장비를 사용하는데 본 연구에서는 널리 보급된 웹 카메라(RGB)를 사용하였고 음성 인식을 위한 인터페이스 장치는 마이크를 활용하였다. 입력 장치에서 감지된 손동작 및 음성을 전처리 과정을 거쳐 정의된 동작 라이브러리를 활용하여 모델링을 거쳐 실제 Detection 검증 후 손동작과 음성신호를 순차적으로 동기화 및 상호작용하여 제어가 되도록 설계하였다. 멀티모달 인터페이스를 이용한 비디오월 제어시스템의 음성 및 손모양 인식에 대한 기능별 기술 요소를 구성하고, 손모양 인식은 웹캠을 통해 구글 사의 머신러닝 기반 고성능 손제스처 인식 솔루션인 MediaPipe Hands를 활용하여 손동작 인식을 구현하였고, 각 손에 대해 21개의 3D 랜드마크를 프레임마다 추론하여 두 개 이상의 손을 동시에 인식하고 인터페이스가 가능하도록 구성하였다. 손모양의 인식한 후 음성 명령을 통해 비디오월의 제어판의 UI를 제어하여 영상, 이미지, 웹브라우저 등의 컨텐츠를 비디오월에 표출되고 콘텐츠를 삭제, 확대, 축소의 기능을 개발하여 마우스로 제어하는 방식에서 벗어나 자연 친화적인 비디오월 제어시스템을 구현하였다. 가장 적합한 손동작을 적용하기 위해 3가지 손동작을 테스트하여 각각 인식에 대한 정확도와 편리성을 검증하여 손동작을 선정하였다. 음성인식은 ‘MIT/ast-finetuned-speech-commands-v2’의 모델을 결합하여 음성 명령을 내리면 음성을 텍스트로 변환하여 손동작과 연동하여 동시에 제어가 되도록 설계하였다. 설계된 손동작 및 음성인식 기반 비디오월 제어시스템에 적용하여 시스템의 검증을 위해 컴퓨터공학과 학생과 ICT 종사자를 대상으로 활용 및 테스트를 하였고, 기존 마우스로 제어하는 방식과 비교하며 사용자 평가를 통해 만족도, 유용성에 대해 검증하고 평가를 진행하였다. 손동작과 음성인식으로 비디오월 제어시스템을 제어하는 기능 중에 마우스 좌클릭, 우클릭 기능이 가장 높은 90%의 유용성으로 나타났고, 마우스 이동, 더블 클릭, 휠 업/다운(확대/축소)이 80% 수준으로 다소 낮게 나타났다. 그리고 마우스 스크롤 업/다운 기능의 제어는 가장 낮은 50%대로 스크롤 바 제어의 어려움을 확인하였고, 손동작 및 음성인식으로 비디오월 제어시스템 제어판의 UI를 제어하였을 때 걸리는 시간은 손동작과 음성 인식으로 순차적으로 제어할 때보다 0.3초에서 0.55초 빠르게 동작이 인식되었다.
본 연구의 성과는 멀티모달 기반으로 비디오월 제어시스템을 손동작이나 음성으로 제어가 가능성과 유용성을 확인하였다. 그리고 손동작 인식을 하기 위해 웹캠과 같은 범용적인 디바이스에서 LiDAR, LeapMotion 등 다양한 디바이스에도 인식이 되는 플랫폼 연구 개발이 필요함을 인식하게 되었다. 또한 손동작 및 음성인식으로 명령을 내린 후 컨텐츠의 응답시간을 마우스의 기능보다 유사하거나 빠르게 콘텐츠를 제어할 수 있어야 사용성이 높다는 것을 확인하였다. 특히 제어판의 UI 중에 음향, 해상도 등을 제어하는 슬라이드 바에 대한 제어는 컴퓨터 GUI 환경을 더욱 정밀한 방법으로 제어하는 연구가 진행되어야 할 것으로 판단된다.
Author(s)
조영욱
Issued Date
2024
Awarded Date
2024-08
Type
Thesis
Keyword
멀티모달비디오월 제어통합관제손동작 인식음성 인식
URI
http://dspace.hansung.ac.kr/handle/2024.oak/7423
Advisor
노광현
Degree
Doctor
Publisher
한성대학교 대학원
Appears in Collections:
스마트융합컨설팅학과 > 1. Thesis
Authorize & License
  • Authorize공개
Files in This Item:
  • There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.