키오스크2025

AI 음성 대화형 스마트 키오스크

AI Voice Interactive Smart Kiosk System

프로젝트 개요

대형 상업시설 방문객에게 실시간 AI 음성 대화를 통한 길찾기, 매장 검색, 편의시설 안내 등의 서비스를 제공하는 차세대 키오스크 시스템입니다. 기존 터치 기반 키오스크의 한계를 넘어, 음성과 터치를 결합한 직관적인 사용자 경험을 구현했습니다.

프로젝트 배경

기존 터치 기반 키오스크의 복잡한 UI와 접근성 한계
AI 음성 인식 기술의 발전 및 상용화
비대면 서비스 수요 증가에 따른 무인 안내 시스템 필요
시각 장애인·고령자 등 다양한 사용자를 위한 접근성 개선 요구

클라이언트

대형 상업시설 (쇼핑몰·백화점·복합시설)

개발 기간

약 3개월 (2025.07 ~ 2025.10)

카테고리

키오스크

연도

2025

Vue 3PythonWebSocketGPTVADTTS

기존 시스템과의 차별점

항목	기존 시스템	본 시스템
입력 방식	터치 only	음성 + 터치
사용자 인식	없음	얼굴/시선/거리 감지
응답 방식	화면 텍스트	음성 + 화면
대화 유지	없음	컨텍스트 유지 (연속 대화)
세션 관리	수동 종료	사용자 감지 기반 자동 관리

핵심 기능

AI 음성 대화 시스템

실시간 음성 스트리밍으로 사용자의 자연어를 인식하고, GPT 기반 자연어 처리로 매장 검색·길찾기·편의시설 안내 등의 인텐트를 분석하여 TTS 음성으로 응답합니다.

WebSocket 기반 실시간 음성 스트리밍 (STT)
VAD(Voice Activity Detection) 자동 음성 구간 감지
GPT 기반 대화 이해 및 컨텍스트 유지 (연속 대화)
다국어 TTS 자연스러운 음성 응답

사용자 감지 시스템 (Presence Detection)

카메라 기반 실시간 얼굴 감지, 시선 추적, 거리 측정을 통해 사용자의 접근·이탈을 자동 인식하여 세션을 관리합니다.

얼굴 감지 — 사용자 접근 여부 자동 판단
시선 추적 — 화면 응시 여부 확인
거리 측정 — CLOSE/NORMAL/FAR 단계별 대응
신규 사용자 감지 시 인트로 자동 재생, 이탈 시 세션 자동 종료

층별 지도 및 길찾기

SVG/Canvas 기반 층별 지도를 렌더링하고, 현재 키오스크 위치에서 목적지까지의 경로를 실시간으로 하이라이팅합니다.

층별 지도 전환 (B2F ~ 10F)
현재 위치 → 목적지 경로 계산 및 표시
카테고리별 시설 필터링
다국어 노드명 자동 전환

매장·편의시설 검색

초성 키보드(ㄱㄴㄷ), 영문 키보드, 카테고리별, 층별 필터 등 다양한 방식으로 매장과 편의시설을 검색할 수 있습니다.

초성/영문 가상 키보드 검색
업종별 카테고리 분류
층별 필터링 (B2F ~ 10F)
음성 인텐트 연동 자동 필터링

이벤트·프로모션 관리

다양한 레이아웃(전체 화면, 2분할, 그리드)으로 이벤트 및 프로모션 정보를 실시간으로 표시합니다.

3가지 이벤트 레이아웃 타입 지원
이미지·영상 슬라이드 자동 재생
관리자 시스템을 통한 실시간 콘텐츠 업데이트

음성 세션 상태 머신

음성 세션은 명확한 상태 머신(State Machine)으로 관리되며, Action Lock을 통해 Race Condition을 방지합니다.

IDLE

대기

GREETING

인사

LISTENING

대기 중

RECORDING

녹음 중

PROCESSING

처리 중

RESPONDING

응답 중

IDLE

사용자 없음, 시스템 대기 상태

GREETING

신규 사용자 감지, 인트로 음성 재생

LISTENING

음성 입력 대기, 프롬프트 재생

RECORDING

사용자 음성 실시간 스트리밍

PROCESSING

AI 서버에서 응답 생성 중

RESPONDING

TTS 음성 응답 재생 후 연속 대화 판단

기술 스택 상세

프론트엔드

UI 프레임워크

Vite6.3.5

빌드 도구

Pinia3.0.3

상태 관리

Vue Router4.5.1

라우팅

vue-i18n11.1.5

다국어(한국어/영어)

Sass/SCSS1.89.1

스타일링

백엔드

Python AI 서버

VAD(음성감지), 얼굴 인식, Presence 감지

Java API 서버

GPT 연동, TTS 생성, 데이터 API

통신

WebSocket

음성·영상 실시간 스트리밍

WebWorkers

메인 스레드 부하 분산 (영상 처리)

Axios

REST API 통신

성과 지표

음성 응답 속도3초 이내

페이지 전환0.3초 이내

24시간 무중단 운영지원

다국어 지원한국어 / 영어

접근성시각 장애인·고령자 지원

적용 가능 분야

대형 쇼핑몰 / 백화점

복합문화시설

병원 / 관공서

공항 / 역사

호텔 / 리조트

포트폴리오 목록