Skip to content

Latest commit

 

History

History
110 lines (78 loc) · 5.2 KB

README.md

File metadata and controls

110 lines (78 loc) · 5.2 KB
image

목차

  1. 프로젝트 소개
  2. 프로젝트 목표
  3. 팀원 구성
  4. 개발 환경
  5. 아키텍처 구조
  6. 역할 분담
  7. 개발 기간 및 수행 절차
  8. 프로젝트 사용 모델
  9. 시연 과정
  10. 발표 자료
  11. 개선 목표
  12. 프로젝트 후기


프로젝트 소개

  • Cartoon TTS는 만화/웹툰 이미지의 시각 정보를 청각 정보로 변환하는 서비스입니다.
  • 사용자가 웹페이지에 이미지를 업로드하면 Emotional TTS를 통해 변환되며 감정이 담긴 생생한 오디오를 경험할 수 있습니다.

프로젝트 목표

1.웹 페이지 접속 2.Emotion TTS 변환할 이미지 업로드 3.텍스트를 Emotional Speech로 변환
그림1 22 3

팀원 구성

김규리 김나훈 김현우 심준석 이하준

@GyuRiiii

@hunnxx

@NK590

@LukeJS0326

@ha789ha

개발 환경

  • Deeplearning Model : StyleTTS2, GPT-4 Vision
  • Front : HTML, Bootstrap
  • Back-end : Fastapi
  • 버전 및 이슈관리 : Github, Github Issues, Github Project
  • 협업 툴 : Notion
  • 서비스 배포 환경 : AWS

아키텍처 구조

아키텍쳐1


역할 분담

이름 분야 주요 업무
김규리 Modeling Object/Emotion Detection, Prompt Engineering
김나훈 Modeling/MLOps Emotional TTS, 서비스 파이프라인 구축
김현우 Front/Back-end 프론트/백엔드 시스템 설계, 서비스 파이프라인 구축
심준석 Modeling Prompt Engineering, Image Captioning
이하준 Modeling/Server Image Captioning, 데이터 수집 및 처리

개발 기간 및 수행 절차

  • 전체 개발 기간 : 2023-12-09 ~ 2024-01-24
image

프로젝트 사용 모델


시연 과정

1. 웹 페이지 접속 2. Emotion TTS로 변환할 이미지 업로드
이미지1 이미지2
3. 알림창이 뜨며 음원 생성 완료 4. 음원 스크립트 전문과 오디오 파일 다운로드
설명1 설명2

발표 자료


개선 목표

  • 한국어 Emotional-TTS 구현
  • 웹 페이지 기능 추가

프로젝트 후기

한정된 시간으로 웹 페이지에서 성우의 선택이나 발화 묘사 수준의 조절 등을 구현하지 못해 아쉬웠습니다. 또한, 한국어 감정 발화 데이터셋 및 한국어 Emotional-TTS 모델의 부재로 인해 영어 기반의 서비스를 개발하게 되었습니다. 따라서 향후 한국어 발화 데이터셋을 구축하고 이를 기반으로 한 학습이 진행된다면 국내 상용화 서비스를 제공할 수 있을 것으로 기대하고 있습니다.