본 저장소는 2025 Mentorthon에서 사용된 다양한 인공지능 데모 코드들을 모은 것입니다.
텍스트-음성 변환(TTS), 음성-텍스트 변환(STT), 객체 탐지, 얼굴 인식, 이미지 생성 등 다양한 기술이 포함되어 있습니다.
.
├── tts(kr).py # 한글 텍스트를 음성으로 변환
├── tts(en).py # 영어 텍스트를 음성으로 변환
├── stt(kr).py # 한글 음성을 텍스트로 변환
├── stt(en).py # 영어 음성을 텍스트로 변환
├── face_detection(OpenCV).py # OpenCV 기반 얼굴 탐지
├── face_detection(YOLO).py # YOLO 기반 얼굴 탐지
├── object_detection.py # YOLOv8 기반 일반 객체 탐지
├── object_detection(YOLO).py # YOLOv8 실시간 탐지 예제
├── text-to-image.ipynb # Stable Diffusion 기반 텍스트 → 이미지 생성
└── requirements.txt # 필요 패키지 목록
- 파일:
tts(kr).py,tts(en).py - 라이브러리:
gtts,playsound - 기능: 텍스트를 mp3 음성으로 변환 후 재생
pip install gtts playsound- 파일:
stt(kr).py,stt(en).py - 라이브러리:
speech_recognition - 기능: 음성 파일(wav)을 텍스트로 변환
pip install SpeechRecognition playsound-
OpenCV 기반
- 파일:
face_detection(OpenCV).py - 라이브러리:
opencv-python - 기능: 웹캠 영상에서 얼굴 탐지
- 파일:
-
YOLO 기반
- 파일:
face_detection(YOLO).py - 라이브러리:
ultralytics,opencv-python - 기능: YOLOv8으로 얼굴 탐지 및 객체 수 표시
- 파일:
pip install opencv-python ultralytics- 파일:
object_detection.py,object_detection(YOLO).py - 라이브러리:
ultralytics,opencv-python - 기능: YOLOv8을 활용한 객체 탐지 및 추적
- 파일:
text-to-image.ipynb - 라이브러리:
diffusers,transformers,safetensors,accelerate - 기능: 텍스트 프롬프트로부터 이미지 생성
- 실행환경: Google Colab (GPU 사용 권장)
pip install diffusers transformers accelerate safetensors# 예시: TTS 실행
python tts(kr).pyMIT License
해당 프로젝트는 교육용으로 자유롭게 사용할 수 있습니다.
- Lukehan1337(lukehan1337@gmail.com)