Skip to content

Conversation

@sunnyanna0
Copy link
Member

⭐Key Changes

  1. 모델 비교 실험 후 최종 base모델 선정하였습니다.
  2. 핵심 변경 사항 2
  3. ...

비교 결과:

모델명 파라미터 수 (B) Inference dtype 출력 형식 적절성 출력 길이 난이도 분기 (상/중/하) 요약 정확도 문해력 적용도 추론 속도 (sec) vRAM 사용량
Gemini‑flash‑2.0 비공개 비공개 ✅ 적절 ✅ 적절 ✅ 적절 ✅ 높음 ✅ 높음 0.5–1.5초
nlpai‑lab/KULLM3 10.7B float16 ✅ 적절 ✅ 적절 ✅ 높은 수준 대응 ✅ 매우 높음 ✅ 매우 높음 8–12초 10 GB
naver‑HyperCLOVAX‑1.5B 1.5B float16 ✅ 적절 ✅ 적절 ✅ 적절 ✅ 높음 ✅ 높음 4–6초 약 3.5–6 GB
skt/A.X-4.0-Light 7B float16 ✅ 적절 ✅ 적절 ✅ 적절 ✅ 중–상 ✅ 중–상 3–5초 약 4–6 GB
Qwen/Qwen2.5‑7B‑Instruct 7B float16 / 8bit ⚠️ 중립 ✅ 적절 ⚠️ 다소 부족 ⚠️ 중간 ⚠️ 낮음 10–15초 6–9 GB
kakaocorp/kanana‑1.5‑8b‑instruct‑2505 8B float16 ✅ 적절 ✅ 적절 ✅ 상/중/하 표현 가능 ✅ 중간 ✅ 중간 6–10초 약 7 GB
mistralai/Mistral‑7B‑Instruct‑v0.3 7B float16 / nf4 ✅ 적절 ⚠️ 과다 가능 ⚠️ 중하 ✅ 높음 ⚠️ 중간 7–10초 7–8 GB
LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct 8B float32 (기본) ✅ 적절 ✅ 적절 ✅ 상급 표현 우수 ✅ 높음 ✅ 중–상 6–9초 7–9 GB
beomi/KoAlpaca‑Polyglot‑12.8B 12.8B float16 ⚠️ 단조로움 ⚠️ 짧음/불안정 ⚠️ 단순 반복 ⚠️ 중간 ⚠️ 중간 6–8초 10 GB 이상

양자화 결과:

항목 리팩토링 전 리팩토링 후 (KULLM3 4bit + Batch) 개선률
단일 요청 기준 추론 시간 약 20초 약 7.5초 (Batch 기준) 약 62% 감소
모델 로딩 후 평균 VRAM 사용량 약 11~13GB (float16 모델) 약 5.5~5.9GB 약 50% 절감
처리량 (뉴스 수 기준) 1건/20초 최대 3건/7.5초 약 8배 처리량 증가
첫 토큰 응답까지 대기 시간 약 10초 약 5초 이내 약 70% 감소

KULLM3 4bit 양자화와 배치 추론 구조로 리팩토링함으로써, 평균 응답 속도가 약 62% 개선되었으며, GPU VRAM 사용량은 약 50% 절감, 동시에 뉴스 3건 이상을 병렬 처리 가능하여 처리량은 최대 8배 증가하였다. 특히, 사용자 관점에서 체감되는 첫 응답까지의 대기 시간은 3초 → 1초 이내로 줄어들며 UX 측면에서도 큰 향상을 기대할 수 있다.


📌 issue

@sunnyanna0 sunnyanna0 self-assigned this Jul 12, 2025
@sunnyanna0 sunnyanna0 merged commit 0ee153a into main Jul 12, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

2 participants