GitHub - snoopuppy582/malmalmal: DLthon - Text classification for 5 classes

과제 개요

목표: 대화의 성격을 5개 클래스 중 하나로 분류
- 위협 세부 클래스 4개: 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘
- 비위협 클래스: 일반 대화

데이터 구성

Train 데이터:
- 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘 — 각 약 1,000개
- 일반 대화 — 합성 데이터로 직접 생성 (다양한 프롬프트 기반)
Test 데이터:
- 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘, 일반 대화 — 각 100개

제약 조건

위협 클래스 4종은 Augmentation만 가능
(새로운 수집/생성 불가)
일반 대화 클래스는 합성 데이터 생성 필수
최종 제출 결과는 합성 데이터 기반 성능만 인정

실험 및 분석 방향

합성 데이터 생성 및 활용 (필수)
- 다양한 프롬프트를 이용한 문장 생성
- 품질 필터링 및 후처리 전략 수립
기 확보된 데이터 활용
- 예: AI Hub 등 외부 공개 데이터 병합
- 추가 실험을 통한 일반화 성능 비교
모델 성능 향상 요인 탐색
- 데이터 비율 조정, 클래스 불균형 해소
- 토크나이저/임베딩 기법 비교
- 하이퍼파라미터 튜닝 영향 분석
Ablation Study 형식으로 결과 기록
- 각 실험 조건별 성능 비교 (예: F1-score, Accuracy)
- 데이터셋 변화 또는 학습 설정 변화에 따른 영향 명시

DATA Files

train.csv - DKTC 학습 데이터셋
test.csv - DKTC 테스트 데이터셋
submission.csv - 테스트데이터셋에 맞는 샘플 제출 csv파일

Columns

idx - 학습 데이터셋 인덱스번호
class - 라벨
conversation - 대화

클래스 분류 및 클래스 개수

클래스	Class No.	# Training	# Test
협박	00	896	100
갈취	01	981	100
직장 내 괴롭힘	02	979	100
기타 괴롭힘	03	1,094	100
일반	04	-	100

submission.csv 의 class 출력은 숫자로 되어야함.

평가 기준

데이터 EDA와 전처리를 적절히 수행했는가?
모델 선정 근거가 타당한가?
모델의 성능/학습 방향을 판단하고 개선을 시도한 기준이 논리적인가?
결과 도출을 위해 다양한 시도를 했는가?
도출된 결론에 충분한 설득력이 있는가?
발표 자료가 청자의 입장에서 잘 정리되어있는가?
발표가 매끄럽게 진행되었고 발표시간을 준수하였는가?

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
Member		Member
LICENSE		LICENSE
README.md		README.md
submission.csv		submission.csv
test.csv		test.csv
train.csv		train.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

과제 개요

데이터 구성

제약 조건

실험 및 분석 방향

DATA Files

Columns

클래스 분류 및 클래스 개수

평가 기준

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

과제 개요

데이터 구성

제약 조건

실험 및 분석 방향

DATA Files

Columns

클래스 분류 및 클래스 개수

평가 기준

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages