Skip to content
This repository was archived by the owner on May 13, 2026. It is now read-only.

snoopuppy582/malmalmal

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

과제 개요

  • 목표: 대화의 성격을 5개 클래스 중 하나로 분류
    • 위협 세부 클래스 4개: 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘
    • 비위협 클래스: 일반 대화

데이터 구성

  • Train 데이터:
    • 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘 — 각 약 1,000개
    • 일반 대화 — 합성 데이터로 직접 생성 (다양한 프롬프트 기반)
  • Test 데이터:
    • 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘, 일반 대화 — 각 100개

제약 조건

  • 위협 클래스 4종은 Augmentation만 가능
    (새로운 수집/생성 불가)
  • 일반 대화 클래스는 합성 데이터 생성 필수
  • 최종 제출 결과는 합성 데이터 기반 성능만 인정

실험 및 분석 방향

  1. 합성 데이터 생성 및 활용 (필수)
    • 다양한 프롬프트를 이용한 문장 생성
    • 품질 필터링 및 후처리 전략 수립
  2. 기 확보된 데이터 활용
    • 예: AI Hub 등 외부 공개 데이터 병합
    • 추가 실험을 통한 일반화 성능 비교
  3. 모델 성능 향상 요인 탐색
    • 데이터 비율 조정, 클래스 불균형 해소
    • 토크나이저/임베딩 기법 비교
    • 하이퍼파라미터 튜닝 영향 분석
  4. Ablation Study 형식으로 결과 기록
    • 각 실험 조건별 성능 비교 (예: F1-score, Accuracy)
    • 데이터셋 변화 또는 학습 설정 변화에 따른 영향 명시

DATA Files

  • train.csv - DKTC 학습 데이터셋
  • test.csv - DKTC 테스트 데이터셋
  • submission.csv - 테스트데이터셋에 맞는 샘플 제출 csv파일

Columns

  • idx - 학습 데이터셋 인덱스번호
  • class - 라벨
  • conversation - 대화

클래스 분류 및 클래스 개수

클래스 Class No. # Training # Test
협박 00 896 100
갈취 01 981 100
직장 내 괴롭힘 02 979 100
기타 괴롭힘 03 1,094 100
일반 04 - 100

submission.csv 의 class 출력은 숫자로 되어야함.


평가 기준

  • 데이터 EDA와 전처리를 적절히 수행했는가?

  • 모델 선정 근거가 타당한가?

  • 모델의 성능/학습 방향을 판단하고 개선을 시도한 기준이 논리적인가?

  • 결과 도출을 위해 다양한 시도를 했는가?

  • 도출된 결론에 충분한 설득력이 있는가?

  • 발표 자료가 청자의 입장에서 잘 정리되어있는가?

  • 발표가 매끄럽게 진행되었고 발표시간을 준수하였는가?

About

DLthon - Text classification for 5 classes

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors