日本語での対話・作文性能に力点を置いた大規模言語モデルの開発
Tanuki は、GENIACプロジェクトによって開発された日本語特化の大規模言語モデル(LLM)のデファクタリング済みコードを公開しています。継続事前学習、事後学習(ファインチューニング)にお使いください。
⚠️ 注意: 開発中に用いたコードそのものではありません
- Tanuki-8B: 10B級モデルを上回る性能を達成
- Tanuki-8×8B: 国内でフルスクラッチ開発されたモデルとしてトップレベルの性能
- Japanese MT-Bench (JMT-Bench): 2024年8月末時点での評価結果
🌐 詳細は プロジェクトページ をご覧ください。https://tanuki-llm.github.io/ |
/Tanuki_pretraining/README.md
詳細な事前学習の手順と設定について記載
/Tanuki_fine_tuning/sftlab/README.md
Supervised Fine-Tuning (SFT) の実行方法
/synthetic_data/README.md
学習に使用した合成データの詳細
| リソース | 説明 | リンク |
|---|---|---|
| 🌐 プロジェクトページ | 詳細な解説とデモ | https://tanuki-llm.github.io/ |
| 📄 論文 | 技術的詳細 | |
| 🤗 HuggingFace | モデルのダウンロード | weblab-GENIAC |
| 📝 Tech Blog | 開発ブログ | Zenn |
| 💬 お問い合わせ | 質問・バグ報告 | Issues |
この成果は、NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)の助成事業「ポスト5G情報通信システム基盤強化研究開発事業」(JPNP20017)の結果得られたものです。
このプロジェクトはApache 2.0ライセンスの下で公開されています。詳細はLICENSEファイルをご確認ください。
プロジェクトへの貢献を歓迎します!バグ報告や機能要望はIssuesまでお願いします。