Tanuki Project 🦝

日本語での対話・作文性能に力点を置いた大規模言語モデルの開発

📋 概要

Tanuki は、GENIACプロジェクトによって開発された日本語特化の大規模言語モデル（LLM）のデファクタリング済みコードを公開しています。継続事前学習、事後学習（ファインチューニング）にお使いください。

⚠️ 注意: 開発中に用いたコードそのものではありません

🚀 主な成果

Tanuki-8B: 10B級モデルを上回る性能を達成
Tanuki-8×8B: 国内でフルスクラッチ開発されたモデルとしてトップレベルの性能
Japanese MT-Bench (JMT-Bench): 2024年8月末時点での評価結果

　🌐 詳細は　プロジェクトページ　をご覧ください。https://tanuki-llm.github.io/ |

📁 リポジトリ構成

事前学習用コード

/Tanuki_pretraining/README.md

詳細な事前学習の手順と設定について記載

事後学習用コード

/Tanuki_fine_tuning/sftlab/README.md

Supervised Fine-Tuning (SFT) の実行方法

合成データ

/synthetic_data/README.md

学習に使用した合成データの詳細

🔗 関連リンク

リソース	説明	リンク
🌐 プロジェクトページ	詳細な解説とデモ	https://tanuki-llm.github.io/
📄 論文	技術的詳細	PDF
🤗 HuggingFace	モデルのダウンロード	weblab-GENIAC
📝 Tech Blog	開発ブログ	Zenn
💬 お問い合わせ	質問・バグ報告	Issues

ℹ️ プロジェクト背景

この成果は、NEDO（国立研究開発法人新エネルギー・産業技術総合開発機構）の助成事業「ポスト5G情報通信システム基盤強化研究開発事業」（JPNP20017）の結果得られたものです。

📄 ライセンス

このプロジェクトはApache 2.0ライセンスの下で公開されています。詳細はLICENSEファイルをご確認ください。

🤝 貢献

プロジェクトへの貢献を歓迎します！バグ報告や機能要望はIssuesまでお願いします。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Tanuki Project 🦝

📋 概要

🚀 主な成果

📁 リポジトリ構成

事前学習用コード

事後学習用コード

合成データ

🔗 関連リンク

ℹ️ プロジェクト背景

📄 ライセンス

🤝 貢献

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Tanuki_fine_tuning/sftlab		Tanuki_fine_tuning/sftlab
Tanuki_pretraining		Tanuki_pretraining
synthetic_data		synthetic_data
LICENSE		LICENSE
README.md		README.md

License

matsuolab/tanuki

Folders and files

Latest commit

History

Repository files navigation

Tanuki Project 🦝

📋 概要

🚀 主な成果

📁 リポジトリ構成

事前学習用コード

事後学習用コード

合成データ

🔗 関連リンク

ℹ️ プロジェクト背景

📄 ライセンス

🤝 貢献

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages