Skip to content

misya11p/transformers-scratch

Repository files navigation

Implementing Transformer Models from Scratch

Transformer系モデルをスクラッチ実装し、理解を深める。

実装

プログラム実行

uv sync

トークナイザー学習

学習済みのTokenizerは置いてあるのでやらなくてもいい。

uv run python train_tokenizer.py

学習

config/にモデルの設定をtoml形式で記述し、ファイル名を指定する。

uv run torchrun --nproc_per_node=1 train.py -c gpt2

デモ

学習したモデルを使って実際に文章生成を試す。

playground.ipynb

学習済みモデル

本プログラムで学習したモデルはHugging Faceにアップロード済み。

Footnotes

  1. Vaswani, Ashish, et al. "Attention Is All You Need." Advances in Neural Information Processing Systems, 2017, pp. 5998–6008. arXiv:1706.03762.

  2. Radford, Alec, et al. "Language Models are Unsupervised Multitask Learners." OpenAI Blog, 2019.

  3. Dosovitskiy, Alexey, et al. "An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale." arXiv preprint arXiv:2010.11929 (2021).

  4. Radford, Alec, et al. "Learning Transferable Visual Models from Natural Language Supervision." arXiv preprint arXiv:2103.00020, 2021.

About

Implementing Transformer Models from Scratch with PyTorch

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors