DQN × カリキュラム学習

概要

このプロジェクトでは、強化学習（DQN） を用いて
「直線のセカイ（LineWorld）」におけるエージェントの行動学習を行いました。

カリキュラム学習（Curriculum Learning）を導入し、
簡単な環境から徐々に難しい環境へ とタスクを発展させました。

環境の説明

直線のセカイ（LineWorld）

エージェントは 1 次元上を左右に移動します。
左に戻ると報酬 -1。
行動は2種類：
- 0：左に移動
- 1：右に移動

学習設定

DQNAgent

モデル構造：nn.Linear(1, 32) → ReLU → nn.Linear(32, 3)
オプティマイザ：Adam (lr=1e-3)
割引率：γ = 0.99
ε-greedy による探索 (ε は徐々に減衰)

カリキュラム設定

ステージ（ゴール距離）を順に拡大
各ステージ終了後に target network を同期

結果

カリキュラム学習を実施した場合

カリキュラム学習を実施しなかった場合

最初からタスクに挑戦すると、カリキュラム学習を実施した時より、報酬が安定しませんでした。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
DQN.py		DQN.py
DQNAgent.py		DQNAgent.py
LineWorld.py		LineWorld.py
README.md		README.md
train_curriculum.png		train_curriculum.png
train_curriculum.py		train_curriculum.py
train_statge.png		train_statge.png
train_statge.py		train_statge.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DQN × カリキュラム学習

概要

環境の説明

直線のセカイ（LineWorld）

学習設定

DQNAgent

カリキュラム設定

結果

カリキュラム学習を実施した場合

カリキュラム学習を実施しなかった場合

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

DQN × カリキュラム学習

概要

環境の説明

直線のセカイ（LineWorld）

学習設定

DQNAgent

カリキュラム設定

結果

カリキュラム学習を実施した場合

カリキュラム学習を実施しなかった場合

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages