Image Captioning with CLIP and Transformer Decoder

A PyTorch implementation of image captioning using CLIP ViT-B/16 as the visual encoder and a Transformer decoder for autoregressive caption generation.

Results

Evaluated on Flickr8k test set:

Metric	Score
BLEU-4	0.251
METEOR	0.473
ROUGE-L	0.506
CIDEr	3.59

Architecture

Encoder: CLIP ViT-B/16 (frozen), outputs 196 visual tokens
Decoder: 4-layer Transformer with 8-head cross-attention
Inference: Beam search (k=3)

Usage

Open image_captioning_transformer.ipynb in Google Colab with A100 GPU and run all cells. Training completes in ~10 minutes.

Requirements

torch>=2.0.0
transformers>=4.30.0
nltk
rouge-score

See requirements.txt for full list.

Project Structure

├── image_captioning_transformer.ipynb   # Training and evaluation
├── requirements.txt
├── assets/                              # Sample outputs
└── weights/                             # Trained model (after training)

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
assets		assets
weights		weights
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
image_captioning_transformer.ipynb		image_captioning_transformer.ipynb
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Image Captioning with CLIP and Transformer Decoder

Results

Architecture

Usage

Requirements

Project Structure

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Image Captioning with CLIP and Transformer Decoder

Results

Architecture

Usage

Requirements

Project Structure

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages