最近老师让我写一个图像描述的项目,于是我就结合谷歌很早发表的NIC和今年CVPR的两篇论文:Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition和SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning的内容做了这个项目,目前这个项目还在阿里云上运行,下面给出运行少量数据(几百张)得到的结果。
python3opencv-pythontensorlayervgg网络
a dog wearing a red is is with in the of a dog .
a dog dog is a blue of .
可以看出给出的描述看起来很荒谬而且不完整,但是起码有些语法是正确的,所以等完全跑完再看看效果吧(-_-)。

