Positional Embedding Issue

感谢你的工作，我有一个问题想请教您，对于 positional embdding, 我能找到RoPE + 一个可学习的embdding(pos_instruct_embeddings)，我的理解是这块用来表示原始图片中token 的位置，但我没能找到 Transformer自回归时候常见的 positional embedding (这里我不太理解，这块没有positional embedding,不就会造成模型的 condition，对于整张图的理解不一定是正确的，例如我下面的图，attention 计算的时候不知道位置，就会造成 index 和图片理解时候的align不一定对)，是不是有用 RoPE 隐式的包含了这个信息，谢谢！

<img width="2482" alt="Image" src="https://github.com/user-attachments/assets/247e3731-121c-439c-95b1-54d11e5c7f11" />

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Positional Embedding Issue #11

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Positional Embedding Issue #11

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions