感谢你的工作,我有一个问题想请教您,对于 positional embdding, 我能找到RoPE + 一个可学习的embdding(pos_instruct_embeddings),我的理解是这块用来表示原始图片中token 的位置,但我没能找到 Transformer自回归时候常见的 positional embedding (这里我不太理解,这块没有positional embedding,不就会造成模型的 condition,对于整张图的理解不一定是正确的,例如我下面的图,attention 计算的时候不知道位置,就会造成 index 和图片理解时候的align不一定对),是不是有用 RoPE 隐式的包含了这个信息,谢谢!

感谢你的工作,我有一个问题想请教您,对于 positional embdding, 我能找到RoPE + 一个可学习的embdding(pos_instruct_embeddings),我的理解是这块用来表示原始图片中token 的位置,但我没能找到 Transformer自回归时候常见的 positional embedding (这里我不太理解,这块没有positional embedding,不就会造成模型的 condition,对于整张图的理解不一定是正确的,例如我下面的图,attention 计算的时候不知道位置,就会造成 index 和图片理解时候的align不一定对),是不是有用 RoPE 隐式的包含了这个信息,谢谢!