Skip to content

多头合并的Z 数字错了 #3

@waltyou

Description

@waltyou

多头注意力的合并操作是将各个头(Head)输出的矩阵在 **特征维度(列)**上进行水平拼接。

那么Z 的第一行应该是把 Z_0、Z_1 一直到 Z_n 的第一行首尾相连拼在一起。也就是说它的开头必须是 Z_0 的第一个元素 -0.3162,而结尾必须是 Z_n 的最后一个元素 0.0526。

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions