多头注意力的合并操作是将各个头(Head)输出的矩阵在 **特征维度(列)**上进行水平拼接。 那么Z 的第一行应该是把 Z_0、Z_1 一直到 Z_n 的第一行首尾相连拼在一起。也就是说它的开头必须是 Z_0 的第一个元素 -0.3162,而结尾必须是 Z_n 的最后一个元素 0.0526。 <img width="1972" height="750" alt="Image" src="https://github.com/user-attachments/assets/45ff9ecc-6bfc-440a-bb0c-0e47e2d4e614" />