clip模型得到的图像嵌入维度 #52

lwtgithublwt · 2024-05-06T02:50:42Z

作者您好，据我目前所了解，通过clip编码器得到的维度是[1, 512]的，您是如何把他们变为c , h, w的形状，并融入扩散模型？感谢您的回答。

Algolzw · 2024-05-07T06:39:46Z

你好，这里跟stable diffusion一样是用的cross-attention，图像会被reshap成 (b, h*w, c)这样，具体代码可以看这个attention.py。

striveAgain · 2024-10-22T09:37:04Z

作者您好，按照您的回复，clip 编码器得到的 (1, 512) 的 feature 在 cross-attention 代码的 q, k, v = map(lambda t: rearrange(t, 'b n (h d) -> (b h) n d', h=h), (q, k, v)) 部分的 n == 1 对吗？不知道理解对不对

Algolzw · 2024-10-25T10:49:32Z

你好，这个我也不太记得了，你可以把变化前后的shape打印出来看一下。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

clip模型得到的图像嵌入维度 #52

clip模型得到的图像嵌入维度 #52

lwtgithublwt commented May 6, 2024

Algolzw commented May 7, 2024

striveAgain commented Oct 22, 2024

Algolzw commented Oct 25, 2024

clip模型得到的图像嵌入维度 #52

clip模型得到的图像嵌入维度 #52

Comments

lwtgithublwt commented May 6, 2024

Algolzw commented May 7, 2024

striveAgain commented Oct 22, 2024

Algolzw commented Oct 25, 2024