Skip to content

Commit af40800

Browse files
authored
Minor Documentation and Link Updates (#2907)
* Update mms_adapters.md * Update sd3.md
1 parent 47dad6a commit af40800

File tree

2 files changed

+4
-4
lines changed

2 files changed

+4
-4
lines changed

zh/mms_adapters.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -540,7 +540,7 @@ class DataCollatorCTCWithPadding:
540540
Data collator that will dynamically pad the inputs received.
541541
Args:
542542
processor (:class:`~transformers.Wav2Vec2Processor`)
543-
The processor used for proccessing the data.
543+
The processor used for processing the data.
544544
padding (:obj:`bool`, :obj:`str` or :class:`~transformers.tokenization_utils_base.PaddingStrategy`, `optional`, defaults to :obj:`True`):
545545
Select a strategy to pad the returned sequences (according to the model's padding side and padding index)
546546
among:
@@ -870,4 +870,4 @@ _相关帖子和附加链接列在这里:_
870870
- [**官方演示**](https://huggingface.co/spaces/facebook/MMS)
871871
- [**Transformers 文档**](https://huggingface.co/docs/transformers/index)
872872
- [**相关 XLS-R 博客文章**](https://huggingface.co/blog/zh/fine-tune-xlsr-wav2vec2)
873-
- [**Hub 上的模型**](https://huggingface.co/models?other=mms)
873+
- [**Hub 上的模型**](https://huggingface.co/models?other=mms)

zh/sd3.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -40,7 +40,7 @@ translators:
4040

4141
作为一个隐变量扩散模型,SD3 包含了三个不同的文本编码器 ([CLIP L/14](https://huggingface.co/openai/clip-vit-large-patch14)[OpenCLIP bigG/14](https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k)[T5-v1.1-XXL](https://huggingface.co/google/t5-v1_1-xxl)) 、一个新提出的多模态 Diffusion Transformer (MMDiT) 模型,以及一个 16 通道的 AutoEncoder 模型 (与 [Stable Diffusion XL](https://arxiv.org/abs/2307.01952) 中的类似)。
4242

43-
SD3 以序列 Embedding 的形式处理文本输入和视觉隐空间特征。位置编码 (Positional Encoding) 是施加在隐空间特征的 2x2 patch 上的,随后被展开成 patch 的 Enbedding 序列。这一序列和文本的特征序列一起,被送入 MMDiT 的各个模块中去。两种特征序列被转化成相同特征维度,拼接在一起,然后送入一系列注意力机制模块和多层感知机 (MLP) 里。
43+
SD3 以序列 Embedding 的形式处理文本输入和视觉隐空间特征。位置编码 (Positional Encoding) 是施加在隐空间特征的 2x2 patch 上的,随后被展开成 patch 的 Embedding 序列。这一序列和文本的特征序列一起,被送入 MMDiT 的各个模块中去。两种特征序列被转化成相同特征维度,拼接在一起,然后送入一系列注意力机制模块和多层感知机 (MLP) 里。
4444

4545
为应对两种模态间的差异,MMDiT 模块使用两组不同的权重去转换文本和图像序列的特征维度。两个序列之后会在注意力操作之前被合并在一起。这种设计使得两种表征能在自己的特征空间里工作,同时也使得它们之间可以通过注意力机制 [1] 从对方的特征中提取有用的信息。这种文本和图像间双向的信息流动有别于以前的文生图模型,后者的文本信息是通过 cross-attention 送入模型的,且不同层输入的文本特征均是文本编码器的输出,不随深度的变化而改变。
4646

@@ -258,4 +258,4 @@ accelerate launch train_dreambooth_lora_sd3.py \
258258

259259
## 声明
260260

261-
感谢 Stability AI 团队开发并开源了 Stable Diffusion 3 并让我们提早体验,也感谢 [Linoy](https://huggingface.co/linoyts) 对撰写此文的帮助。
261+
感谢 Stability AI 团队开发并开源了 Stable Diffusion 3 并让我们提早体验,也感谢 [Linoy](https://huggingface.co/linoyts) 对撰写此文的帮助。

0 commit comments

Comments
 (0)