From 607d95fe3d847442c1e2b53fc9cd706ab1f798ec Mon Sep 17 00:00:00 2001 From: FT <140458077+zeevick10@users.noreply.github.com> Date: Sun, 15 Jun 2025 13:51:20 +0200 Subject: [PATCH 1/2] Update mms_adapters.md --- zh/mms_adapters.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/zh/mms_adapters.md b/zh/mms_adapters.md index 5872b56bd7..327c9df5ee 100644 --- a/zh/mms_adapters.md +++ b/zh/mms_adapters.md @@ -540,7 +540,7 @@ class DataCollatorCTCWithPadding: Data collator that will dynamically pad the inputs received. Args: processor (:class:`~transformers.Wav2Vec2Processor`) - The processor used for proccessing the data. + The processor used for processing the data. padding (:obj:`bool`, :obj:`str` or :class:`~transformers.tokenization_utils_base.PaddingStrategy`, `optional`, defaults to :obj:`True`): Select a strategy to pad the returned sequences (according to the model's padding side and padding index) among: @@ -870,4 +870,4 @@ _相关帖子和附加链接列在这里:_ - [**官方演示**](https://huggingface.co/spaces/facebook/MMS) - [**Transformers 文档**](https://huggingface.co/docs/transformers/index) - [**相关 XLS-R 博客文章**](https://huggingface.co/blog/zh/fine-tune-xlsr-wav2vec2) -- [**Hub 上的模型**](https://huggingface.co/models?other=mms) \ No newline at end of file +- [**Hub 上的模型**](https://huggingface.co/models?other=mms) From a0ad3d4bd79a6b5bd471caa9484dc4f10d79fbaa Mon Sep 17 00:00:00 2001 From: FT <140458077+zeevick10@users.noreply.github.com> Date: Sun, 15 Jun 2025 13:51:47 +0200 Subject: [PATCH 2/2] Update sd3.md --- zh/sd3.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/zh/sd3.md b/zh/sd3.md index eb04a2cf67..e326ec52da 100755 --- a/zh/sd3.md +++ b/zh/sd3.md @@ -40,7 +40,7 @@ translators: 作为一个隐变量扩散模型,SD3 包含了三个不同的文本编码器 ([CLIP L/14](https://huggingface.co/openai/clip-vit-large-patch14)、[OpenCLIP bigG/14](https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k) 和 [T5-v1.1-XXL](https://huggingface.co/google/t5-v1_1-xxl)) 、一个新提出的多模态 Diffusion Transformer (MMDiT) 模型,以及一个 16 通道的 AutoEncoder 模型 (与 [Stable Diffusion XL](https://arxiv.org/abs/2307.01952) 中的类似)。 -SD3 以序列 Embedding 的形式处理文本输入和视觉隐空间特征。位置编码 (Positional Encoding) 是施加在隐空间特征的 2x2 patch 上的,随后被展开成 patch 的 Enbedding 序列。这一序列和文本的特征序列一起,被送入 MMDiT 的各个模块中去。两种特征序列被转化成相同特征维度,拼接在一起,然后送入一系列注意力机制模块和多层感知机 (MLP) 里。 +SD3 以序列 Embedding 的形式处理文本输入和视觉隐空间特征。位置编码 (Positional Encoding) 是施加在隐空间特征的 2x2 patch 上的,随后被展开成 patch 的 Embedding 序列。这一序列和文本的特征序列一起,被送入 MMDiT 的各个模块中去。两种特征序列被转化成相同特征维度,拼接在一起,然后送入一系列注意力机制模块和多层感知机 (MLP) 里。 为应对两种模态间的差异,MMDiT 模块使用两组不同的权重去转换文本和图像序列的特征维度。两个序列之后会在注意力操作之前被合并在一起。这种设计使得两种表征能在自己的特征空间里工作,同时也使得它们之间可以通过注意力机制 [1] 从对方的特征中提取有用的信息。这种文本和图像间双向的信息流动有别于以前的文生图模型,后者的文本信息是通过 cross-attention 送入模型的,且不同层输入的文本特征均是文本编码器的输出,不随深度的变化而改变。 @@ -258,4 +258,4 @@ accelerate launch train_dreambooth_lora_sd3.py \ ## 声明 -感谢 Stability AI 团队开发并开源了 Stable Diffusion 3 并让我们提早体验,也感谢 [Linoy](https://huggingface.co/linoyts) 对撰写此文的帮助。 \ No newline at end of file +感谢 Stability AI 团队开发并开源了 Stable Diffusion 3 并让我们提早体验,也感谢 [Linoy](https://huggingface.co/linoyts) 对撰写此文的帮助。