Skip to content

Commit c667d99

Browse files
Add CHS translation for lerobot-release-v040.md (#3156)
* Add CHS translation for lerobot-release-v040.md * add CHS translation for aisheets-image. --------- Co-authored-by: Sherry Dong <[email protected]>
1 parent cea0cbf commit c667d99

File tree

3 files changed

+492
-5
lines changed

3 files changed

+492
-5
lines changed

zh/_blog.yml

Lines changed: 24 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -2292,7 +2292,7 @@
22922292
- research
22932293

22942294
- local: smolvla
2295-
title: "SmolVLA:让机器人更懂'看听说做'的轻量化解决方案"
2295+
title: SmolVLA:让机器人更懂'看听说做'的轻量化解决方案
22962296
author: danaaubakirova
22972297
thumbnail: /blog/assets/smolvla/SmolVLA_thumbnail.png
22982298
date: Jun 3, 2025
@@ -2318,7 +2318,7 @@
23182318
- community
23192319

23202320
- local: smollm3
2321-
title: "SmolLM3: 支持多语言与长上下文推理的小模型"
2321+
title: 'SmolLM3: 支持多语言与长上下文推理的小模型'
23222322
author: loubnabnl
23232323
thumbnail: /blog/assets/smollm3/image.png
23242324
date: July 8, 2025
@@ -2330,7 +2330,7 @@
23302330
- research
23312331

23322332
- local: zerogpu-aoti
2333-
title: "ZeroGPU Spaces 加速实践:PyTorch 提前编译全解析"
2333+
title: ZeroGPU Spaces 加速实践:PyTorch 提前编译全解析
23342334
author: cbensimon
23352335
thumbnail: /blog/assets/zerogpu-aoti/thumbnail.png
23362336
date: Sep 2, 2025
@@ -2345,12 +2345,31 @@
23452345
- image-to-video
23462346

23472347
- local: faster-transformers
2348-
title: "来自OpenAI gpt-oss的技巧,你🫵在transformers中也可以使用"
2348+
title: 来自OpenAI gpt-oss的技巧,你🫵在transformers中也可以使用
23492349
author: ariG23498
23502350
thumbnail: /blog/assets/faster-transformers/thumbnail.png
23512351
date: Sep 11, 2025
23522352
tags:
23532353
- transformers
23542354
- pytorch
23552355
- optimization
2356-
- guide
2356+
- guide
2357+
2358+
- local: lerobot-release-v040
2359+
title: LeRobot v0.4.0:全面提升开源机器人的学习能力
2360+
author: imstevenpmwork
2361+
thumbnail: /blog/assets/lerobot-release-v040/thumbnail.png
2362+
date: Oct 24, 2025
2363+
tags:
2364+
- lerobot
2365+
- robotics
2366+
2367+
- local: aisheets-unlock-images
2368+
title: 用 AI Sheets 解锁图像的力量
2369+
author: dvilasuero
2370+
thumbnail: /blog/assets/aisheets/aisheets-image.png
2371+
date: Oct 21, 2025
2372+
tags:
2373+
- datasets
2374+
- open-source
2375+
- vision

zh/aisheets-unlock-images.md

Lines changed: 230 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,230 @@
1+
---
2+
title: "用 AI Sheets 解锁图像的力量"
3+
thumbnail: /blog/assets/aisheets/aisheets-image.png
4+
authors:
5+
- user: Ameeeee
6+
- user: dvilasuero
7+
- user: frascuchon
8+
- user: damianpumar
9+
- user: lvwerra
10+
- user: thomwolf
11+
translators:
12+
- user: chenglu
13+
---
14+
15+
# 用 AI Sheets 解锁图像的力量
16+
17+
> 🧭**简要概览**:Hugging Face AI Sheets 是一款开源工具,能够**用 AI 模型增强数据集的处理能力**,无需编写任何代码。**现在新增视觉功能**:可以从图像(如收据、文档)中提取数据、根据文本生成图像、甚至编辑图片——一切都能在电子表格中完成。依托 Inference Providers,可调用数千个开放模型。
18+
19+
<figure class="image flex flex-col items-center text-center m-0 w-full">
20+
<video
21+
alt="AIsheets-recipes.mp4"
22+
autoplay loop autobuffer muted playsinline
23+
>
24+
<source src="https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/A4BKE47IduZnak9YfxArw.mp4"
25+
type="video/mp4">
26+
</video>
27+
<figcaption>用 AI Sheets 分析图像</figcaption>
28+
</figure>
29+
30+
我们非常高兴地发布 [Hugging Face AI Sheets](https://github.com/huggingface/aisheets) 的重大更新版——这是一款可通过开放 AI 模型构建、转换与丰富数据的开源工具。AI Sheets 基于 [Inference Providers](https://huggingface.co/docs/inference-providers/index) 运行,意味着你可以使用由全球顶级推理服务驱动的数千种开放模型。
31+
32+
[AI Sheets 的首个版本](https://huggingface.co/blog/aisheets) 让结构化和增强文本内容变得轻而易举。**现在,我们为它加入了视觉功能。**
33+
34+
图像无处不在——商品照片、收据、截图、图表、徽标……这些图片中蕴含着丰富的结构化信息,等待被提取、分析与转换。现在,你终于可以在 AI Sheets 中直接处理图像内容:查看图片、分析内容、提取数据、生成新图像,甚至实时编辑——全部在同一流程中完成。
35+
36+
---
37+
38+
## 你的图片藏着故事
39+
40+
图片往往包含宝贵的信息——产品目录、客户支持单、研究档案、收据、文档等。现在你可以直接上传图片,或使用带图像的数据集,再借助视觉模型提取、分析并结构化这些内容。
41+
42+
**你可以做到:**
43+
44+
* **描述与分类图像** —— 为产品照片生成文字描述,识别文档类型,或根据内容自动打标签
45+
* **提取结构化数据** —— 从收据中提取明细,从图表中提取数据,从扫描件中识别文本
46+
* **添加上下文与元数据** —— 自动为图片添加相关属性、质量评分或自定义标注
47+
48+
与文本列一样,你可以反复调整提示词、手动修改结果,并用“点赞”告诉模型你更喜欢哪种输出。你的反馈会作为少量样本(few-shot)帮助模型生成更好的结果。
49+
50+
**示例:从收据中提取结构化费用信息**
51+
52+
假设你刚出差回来,手里有一堆收据。上传到 AI Sheets 后,在新列中输入提示词:
53+
`提取该收据中的商户名称、日期、总金额和费用类别`
54+
55+
AI Sheets 会自动处理每一张收据,输出一个整洁的表格,包含所有提取出的详细信息。你可以手动纠正错误,对准确结果点赞,并重新生成其他条目以提升整体质量。最终可将数据导出为 CSV 或 Parquet 文件,用于你的报销工具。
56+
57+
或者,你也可以将家中旧笔记本上的手写食谱数字化——创建列提取食材、烹饪时间、菜系类型,让个人档案变成可搜索的结构化数据集。
58+
59+
---
60+
61+
## 在同一流程中生成与转换文本和图像
62+
63+
需要为你的内容配图?AI Sheets 可以在电子表格中直接通过 AI 模型生成或编辑图像,让整个内容创作流程集中在一个界面中完成。
64+
65+
你可以:
66+
67+
* **从文本生成图像** —— 生成与你内容匹配的社交媒体图片、缩略图或插画
68+
* **编辑与转换图像** —— 修改上传或生成的图片:更换风格、添加元素、调整构图
69+
* **批量生成变体** —— 一次生成多个版本或风格,测试最受欢迎的视觉形式
70+
* **建立视觉素材库** —— 为品牌活动批量创建风格一致的图像资产
71+
72+
**示例:创建带配图的内容日历**
73+
74+
假设你计划发布一个月的健康食谱类社交媒体帖子。你已经准备好了标题与文案,但还缺图像。
75+
76+
创建一个图像列,提示如下:
77+
“为以下标题生成一张美味食物的照片:{{title}}。风格:明亮、俯拍、自然光。”
78+
79+
AI Sheets 会为每篇帖子生成独特的图片。效果不理想?再建一列修改:
80+
“将背景换成乡村木桌,加上新鲜香草作为装饰。”
81+
82+
你可以多次调整生成和编辑提示,尝试不同方案。最终,你的整月内容计划——文字与图片——都集中在一张表格中,可直接导出或排程发布。
83+
84+
---
85+
86+
## 使用指南
87+
88+
下面我们通过一个实例来看看 AI Sheets 的实际操作。我们将用开源模型来识别祖母笔记本中手写的食谱。
89+
90+
### 上传数据
91+
92+
我们有一个文件夹,里面保存了食谱的照片,只需上传即可。
93+
94+
![folder](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/OZSQLc_GeINsLWnL-3t49.png)
95+
![upload](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/s8FkH6gw2LG9F7rM2mJ0D.png)
96+
97+
上传后生成的表格如下:
98+
99+
![table](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/4lW1LWM31dB_stOP0QvL1.png)
100+
101+
---
102+
103+
### 了解 AI 操作
104+
105+
在电子表格中,每一列都可以通过“AI 操作”进行提取、转换或查询等各种处理。
106+
107+
点击任意列上方的叠加层即可查看操作选项:
108+
109+
![ai-action](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/O1XHmf70blGY6kRMOcvMi.png)
110+
111+
图像列支持的操作包括:提取文字、图像问答、目标检测、上色、添加文字,以及自定义任务;
112+
文本列则支持:摘要、关键词提取、翻译等操作。
113+
114+
每个 AI 操作都由“提示词 + 模型”组合而成。让我们看看它如何处理手写食谱数据。
115+
116+
---
117+
118+
### 从图像中提取文字
119+
120+
AI Sheets 提供了一个从图像提取文字的模板:
121+
122+
![extract-text](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/gTXMKRJ8J0Oil7YUZUnOr.png)
123+
124+
执行后会生成一列包含转录结果的新列,例如:
125+
126+
![recipe](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/7IuC9cTT5v-fXHvI9NB9D.webp)
127+
128+
上图识别出的文本如下:
129+
130+
```
131+
MEMORANDUM:
132+
133+
From
134+
135+
To
136+
137+
1 Box Duncan Hines Yellow Cake Mix
138+
1 Box instant lemon pudding
139+
2/3 cups water
140+
1/2 cup Mozola oil
141+
4 eggs
142+
Lemon flavoring to taste.
143+
Put in mixing bowl and beat for 10 min.
144+
145+
and REMEMBER... for Quality PRINTING
146+
CALL OR WRITE
147+
Gatling & Pierce
148+
PRINTERS
149+
TELEPHONE 332-2579
150+
22 YEARS OF SERVICE IN NORTHEASTERN CAROLINA
151+
```
152+
153+
识别效果不错,但包含了页眉页脚的印刷文字。默认模板的提示是:
154+
155+
`提取图像中所有可见文字,包括标志、标签、文档或任何文字内容。`
156+
157+
我们可以改用自定义提示。
158+
159+
![custom](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/oYanFJWYR6zejEgq2TFYc.png)
160+
161+
自定义提取的结果如下:
162+
163+
- 1 盒 Duncan Hines 黄蛋糕粉
164+
- 1 盒速溶柠檬布丁
165+
- 2/3 杯水
166+
- 1/2 杯 Mazola 食用油
167+
- 4 个鸡蛋
168+
- 适量柠檬香精
169+
- 倒入搅拌碗中搅打 10 分钟
170+
171+
效果非常理想。对于更复杂的图片,我们可以尝试不同的模型。默认模型为 `Qwen/Qwen2.5-VL-7B-Instruct`,在速度与准确度间平衡良好;我们还可以使用更强大的推理模型 `Qwen/Qwen3-VL-235B-A22B-Reasoning`
172+
173+
![qwen3](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/pA3vr1tw8VtmgS9Q6pskF.png)
174+
175+
模型对比结果如下:
176+
177+
| Qwen/Qwen2.5-VL-7B-Instruct | Qwen/Qwen3-VL-235B-A22B-Reasoning |
178+
| :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
179+
| in large bowl combine meat, onion, bread crumbs 1/2 nutmeg & cheese - as you add sprinkle around. Then blend - Last sprinkle blend again Bake in large pan for 10-15 min. at 350. Let stand 5 min before serving. | in lg bowl combine meat, onion, bread crumbs 1/4 nutmeg & cheese - as you add sprinkle around. then blend - last **spinach** blend again. Bake in lg pan for **50-60 min. @ 350** - let stand 5 min before serving |
180+
181+
两个模型的输出很接近,但更高阶模型识别出了两个重要细节(**加粗部分**):烘焙时间和关键配料——菠菜。
182+
183+
---
184+
185+
### 清洗、转换与丰富文本
186+
187+
当我们对提取结果满意后,可以进一步用 AI 操作转换格式,如生成 HTML 页面。
188+
189+
![format](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/lB4Z_iEKIUnuaSTPqc_xZ.png)
190+
191+
生成后,每份食谱都变成了结构清晰、排版优美的 HTML 页面:
192+
193+
![html](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/zSCnY3D6uobqSCHj7tBqR.png)
194+
195+
---
196+
197+
### 编辑与转换图像
198+
199+
AI Sheets 集成了图像编辑模型(如 Qwen-Image-Edit),可以直接对图片进行风格化处理与增强。
200+
201+
例如,你希望给食谱图片增加“复古”效果,可以选择黑白滤镜模板:
202+
203+
![transform-bw](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/Blf4wtKrX6UYkQ06HUV-8.png)
204+
205+
结果如下:
206+
207+
![bw](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/cMzCQUMMRKch__C3W_-Ve.png)
208+
209+
---
210+
211+
### 导出数据集
212+
213+
当你对结果满意后,可以将数据集导出并上传至 Hugging Face Hub!
214+
可选择导出至团队组织、个人主页,或设为私密数据集。
215+
216+
![export](https://cdn-uploads.huggingface.co/production/uploads/60420dccc15e823a685f2b03/2fSKxUzwZtPkPJ-ZWEYYl.png)
217+
218+
你可以查看我们刚刚创建的示例数据集:
219+
[点击查看](https://huggingface.co/datasets/aisheets/unlocked-recipes)
220+
221+
---
222+
223+
## 接下来做什么?
224+
225+
你可以直接 [在线试用 AI Sheets](https://huggingface.co/spaces/aisheets/sheets),无需安装或部署。
226+
如果希望本地运行并获得更高性能,建议升级到 PRO 版本,可享受 20 倍推理配额。
227+
228+
如有任何问题或建议,欢迎在社区留言,或通过 [GitHub 提交 issue](https://github.com/huggingface/aisheets) 与我们交流。
229+
230+

0 commit comments

Comments
 (0)