Hello-agents第三章习题 #438
Unanswered
AYAfitness
asked this question in
💬 Exercises & Q&A
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
第一题
1、只考虑当前出现的词与前一个词有关,例如P(agent∣datawhale)=2/2=1、𝑃(works∣agent)=2/3则句子:datawhale agent works 𝑃=𝑃(agent∣datawhale)⋅𝑃(works∣agent)=1×2/3=2/3P=P(agent∣datawhale)⋅P(works∣agent)=1×2/3=2/3
2、N-gram 模型假设:当前词的出现 只依赖于前面有限个词(N-1个),而与更早的历史无关。
N-gram 模型的根本局限:数据稀疏问题、泛化能力差
3、RNN / LSTM做法:不再为每个 n-gram 单独建参数、相似词 → 向量接近、通过隐藏状态传递信息
优势:能处理序列、捕捉一定长距离依赖、比 N-gram 泛化强
Transformer做法:自注意力机制
优势:捕捉全局依赖、并行计算、表达能力强
第二题
1、自注意力机制(Self-Attention)的核心思想:每个词在生成表示时,会根据“相关性”动态地关注句子中所有其他词。
2、RNN 处理时当前状态依赖前一个状态,类似一个递归,必须处理前当前状态才能处理下一个
transformer将每个位置直接与所有位置计算关系,所有 token 一次性输入处理。
transformer直接处理所有位置的关系没有相关先后顺序,所以需要位置编码给每个 token 加一个“位置信息向量”,方便处理
3、Encoder-Decoder:输入 → Encoder → 中间表示 → Decoder → 输出
Decoder-Only:输入 → Decoder
主流大模型都用 Decoder-Only原因:
统一任务形式,所有任务都变成:文本续写;训练数据利用率更高;架构更简单;推理更自然,适合人类语言。
第三题
用字符的问题:序列太长、没有语义、训练成本高学习效率低;用单词的问题:embedding 矩阵巨大、OOV问题、泛化能力差
BPE 解决的核心问题:解决 OOV 问题、控制词表大小、提升语义表达能力、提高泛化能力
第四题
1、略
2、略(推荐信息抽取,容易验证)
3、(1)性能:闭源模型:通常通用能力更强,尤其在复杂推理、长上下文、多模态、工具调用稳定性上更成熟
开源模型:顶级开源模型已很强,但小模型与顶级闭源仍常有差距。
在垂直场景通过微调、RAG 后,开源模型可以非常实用。
(2)成本:闭源模型:前期接入快,无需自己养推理集群。但按 token 计费,规模大时成本可能持续走高
开源模型:有部署和运维成本,需要算力、工程、人力。一旦请求量大、场景固定,长期总成本可能更可控。
(3)可控性:闭源模型:黑盒,底层改不了;可控性主要靠 prompt、API 参数、工具链
开源模型:可以改权重、改推理框架、做蒸馏、量化、微调
4、在模型选型上,闭源模型通用能力更强、接入更便捷,但开源模型在私有化部署、数据安全、可控性和长期成本方面更适合企业内部应用。若构建企业级客服智能体,我会优先采用开源模型的架构,并在必要时使用闭源模型处理复杂问题。
第五题
略
第六题
1、如果可以,选 GPT-5.4就很好,考虑因素:长文档阅读能力、PDF/图表理解能力、工具与检索能力
2、提示词:
你是学术论文阅读助手。你的首要目标是忠于原文,而不是补全常识。
规则:
(1)只依据提供的论文内容与检索到的证据作答。
(2)每个关键结论后必须给出证据定位(章节/页码/段落)。
(3)区分“作者声称”“实验显示”“你的推断”三类内容。
(4) 若证据不足,明确回答“原文未说明”。
(5).总结时优先保留:任务、方法、训练/实验设置、结果、局限性。
(6) 比较多篇论文时,只比较可直接对齐的维度;若实验设置不同,必须先指出不可直接横比。
输出尽量结构化,避免空泛评价。
论文过长可以采取分层阅读,一部分一部分的做处理
3、加入约束,比如任何总结、问答、对比,都先检索原文,再回答;没有证据就不答。答案不是只给一个总引用,而是每条关键判断都绑定到具体页码、段落、表格或图。最好前端支持点击跳转到原文位置。等等
Beta Was this translation helpful? Give feedback.
All reactions