ReAct 论文笔记(示例页)¶
论文:ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023)
链接:https://openreview.net/forum?id=WE_vluYUL-X
arXiv:https://arxiv.org/abs/2210.03629
TL;DR¶
ReAct 的核心是:让大模型在任务中交替输出 Thought(推理) 与 Action(行动),并将环境反馈作为 Observation(观察) 回写到上下文中,形成闭环,从而提升可解释性并减少幻觉。
方法概述¶
典型轨迹片段:
Thought: 我需要先找到 X 的信息,再根据 X 推出 Y
Action: search[X]
Observation: ...
Thought: 根据 Observation,下一步应该 lookup[...]
Action: lookup[...]
Observation: ...
Action: finish[answer]
一个形式化直觉:
\[
\hat{A} = A \cup L
\]
其中 \(A\) 是环境动作集合,\(L\) 是语言推理集合(Thought)。
结果速记(只放结论)¶
- 知识密集任务:ReAct 相比纯 Act 更稳、更少幻觉;与 CoT 的取舍在于“事实性 vs 推理灵活性”。
- 交互决策任务:加入稀疏推理(sparse reasoning)能显著提升成功率。
局限¶
- 工具检索失败会把模型带偏(需要更好的检索/重试策略)。
- 纯提示学习容易受上下文长度与格式约束影响。