ReAct 论文笔记（示例页）¶

论文：ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023)

链接：https://openreview.net/forum?id=WE_vluYUL-X
arXiv：https://arxiv.org/abs/2210.03629

TL;DR¶

ReAct 的核心是：让大模型在任务中交替输出 Thought（推理） 与 Action（行动），并将环境反馈作为 Observation（观察） 回写到上下文中，形成闭环，从而提升可解释性并减少幻觉。

方法概述¶

典型轨迹片段：

Thought: 我需要先找到 X 的信息，再根据 X 推出 Y
Action: search[X]
Observation: ...
Thought: 根据 Observation，下一步应该 lookup[...]
Action: lookup[...]
Observation: ...
Action: finish[answer]

一个形式化直觉：

\[ \hat{A} = A \cup L \]

其中 \(A\) 是环境动作集合，\(L\) 是语言推理集合（Thought）。

结果速记（只放结论）¶

知识密集任务：ReAct 相比纯 Act 更稳、更少幻觉；与 CoT 的取舍在于“事实性 vs 推理灵活性”。
交互决策任务：加入稀疏推理（sparse reasoning）能显著提升成功率。

局限¶

工具检索失败会把模型带偏（需要更好的检索/重试策略）。
纯提示学习容易受上下文长度与格式约束影响。