跳转至

ReAct 论文笔记(示例页)

论文:ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023)

链接:https://openreview.net/forum?id=WE_vluYUL-X
arXiv:https://arxiv.org/abs/2210.03629

TL;DR

ReAct 的核心是:让大模型在任务中交替输出 Thought(推理)Action(行动),并将环境反馈作为 Observation(观察) 回写到上下文中,形成闭环,从而提升可解释性并减少幻觉。

方法概述

典型轨迹片段:

Thought: 我需要先找到 X 的信息,再根据 X 推出 Y
Action: search[X]
Observation: ...
Thought: 根据 Observation,下一步应该 lookup[...]
Action: lookup[...]
Observation: ...
Action: finish[answer]

一个形式化直觉:

\[ \hat{A} = A \cup L \]

其中 \(A\) 是环境动作集合,\(L\) 是语言推理集合(Thought)。

结果速记(只放结论)

  • 知识密集任务:ReAct 相比纯 Act 更稳、更少幻觉;与 CoT 的取舍在于“事实性 vs 推理灵活性”。
  • 交互决策任务:加入稀疏推理(sparse reasoning)能显著提升成功率。

局限

  • 工具检索失败会把模型带偏(需要更好的检索/重试策略)。
  • 纯提示学习容易受上下文长度与格式约束影响。