Explicit Posterior-Sampling Planner
Nikola Balic (@nibzard)· emerging
问题
依赖临时启发式策略的智能体探索效率低下,会在死胡同路径上浪费token与API调用次数。
方案
在LLM的推理流程中嵌入完全规格化的强化学习(RL)算法——强化学习后验采样(PSRL):
- 维护任务模型上的贝叶斯后验分布。
- 对模型进行采样,计算最优规划/策略,执行该策略,观测奖励信号,更新后验分布。
- 将每一步转化为自然语言表述,使核心LLM能够通过工具调用完成这些步骤。
如何使用
将该算法封装在可供LLM填充的可复用prompt模板或代码骨架中。
参考文献
关键词:
大语言模型(LLM)智能体,高效探索,该文献聚焦于研究如何实现大语言模型智能体的高效探索路径与方法。
直译:
阿鲁穆加姆、格里菲思,《面向大语言模型智能体的高效探索》
来源摘要
正在获取来源并生成中文摘要…