AI：大模型领域最新算法SOTA总结

AI应用信息2年前 (2023)更新管理员

GPT-4 的思考方式，越来越像人了。 AI：大模型领域最新算法SOTA总结
人类在做错事时，会反思自己的行为，避免再次出错，如果让 GPT-4 这类大型语言模型也具备反思能力，性能不知道要提高多少了。
众所周知，大型语言模型(LLM) 在各种任务上已经表现出前所未有的性能。然而，这些SOTA 方法通常需要对已定义的状态空间进行模型微调、策略优化等操作。由于缺乏高质量的训练数据、定义良好的状态空间，优化模型实现起来还是比较难的。此外，模型还不具备人类决策过程所固有的某些品质，特别是从错误中学习的能力。
不过现在好了，在最近的一篇论文中，来自美国东北大学、MIT 等机构的研究者提出 Reflexion，该方法赋予智能体动态记忆和自我反思的能力。
为了验证方法的有效性，该研究评估了智能体在 AlfWorld 环境中完成决策任务的能力，以及在 HotPotQA 环境中完成知识密集型、基于搜索问答任务的能力，在这两项任务的成功率分别为 97% 和 51%。
如下图所示，在 AlfWorld 环境中，房间里摆设了各种物品，要求让智能体给出推理计划以拿到某件物体，下图上半部分由于智能体低效的计划而失败。经过反思后，智能体意识到错