Agent再升级！清华团队提出智能体 GitAgent，可基于 GitHub 自主扩展工具

AIGC行业资讯1年前 (2024)更新管理员

278 0 3

谷歌新研究：用 LLM 增强 LLM

AIGCBench：全面评估 AI 视频生成

PLLaMa：植物科学领域的开源大模型

清华团队新研究：大模型如何改变心理学研究？

Meta 新研究：在语音对话中合成 ” 人类 ”

Auffusion：一个新型文本到音频生成系统

LARP：开放世界游戏的语言代理角色扮演游戏

清华团队提出智能体 GitAgent，可基于 GitHub 自主扩展工具

DeepMind 提出 AutoRT：用大模型更好地训练机器人

AI 能像人类一样有创造力吗？

1. 谷歌新研究：用 LLM 增强 LLM

具有数十亿参数的基础模型，经过大量数据语料的训练，在多个领域表现出了不错的技能。然而，由于其单一庞大的结构，对其进行增强或传授新技能具有挑战性，而且成本高昂。另一方面，由于这些模型具有适应能力，目前正在针对新领域和新任务训练这些模型的若干新实例。

为此，来自 Google DeepMind 和 Google Research 的研究团队探讨了如何高效、实际地将现有基础模型与更具体的模型组合起来，从而实现新能力，并提出了 CALM，它通过模型间的交叉注意力机制来组合它们的表征。据介绍，CALM 的显著特点包括：

1）通过 ” 重新使用 ” 现有的大型语言模型（LLMs），以及少量额外的参数和数据，在新的任务中扩展 LLM；

2）保持现有模型权重不变，从而保留了现有的能力；

3）适用于不同的领域和环境。

研究结果表明，用一个在低资源语言上训练的较小模型增强 PaLM2-S，可以在诸如翻译成英语和低资源语言的算术推理等任务上，实现最高 13% 的绝对性能提升。同样地，当 PaLM2-S 与一个专门的代码模型结合时，在代码生成和解释任务上实现了 40% 的相对性能提升 —— 与完全微调的模型相当。

Agent再升级！清华团队提出智能体 GitAgent，可基于 GitHub 自主扩展工具

论文链接：

https://arxiv.org/abs/2401.02412

2.AIGCBench：全面评估 AI 视频生成

AIGC 领域正在快速发展，尤其是在视频生成方面。来自中国科学院、中国科学院大学的研究团队提出了一个综合性、可扩展的基准测试——AIGCBench，专门用于评估各种视频生成任务，尤其是在图像到视频（I2V）生成上。据介绍，AIGCBench 解决了现有基准测试缺乏多样化数据集的限制，包含一个多样化的开放领域图文数据集，可用于在相同条件下评估不同的最新算法。

研究人员采用了文本合成器和 GPT-4 来创建丰富的文本提示，然后通过文本到图像模型生成图像。为了建立视频生成任务的统一评估框架，研究人员的基准测试包括了 11 个指标，涵盖了控制视频对齐、动态效果、时间连贯性和视频质量四个维度。这些指标既包括依赖参考视频的，也包括不依赖视频的，确保了全面的评估策略。

该研究提出的评估标准与人类判断高度相关，为当前 I2V 算法的优势和劣势提供了洞察。AIGCBench 代表了为更广泛的 AIGC 领域创建标准化基准测试迈出的重要一步，为未来视频生成任务的评估提出了一个适应性强且公正的框架。

论文链接：

https://arxiv.org/abs/2401.01651

3.PLLaMa：植物科学领域的开源大模型

大型语言模型（LLMs）在理解和交互自然语言方面表现出了卓越的能力，覆盖了各个领域。然而，它们在需要高精度的专业领域，如植物科学，由于缺乏这些领域的具体专业知识，其有效性受到限制。

来自加州大学圣巴巴拉分校、林肯大学、中国农业科学院、瑞典农业科学大学的研究团队，提出了一个基于 LLaMa-2 构建的开源语言模型—— PLLaMa。据介绍，PLLaMa 通过整合超过 150 万篇植物科学领域的学术文章，大大丰富了自身的知识库，显著提高了 PLLaMa 在植物和农业科学方面的知识深度和专业性。

测试结果显示，PLLaMa 在理解与植物科学相关话题方面有了显著的提升。此外，研究人员组建了一个国际专业团队，包括植物科学家、农业工程师和植物育种家。这个团队在核实 PLLaMa 对各种学术问题的回应的准确性方面发挥了关键作用，确保其在该领域的有效和可靠应用。为了支持进一步的研究和开发，研究人员向科学界开放了模型的检查点和源代码。

论文链接：

https://arxiv.org/abs/2401.01600

4. 清华团队新研究：大模型如何改变心理学研究？

心理学经历了数次理论变革，结合人工智能（AI）和机器学习，特别是大型语言模型（LLMs），正开启一个新的研究方向。

来自清华大学心理学系、清华大学社会科学学院的研究团队，探讨了 LLMs 在心理学应用方面的最新进展。研究人员详细探讨了像 ChatGPT 这样的 LLMs 是如何改变心理学研究的。该论文讨论了 LLMs 在认知和行为、临床和咨询、教育和发展以及社会和文化心理学等各个分支上的影响，凸显了它们模拟人类认知和行为方面的潜力。该论文深入研究了这些模型模仿类人文本生成的能力，为心理学的文献综述、假设生成、实验设计、实验对象、数据分析、学术写作和同行评审提供了创新工具。

尽管 LLMs 在推进心理学研究方法论方面至关重要，但该论文也在技术和伦理挑战方面发出了警告。诸如数据隐私、在心理学研究中使用 LLMs 的伦理影响，以及对这些模型限制的深入理解等问题。研究人员应该负责任地使用 LLMs 进行心理学研究，遵守伦理标准并考虑在敏感领域部署这些技术的潜在后果。总体而言，该论文提供了 LLMs 在心理学当前状态的全面概述，探索了潜在的好处和挑战。

论文链接：

https://arxiv.org/abs/2401.01519

5.Meta 新研究：在语音对话中合成 ” 人类 “

来自 Meta 和加州大学伯克利分校的研究人员，提出了一个可以生成全身逼真化身（avatar）的框架—— Audio2Photoreal，其生成的化身能够根据双方对话的动态做出手势。只要给定语音音频，该框架就可以为个体输出多种手势动作的可能性，包括面部、身体和手部。

据介绍，为了生成更加动态和表情丰富的动作，该方法结合了来自矢量量化的样本多样性和通过扩散获得的高频细节的优点。该方法使用高度逼真的化身来可视化生成的动作，这些化身可以表达手势中的关键细微差别（比如，嘲笑和微笑）。此外，为了推动这一研究领域的发展，研究人员也推出了一种首创的多视角对话数据集，允许进行逼真重建。

实验显示，该模型可以生成适当且多样的手势，表现优于仅使用扩散或矢量量化的方法。此外，感知评估突出了逼真度（与网格相比）在准确评估对话手势中微妙动作细节的重要性。代码和数据集可在线获取。

论文链接：

https://arxiv.org/abs/2401.01885

6.Auffusion：一个新型文本到音频生成系统

扩散模型和大型语言模型（LLMs）方面的相关研究，显著推动了 AIGC 领域的发展。文本到音频（TTA），作为一个新兴的 AIGC 应用，旨在从自然语言提示生成音频，正吸引越来越多的关注。然而，现有的 TTA 研究常常面临生成质量和文本 – 音频对齐的问题，特别是在复杂的文本输入方面。

借鉴最先进的文本到图像（T2I）扩散模型，来自北京邮电大学的研究团队提出了一个新型 TTA 系统—— Auffusion，将 T2I 模型框架适配到 TTA 任务上，有效地利用它们自有的生成能力和精确的跨模态对齐。客观和主观评估表明，Auffusion 在使用有限的数据和计算资源方面超越了以前的 TTA 方法。

此外，以往的 T2I 研究已经揭示了编码器选择对跨模态对齐的重大影响，如细节和对象的绑定，而类似的评估在之前的 TTA 研究中比较缺乏。通过消融研究和交叉注意力图可视化，研究人员对 TTA 中的文本音频对齐情况进行了深入评估。该研究揭示了 Auffusion 在生成与文本描述精确匹配的音频方面的卓越能力，并在音频风格转换和其他操作等相关任务中得到了进一步证明。

论文链接：

https://arxiv.org/abs/2401.01044

7.LARP：开放世界游戏的语言代理角色扮演游戏

语言代理，在确定的环境和短期的时间内已展现出了令人印象深刻的问题解决能力。然而，随着开放世界模拟的复杂性不断增加，人们迫切需要能够灵活适应复杂环境并持续保持长期记忆以确保行为连贯的代理。

为了弥合语言代理和开放世界游戏之间的鸿沟，研究人员提出了角色扮演语言代理（LARP），其包括了一个包含记忆处理和决策助手的认知架构、一个具有反馈驱动可学习行动空间的环境交互模块，以及一个促进不同个性对齐的后处理方法。LARP 框架优化了用户和代理之间的互动，这些代理预先设定了独特的背景和个性，最终增强了开放世界环境中的游戏体验。此外，它还突出了语言模型在娱乐、教育和各种模拟场景中的多样化应用。

论文链接：

https://arxiv.org/abs/2312.17653

8. 清华团队提出智能体 GitAgent，可基于 GitHub 自主扩展工具

虽然 ChatGPT、GPT-4 等大型语言模型（LLMs）在自然语言处理方面表现出了强大的能力，但它们在处理复杂、多方面任务上的效果仍然有限。目前，相关研究主要聚焦于如何让基于 LLM 的智能体使用外部工具来执行多样化的任务，但现有的基于 LLM 的智能体只支持有限的工具集，无法涵盖各种用户查询，尤其是涉及专业领域的查询。

对于基于 LLM 的智能体来说，如何在面对各种用户查询时自主扩展工具仍然是一个挑战。鉴于 GitHub 汇聚了众多仓库资源，一个有希望的解决方案是让基于 LLM 的智能体可以根据用户的查询自动整合 GitHub 上的仓库来扩展其工具集。

为此，来自清华大学、中国人民大学的研究团队提出了 GitAgent，这是一种能够从 GitHub 自主扩展工具的智能体。GitAgent 遵循四阶段流程来整合仓库，并能通过利用 GitHub 的 Issues/PRs 学习人类经验来解决流程中遇到的问题。涉及 30 个用户查询的实验评估结果显示，GitAgent 平均成功率达到了 69.4%，这证明了它的有效性。

论文链接：

https://arxiv.org/abs/2312.17294

9.DeepMind 提出 AutoRT：用大模型更好地训练机器人

日前，Google DeepMind 提出了一种利用大型基础模型更好地训练机器人的新方法—— AutoRT。通过收集更多的经验训练数据和更多样化的数据，AutoRT 可以帮助扩展机器人学习，有助于创建可以理解实际人类目标的机器人。

据介绍，AutoRT 结合了大型语言模型（LLM）和视觉语言模型（LM），以及机器人控制模型（RT-1 或 RT-2），创建了一个可以部署机器人在新环境中收集训练数据的系统。AutoRT 可以同时指导多个机器人在各种环境中执行不同的任务，每个机器人都配备了视频摄像头和一个末端执行器。对于每个机器人，系统都会使用 VLM 来理解其所处环境和视线范围内的物体。接下来，LLM 会为机器人提出一系列可以执行的创造性任务，如 ” 将零食放到台面上 “，并扮演决策者的角色，为机器人选择一个合适的任务去执行。

在长达七个月的广泛实际评估中，该系统可以安全地同时协调多达 20 个机器人，并在各种办公楼中共计协调了多达 52 个独特的机器人，收集了涉及 6650 个独特任务的 77000 次机器人试验的多样化数据集。

图｜1. 一个自主轮式机器人发现了一个放置有多个物体的位置；2.VLM 向 LLM 描述场景和物体；3.LLM 为机器人提出各种操作任务，并判定哪些任务可以在无人协助的情况下完成，哪些任务需要人类远程控制，哪些任务是不可能完成的，然后做出选择；4. 尝试所选任务，收集经验数据，并对数据的多样性 / 新颖性进行评分。重复上述步骤。

此外，Google DeepMind 也表示，在将机器人融入我们的日常生活之前，必须以负责任的态度开发机器人，并开展强有力的研究，证明其在现实世界中的安全性。

他们提道，AutoRT 不仅是一个数据收集系统，也是自主机器人在现实世界中使用的早期演示。该系统设有安全防护栏，其中之一是为基于 LLM 的决策者提供机器人宪法——一套在为机器人选择任务时需要遵守的以安全为重点的提示。这些规则的部分灵感来自 Isaac Asimov 的 ” 机器人三定律 ” ——其中之一是机器人 ” 不得伤害人类 “。此外，安全规则还要求机器人不得尝试涉及人类、动物、尖锐物体或电器的任务。

但是，即使大模型通过自我批判得到正确提示，也无法保证安全。因此，AutoRT 系统包含了来自经典机器人学中的多层实用安全措施。例如，协作机器人被设定为在其关节受力超过给定阈值时自动停止，而且所有活动机器人都处于人类监督员的视线范围内，并设有物理停用开关。

论文链接：

https://auto-rt.github.io/static/pdf/AutoRT.pdf

10.AI 能像人类一样有创造力吗？

创造力评估，是一个复杂且通常具有主观性的任务。随着生成式人工智能（AI）开始完成曾经只有人类才能完成的任务。研究 AI 的创造潜力对于其负责任的发展和应用变得至关重要。

来自新加坡国立大学、斯坦福大学、Google DeepMind 及其合作者，通过引入一个名为” 相对创造力 “（Relative Creativity）的新概念，来讨论定义和评估创造力的复杂性。

研究人员没有试图普遍定义创造力，而是转而关注 AI 是否能够匹配一个假想人类的创造能力。这种观点借鉴了图灵测试，扩展了它来解决评估创造力固有的挑战和主观性。这种方法论的转变促进了对 AI 创造力的统计量化评估，研究人员将其称为 ” 统计创造力 “（Statistical Creativity）。这种方法允许直接比较 AI 与特定人类群体的创造能力。

在此基础上，研究人员讨论了统计创造力在当前以提示为条件的自回归模型中的应用。除了定义和分析创造力的度量，研究人员还介绍了一个可操作的培训指南，有效地弥补了创造力理论量化与实际模型训练之间的差距。该研究为评估和促进 AI 模型中的统计创造力建立了一个连贯、不断发展和变革的框架。

论文链接：

https://arxiv.org/abs/2401.01623