AI见闻：机器人看YouTube学会做家务，大规模视频训练机器人要火了！

AIGC行业资讯2年前 (2023)发布编辑员

1.4K 0 1

1、机器人看YouTube学会做家务，大规模视频训练机器人成为重要路径；

2、AI果不其然对视频下手了，十秒剪视频，Whisper模型让每个人都能成为“剪辑师”；

3、开源大模型明星更新第二版：ChatGLM2-6B推理更快文字更长，允许商用授权；

4、PrivateGPT 开源模型可实现不连网提问；本地部署未来空间大；

5、李彦宏表示：百度文心大模型推理速度提升17倍；

每日见智AI

1、机器人看YouTube学会做家务，大规模视频训练机器人成为重要路径

CMU机器人研究所助理教授Deepak Pathak展示了一种视觉机器人桥方法（VRB）；通过让机器观看人类行为方式的视频完成行为模拟，并验证了该方法的有效性。

视频中机器人下观看了几个人类开抽屉的视频后，”CMU指出，“机器人可以确定如何打开任何抽屉。

CMU依赖于来自Epic Kitchens和Ego4D等数据库的视频，后者拥有“来自世界各地的近4小时的以自我为中心的日常活动视频”。

见智点评：

这种方法的关键在于利用大规模的视频数据来训练机器人，并从中学习人类行为和操作。这为机器人的应用提供了更广泛的可能性，可以通过观察互联网和YouTube等视频来获取更多的训练数据。这种方法可以改进机器人的操作能力，并为机器人在日常生活中的应用提供更多的机会

2、AI果不其然对视频下手了，十秒剪视频，Whisper模型让每个人都能成为“剪辑师”

荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发了视频剪辑新功能，现在剪视频能够精准到每个字。

在平台上可以对上传的视频内容进行同步文字转化，只需要选择留下的文字，然后就可以直接生成所需的片段。使用过程非常简单，可累比相机界的“傻瓜相机”。

见智点评：

AI应用层出不穷，此前主要是AI生成图片内卷非常严重，几乎是每周都有重要更新，现在这个迭代速度已经开始向视频领域蔓延，这个小白剪视频的功能让剪视频门槛大大降低，同时节省了很多制作时间，效率优化超过90%，对于视频创作行业来说具有重大影响。

3、开源大模型明星更新第二版：推理更快文字更长，允许商用授权

清华大学KEG和数据挖掘小组（THUDM）发布了第二代ChatGLM2-6B；

相比第一代ChatGLM2-6B来看，二代在几项测评中都有了不同程度的提高：

a、特别是数学推理能力提升幅度571%；

b、支持更多轮次的对话，并且文字长度限制也从2K提升至8K；

c、更快的推理能力，相比第一代速度提高42%；

d、向学术研究全面开放，并且允许申请商用授权；

见智点评：

ChatGLM2-6B是国内最强的开源大模型，本次更新具有重大意义，特别是在数学推理能力、对话长度和轮次、推理速度等方面的优化，将对数学教育、学术研究、商业应用等领域产生积极影响。

4、PrivateGPT 开源模型可实现不连网提问；本地部署未来空间大

开发者Iván Martínez Toro发布了PrivateGPT开源模型，该模型允许用户在无需互联网连接的情况下，通过提供自己的文档来向模型提问。

PrivateGPT可以在家用设备上进行本地运行，使用前需要下载名为”gpt4all”的开源大语言模型（LLM）。用户需要将所有相关文件放入一个目录中，以供模型引入所有数据。完成LLM的训练后，用户可以向模型提出任何问题，它将使用提供的文档作为上下文来回答。PrivateGPT能够处理超过58000个单词，目前需要大量本地计算资源（推荐使用高端CPU）进行设置。

Toro表示，当前PrivateGPT处于概念验证（PoC）阶段，它至少证明了可以在本地创建类似于ChatGPT的大模型。可以预见，一旦这种PoC转变为实际产品，PrivateGPT将具备让公司获得个性化、安全和私密的ChatGPT来提高生产力的潜力。

见智点评：

PrivateGPT开启行业对本地化部署的重视程度，这对于那些关注数据隐私和安全的行业和个人非常重要。通过本地化部署，用户可以更好地控制和保护他们的数据，减少了数据泄露和侵犯隐私的风险；开源模型和本地化部署将在未来产生积极的影响。

5、李彦宏：百度文心大模型推理速度提升17倍

在世界互联网大会数字文明尼山对话上表示：新的国际竞争战略的关键不在于一个国家拥有多少个大模型，而是看这些大模型能够应用于多少原生AI应用，并在多大程度上提升了生产效率。

他还透露，百度文心大模型已经更新到3.5版本。相比于3.0版本，新版本的训练速度提升了2倍，推理速度提升了17倍，并且模型的效果总体上提升了超过50%。在数据质量、生成效果和内容安全性方面都有明显的提升。