什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

AIGC行业资讯2年前 (2023)更新 管理员
2.4K 0

AIGCAI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。

“新晋流量”ChatGPT的背后,AIGC是“昙花一现”?还是将引领人工智能进入新的时代?「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。

01 技术前瞻

WavBriVL:“音生图”多模态模型

声音和视觉在许多领域影响着人们的核心认知,如感觉、信息处理和交流,声音和视觉密切相关。但现有的大多数方法只有单一的认知能力,有些方法只研究文本视觉、文本语音等。如今,研究人员已经逐渐意识到,在某些情况下,大规模互联网数据上的自监督预训练优于高质量/人工标记的数据集,多模态/大模型比单模态或双模态/小模型更好。

悟道·文澜 BriVL 是首个公开的中文通用图文预训练模型,是一个类似于 CLIP 的文生图模型。该研究提出了一种基于 BriVL、具有鲁棒性的音频表示学习方法——WavBriVL。这一方法将音频、图像和文本投射到共享的嵌入式空间中,从而实现多模态应用。

据介绍,WavBriVL 可以输出相对相关的音频表示,且可以用于解决多模式任务,如音频生成图像。下图展示了分别使用 Wav2CLIP 和 WavBriVL-x 从 AudioSet 中的 5 个音频生成的图像。在未来的工作中,团队将探索利用跨模态(音频到图像)生成功能的可解释机器学习方法,并考虑尝试微软的文本语音融合模型 SpeechLM 和 Diffusion 模型,作为这项工作的下一个版本。

什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

论文链接:

https://arxiv.org/abs/2303.04585

AI换脸新方法:更高雅、更实用

近来,StyleGAN 模型使得基于风格转移的人脸交换方法得到了广泛的研究。然而,这些研究需要单独的人脸分割和混合模块才能成功完成人脸交换,且这些工作在高维语义空间上对特征的选取较为鲁莽,降低了人脸交换的质量、可推广性和实用性。

该研究提出了一种新颖的、端到端的综合框架,用于通过自适应延迟呈现学习(ALL)优雅地生成高分辨率和高质量的人脸交换。实验结果表明,与基准和最先进的 AI 换脸方法相比,使用这一框架生成的图像在裸眼效果和定量度量方面得到了改进。如下图所示,左边的人脸作为输入,中间的作为目标框架,右边的是最终被转换后的人脸。

什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

论文链接:

https://arxiv.org/abs/2303.04186

Visual ChatGPT:可以图文互动的ChatGPT

ChatGPT 吸引了跨领域的兴趣,因为它提供了一个语言界面,具有卓越的对话能力和跨领域的推理能力。然而,由于 ChatGPT 是用文本语言训练的,目前还不能处理或生成视觉世界的图像。同时,视觉基础模型,如 Visual Transformers 或 Stable Diffusion,虽然表现出了强大的视觉理解和生成能力,但只是特定任务的专家,有一个固定的输入和输出。

该研究提出了一个名为 Visual ChatGPT 的系统,其中包含不同的视觉基础模型,以使用户能够通过以下方式与 ChatGPT 互动:

(1)不仅发送和接收语言,而且还发送和接收图像;

(2)提供复杂的视觉问题或编辑指令,这需要多个 AI 模型的多步骤协作。

(3)提供反馈并要求纠正结果。

通过设计一系列的提示,将视觉模型信息注入到 ChatGPT,考虑到多输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT 为研究 ChatGPT 在视觉基础模型帮助下的视觉作用打开了大门。

什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

论文链接:

https://arxiv.org/abs/2303.04671

从Copilot到Pilot,AI程序员靠谱吗?

Copilot/Codex(Github/OpenAI)和 AlphaCode(DeepMind)等大型代码语言模型的引入和成功表明,AI 支持的编程时代已经到来。现在,这些大模型在编程方面的表现超过人类平均水平是可能的。然而,软件工程远不仅仅是解决编程竞赛的问题。从代码完成到 AI 支持的软件工程将需要一个 AI 系统,能够理解如何避免代码异味(如重复的代码或过大的类),遵循语言习惯,并最终提出合理的软件设计。

该研究探讨了像 Copilot 这样的 AI 支持的代码完成工具目前的局限性。在大多数测试场景中,Copilot 没有遵循语言习语,也没有避免代码异味。然后,改研究也进行了额外的调查,通过引入软件抽象层次结构的分类法来确定 Copilot 等 AI 支持的代码完成工具的边界,其中代码编译和语法检查等“基本编程功能”处于最低抽象级别,软件架构分析和设计处于最抽象的层次。最后,该研究讨论了 AI 支持的代码完成工具在未来需要面临的挑战。

什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

论文链接:

https://arxiv.org/abs/2303.04142

02 企业动态

微软:Bing活跃用户突破1亿,感谢AI聊天和Edge浏览器

微软在发布的博客中写道:“我们很高兴地与大家分享,经过多年的稳步发展,加上数百万 new Bing 预览用户的推动,我们的 Bing 每日活跃用户已突破 1 亿。”

此外,微软还表示,在新 Bing 预览版的数百万活跃用户中,有大约三分之一是 Bing 的新用户。他们将这种增长归功于他们“对搜索的重新定义”,即将搜索 + 答案 + 聊天 + 创造(Search + Answers + Chat + Creation)整合起来。一个月前,微软使用 OpenAI 的大型语言模型在“有限预览”中推出了 Bing 聊天机器人,并对该机器人的行为进行了多项更改,以应对其有时奇怪且具有威胁性的对话。

参考链接:

https://blogs.bing.com/search/march_2023/The-New-Bing-and-Edge-%E2%80%93-Momentum-from-Our-First-Month/

微软:可以在Azure OpenAI服务中使用ChatGPT

微软宣布,可以在基于云计算操作系统 Azure 上的 OpenAI 服务中使用 ChatGPT。通过 Azure OpenAI 服务,超过 1000 名客户正在应用最先进的 AI 模型—包括 DALL-E 2、GPT-3.5、Codex 以及其他由 Azure 独特的超级计算和企业能力支持的大型语言模型。开发者可以将定制的 AI 驱动的体验直接整合到他们自己的应用程序中,包括增强现有的机器人来处理突发问题,以实现更快的客户支持解决方案,创建具有个性化优惠的新广告副本等。

参考链接:

https://azure.microsoft.com/zh-cn/blog/chatgpt-is-now-available-in-azure-openai-service/

苹果用户可在Apple Watch上和ChatGPT互动

近日,苹果公司批准通过了适用于 Apple Watch 的应用程序 watchGPT 上线,watchGPT 目前在 App Store 上的售价为 3.99 美元或者 4.99 欧元。苹果方面介绍,用户可以直接在 Apple Watch 上和 ChatGPT 互动,无需键入即可快速获得问题的答案或生成相关消息,用户还可以通过短信、电子邮件或社交媒体向他人分享与 ChatGPT 互动的记录等。

参考链接:

https://9to5mac.com/2023/03/08/apple-watch-gets-chatgpt-watchgpt/

Salesforce 启动迄今为止规模最大的 AIGC 风投基金

云计算巨头 Salesforce 的风险投资部门正在启动一项 2.5 亿美元的基金,这是迄今为止规模最大的 AIGC 风投基金。Salesforce 服务云首席执行官 Clara Shih 表示,该基金将专注于“培育下一代生成 AI 初创公司”。

同时 Salesforce 表示,将发布 Einstein GPT,将 OpenAI 的生成式 AI 技术添加到其自身的 AI 产品 Einstein 平台上。该服务可以在销售、服务、营销、商业和 IT 互动中提供 AI 创建的内容,从而帮助销售人员、客服代理和营销人员完成工作。

参考链接:

https://www.salesforce.com/products/einstein/overview/?d=cta-jumbotron-2-ungated-einstein-gpt

AIGC独角兽Stability AI酝酿新一轮融资,估值或达近40亿美元

据 Bloomberg 报道, AI 文生图模型 Stable Diffusion 的母公司、英国开源人工智能企业 Stability AI 正寻求以近 40 亿美元的估值筹集资金。据悉,该公司尚未就是否启动新一轮融资做出最终决定,估值仍可能发生变化。Stability AI 在去年 10 月宣布获得 1.01 亿美元融资,由 Coatue Management、Lightspeed Venture Partners 和 O’Shaughnessy Ventures LLC 投资,当时对 Stability AI 的估值约 10 亿美元。

参考链接:

https://www.bloomberg.com/news/articles/2023-03-03/openai-rival-stable-diffusion-maker-seeks-to-raise-funds-at-4-billion-valuation

03 政策法规

证监会科技监管局局长姚前:建议重点发展基于 AIGC 技术的合成数据产业

中国证监会科技监管局局长姚前在《中国金融》杂志撰文称,建议重点发展基于 AIGC 技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向 AI 未来发展的数据优势。在强化数据要素优质供给方面,应统筹兼顾自立自强和对外开放。可考虑对 Wikipedia、Reddit 等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用。

04 专家观点

现代语言学之父诺姆·乔姆斯基:ChatGPT 并非真正的智慧

人脑不像 ChatGPT 及其同类产品那样,是一个笨拙的模式匹配统计引擎,吞噬数百 TB 的数据并推断出最可能的对话响应或最可能的科学问题答案。相反,人的大脑是一个非常高效甚至优雅的系统,只需要少量信息即可运作;它不寻求推断数据点之间的直接相关性,而是寻求解释。

实际上,此类程序停留在认知进化的前人类或非人类阶段。他们最深的缺陷是缺乏任何情报最关键的能力:不仅可以说出情况是什么、已经发生了什么以及将要发生什么——这是描述和预测——而且还可以说出什么不是这种情况以及可能发生什么事实并非如此。这些是解释的成分,是真正智慧的标志。

参考链接:

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

浙商证券:AI 行业发展提速,人形机器人商业化未来可期

近日,浙商证券在研报中指出,ChatGPT 作为 AIGC 领域的顶尖模型,有望对现有生产力工具进行变革,其商业化有望加速推动语言 AI 及 AI 领域整体的显著进步。人机交互系统作为人形机器人的“大脑”,语音语义分析作为人机交互核心途径,可帮助机器人具备听、说、理解和思考的能力。伴随人机交互技术逐渐成熟,人形机器人商业化未来可期。核心零部件占比工业机器人成本约 70%,人形机器人相较于传统工业机器人,自由度大幅提升,预计将使用比工业机器人更多的减速器与电机,核心零部件(减速器、伺服电机等)需求有望大幅提升。

    © 版权声明

    相关文章