从生成内容层面AIGC可分为五个方面:。
1,文本生成,基于NLP的文本内容生成根据使用场景可分为非交互式与交互式文本生成,非交互式文本生成包括摘要/标题生成,文本风格迁移,文章生成,图像生成文本等,交互式文本生成主要包括聊天机器人,文本交互游戏等。
2,图像生成,图像生成根据使用场可分为图像编辑修改与图像自主生成,图像编辑修改可应用于图像超分,图像修复,人脸替换,图像去水印,图像背景去除等,图像自主生成包括端到端的生成,如真实图像生成卡通图像,参照图像生成绘画图像,真实图像生成素描图像,文本生成图像等。
3,音频生成,音频生成技术较为成熟,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2,还可应用于文本生成特定场景语音,如数字人播报,语音客服等,此外,可基于文本描述,图片内容理解生成场景化音频,乐曲等。
4,视频生成,视频生成与图像生成在原理上相似,主要分为视频编辑与视频自主生成,视频编辑可应用于视频超分(视频画质增强),视频修复(老电影上色,画质修复),视频画面剪辑(识别画面内容,自动场景剪辑)。
“AIGC+少儿教育”是不错方向,例如少儿绘画,少儿编程,AIGC绘本,AI讲故事等,附上了OsmoMOnsters等4个相关产品信息链接,不过教育场景,生成可控性需要严谨可控。
“AIGC+医疗”方向,比如手术效果模拟,产品视角看有机会,不过其实有团员在前公司已做过MVP,但效果不够好(数据问题,用户接受度不高,算法还不能实现定向编辑)。
大厂基于内部业务衍生出AIGC2B服务,比如很多互娱/广告客户,上来就是“我要抖音同款”,另外,计划通过标品去收更多定制化需求。