前几天OpenAI的老板说,目前还没有在未来半年训练GPT-5的计划。
所以年内不大可能会有新版本的ChatGPT了。
这对国内其他语言大模型(LLM)来说是个好消息:指不定可以利用这个时间窗口,弯道超车。
但我还是没那么乐观。
前几天跟我以前的技术合伙人聊了聊,他说他挺认同 「中文语料质量比较差」的观点。
英文有句谚语叫「We are what we read」(我们是我们读的书的总和)。
而AI这东西跟人一样,输入AI的语料库的质量决定了它输出的质量。
如果输入的数据都是垃圾,那输出的也都是垃圾(Garbage in, garbage out)。
所以从这个角度,在LLM方面,中文语境为主的国内厂商要弯道超车可能还是比较难。
So, 中文互联网真的没有好内容吗?
很多人之所以这么论断,主要还是因为中英的内容数量本身就不在一个量级——
毕竟英国当年在殖民过程中,硬是把英文给传播成了主流的国际通用语言;另外就是现在的第一经济体美国也讲英文。
学术领域主流期刊大部分都是英文的;大多数编程语言呢又都是英文为主体的……
另外,AI处理中文的能力本身也会弱一些——
比如中文没有过去时、现在时、未来时,在时态上的判断就要难一点。
再比如英文本身就自带空格分词,而中文的分词则没那么简单。
因此呢,说「中文语料库」不行,好像还是有点道理。
另外,这些年还有个趋势——
结合身边大多数人的感受, 这些年网上的深度内容确实越来越少了。
其实十年前,简中互联网也曾经有过good old days——
知乎刚创立的时候,大把优质问答内容,每个人都用写paper的心态来写回答,而不是现在的段子和刚编的故事;
微博大V虽然时不时会带风向,但大家的观点进行碰撞后,倒也可以产生不少火花。
而后来,互联网渗透率提高了……
这会导致两个后果——
一个是 大V的影响力、传播力变大了。
以前说错话没什么社会影响,毕竟网民的基数也不多。
而现在互联网不再是什么法外之地……
从监管方的角度,内容安全审核的必要性也越来越重要。
所以你会发现,当年那些所谓「公知」们,基本都失去了表达欲。
另一个是非知识类输出变多了。
玩互联网的不止受教育程度高的「公知」们了,普通人也有了发言权。
网络内容的产出门槛其实很低,从博客BBS年代开始,普通人随随便便就可以编一堆假新闻(何况现在还有ChatGPT助力)。
另一方面,营销号们也会主动迎合大众市场的口味。
这导致现在遍地都是三种内容:情绪、娱乐、对立(阶级/性别/民粹),分别对应三种流量密码。
前面两者至少还有情绪价值,对立则会让我们内部消耗。
此消彼长,中文互联网内容质量下降也是正常。
Anyway,我觉得说「中文语料库不行」的人,更多还是想发泄情绪上的不满吧。
毕竟AI的学习,也不是囫囵吞枣,还是会做数据清洗的。
另外,虽然互联网普及率上来了,但算法也造成了信息茧房。
你要完全屏蔽非知识类内容也不是没有办法。
还有就是,追求认知提升的人们总会想到自己的新去处。
比如我身边有很多朋友都很喜欢用Podcast/播客——浮躁的多数人是没法静下心来收听严肃内容的。
🤑
「Greed is good.」
「很帅的投资客」的所有内容皆仅以传递知识与金融教育为目的,不构成任何投资建议。一切请以最新文章为准。
图文/狐狸
Icon/freepik from flaticon
主创/ 肖璟,@狐狸君raphael,曾供职于麦肯锡金融机构组,也在 Google 和 VC 打过杂。华尔街见闻、36氪、新浪财经、南方周末、Linkedin等媒体专栏作者,著有畅销书《风口上的猪》《无现金时代》。
📚 参考资料/
《快讯|网信办整治饭圈乱象:打击挑动对立、粉丝互撕、拉踩引战、诱导未成年人集资等行为》《国家网信办:严厉打击网上恶意损害企业和企业家形象声誉等违法违规行为》《ChatGPT插件下周全面开放,这是首个官方认证的“投资Plugin”》《Usage statistics of content languages for websites》