近一百年来,人类经历了多次重大科技进步。特别是20世纪末以来的历次信息技术革命,极大地改变了文史研究的工作方法。2022年以来,以ChatGPT为代表的通用人工智能再一次冲击了人们对于技术与人文学术关系的想象。
提升史料释读
chatGPT等通用人工智能主要被视作“大型语言模型”(large language model),其基本原理是以大规模的自然语言数据对人工智能进行训练,并通过人工监督与机器监督对人工智能的语义理解提供反馈,从而令人工智能根据人类的输出指令拟合并反馈符合人类语义的内容。这也即所谓的生成式人工智能。近年来兴起的生成式人工智能之所以表现出令人印象深刻的自然语言理解能力,是因为不断更新的算力设备使得人工智能能够计算更多的参数,从而更贴近对自然语言与社会环境的模拟。chatgpt等生成式人工智能的参数量均在百亿级以上。
自生成式人工智能兴起以来,历史学研究已经在两方面进行了探索。一是史学理论层面。生成式人工智能是否能够自主地提出历史认识论,或者挑战我们既有的历史认识论?二是生成式人工智能的各种应用方式在哪些方面会改变既有的历史学研究方法?
关于以上问题,我们的初步回答有两点。第一是生成式人工智能还不能自主地提出历史认识论。有的历史学家向chatgpt提问“历史学是否是科学?”chatgpt只能反馈来自常见历史学理论著作中的典型解释。受到既有监督学习策略的影响,生成式人工智能在回答认识论类型的问题时更为保守。但也有的历史学家提出警示,生成式人工智能生成的文本已经很难区别于人类书写的文本,这将对未来的历史学家提出严峻挑战。
第二是人工智能为历史学家提供了更有效的文本挖掘、比勘史料、公共历史实践的工作方法。人工智能能够很好地理解自然语言,可以进行大规模史料的“鸟瞰式”处理。其一是文本挖掘。人工智能能够快速扫描大量文本,识别关键词、主题和人物关系,帮助学者发现传统方法难以察觉的线索。例如,研究人员可以通过训练NLP模型,从成千上万封历史人物的信件中自动提取关键信息,分析他们的思想和人际交往网络。其二是基础史料理解。随着图像识别技术的发展,人工智能可以辅助识别和解读古代文献中的复杂文字。一些研究团队正在开发人工智能模型,可以自动识别甲骨文和敦煌文书,帮助历史学家更深入地理解这些珍贵史料。其三是文本情感分析。人工智能能够分析文本中的情感倾向,帮助历史学家理解历史人物的心理状态和社会舆论走向。如研究人员可以通过训练人工智能模型,分析奏折、书信等文献中所表达的情绪。
历史研究的重要辅助工具
历史学研究不仅需要对史料进行释读,更重要的是发现史料之间的关联。那么,人工智能能否为史料的比对与关联分析提供帮助呢?答案是肯定的。首先,人工智能能够发现不同历史资料之间的潜在关联,帮助学者构建更加完整的历史图景。如研究者可以通过给出具体的提示词,使用人工智能帮助比较不同的史料系统,从中发现差异与关联。其次,人工智能也更擅长从大规模文本中识别与提取可分析的数据。如将史料中以文字描述的数字转写为可计算的数据序列,或者对史料中出现的年份、计量单位等进行换算,又或者对史料中出现的人名、地名、职官名等进行统计、标记,乃至自动查考。不过,这一过程也对研究者提出了更高要求,即研究者必须注意到生成式人工智能在进行文本的关联探索方面可能存在的事实错误,从而更谨慎地面对这些生成内容。与此同时,研究者也需要学习更多的提示词技巧,以提高生成内容的效用与准确性。
在史料编纂与可视化方面,人工智能也能为历史学研究提供更多帮助。在既有的数字人文研究中,构建知识图谱是将史料中的人物、事件、空间、制度等信息进行关联与再分析的通用方法。对不少历史研究者来说,构建知识图谱存在一定的知识门槛,也需要更多的人力投入。而生成式人工智能可以在恰当的提示词引导下,较为便捷地完成这一工作。
此外,运用人工智能进行“历史模拟”也正在成为历史学教学与公共历史实践积极探索的方向。加州大学圣克鲁斯分校的历史学家本杰明·布林就将生成式人工智能引入课堂,通过在人工智能中置入相关史料并调整参数,学生可以模拟某个具体历史情景中的人物,在做出不同决策时得到不同的反馈,而这些反馈则依据相应的史料生成。
简言之,人工智能在处理史料的数据提取、统计分析以及语义理解方面展现出了强大的潜力。它可以快速、准确地处理大量非结构化文本,进行信息提取、关联分析等,从而为历史学研究提供有价值的辅助工具。通过模式识别和统计分析,它能够从文本中发现信息并作出推测,甚至能够进行一定程度的史料解读。
但值得注意的是,史料学仍然是历史学工作方法的核心。使用者知道如何运用准确的提示词引导人工智能完成史料考证工作,先决条件仍然是他已经受过完整的历史学方法训练。并且这还需要使用者具有史料搜集能力——这在很多历史学研究过程中恐怕是运气、史识与勤奋的结合——以便给人工智能提供更多通用训练数据之外的资料进行逻辑推断。
与历史学研究良性互动
人工智能为历史学研究提供的增益显而易见,但历史学家在人工智能环境中还有很多需要探索的工作方法,以及需要认真对待的挑战。与人工智能在其他领域的应用一样,生成式人工智能并不能对历史学相关输出内容的真实性进行检验,并且这些生成内容大多与既有的学术文献存在某种关联。因此,研究者在使用人工智能的生成内容时,需要在真实性检验方面更为谨慎。同时也需要考虑学术伦理问题,不仅是避免由此可能造成的不当引用,也包括人工智能生成内容如果置入学术文本可能存在的伦理风险。科学期刊nature在2023年即发表专文讨论了生成式人工智能应用于学术研究可能引发的伦理风险。这方面的问题同样值得人文学者思考。
此外,生成式人工智能的确能够提升历史学的研究效能,历史学界有必要探索面向整个学术共同体的研究技能,令生成式人工智能真正帮助历史学的发展。2023年至今,台湾“中研院”近代史研究所郭廷以图书馆上线了系列研究指南《历史学者如何应用chatgpt》,分别从历史教学与辅助研究两方面列举了诸多应用实例。这是值得借鉴的经验。同时,在产业界与自然科学界,针对一些较为常见的应用场景构建通用提示词,已成为日渐流行的做法。好的提示词集既能有效辅助历史学研究,也能在历史教学中发挥作用。相关高校与科研机构应尽快发布面向历史学研究的专用研究指南与提示词集, 从而推动人工智能发展与历史学研究的良性互动。
总之,生成式人工智能对产业发展与学术研究的影响无远弗届,历史学自然不可能置身事外。过去两年学界的探索也显示出生成式人工智能的确能在史料处理与历史教学方面发挥相当大的效用。但毫无疑问的是,面向历史提出有意义的问题,从人类社会的主体性出发探究历史,需要历史学家发挥其史识与史才。这也是人工智能时代历史学家特别值得思考的问题。