跨学科团队开辟数字人文的清华路径
新清华 2026年01月16日 第2390期 人文清华
●学生记者 王一竣

图片设计/梁晨
五年系统攻关,数十项基础设施,近百篇论文成果,其中二十余篇发表于《中国社会科学》及国际计算语言学年会等知名期刊和会议……当《全唐诗》的声律规则被算法模型所重构,当《红楼梦》的知识来源被文本相似度分析所发现,当“大数据技术与传统文献学的现代转型”和“文献学的数字化转向”等重大命题首次得到系统深入阐释,古典文学文献的研究范式正在发生深刻变革。
由清华大学人文学院院长、数字人文研究中心主任刘石教授带头的国家社科基金重大项目“基于大数据技术的古代文学经典文本分析与研究”于2025年结项并获“优秀”等级。作为国内首个系统实现“古典文学+大数据”深度融合的标志性成果,该项目构建起以数据聚合、技术聚合、知识聚合、向量聚合为全链条的方法体系,为人文学科在数字人文和人工智能时代的创新发展提供了全新方案。
刘石指出,随着人工智能与大数据技术的深入应用,古籍整理研究正从电子化、数字化迈向知识化、智能化。这一转变意味着,古籍这一传统文化的客观载体,将在重构知识体系、激发学术创新、服务数字强国建设等方面发挥前所未有的重要作用。
可校验的阅读:
从古籍数字化到古典文学文本新勘
选择古籍作为数字人文研究的突破口,并非历史与未来的偶然交互,而是因为它本身的独特客观性。“古籍本身就是一个相对独立、边界清晰的客观存在。”项目团队成员、人文学院李飞跃教授说,“它在研究上偏重求实求是,加上近年古籍数字化的迅猛发展,为数字人文探索提供了理想对象。”
起初,团队只是探索如何让古典文学文献的材料处理更高效,主要聚焦“一部典籍作品的核心实体如何抽取,其频次特征如何分布?”“其篇章结构、词汇语法有何规律?”等问题。但在此过程中他们发现,数字技术的潜力远不止于“测量文本”,更在于“理解文本”乃至“重现现场”。于是,团队用主题模型分析古典文学文本的风格聚类,用社会网络理论勾勒作家的交游脉络,用概念分析追踪思想演变,甚至结合地理信息系统与天文软件还原文史时空现场。
截至项目结项,团队已建成多模态语料库,涵盖经史子集四部文献文本及全球古籍影像数据。在刘石的统筹下,六大子课题协同推进,构建起深度交叉融合的学术创新合作体系,并产生了一系列具有广阔应用场景的发明专利。
其中,子课题一聚焦大数据时代的古代文学文本分析技术,统计系邓柯副教授主持开发了“Top WORDS”中文无监督分词算法与古文命名实体识别模型,让机器“读懂”古籍中的上下文语义脉络。子课题二构建基于人工智能技术的古典诗歌数据库与分析系统,计算机系孙茂松教授主持研发和训练了“BERT-CCPoem”古诗文模型,让算法会“听”诗、也能“写”诗。子课题三建设以事件库为核心的作家生平数据库,联通人物、纪年与地名等信息,让古代作家的生命轨迹与历史脉络在时空框架中叠加重现。子课题四用计算风格学方法重读明清小说,构建文本语料与戏曲词表,揭示不同时期文学风格的演变。子课题五结合复杂网络理论,以量化分析挖掘人物关系与话语结构。子课题六聚焦古典诗歌的形式研究,构建智能分析系统,让传统诗学理论得到量化检验与可视化呈现。
同时,项目组在基础设施层面进一步整合成果,构建了多层次、开放共享的数字人文基础设施体系:“全球汉籍影像开放集成系统”“中国古典文献资源导航系统(奎章阁)”“时间轴知识图谱”等,为古典文学文献的知识化、智能化探索奠定了坚实基础。
重识经典:
以算法拓展文学研究新范式
算法的融入让古典文学研究从主观抽样走向客观实证,从经验分析走向多维量化,变得有标准、可验证与可累积。
项目团队以《全唐诗》为对象,建立了兼容“广韵”和“平水韵”两种古代押韵体系的声律数据库,用计算方式重新审视唐诗的声律规范。研究发现,唐诗格律的演变并非一条直线,而是在多种声调组合中不断试探与平衡,最终才形成今人所见的面貌。而在诗学语义层面,算法还揭示出李白、杜甫对《昭明文选》的创造性化用——二人系统性借鉴前人诗句,通过重新组合、语义转化,形成了各自的独特风格。这一发现让“灵感”有了可验证的依据,还让今人更深刻地体会到,“诗仙诗圣”不仅是天生之才,更是文化记忆与学习积累的再创造。
“当我们再看一首诗时,看到的已不仅是文本本身,而是它在更高维度空间中的位置与联系。”李飞跃说。数字人文让文本从线性平面进入高维网络,在文字、声音、图像等多模态关联中被重新理解。这种“高维阅读”让经典重新焕发生命力,也让我们以新的方式理解文学的生成逻辑。
这些突破性成果的背后,是一场跨越学科壁垒的集体探索。项目在中文系牵头下,联合计算机系、统计系等多学科师生,共同探索古代文献在数字时代的创造性转化。研究的难点不在算力,而是标准——如何让算法理解古人的语言与情感,如何在计算中保留文学的细微与复杂。每一次分词、每一次模型校验,都是人文经验与技术方法的双向磨合。
数字人文的价值,正是在经验与技术、算法与文本的往复对话中,让理解重新获得证据,也让数字被重新赋值。
从人文引领到文明传播:
数字人文的清华路径
李飞跃认为,人文学科不能因其特殊性规避一般性,也应引入过程可重复、数据可验证、方法可复用、结论可推广的研究方法。当“全面、精确、可验证、可重复”成为学术的基本逻辑,人文学科不得不思考:在一个被量化的世界中,如何安放“人文”的位置?
清华数字人文研究走出这样一条路径:不是用技术取代人文,而是从人文问题出发,进行知识和价值的对齐。项目组成员、人文学院唐宸副教授认为:“机器制定的规则与有经验的人文学者制定的规则会相互补充,数字人文要找出它们的共性与可通约性。”在人文与算法的循环中,前者提供理解与判断的维度,后者提供计算与验证的能力。
以古文语料的分词与命名实体识别为例,算法生成统计模式,而人文学者依据语法传统与语义经验不断校正模型,使其能够识别古代文本中格律、修辞与语境的复杂性。正是在这种互补中,技术的精确与人文的洞察相互校正。数字人文由此成为一种新的方法论——在数据中重建人文的尺度。
这种由人文定义技术的研究方式,也让数字人文超越学术范畴,走向文化交融与文明互鉴。例如,“全球汉籍影像开放集成系统”可以一键检索全球中文古籍影像,跨越国界建立知识关联。
自2017年举办首届数字人文国际工作坊,到2025年成立数字人文研究中心,清华数字人文团队逐渐构筑起以国家社科基金重大与重点科研项目、《数字人文》集刊、国际学术论坛、本研课程与未来学者培育、门户网站与智能平台建设为核心的数字人文学术链,在交叉学科的深水区开拓创新,推动传统人文学科在智能时代的数字化转型和发展。
2025年11月,随着中华传统文化智能实验室获批教育部第二批哲学社会科学实验室,清华数字人文团队工作进入了新的阶段。实验室将致力于加强跨学科、跨领域协同创新,结合大数据和人工智能等新技术手段,打通出土文献、传世文献与现代学术文献,创建“中国古典知识库”与“中华传统文化大模型”,以服务数字中国和教育强国建设,推动中华优秀传统文化创造性转化和创新性发展。