标题

标题

作者

关键词

日期

搜索
您现在的位置:首页 > 学术成果 > 学术论文

梁晨:在数字史学中注入思想穿透力

作者:梁晨 来源:《历史评论》 发布时间:2021-07-29 字体: 打印
作者:梁晨 来源:《历史评论》
发布时间:2021-07-29 打印

 

 

 

 

史学研究包含认识史实和诠释史实两个层面,前者当以科学为圭臬,后者须以人文为要义。数字技术乃至人工智能技术确实可以为历史学者提供一定的“武器”或方法,但无法使史学脱离基本的轨迹,更不能取代研究者理解、诠释历史的工作。

近年来,网络数字技术的发展推动了数字史学的勃兴。面对骤起的新潮,历史学者不禁思忖,数字技术乃至人工智能的引入,究竟会为传统史学研究开辟怎样的一番新天地?历史研究是否将就此迈入智能化时代?

数字技术提供新机遇

网络技术方法的引入,给史学研究带来“智能化”特征。最初,史学家认为数字技术的影响,主要体现为史料存储形态的变革。史料是历史研究的基础,电子化的史料实现了永久保存和网络化开放利用,极大拓展了历史学者利用史料的范围。如今,数字技术的影响早已超越史料存储层面,向着自动或半自动检索、搜集史料甚至研读史料的层面迈进,使得历史研究呈现“智能化”的新态势。

首先,在技术的帮助下,历史学者能够从众多可检索文献数据库的海量史料中精准、高效地抓取信息。例如笔者开展的1909—1929年清华留美生职业发展研究,其重点和难点是尽可能多地掌握清华留美学生的职业信息,以研究这一群体的职业发展。如果采用纯人工方式,在多个数据库中逐一检索所有清华留美生信息,哪怕对相关人物和史料比较熟悉,但跨越晚清民国报刊数据库、抗日战争与近代中日关系文献数据平台、《申报》数据库、读秀学术搜索、CNKI 工具书馆等多个数据库进行广泛搜集,完成一个年度的留美生信息搜集与核对往往需要花费3个月左右的时间,全部完成大约需要5年之久。而使用Python编程软件编写数据采集和整理程序,依据清华留美生姓名等信息,在多个文献数据库中进行自动化数据搜集,只用一年时间,就在总计8286种材料中发现有清华留美生个人信息,平均每个留美生使用了近8种材料,职业信息从最初平均每人0.6个增长到约7.3个。

 

由中国历史研究院近代史研究所建设的“抗日战争与近代中日关系文献数据平台”,采取“汇多库于一”的融合模式,上线内容涵盖档案、图书、报纸、期刊、图片、音频、视频、研究性著作等,在深入挖掘抗战史料、弘扬红色历史文化、推动学术产品服务社会等方面实现了新的探索。图为平台首页 资料图片

其次,借助技术手段,历史学者还能在海量的史料中进行信息连接,半自动地勾连起历史文献中的人物与事件,这不仅能够对姓名、籍贯等信息进行匹配,而且可以突破单一主题数据库的局限,实现跨数据库的信息共享。比如李中清—康文林研究团队建设有清代《缙绅录》数据库。《缙绅录》是记录清朝职官姓名、出身、籍贯等的专书,包含了从乾隆到宣统时期几乎全部的官员信息,其中宣统年间的部分数据就能和“民国大学生信息数据库”早期学生家长的数据匹配上,为理解民国初期大学生群体的家庭背景提供了基础。

最后,经过技术手段的处理,史料的组织形式出现了结构化转变,能够为机器读取并实现量化分析,为平衡定性与定量研究提供新的机遇。电子化史料经过数据处理,最终呈现的往往是可被机器读取的结构化数据表格。以清华留美生职业信息数据搜集和研究为例,其最终呈现的数据表,每一项信息都可使用统计软件进行量化分析。比如有留美生在1925—1928年间连续担任某职,机器可自动将此信息识读为“1925、1926、1927及1928年为某职业”,这对研究诸如职业发展等动态问题颇为有效。另外,目前对一般文献信息处理比较有效的主题模型(topic-modelling)分析软件,可以对海量文献信息进行机器阅读(machine-reading),通过抓取关键词的方式展示文献主题的变迁,并由此展示背后社会动态的演进。

“人工”依然是主导

技术的运用绝非万能,走向“智能”的史学研究并不能离开“人工”的主导。首先,即便是最基础的史料数字化,技术也无法完全替代人工。高清扫描仪和光学字符识别技术不仅发展迅速,而且获取使用也越来越便利,比如Cisdem PDF Converter 等光学字符识别软件不仅提供单机版,而且费用低廉。一些新技术支持下的中文文献标点、标记工具,甚至能通过深度机器学习,掌握各类文献语法和表达规律,实现高度准确的自动或半自动断句标点和词语标记(如职官、人名等)。但即便如此,人脑依然有不可替代的深度优势。对字体不规范的文献或类型独特的文献,光学字符识别转化处理的效果往往有限,需要投入大量人工进行核对和纠错,甚至由于投入的人工成本过大,一些研究机构或团队依然选择使用人工而不是技术来输入史料。此外,对某一种史料进行深入的技术开发,成本很高,但利用范围或市场预期很低,这限制了技术的开发与运用。目前,许多数字史学项目更多的是借助人工来开展基础工作。因此,当下史学领域的人工智能,常常必须先有大量的人工投入,然后才能实现一定的智能处理。

其次,当前数字史学的研究,在议题上存在限制或偏向。机器或技术的分析相对线性,在理解一些基础史实,比如规模数量、构成比例等方面较为有效,在史料跨度允许的情况下,还能准确有效地观察这些基础史实在时间轴上的变化,进而发现统计学意义上的规律或趋势。但是,这些规律或趋势如何落实到现实层面,形成合理的结论,完全依靠数据或技术方法显然不够,还需要在理解相关制度、文化和各种事实的基础上进行阐释。而且,对基础史实之外一些更加微观或思想情感层面的议题,比如个体的内心情感、情绪和难以写实描述的隐秘问题等,技术方法的穿透力比较有限,较难达到令人满意的研究效果。

最后,数字史学的兴起,需要推出不同以往的系统性合作机制,而机制建设是技术本身无法实现的。比如数据库的开放共享,不仅需要前台数据检索的开放,更需要后台的开放,果能如此,研究者才能植入相应软件程序,进行数据提取、分析等工作。现实中很多史料由于没有实现电子化,或者电子化后不提供开放,从而限制了技术的介入使用。特别是学术团队自行建设的专题数据库,实现全面开放的还很少。其重要原因是,不仅数据库开发工作的成果认定尚缺少明确的学术标准,数据库开放后的知识产权保护更是难题。这就对讨论和制定数据库开放标准和成果保护规则提出迫切的需求。

史学研究仍要凝练思想

无论如何,对于今日的学者而言,互联网及其衍生出的数字技术已从可有可无的工具,升级进化为须臾不可离的手段。有学者认为,历史学在20世纪70年代开启的是“量化转向”(quantitative turn),而今天则要迎来“数字化转向”(digital transformation)。总的来说,技术手段能有效帮助历史学者极大地拓展史料利用范围和掌握信息的规模与时间跨度,为长时段、大群体研究提供基础。过去学界多认为,利用数据库进行史学研究,最重要的优点是对史料的大规模使用,能够“广”而“全”地运用史料。现在,随着越来越多的数据库向学界开放,实现数据共享的可能性大为增加,“数据追踪”越来越成为数据库研究的重要方法,这使得存储于数据库中的相关信息逐步从静态走向“动态”,使得历史上的人与事能够丰富且连续地呈现出来。这说明数字史学的特长,不仅能够“广”而“全”,也越来越能够“专”且“深”。

不容忽视的是,历史研究的对象始终是过去,史料是历史学者认识过去、展示过去的凭借与基础,而围绕史料的信息提取和整理组织,数字史学及相关技术既有效能,也有限度。实际上,尽管数字技术能帮助历史学者更有效地搜集和重组史料,但对史料性质的判断、史料真伪的考订以及结构化后史料信息的理解和分类,都需要以扎实和充分的历史知识为支撑。历史学者在传统研究中形成的认识和处理史料的宝贵经验,是构建数字史学研究平台和开展分析必不可少的前提与基础。这也是国际上诸多数字史学主要平台的主导者往往是历史学家,而非计算机或信息技术专家的重要原因。

前贤早已告诉我们,史学研究包含认识史实和诠释史实两个层面,前者当以科学为圭臬,后者须以人文为要义。当下,数字技术的介入,最大的作用在于可以帮助历史学者认识隐藏在海量史料中的“新史实”或统计性规律,但这只是历史研究的基础工作。研究者只有回到经由史料和制度文化构筑起的历史“现场”,对史实进行深入分析,探寻历史规律,作出历史诠释,进而推动理论演进,达成有思想的学术研究,才是史学研究的更高追求。从认识史实到形成新诠释、新理论,主要依靠的并不是技术,而是研究者具有穿透力的史识与思想。因此,数字技术乃至人工智能技术确实可以为历史学者提供一定的“武器”或方法,但无法使史学脱离基本的轨迹,更不能取代研究者理解、诠释历史的工作。归根结底,数字史学依旧是以“人学”为特征的史学,而非数字科学。

 

(文章来源:《历史评论》2021年第2期)

中国社会科学院近代史研究所 版权所有 京 ICP 备 05055195 号