图书情报与数字图书馆 哲学 数字技术下《老子》文本与先秦两汉典籍的关系挖掘 标题: 数字技术下《老子》文本与先秦两汉典籍的关系挖掘作者: 高瑞卿,董启文,方达,王弘治,方勇第一作者: 高瑞卿机构: 华东师范大学数据科学与工程学院,华东师范大学中文系,上海师范大学人文学院期刊: 情报杂志发表日期: 2021-07-23论文摘要: [目的/意义]理解老子思想关乎理解中国早期文化,结合数字人文的方法,开展实证研究。利用大数据计算的方式,通过定量统计、定性分析,解决老子研究领域长期存在的疑而难决的源头、影响等方面的问题,发掘依靠阅读经验难以发现的文本组织特征及相互关系。[方法/过程]统计河上公版《老子》语料的字频;进行相似度分析和典籍引用情况分析;最后训练出古汉语的BERT模型,利用生成的字嵌入计算典籍句子之间的相似程度,在《老子》之前的典籍上进行相关性研究。[结果/结论]使用TF-IDF进行文本向量化,得出《老子》与其后世的作品中的《淮南子》最为相似;使用BERT模型的自监督学习训练,达到在完形填空任务上52.11%的精度和在预测是否是下一个句子上98.45%的精度,相似度计算结果显示出《墨子》与《老子》密切相关。这种方法引起了我们对《老子》和《墨子》间论说思想关系的一番新思考。关键词: BERT; 先秦; 关系挖掘; 数字人文; 相似度; 老子知网阅读链接: 点击跳转