新闻与传媒 外国语言文字 基于数据驱动方法的历史报纸词汇变化研究 标题: 基于数据驱动方法的历史报纸词汇变化研究作者: 西蒙·恒晨,鲁本·罗斯,亚尼·马尔亚宁,米科·托洛宁,方华康第一作者: 西蒙·恒晨机构: 瑞典哥德堡大学瑞典语系,卢森堡大学当代与数字历史研究中心,芬兰赫尔辛基大学数字人文系,上海师范大学人文学院期刊: 数字人文研究发表日期: 2022-11-08论文摘要: “民族”(nation)和“民族性”(nationhood)属于思想史领域最常研究的概念,而“民族”一词及其历史用法又十分模糊。文章旨在开发一种利用依存分析和神经词嵌入的数据驱动方法,以澄清这一概念的演变过程。为此提出以下两个步骤。首先,使用语言处理,创建一个与“民族”主题相关的大型单词集合。其次,训练历时词嵌入,并使用它们来量化这些词之间语义相似性的强度,从而创建有意义的聚类,然后将之历时排列。为了说明该方法在跨语言、多时间段及大型数据集研究上的稳健性,将其应用于荷兰语、瑞典语、芬兰语和英语共五份全套历史报纸档案集合。迄今为止,还没有如此大规模的比较研究——以数据驱动方法掌握多达四种不同语言的长期发展。文章所描述的方法还有一个特殊优势:通过设计,该方法可扩展应用至其他问题,而不仅限于对“民族性”的研究,并且可在不同语境中重复使用。关键词: 历史报纸; 数字人文; 数据驱动; 词汇变化知网阅读链接: 点击跳转