基于数据驱动方法的历史报纸词汇变化研究
基于数据驱动方法的历史报纸词汇变化研究

基于数据驱动方法的历史报纸词汇变化研究


标题: 基于数据驱动方法的历史报纸词汇变化研究


作者: 西蒙·恒晨,鲁本·罗斯,亚尼·马尔亚宁,米科·托洛宁,方华康


第一作者: 西蒙·恒晨


机构: 瑞典哥德堡大学瑞典语系,卢森堡大学当代与数字历史研究中心,芬兰赫尔辛基大学数字人文系,上海师范大学人文学院


期刊: 数字人文研究


发表日期: 2022-11-08


论文摘要: “民族”(nation)和“民族性”(nationhood)属于思想史领域最常研究的概念,而“民族”一词及其历史用法又十分模糊。文章旨在开发一种利用依存分析和神经词嵌入的数据驱动方法,以澄清这一概念的演变过程。为此提出以下两个步骤。首先,使用语言处理,创建一个与“民族”主题相关的大型单词集合。其次,训练历时词嵌入,并使用它们来量化这些词之间语义相似性的强度,从而创建有意义的聚类,然后将之历时排列。为了说明该方法在跨语言、多时间段及大型数据集研究上的稳健性,将其应用于荷兰语、瑞典语、芬兰语和英语共五份全套历史报纸档案集合。迄今为止,还没有如此大规模的比较研究——以数据驱动方法掌握多达四种不同语言的长期发展。文章所描述的方法还有一个特殊优势:通过设计,该方法可扩展应用至其他问题,而不仅限于对“民族性”的研究,并且可在不同语境中重复使用。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝