时代精神:历时文本关键词提取与解读——基于《人民日报》文本的实践
时代精神:历时文本关键词提取与解读——基于《人民日报》文本的实践

时代精神:历时文本关键词提取与解读——基于《人民日报》文本的实践


标题: 时代精神:历时文本关键词提取与解读——基于《人民日报》文本的实践


作者: 李琪


第一作者: 李琪


机构: 北京语言大学汉语国际教育研究院


期刊: 数字人文


发表日期: 2020-09-30


论文摘要: 以1946年至2015年《人民日报》的语料作为研究对象,通过文本统计以及历时比较,可以探讨语言生活随时代发展和受重大事件影响的变迁情况,并找到符合报刊语料的关键词提取方法。通过对历年报刊语料的预处理,利用高频共有词与高频独有词的提取方法、H-point和Text Rank关键词提取方法以及隐含狄利克雷分布主题模型(Latent Dirichlet Allocation,简称LDA)的方法,分别对报刊语料进行关键词提取并进行分析,发现LDA与高频词相结合比较适合对报刊语料的关键词进行提取。将LDA提取关键词与高频词提取关键词相结合,可以更好地透过语汇对社会生活的变迁进行解读,同时有利于读者进行远读。这一研究表明,通过对语料的语汇研究,可以为报刊语料找到便于量化的研究方法,并尝试找到具有普遍性的计量统计研究范式。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝