新闻与传媒 时代精神:历时文本关键词提取与解读——基于《人民日报》文本的实践 标题: 时代精神:历时文本关键词提取与解读——基于《人民日报》文本的实践作者: 李琪第一作者: 李琪机构: 北京语言大学汉语国际教育研究院期刊: 数字人文发表日期: 2020-09-30论文摘要: 以1946年至2015年《人民日报》的语料作为研究对象,通过文本统计以及历时比较,可以探讨语言生活随时代发展和受重大事件影响的变迁情况,并找到符合报刊语料的关键词提取方法。通过对历年报刊语料的预处理,利用高频共有词与高频独有词的提取方法、H-point和Text Rank关键词提取方法以及隐含狄利克雷分布主题模型(Latent Dirichlet Allocation,简称LDA)的方法,分别对报刊语料进行关键词提取并进行分析,发现LDA与高频词相结合比较适合对报刊语料的关键词进行提取。将LDA提取关键词与高频词提取关键词相结合,可以更好地透过语汇对社会生活的变迁进行解读,同时有利于读者进行远读。这一研究表明,通过对语料的语汇研究,可以为报刊语料找到便于量化的研究方法,并尝试找到具有普遍性的计量统计研究范式。关键词: 人民日报; 关键词提取; 报刊语料研究; 时代精神; 计量语言学知网阅读链接: 点击跳转