新闻与传媒 专门领域中文文本的无监督分析 标题: 专门领域中文文本的无监督分析作者: 邓柯,包弼德,Kate J.Li,Jun S.Liu,陈大龙第一作者: 邓柯机构: 清华大学统计学中心,美国哈佛大学东亚语言与文化系,美国萨福克大学索耶商学院,美国哈佛大学统计学系,浙江大学国际联合学院期刊: 数字人文发表日期: 2023-09-30论文摘要: 随着数字化文本数据在公共与私人领域运用的日益增长,使用高效的计算工具来自动提取文本信息的需求也高涨起来。因为中文与字母文字的语言最显著的差异就是没有明确的词边界,所以,现有中文文本挖掘方法大都需要预先设定词库和(或)大量的相关训练语料,但是这在某些应用中却可能无法获得。而TopWORDS是一种无监督方法,可以从大规模的非结构化中文文本中自上而下地同时进行词语发现和切分,然后还可以使用一些方法对所发现的词进行排序以及更高级的语境分析。TopWORDS尤其适用于线上和专门领域文本挖掘,因为这些文本中底层词汇是未知的,或与可用的训练语料差异显著。将TopWORDS的输出投喂给诸如主题建模、词嵌入和关联模式发现等语境分析工具,其结果不劣于甚至优于有监督的切分方法。关键词: EM算法; 中国史; 博客; 文本切分; 词语发现知网阅读链接: 点击跳转