基于无监督方法的电力文本专业词汇识别研究
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TM930.9;TP391

基金项目:

国家电网有限公司总部科技项目(5200-201918255A-0-0-00)


An unsupervised approach to recognizing new words in power domain
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    电力专业词汇识别是面向变电运检文档进行深入语言理解和知识图谱构建等智能应用的基础。领域无关识别方法的效果不能令人满意,为此文中根据电力领域词汇的语言学特征提出一种面向电力领域的无监督专业词汇发现方法。首先以通用词典对电力文档语料分词,然后根据电力专业词汇的特征设置不同大小的滑动窗口,将之前分词结果的多种组合作为候选词; 进一步计算邻接变化度、信息熵、点态互信息以及词频等4种候选词统计量; 最后基于综合语言学特征和成词边界3种语法规则对候选词进行筛选形成专业电力新词。在公开数据集上与基线方法进行了对比实验,实验结果验证了文中提出方法的有效性。

    Abstract:

    The terminology word recognition in power domain lays the foundation for a profound language understanding of power documents and the intelligent knowledge graph construction. By incorporating the morphology of the power domain vocabulary, an unsupervised approach to recognizing new terminology words in documents is proposed. Firstly, the common dictionary is used to segment the corpus. Then segmented words are combined with terminology feature-based sliding window of different sizes constituting candidate words. Furthermore, four statistics including accessor variety, information entropy, point-wise mutual information, and word frequency are computed. Finally, based on the linguistics statistics and three types of word-formation grammatical rules, those words are screened generating the last electric new words. Experimental results on a public dataset demonstrate the effectiveness of our proposed method.

    参考文献
    相似文献
    引证文献
引用本文

朱婷婷,杜一帆,李睿凡,熊永平.基于无监督方法的电力文本专业词汇识别研究[J].电力工程技术,2020,39(6):159-165

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2020-06-05
  • 最后修改日期:2020-07-18
  • 录用日期:2020-03-01
  • 在线发布日期: 2020-12-01
  • 出版日期: 2020-11-28
文章二维码