skip to main content
資源種類 顯示結果: 顯示結果: 查詢種類 索引

关键词自动提取方法的研究与改进

黄磊 伍雁鹏 朱群峰

计算机科学, 2014, Vol.41 (6), p.204-207

可取得全文

引用 被引用
  • 題名:
    关键词自动提取方法的研究与改进
  • 著者: 黄磊 伍雁鹏 朱群峰
  • 主題: DI-TFIDF ; TFIDF ; 关键词提取 ; 特征权重
  • 所屬期刊: 计算机科学, 2014, Vol.41 (6), p.204-207
  • 描述: 关键词提取技术是信息检索和文本分类领域的基础与关键技术之一.首先分析了TFIDF算法中存在的不足,即IDF(InverseDocument Frequency)权值中没有考虑特征词在类内以及类别间的分布情况.因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确.通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF.实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词.实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法.
  • 出版者: 湖南大学信息科学与工程学院 长沙410082
  • 語言: 中文
  • 識別號: ISSN: 1002-137X
  • 資源來源: Alma/SFX Local Collection

正在檢索遠程資料庫,請稍等

  • 查詢:
  • scope:("NUTN"),scope:(NUTN_ALEPH),scope:(NUTN_IR),scope:(NUTN_SFX),primo_central_multiple_fe
  • 顯示現有記錄