中文文本相似度计算工具集

   日期:2024-12-27    作者:tenenghg1 移动:http://3jjewl.riyuangf.com/mobile/quote/75711.html

一、基本工具集

1.分词工具

a.jieba

结巴中文分词

https://github.com/fxsjy/jieba

b.HanLP

自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

c.盘古分词-开源中文分词组件

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

https://archive.codeplex.com/

d.pullword

Pullword-永久免费的可自定义的中文在线分词API

http://pullword.com/

e.BosonNLP

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

https://bosonnlp.com/

f.HIT-SCIR/ltp

Language Technology Platform http://ltp.ai

https://github.com/HIT-SCIR/ltp

2.关键词提取

TF-IDF

技术原理:https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

 

TextRank

技术原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-从中文文本中自动提取关键词和摘要

https://github.com/letiantian/TextRank4ZH

3.词向量

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

 

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

 

4.距离计算

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

 

二、常用算法

 

1.中文分词+TF-IDF+word2vec+cosine 距离计算

 

2.doc2vec

原理介绍:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技术实现:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

 

3.simhash

原理介绍:http://www.cnblogs.com/maybe2030/p/5203186.html

技术实现:https://github.com/yanyiwu/simhash

 

三、文本相似度计算综述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息处理发展报告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上论文下载地址:


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号