分词
MM法(正向最大匹配法)
RMM法(逆向最大匹配法)
BMM法(双向最大匹配法)
HMM(隐马尔可夫模型)
CRF(条件随机场)
jieba中文分词工具
词性标注
jieba中文词性标注工具
北大词性标注集
宾州词性标注集
命名体识别(NER)
正则化表达式+jieba分词
CRF(条件随机场)
Spacy NER模型(最先进的NER模型)
Stanford NER
关键词提取
TF-IDF算法
TextRank算法
主题模型算法(LSA、LSI、LDA、word2vec)
哈工大停用词表
句法分析
PARSEVAL评价体系
PCFG(基于概率的短语结构分析方法)
MMMN(基于最大间隔马尔可夫网络的句法分析)
基于CRFDE句法分析
SRA(移进-归约方法)
PBT(英文宾州树库)
CTB(中文宾州树库)
TCT(清华树库)
Sinica TreeBank(台湾中研院树库)
Stanford Parser句法分析器
文本向量化
BOW(词袋模型)
Word2vec词向量算法
NNLM(神经网络语言模型)
C&W模型
CBOW模型
Skip-gram模型
Doc2vec基于句子的文本向量算法
Str2vec基于文章的文本向量算法
DM模型
DBOW模型
情感分析技术
词法分析
机器学习方法
混合分析
PMC(Polling多项式分类,多项式朴素贝叶斯)
文本表示(BOW词袋模型、topic model主题模型)
文本分类(SVM支持向量机、LR逻辑回归、NB朴素贝叶斯)
LSTM(长短时记忆网络)
IMDB情感分析数据集
NLP中用到的机器学习算法
文本分类:NB(朴素贝叶斯)、SVM(支持向量机)/SVM高斯核函数、LR(逻辑回归)、KNN(K近邻居)、DT(决策树)/随机森林、
文本聚类:K-means、DBScan、BIRCH、CURE
降维:PCA(主成分分析法)
特征提取:BOW(词袋模型)、TF-IDF、N-Gram
基于深度学习的NLP算法
Word2vec词向量算法
NNLM(神经网络语言模型)
C&W模型
CBOW模型
Skip-gram模型
Gensim版本Word2vec
opencc繁体字处理
LSTM
GRU
Depth Gated RNN
Clockwork RNN
Attention
Seq2Seq
NLG(自然语言生成)
NLU(自然语言理解)
NIC(图说模型)
COCO图像标注数据集
Pascal VOC 2008
Flickr8K和30K
MSCOCO
SBU