分享好友 最新动态首页 最新动态分类 切换频道
知识图谱学习(一):知识提取
2024-12-27 09:33

1.1.1 regex语法
推荐网站http://pythex.org/,不但有语法,还可以在线测试

知识图谱学习(一):知识提取

1.1.2 match匹配模式
re.match(pattern,string,flags)尝试从字符串的开始匹配一个模式,flags是匹配模式,可以使用按位或’|’表示同时生效,也可以在正则表达式字符串中指定。
1).re.I(re.IGNORECASE): 忽略大小写
2).re.M(MULTILINE): 多行模式,改变’^’和’$’的行为
3).re.S(DOTALL): 点任意匹配模式,改变’.’的行为
4).re.L(LOCALE): 使预定字符类 w W b B s S 取决于当前区域设定
5).re.U(UNICODE): 使预定字符类 w W b B s S d D 取决于unicode定义的字符属性

1.1.3 search匹配模式
若string中包含pattern子串,则返回Match对象,否则返回None,注意,如果string中存在多个pattern子串,只返回第一个。

1.1.4 group提取数据

分词也是后续处理的基础。分词做得好,核心秘密在词库,算法的影响反而不太大。分词是会出错的。不过有些场合(比如检索排序,只要错误是一贯的,影响也不是太大。分词后面可以用规则来弥补。工程上很丑陋,上不了台面,但对早期的小项目可能够用了。
推荐工具: jieba/PyNLPIR/Hanlp

2.1.1 jieba.cut
方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型

2.1.2 jieba.cut_for_search
方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

2.1.3 jieba.cut 以及 jieba.cut_for_search
返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

2.2.1 jieba.load_userdict(file_name)
#file_name 为文件类对象或自定义词典的路径,词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略,用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。词频省略时使用自动计算的能保证分出该词的词频。

2.2.2 使用 add_word(word, freq=None, tag=None) 和 del_word(word)
可在程序中动态修改词典。使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。jieba 分词前需要建立一个Trie 树字典来帮助其分词

2.3.1 jieba.posseg.POSTokenizer(tokenizer=None)
新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。标注句子分词后每个词的词性,采用和 ictclas (中科院分词)兼容的标记法。

2.3.2 并行分词:jieba.enable_parallel()

2.4.1 jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
默认每行为一个文件(跟读取方式有关)
关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径
jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径
jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

2.4.2 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’))
直接使用,接口相同,注意默认过滤词性。jieba.analyse.TextRank() 新建自定义 TextRank 实例

ws[n]为weight_sum表示单词n的权重,outsum[n]为从单词n到其他单词的权重的和,graph[n]表示[(n,n’,weight)]的list,n’为其他单词.根据jieba源码,窗口大小为5,只考虑单向(n’出现在n后面5个单词内).

命名实体识别(Named Entity Recognition,简称NER,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

Stanford NLP小组提供了大量NLP相关的工具,github上还有相关Python接口.

最新文章
别被"5分钟写个App"误导:Cursor深度实践
今年 8 月份时试用了下 Cursor,发现非常惊艳,顺带写了一篇介绍 Cursor 的文章[1]。之后我很快就把日常工作环境从 GitHub Copilot + JetBrains 全面转向了付费版 Cursor,几个月使用下来感觉非常丝滑。在自己使用的同时,我也经常向同事和
熊孩子金币修改宝典:实用教程助您轻松玩转游戏货币管理
征战游戏世界的勇士们,你们是否曾为游戏中的货币困扰?是金币不足限制了你的发展,还是钻石稀缺让你无法拥有心仪的装备?今天,我们为您带来一篇“熊孩子金币修改宝典”,让您可以轻松玩转游戏货币管理,征服游戏世界!一揭开游戏货币管理
美国货物门到门/EXW双清货代公司一站式通关平台
雅盈供应链——一站式进口海外提货/物流/空运海运订舱/进口清关申报/代理报关/代理清关申报/海关查验/进口派送/保税仓储/转口贸易/全套代理服务。优势推荐:众多港口物流门到门进口服务保税区转口仓储暂时进出口货物修理物品进出口退运货物
玩家必看教程“小程序财神十三张究竟是不是有挂”爆光开挂猫腻内幕
小程序财神十三张的发展与应用随着智能手机的普及和移动互联网的迅猛发展,小程序财神十三张作为一种全新的应用形式,迅速走进人们的生活。它的便捷性和实用性使得越来越多的人开始关注和使用微信小程序。本文将从小程序财神十三张的定义、
部署SSL证书对网站优化有哪些影响?
我们都知道部署,可以对客户端与网站之间传输数据进行加密,从而保证用户信息和网站数据的完整和准确。但实现HTTPS的网站是否对网站优化有影响呢?一、SSL和HTTPS是什么?SSL简单理解相当于银行数字证书,只不过SSL证书是相对于网站。HTTPS
掌握服务器散热策略:从基础知识到高级技巧 (服务器操作)
服务器散热对于保持服务器正常运行至关重要。温度过高会导致服务器故障、数据丢失甚至设备损坏。因此,制定和实施有效的散热策略至关重要。热源:服务器中的主要热源包括 CPU、内存、显卡和其他组件。 热传递:热量通过传导、对流和辐射三
wifi路由器怎么安装(安装wifi路由器的步骤)
wifi路由器安装步骤不是那么难,只要按照设置步骤去操作就可以上网了。第一:正确连接路由器路由器的WAN接口,需要用网线连接到猫的网口。如果你家的宽带没有用到猫,那么需要把入户宽带网线,插在路由器的WAN接口。把原来的路由器水晶头取
最新360安全卫士下载,全方位守护你的数字生活安全
摘要:最新版本的360安全卫士现已可供下载,全面保护你的数字生活。这款安全软件提供多重防护,包括防病毒、防黑客攻击等,确保你的电脑和个人信息安全。其最新功能可智能识别潜在风险,及时预警并处理安全隐患。下载360安全卫士,为你的数
远程kafka通信实例,各种bug解决----虚拟机+本地电脑
为了实现远程kafka通信,我可谓是呕心沥血。期间各种bug各种调,太煎熬了 (T.T)介绍:我用一台虚拟机作为远程消息的发送方,用本地电脑主机作为消息的接收方虚拟机:安装java,kafka,zookeeper主机:eclipse,注意我没有说在主机上也要安
相关文章
推荐文章
发表评论
0评