分享好友 最新动态首页 最新动态分类 切换频道
大模型知识库中的文档预处理的优化问题
2024-12-26 11:04

在基于大模型的知识库问答应用中,提升效果的点主要有:

1. 优化文档预处理;

2. 大模型的预训练及微调等;

3. 大模型的提示词优化;

4. 使用专有数据训练embedding模型;

向量检索算法通常没什么可优化的,因为向量数据库里通常都已经实现了。

本文重点要讲的是怎么优化文档预处理。

普通段落文本的问题

这个主要是长文本怎么切分的问题。

以前做nlp对长文本切分也略有些经验,通常就是先按段落进行切分,对于过长的段落文本,通常就是按模型(这里通常是embedding模型)能接受的输入长度,按句子的标点符号(如句号,感叹号,问号等)进行切分,切分后的片段要尽可能的长,但是不能超过模型的输入限制。另外,一些可以操作的技巧是,段落内的片段可以做一些重复,例如,段落内的多个片段,前一个片段的最后一句可以和后一个片段的第一句重复。

在实际项目中,可能还会有一些特殊的情况,例如按上面的规则,段落内切分成片段后,一个片段的最小单位是一个句子,但是实际上有些句子可能都会超过长度,这里还需要做些处理,例如按分号等再分一下,还不行则按逗号等再进行切分。很长的句子通常出现在列表中,因为列表中的每一项最后通常不是句号,而是分号,当然,也有可以是ocr识别时,漏掉了某些标点符号。

按照上面的分式将切好的片段转成向量时,可能会存在一个比较严重的问题,单个片段中可能已经没有了主体的信息,因为主体信息可能在前面的片段中,甚至在前面的标题中。这该怎么处理呢?

这应该有两种处理方式: 一是把该片段所在段落的各级标题拼接到文本的前面;二是用大模型将该片段前面的文本(同段落的)生成一个简短的摘要信息,拼在文本前面。

不过,如果这么看的话,直接将标题文本、摘要文本和片段文本直接拼接是否是最好的方式呢?

感觉这并不是最优的方式,或许更好的方式应该是新增字段存储片段文本对应的标题文本和摘要文本拼接后的文本,以及这段文本对应的向量。这样,就会有两个向量,在检索的时候,就需要设计一个方式将这两个向量与用户的检索向量的相似度整合在一起。

不过,这样做的效果是要验证的,不过估计是会比直接拼在一起会好一些,不过实现也复杂了。

表格数据的问题

普通段落通常还是比较好处理的,但是对于表格就非常复杂,而表格在文档中也可能有很多复杂的情况,例如合并单元格甚至嵌套表格、表格跨页等。另外影响效果的是,表格在识别时准确率没有那么高,特别对于复杂的表格。另外还有一点,单元格之间的逻辑关系并不是那么好识别的。

表格的主体通常出现在表格外面,如前面一行或者后面一行的文本。

前面说的基本都是难点,那么在处理时该怎么处理呢?

1. 我想最好的办法是利用大模型的多态能力,直接表格进行结构化或者文本化。结构化就是变成有层级关系的json数据,文本化就是让大模型用文本来描述表格的内容,而这个文本化我觉得可能是更好的方式。不过我估计,这得几年后才比较可行。

2. 现在也有模型可以对表格进行结构化的,应该可以解决部分问题,这个方向发展的进一步,我觉得肯定是大模型。

3. 在目前技术限制下,可能最现实的做表格识别,然后按单元格排序组成文本,再转化为向量。

4. 至于跟表格关联的表格外的文本,这个只要识别出来了,就比较好办。还有表格所在的各级标题文本等,这个处理方式和前面片段问题的情况类似。

表格处理,我觉得可能是文档识别里最复杂的。

图像问题

文档中除了有表格这种复杂的结构,还可能会有图像。

我们写文档时,插入图像的情况也很多,有些时候可能是截图放进去,有些情况可能是将其他地方的文本直接截图放进去,也可能直接将一个表格截图放进去,还有将公式等截图放进去。

这可能就涉及到表格识别、ocr识别、图像外对应文本(这个跟表格外对应问题类似)等,也并不好处理,如果是扫描件文档,可能就得放弃这个了,不然还得训练一个目标检测模型来检测图像的坐标。

文档识别

前面所说的,都要依赖于文档识别的效果。这一块的内容非常丰富,涉及到各类格式文件的适配,即使Word文档都要分成doc和docx两种来处理,PDF文档也要分成电子档和扫描件来处理,涉及的技术也非常多,如去噪、去水印印章、角度纠正、水印印章检测、表格识别、文字识别、文档结构识别(如页眉页脚、标题、段落、列表等)等,这里不一一细说了。

最新文章
sem竞价代运营公司主要负责哪些工作?揭秘sem代运营的核心职责!
在数字营销这片浩瀚的海洋中,SEM竞价代运营公司就像那艘稳健的航船,载着企业在波涛汹涌的市场中破浪前行。那么,这些代运营公司究竟负责哪些工作?他们又是如何助力企业实现营销目标的呢?今天,咱们就来揭秘SEM代运营的核心职责,让您对
以图搜图
点击详情进入查看更多搜图工具网站服务:常用搜索,以图搜图,识图,以图搜图,图像检索,图像识别,图片识别,图片搜索,图像搜索,识图,搜图,找图,拍图,拍照,常用推荐,常用搜索,以图搜图。百度图像搜索-领先的图像识别技术连接人
长沙NOIP信息学奥赛集训营咨询热线:   在线咨询: 点击交谈
长沙NOIP信息学奥赛信息 长沙NOIP信息学奥赛集训营是长沙青少儿教育品牌,形成了以乐高创意启蒙课程、人工智能编程、智能机器人编程、信息学奥赛编程等课程体系为核心,集国内外大型权威科技赛事、少儿资格认证考试、科技主题的国内外游学
微信小程序如何获取链接
微信小程序的链接获取是开发者在开发过程中需要注意的一个重要问题。链接是小程序中不可或缺的元素,它可以在不同页面之间进行导航和跳转,为用户提供丰富的交互体验。这篇文章将介绍如何在微信小程序中获取链接,并提供一些实用的技巧和注
阅读与写作兴趣班教学计划
阅读与写作兴趣班教学计划(通用12篇)  时间就如同白驹过隙般的流逝,前方等待着我们的是新的机遇和挑战,现在就让我们好好地规划一下吧。计划到底怎么拟定才合适呢?以下是小编为大家收集的阅读与写作兴趣班教学计划,希望对大家有所帮
【C8600360清理大师下载】华为C8600360清理大师8.4.2免费下载
清理大师:更简单,更畅快!6亿用户信赖的手机清理!清理大师是一款完全免费的手机加速与空间清理软件,强力加速使手机运行更流畅,一键清理快速解决空间不足问题。【一键清理】一键搞定无用垃圾,手机清理更省心【手机加速】瞬间释放手机
《时代》专访ChatGPT之父:人工智能影响经济还需要很多年
划重点:① OpenAI的首席执行官山姆·奥特曼(Sam Altman)曾表示,如果使用不当,人工智能会让所有人都消亡。② 在倡导人工智能可能性的同时,奥特曼敦促政策制定者制定规则和通过监管来减轻人工智能可能带来的危险。奥特曼倡导用普世的基
抖音直播突围:封闭外链中的外链建设策略169
## 网站外链规划师:抖音直播封闭外链外链建设方案 #### ## 一、背景分析抖音平台对外部链接的限制日益严格,使得传统的外链建设方式难以奏效。为了突破这一限制,需要制定针对性的外链建设策略。## 二、目标设定* 增加高质量的反向链接*
vue自建h5应用,接入企业微信JDK(WECOM-JSSDK),实现跳转添加好友功能
1、使用vue开发了一套h5页面的项目 2、这个h5链接是在企业微信里某个地方打开的 3、打开页面的时候有一个好友列表,点击好友列表某一条复制手机号跳转到企业微信添加好友页面 博客只允许上传gif图,所以我只能手机进行录屏
网站文章快速地被百度搜索引擎收录的操作方法解析
今天Lkr.com SEO技术教程学习网就来给大家分享一下它的实际测试操作:如何让百度搜索引擎快速收录网站文章。第一步:为网站文章建立关键词标题简单来说,很多站长都会使用关键词来嵌入网站文章标题,但是很多站长却忽略了用户的搜索习惯。
相关文章
推荐文章
发表评论
0评