分享好友 最新动态首页 最新动态分类 切换频道
TextIn:一款优秀的 PDF文档解析神器,提升RAG性能必备
2024-12-29 04:09


TextIn:一款优秀的 PDF文档解析神器,提升RAG性能必备

在私有领域知识问答和企业知识管理领域,结合检索增强型生成模型(Retrieval-Augmented Generation, RAG)大模型(Large Language Model, LLM)已成为一种趋势。然而,在RAG系统的文档预处理阶段和检索阶段,经常碰到三个主要问题。

  1. 企业内部常常积累了大量包含PDF格式的文档,这些文档的解析精度不足,严重制约了基于专业知识的问答系统的性能。因此,提高这些PDF文件的解析质量,对于构建高效的RAG系统至关重要。
  2. 构建起一个完备的智能文档解析服务后,需要一个有效的评测工具来有评测文档的解析质量,而不是主观的通过肉眼感知。
  3. 用户查询通过text embedding向量模型快速、准确、有效从知识库中检索出相关知识片段,使得LLM回答准确。

本文将先探讨下文档解析的准确性对RAG系统的影响;然后介绍下智能文档解析关键技术,并介绍一款优秀的通用文档解析服务——TextIn,还介绍了一款开源的文档解析质量评测工具-Markdown Tester,最后介绍下合合信息开发的向量表征模型-acge_text_embedding

在RAG的预处理阶段,文档解析的准确性是至关重要的。如果文档解析不准确,这将直接影响到后续的检索和生成阶段,导致整个RAG系统的性能下降。以下是文档解析不准确可能带来的具体问题及其影响:

  • 内容识别错误:如果文档中的文本、图像或格式被错误识别,将导致原始信息的丢失或错误。例如:(1)表格数据可能被错误地解析为普通文本,表格的行列关系混乱等:导致表格数值类问题无法进行精准的回答和RAG系统可能无法正确理解数据间的关联性。(2)图像中的文字(OCR)被错误识别:如果文档中的文本或图像被错误识别,系统接收到的数据质量会下降,这将影响系统生成的输出质量。
  • 布局信息丢失:PDF文件的布局信息,如页面布局、段落、标题层级等,在解析过程中可能会丢失,这会影响对文档结构的把握,进而影响分块(chunks)。为了适应模型的输入要求,文档需要被分割成小块。如果分块策略不当,可能会导致语义信息的丢失,影响模型对文档内容的理解。
  • 编码问题:PDF文件可能包含多种字符编码、水印等,一些pdf解析工具不能正确处理这些编码,可能会导致乱码。乱码的文本内容如果解析出来混合在文本中,会给知识库带来大量的噪声,这也会影响RAG系统的性能。
  • 文档复杂性:(1)复杂的文档结构,如多栏布局、阅读顺序恢复、混合文本和图像等,可能会给解析带来额外的挑战,增加解析错误的风险。(2)文档元素的复杂性:文档中包含各种元素类型,如:段落、表格、公式和图表。错误的解析这些元素内容,也会给RAG系统的知识库带来大量噪声。

因此,对于C端文档问答的RAG系统应用产品,迫切的需要对文档进行精准解析。理想情况下,文档解析器应具备以下关键特征:

  • 文档结构识别:能够灵活地将页面划分为不同类型的内容块,如标题、段落、表格、公式和图表。这确保了划分的文本块是完整和独立的语义单元
  • 文档内元素准确解析:在文档结构识别之后,识别出来的内容块准确解析,如:OCR准确无误的将标题、段落解析成文本内容;表格识别解析精确:尤其是数值类文档问答敏感的场景;公式能够准确的解析成Latex格式。
  • 在复杂文档布局中保持鲁棒性:即使是在文档页面布局复杂的情况下也能保证解析效果,如多列页面、无边框表格甚至合并单元格的表格

对于简单的文档解析,langchain 和 llama_index 中集成了各种基于规则引擎的解析工具(如:解析pdf的pdfplumber,pyPDF2等)或者简单的开源的ocr工具(如:paddleocr),能够对多种文件类型进行解析。

对于复杂的文档解析,常基于深度学习的方法进行解析

然而,对于通用文档解析而言还存在着一些挑战:

2.1 版式分析

版面分析指的是对文档进行区域划分,通过bounding box定位其中的关键区域,如:文字、标题、表格、图片等。

版式分析的优势

  1. 通过大量标注的数据,准确的划分出文档关键区域。如:
  • 文本区域:页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等
  • 表格
  • 公式
  • 图片
  1. 能对复杂的版式进行区块识别

版式分析的缺点,目前基本都是通过目标检测的形式进行版式分析,因此其挑战也是伴随着特定场景的标注数据,尤其是通用场景的版式分析,难度巨大。

2.2 表格识别与解析

表格识别与解析的难点一般如下:

  • 表格的多样性和复杂性:表格的形式多种多样,包括有线表、无线表和少线表,这使得检测和分割单元格变得复杂 。
  • 表格单元格的合并与拆分:某些表格中的单元格可能跨行或跨列,甚至跨页,需要准确识别这些合并的单元格并将其恢复成标准单元格 。
  • 表格内容的识别和解析:表格中可能包含图像、公式、符号等非文本内容,需要将它们转换成文本或保留格式 。
  • 表格结构的表示和输出:不同的应用场景可能需要不同的表格结构表示方式,如 HTML、JSON、CSV 等,需要将识别结果转换成适合目标应用的格式,并保留数据和样式信息。

2.3 公式识别与解析

公式识别类型

数学公式识别与解析是一个技术挑战性很高的领域,主要难点包括:

  • 公式结构的复杂性:数学公式往往包含复杂的嵌套结构,这些结构的识别需要算法能够准确理解公式的层次关系,例如多层的分数、根号等 。
  • 形近字的识别难度:在手写识别中,相似形状的字符如大写X和小写x,大写Z和数字2,希腊字母γ和字母r等容易混淆,增加了识别的难度 。
  • 非常规符号的识别:比赛中添加的非常规符号组合可能会与公式混淆,增加了识别的复杂度。

2.4 阅读顺序

由于文档布局的复杂性,包括多栏、嵌套表格、不规则的文本框等,这增加了阅读顺序恢复的难度。

小结:以上文档解析的每个环节无论是数据标注、模型训练、实验,都需要投入巨大的成本和精细化的优化,在工业落地场景,在保证解析效果的同时,还需要关注文档的解析速度。尤其是OCR过程,文字密集型文档的解析速度影响特别大。

针对以上痛点,笔者深度体验了一下合合信息自研文档解析技术-TextIn。该技术深度融合了文字识别(OCR)、计算机图形图像技术以及智能图像处理引擎,使得纸质文档或图片中的文字信息能够迅速、精准地转化为计算机易于处理的文本格式

TextIn文档智能关键技术如下:

3.1 版面分析关键技术 Layout-engine

3.2 文档树提取关键技术 Catalog-engine

3.3 解析体验

测试样例:

TextIn解析输出:

可以看到,TextIn将pdf文件解析成markdown格式,并将标题、段落、行内公式及行间公式准确解析。

值得关注的是,标题,段落的准确解析、并按照阅读顺序进行输出,这是生成文档目录及文档树的基础。

快速上手代码:

3.4 一个解析引擎速度的重要性

目前,基于多模态大模型技术的快速发展,文档解析可以通过多模态大模型进行解决,如:gpt-4o等,但是,基于多模态大模型的解决方案,成本大、非常耗时、容易产生幻觉问题,尤其是表格的解析,数值上的幻觉问题是灾难性的。

笔者在体验TextIn时,感觉解析速度非常快,这对于RAG系统的增益可以从离线和在线两个方面展开讲:

  1. 离线模式
  • 数据预处理: 在离线模式下,解析引擎可以预先处理和索引大量文档,为在线查询做好准备。
  • 定期更新知识库:可以定期更新模型和索引,以适应新的数据和需求变化。

2. 在线模式

  • c端用户通过网页知识空间上传新的文件时,在线模式允许解析引擎实时响应用户查询,提供即时的文档解析服务。
  • 用户体验: 用户期望快速且准确的响应,因此解析引擎的速度和准确性在在线模式下尤为重要。

在文档解析中,有了解析工具后,对于开发者,针对文档解析的解析效果,需要一款比较好用的评价工具来客观对解析效果进行评价;对于购买解析服务的c端客户,同样也需要评价文档解析服务的效果,在自建数据集上先评测一下,然后有针对性的进行解析服务选购。因此,下面介绍一下 Markdown Tester

该评测工具用于评价markdown文档相似性,从段落、标题、表格和公式四个维度进行评价,相关评价指标的定义如下表:

对于RAG中文档解析,必须强调为什么使用markdown进行表示:Markdown格式因其简洁性和易于解析的特点,被广泛认为是LLM(大型语言模型)友好的文档格式。Markdown通过明确的标记语法,帮助模型更好地理解文档结构和内容,从而提高信息提取的准确性和效率。特别在存在大量公式、表格的学术论文场景下,Markdown可能是更合适的格式选择。这种格式选择的原因主要包括:

  • 结构化信息的保留:Markdown能够很好地保留结构化信息(非常适合需要保留标题层级、公式和表格等结构信息的场景),这对于需要精确提取和分析文本内容的场景尤为重要。
  • 易于解析:Markdown的简洁性和明确的标记语法使得它易于被计算机程序解析和处理,这对于自动化文档处理和数据分析任务非常有利。
  • 支持场景多:Markdown作为一种轻量级标记语言,被广泛用于编写文档、笔记、博客文章、技术文档等场景。

4.1 使用方法

  • step1:
  • step2:
    Markdown Tester的仓库中给出了一些22份文档的grounding truth用于评测各种解析工具效果。待测评样本按照下述方式放置:
  • step3:

4.2 运行效果

对比表格

笔者在评测过程中发现,自研模型对于识别准确率较高,但召回率普遍不行。

由于LLM固有的问题,如:LLM的知识不是实时更新的;LLM无法回答私域知识问题。因为,LLM的专长在于生成和理解复杂的自然语言查询。嵌入模型(比如Embedding)的专长在于将文本映射到高维空间中,以便进行相似性比较;生成可用于高效检索的密集向量。

因此,目前主流的实现方式都是通过RAG的方式对上述问题进行解决。text embedding在RAG中充当重要的角色,主要有以下几个作用:

  1. 捕捉语义信息:文本嵌入将文本转换为数值向量,这些向量能够捕捉到文本的语义信息。
  2. 增强上下文理解:在RAG系统中,文本嵌入帮助模型掌握输入查询的上下文,并在NLP任务的检索阶段提取相关信息。通过这种方式,模型能够更好地理解和处理非结构化文本中的模糊性和可变性。
  3. 提高检索性能:有效的文本嵌入能够显著提升RAG系统的性能。例如,不同的嵌入模型带来的效果也不尽相同,选择合适的嵌入模型可以优化模型的检索性能。此外,结合知识图谱和文本嵌入,可以实现结构化知识和非结构化文本的无缝融合,从而产生信息更丰富、上下文相关的响应。并且,文本嵌入增强了对自然语言中歧义和可变性的适应能力,使RAG模型能够更好地应对模糊和多义的表达。这在处理开放域问答等复杂任务时尤为重要。

下面介绍一个效果比较好的文本向量嵌入的表征模型-acge_text_embedding

5.1 acge_text_embedding

acge_text_embedding是由合合信息研发的向量表征模型,技术架构上,acge_text_embedding采用了俄罗斯套娃表示学习(Matryoshka Representation Learning,MRL)编码不同粒度的信息,并让一个编码能够适应不同计算资源的下游任务。MRL的目的是学习许多个小于等于 的前 维表征,即总维度的前 维。在训练时,MRL根据指定维度的向量来计算多个。

一种比较高效的做法是将每个投射头看成是一个大投射头的的一部分,即 ,这种做法在大输出空间时尤其重要,称之为Efficient Matryoshka Representation Learning (MRL–E)。

因此,该表示学习框架的核心思想是学习不同粒度的信息,允许一个嵌入向量在保持准确性和丰富性的同时,适应不同计算资源的需求,并可以无缝地适应大多数表示学习框架,并且可以扩展到多种标准计算机视觉和自然语言处理任务。

acge_text_embedding通过应用多模态表示学习(MRL)技术,能够实现一次训练过程,从而获得丰富多样的表征维度。特别值得一提的是,自适应粗粒度到细粒度表示(acge)模型,它采用了一种层次化的方法,从宏观到微观逐步深化表征的深度和精度。这种方法不仅在推理和部署阶段无需额外成本,还提供了一种灵活且高效的表征方式。在具体的实践应用中,为了更好地适应不同任务的需求,acge模型采用了策略学习的训练方法。这种方法通过针对性地调整学习策略,显著提升了模型在检索、聚类和排序等任务上的性能表现。此外,模型还引入了持续学习的训练机制,有效解决了神经网络在学习过程中可能出现的灾难性遗忘问题。这使得模型能够在训练迭代中达到更加优秀的收敛状态,为持续优化和提升模型性能奠定了基础。

5.2 acge_text_embedding使用

  • 在sentence-transformer库中的使用:
  • 在sentence-transformer库中的使用方法,选取不同的维度

5.3 acge_text_embedding优点总结

性能优势

  1. acge模型较小,占用资源少;
  2. 模型输入文本长度为1024,满足绝大部分场景的需求
  3. acge模型支持可变输出维度,能够根据具体场景去合理分配资源。

框架优势

  1. 对比学习技术,通过最小化正对之间的距离和最大化负对之间的距离来呈现文本语义表示。
  2. 数据挖掘,构造多场景、数量庞大的数据集提升模型泛化能力,挑选高质量数据集加快模型收敛。
  3. 多任务混合训练,多loss适配场景,适应各种下游任务
  4. MRL训练,训练可变维度的嵌入,提高了处理速度,降低了存储需求
  5. 持续学习, 改善引入新数据后模型灾难性遗忘问题

本文主要探讨了检索增强型生成模型(RAG)在私有领域知识问答和企业知识管理中的应用,重点分析了文档解析的准确性对RAG系统性能的影响,介绍了智能文档解析的关键技术,并介绍了合合信息自研的文档解析服务TextIn,以及开源的文档解析质量评测工具Markdown Tester。此外,还介绍了合合信息开发的文本向量嵌入模型acge_text_embedding,强调了其在RAG系统中的作用和优势。整体而言,文档解析的准确性、速度和质量对RAG系统的性能至关重要,而TextIn和acge_text_embedding等工具能够显著提升文档解析的效果和效率。

参考文献

  • Markdown Tester:https://github.com/intsig/markdown_tester
  • TextIn:https://www.textin.com/experience/pdf_to_markdown?from=acg-github
  • acge_text_embedding:https://huggingface.co/aspire/acge_text_embedding

最新文章
鬼叔SEO,网络营销神秘力量的神秘面纱
鬼叔SEO,网络营销界的神秘力量,通过独特的SEO策略,助力企业提升网络曝光度和品牌影响力。凭借丰富的经验和敏锐的市场洞察力,鬼叔SEO成为众多企业争相合作的合作伙伴,助力企业实现网络营销的突破。在互联网营销的世界里,SEO(搜索引擎
手机百度极速版 v6.40.0.11
《手机百度极速版》是百度的极速版本,手机百度极速版能够让大家领略最极速最简单的搜索工具了,能够感受流畅的搜索过程,超快的搜索功能,安装包更小的搜索工具,可以在线进行直接搜索哦,快来下载吧。体验过程更加流畅超级顺利不卡顿的搜
科技创新赋能产业链再造价值链提升
□本报记者姚建平李爱民孙思琪朱彤“在今年高度凝练的政府工作报告中强调了提高科技创新支撑能力,稳定支持基础研究与应用研究,特别提出重点项目攻关‘揭榜挂帅’,这对充分激发创新主体的主动性和责任感,以及又好又快地达到目标完成任务
巴黎圣母院修复背后的故事 | 环球走笔
近日,法国巴黎圣母院的钟声再次响起。历时5年多,这一久负盛名的世界文化遗产终于重新向公众开放。法国总统马克龙表示,巴黎圣母院的修复为全世界带来“充满希望的震撼”。重新向公众开放的巴黎圣母院外景。新华社记者高静摄修缮一新的巴
有限空间作业资质证书办理 一周出证
2019年09月25日林志坚500企业资质认证、AAA信用等级证书、ISO体系认证一般项目:社会经济咨询;认证服务;企业管理咨询;企业形象策划;市场营销策划;会议及展览服务。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)
网站微信推广方案
网站微信推广方案(通用3篇)  医院都是在做一个地区的服务,所以说潜在顾客都在这个地区里,医院所要做的就是把这一群人都请到自已医院公众账号当中来,而一个消费者愿意去关注你的医院微信,肯定是对你的医院已经有了很多的了解,有了
阿里翁神马:FDA新品上市~中风胶囊(案例)
商品细节中风胶囊(StrokeWell) 均由草药提取剂组成,不含西药及化学成分,无任何毒副作用,美国 制造。中风分有脑出血和脑血管的淤血,虽然在急性发作期内的发病机理大 大不同,所以西医的治疗和抢救手段也就不一样了。但到了恢复期和 陈旧
谷歌SEO中,如何控制Google Maps关键词堆砌?
在数字营销领域,特别是针对谷歌SEO的优化过程中,关键词的选择与布局一直是至关重要的。尤其在Google Maps这样的特定平台上,如何有效地控制关键词堆砌,避免过度优化带来的负面影响,是每位SEO从业者都需要深入探索的课题。基于我多年的
梦幻西游手游涿月蜃境助战搭配推荐:最佳阵容解析与玩法策略
梦幻西游手游涿月蜃境助战搭配推荐梦幻西游手游自上线以来,凭借其精美的画面、丰富的剧情和多样的玩法,吸引了大量玩家的喜爱,涿月蜃境作为游戏中的一项重要挑战,需要玩家合理搭配助战阵容,才能取得更好的成绩,本文将为大家解析涿月蜃
网吧电脑开机指南:步骤、注意事项与常见问题解析
网吧电脑怎么开机 (How to Start a Computer in an Internet Cafe)  在当今的数字时代,网吧已经成为人们上网、游戏和社交的重要场所。尽管许多人习惯于在家中使用个人电脑,但在网吧使用公共电脑时,了解如何正确开机是非常重要的。本文
相关文章
推荐文章
发表评论
0评