中国工商银行软件开发中心多模非标准贸易影像智能识别方案原创

中国工商银行软件开发中心多模非标准贸易影像智能识别方案原创

2024-12-28 22:46

出品 | 51CTO技术栈（微信号：blog51cto）

为提升信贷领域业务办理过程中合同影像信息提取效率，中国工商银行软件开发中心利用业界前沿技术多模态识别技术对图片、视频等文件内容进行智能提取和解读，逐步覆盖传统技术无法解决的影像识别场景，包括不规则表格、目标信息描述模糊、打包影像等，大幅提升了合同处理效率。

工商银行软件开发中心先前引入了基于光学字符识别（OCR）与规则或自然语言处理（NLP）模型的自动化识别技术；然而，该技术对合同元素位置、上下文结构等不一致性的理解能力有一定局限，因此在某些复杂合同的信息提取上，精确度较难提升，主要体现在以下几个方面：第一，合同格式一般具有多样性，如不规则表格、倾斜文字、打钩标记以及不规则元素布局等，这些格式可能破坏文本结构的完整性；第二，合同中目标信息的描述可能较为散乱或模糊，如付款日期和支付方式等，需要深入理解上下文语义并进行转化；第三，客户常常将多份文件打包上传，识别前需准确拆分文件，也增加了识别的复杂性。

为了解决上述问题，中国工商银行软件开发中心结合当前业界最先进的模型技术，形成“通用+专业”模型组合方案，具体方案如下：

借助多模态模型在图文识别上的泛化能力，显著提升在处理复杂非标准化合同中打钩、表格、涂抹、印章等长尾场景下的关键信息提取精度，同时实现跨页图片内容的深度理解。此外，通过对多模态模型进行增量预训练、全参数微调以及模型视觉修复，进一步优化非标准化合同影像中目标信息的理解准确度。

首先，为了处理通用模型可能遇到的输入限制，工商银行软件开发中心引入了合同拆分模型。这个模型专门设计用于从包含数十页的合并合同影像包中，按照顺序拆解出各个单独的文件，如贸易合同、发票、补充条款等。这种拆分功能不仅解决了通用模型一次只能处理有限数量页面的问题，还为后续的处理步骤提供了有序的输入，提高了业务流程的效率。

其次，图像精选和增强模型在处理过程中起到关键作用。它负责对拆分后的单份文件进行筛选，只保留那些包含关键要素的页面，同时对这些页面进行图像增强，比如提高对比度、清晰度，以确保通用模型能够准确识别图像中的文字和图形。通过这种预处理，通用模型的输入质量得以优化，从而提升了其在识别关键信息时的准确率。

（合同拆分+精选效果图示：模型将5页影像拆分成2份合同，并剔除无关的一页）

再次，为了满足特定领域的定制需求，工商银行软件开发中心建设了专门的分类模型，对贸易合同、发票、补充条款等不同类型的文件进行分类。基于深度学习算法，通过学习不同文件类型的特征，将文件正确地分配到适合的类别中。这种分类能力有助于通用模型专注于处理特定类型的文件，提高了整体处理的针对性和准确性。

最后，为了系统性地提高准确率，引入图像文字校验模型，对通用模型输出的识别结果进行二次校对，通过比对原文本和识别结果，识别并修正可能存在的错误。这种“双保险”策略有助于识别出错误的信息，从而提升了整个识别流程的准确率。

通过引入元素高亮模型，优化用户界面，使得客户经理可以实时对照并进行调整，这不仅增强了业务感知，也提高了参与度。调整前后数据的回流被用于形成再训练数据，形成一个高效的迭代优化闭环，持续提升模型性能。

相较于传统技术，本方案在合同关键信息抽取的精确度和召回率上实现了30%以上的提升，同时合同影像的识别覆盖率也提升了50%以上。因而，单份合同的处理耗时缩短了60%，多份合同处理时间减少80%以上。

中国工商银行软件开发中心已将该方案应用到信贷业务非标准合同的智能解读和提取上，不仅提高了复杂多模态数据内容抽取的精确度和效率，也优化了客户经理的使用体验，使他们能够更加专注于核心业务决策。