AI如何与票据交易场景结合

AI如何与票据交易场景结合

2024-12-26 23:42

本文基于之前做过的票据交易服务平台，思考AI技术如何与票据交易场景相结合。应用OCR和NLP技术，可以辅助票据录入和票据签收，从而提高企业的工作效率。本文按以下几个部分作说明：

这是我一年前参与的从0开始设计的项目，当时没有在业务场景中应用AI技术。但现在回顾，还是有不少场景可以通过AI技术来提高效率的。下面内容是对当时业务作的简单回顾

一些概念

将票据持有到期，由银行托收后回款，但时间较长（通常3月～12月）;
把票据贴现给银行，获得现金，但贴现流程繁琐;
质押给金融机构，获得现金，需办理质押流程;
转让给第三方（企业），获得现金。

3.票据中介，一般指通过买断票据，再贴现给银行，赚取差价的企业。这类企业的优势之一在于在收票端有大量的票源，出票端对接多家合作银行，可以找到最低的价格来贴现。

票据作为支付或融资手段，关于票据或其衍生品的金融产品很多。票据业务的知识广泛，本文只作最简单的说明，票据知识入门推荐看什么是票据？终于有人说明白了

用户画像

平台主要服务的用户是票据中介和具备票据流转操作需求的企业，此类客户有高频交易的特性。此类客户的业务诉求，简单概要为：
1.能高效率地获取精准的票源客户
2.资金交易安全
3.交易及时，实现秒打款（从有交易意向到钱票交换完成，通常在30分钟以内是可接受范围）

产品介绍

我们的票据服务平台主要分为三个技术核心系统：
1.票据撮合系统：为持有票据的中小企业获取贴现渠道，让收票机构高效率低成本的获取精准客户，解决市场信息匮乏和不对称等问题。
2.票据交易系统：让企业完成在线“钱票交换”，即资金、票据的安全流转。包括资金的收付、票据的转让和签收。
3.SaaS票据审批管理系统：基于SaaS结构的业务审批系统，包括企业的收票、出票业务审批、库存管理、报价管理、统计报表管理等

业务主流程及解决方案

2）业务发起
业务发起根据发起角色，发起方式，不同会影响后续的交易和审批流程。但发起的表单的内容较为固定，包含信息有：票据信息、票据报价、平台费用。此部分在业务层面上，是有提高效率的需求的。
当时的解决方案：人工录入票据信息，在创建卖票时从“票据库”选中相关票据，对缺少的信息作人手补充。

3）业务审批
业务审批部分，企业可根据内部审批政策来自定义审批流程，一般包含运营审核、财务审核，运营通常关注票据及价格信息，财务关注票据、价格、费用、收款人/付款人信息等。

4）钱票交换
此部分操作主要在票据交易系统完成，系统间作信息的交换，审批系统会收到交易对手方的相关操作信息，如操作状态和结果等。

5）记账
记账分为收票记账和出票记账。对票据信息进行完善，并对票据库存作更新。
当时的解决方案：登录网银查看，人手检查并在系统中记录。未能自动记账的原因主要是票据签收中有线下维护的信息，为了保证交易时效把此部分放在交易后维护。

从业务规则是否简单/固定、业务流程的耗时和频率、出错率、容错率等维度出发，得出以下适用结合AI技术的业务场景。

场景一：票据录入
1.需求背景
在票据交易的卖票业务场景下，企业询价通常需要先录入票据，所以票据录入是企业用户询价的第一步，是用户的高频需求。票据的关键信息众多。任何一个关键信息都可能会影响交易。如果要添加多张票据，一个个添加是很低效率的行为，且不能保证准确性，还需人工一个个校验。

2.使用场景
如果在我们的平台交易的票据，信息就已经在签收、收票记账时维护好了，不需要再录入。需要录入票据的场景有：
1）从其他线上平台收回来的票据，财务登录企业网银将票据的正背面截图保存下来，共享给运营部门，然后在在PC端录入到票据库中;
2）还有一种场景是运营或业务员在移动端录入票据。

综合来说，识别的图像主要以截图图片为主，识别的文本有中文、数字、金额符号。操作平台为：移动端和PC端。

上述描述的业务场景，可以使用OCR技术辅助，将票据录入到系统，并对票据的正面和背书信息过行分析。

1.卖票询价-票据录入

2.票据签收与记账

文字识别，俗称OCR光学字符识别（Optical Character Recognition）是对输入图像进行分析识别处理，获取图像中文字信息的过程。

OCR主要分为两类：

印刷体、手写体识别
复杂场景文字识别

1.OCR技术流程

2.OCR识别技术

字符识别技术从字符模板匹配，到以特征提取为主的识别模型（SVM分类器），再到基于深度学习的CNN字符识别、最后向端到端的方向发展。

字符模板匹配–>传统机器学习–>深度学习CNN字符识别–>端到端系统

字符模板匹配
比如识别只有数字的场景，需要首先定义10个数学模板（0～9），然后用模板匹配图像上的字符，这种策略虽然简单但相当有效，且只需要维护好模板库就可以了。但这个方法只限于一些很简单的场景，对于稍微复杂的场景，并不太实用。显然不适合我们文中的需求

传统机器学习方法（基于特征提取）
传统机器学习方法做字符识别的步骤为：特征提取—>模型选择—>数据训练—>语言模型—>输出识别结果
首先需要对原始数据进行处理，抽象出关键特征（字符的结构特征：字符的端点、交叉点、圈的个数、横线竖线条数等），将关键特征作为算法模型的输入 ; 使用分类器（如SVM）作为OCR识别模型; 用数据对模型进行训练; 为了减少识别错误率，还可以将识别问题跟语言模型结合起来，通过动态规划的方法给出最优的识别结果。

此类方法存在的问题：

特征获取困难，且不一定绝对正确。另外，文字的位移，笔画的粗细，断笔，粘连，旋转等因素的影响，也极大影响特征提取的难度。
单一的特征在字体变化、模糊或背景干扰时，泛化能力迅速下降。
过度依赖字符切分的结果，字符切分准确率影响最终识别准确率。（长度为L的文字行，其识别的平均准确率=（字符切分准确率*单字符识别准确率）的L次方。）
在复杂场景的文字识别方面，表现不好。

2）文字检测的算法
基于深度学习的文本检测方法使用效果更加鲁棒的高层语义特征，利用更多的数据去拟合更复杂、泛化能力更强的模型。要执行文字检测任务现在主流算法是基于CNN的，例如：

基于回归的YOLO、SSD，它的特点是：精度较低，但速度较快。
基于Faster RCNN的方法，它的特点是：精度较高，但速度较慢。

CNN的网络结构：
1.卷积层提取图片初步特征
2.池化层提取图片主要特征
3.全连接层将各部分特征汇总
4.产生分类器，进行预测识别

使用CNN的好处：
1.对原始图像自动提取特征，免除传统模型的人工提取特征这一比较困难的核心部分
2.比传统模型有更高的精度
3.比传统模型更好的泛化能力

该任务根据是否有先验信息和自身的复杂性又可以划分为：受控场景文字检测、非受控场景的文字检测。
1.受控场景的文字检测，如身份证识别、银行卡识别、发票识别等场景。
本文中讨论的票据识别就属于这种，它的正面的先验信息有：
a.大部分银行的电票的正面是长宽度固定的；b.字体及大小一致；c.文本的相对位置是较为固定；d.存在固定文字。e.电票的背面的长度是跟随着处理的业务，业务类型是可以穷举出来的，也可以转化成结构化的信息。
主要算法：Faster RCNN(是一种用于任意方向文本的端到端文本检测方法，能够有效解决文字尺度不一、形态各异，和检测器对尺度过于敏感等问题，大幅提高了检测环节的精度。)

2.非受控场景的文字检测，适用为复杂的场景图像文本检测任务，例如广告文字这类背景复杂的随意文字。
主要算法：CTPN、FSTN、RRPN、DMPNet、EAST、SegLink、WordSup

简单的CNN+softmax网络结构，可以识别不定长的序列，适合简单的文字识别。
基于CTC训练RNN的方法：CRNN算法(CNN+Bi-LSTM+CTC）是目前较为流行的图文识别模型，可识别较长的文本序列
基于注力Attention model+CNN+RNN

–深度学习OCR方法需要考虑：

需要大量的训练数据，那么如果我们没有办法得到大量训练数据时，这种方法很可能没有效果。
神经网络的训练需要花费大量的时间
需要用到的硬件资源一般都比较多

端到端系统
同时完成文字检测和文字识别任务的端到端的系统，论文中的到的算法比如：STN-OCR、FOTS等

关于各类算法，参考了以下文章：
场景文字识别（OCR）调研
OCR技术浅析
美团-深度学习在OCR中的应用
腾讯-OCR检测与识别技术

3.OCR算法的指标

衡量OCR系统的好坏有两部分内容：
1）是否成功地圈出了文字
2）对于圈出来的文字，有没有成功识别

常用量化指标有：准确率、召回率、F-值和识别速度
准确率=正确识别的文字数量占所有被识别字符的比例。
召回率=正确识别的文字数量占所有字符的比例。
F-值= 2 X 召回率X 准确率/（召回率+准确率），此值越大越好

识别异常的情况为：识别错误字符、漏识别字符、识别多余字符。OCR技术识别结果要结合人工确认，允许用户对识别结果进行修改。

使用OCR技术进行字符识别有如下几种策略：

内部AI自研团队
使用开源OCR引擎
对接OCR开放平台获得技术服务

要选择采用哪种策略或方法，首先需要从构成OCR产品的三大要素：算法、数据、算力来考虑。

1.算法：关于技术实现的各类算法在技术预研中已经有描述。

2.云服务器：AI模型的训练对服务器的运算能力有较高要求，GPU服务器比一般云服务器更适合深度学习项目，企业通常可以采用租用GPU云服务器或购买GPU服务主机进行模型训练。

4.深度学习开源框架：文字识别技术研究已久，从传统OCR到深度学习OCR，有少成成熟的OCR技术和产品产生。比如Tesseract、OpenCV、Tensorflow

Google的Tesseract OCR引擎，最新版本能支持深度学习OCR，它的特点是开源、免费、支持多语言多平台，可以快速搭建图文识别系统，可以读取各种格式的图像并将它们转化成超60种语言的文本。如果应用是要识别英文或数字的，可以考虑使用Tesseract OCR; 如果是识别中文，效果并不理想，需要自己去改善，开发符合自身需求的OCR引擎，但要达到高识别率，后期微调/优化还是要下很多功夫。
OpenCV，是一个跨平台的开源计算机视觉库，可以运行在Linux、Windows和Mac OS操作系统上，它轻量级而且高效，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV模块支持Caffe、TensorFlow、Torch、PyTorch等深度学习框架应用于OCR领域，可用于检测、识别自然场景图像中的文本。OpenCV在数据增强方面价值尤其突出，通过合成数据集，训练算法，提高OCR识别率。
Tensorflow，该框架由Google研发开源，是目前最火的深度学习框架之一。尤其是对图像处理有很好的效果，基于其深度学习库，可以很好的进行OCR文字识别训练。基于深度学习库的使用，可以设计出更适应业务需求的网络结构，更好的提高OCR识别效率。

如果要使用自研团队来实现算法模型，就需要了解深度学习OCR的开源框架，根据业务选择合适的开发平台，设计网络结构。

5.OCR开放平台：行业知名的OCR技术和产品，如百度OCR、腾讯优图、阿里云通用文字识别、京东、有道、ABBYY fineReader等。衡量OCR系统核心指标包括：准确率、识别速度、接口稳定性、QPS、用户界面的友好性、易用性及可行性等。
是否对接开放平台，除了考虑以上指标外，还需要考虑到此方法的两个问题：
1）成本。要关注调用服务的价格。一般平台都会有免费的调用量。
2）企业对AI产品的控制程度不足。我们想要提升识别准确率，不可以从OCR识别上做改进，因为平台作为技术提供方，toB企业直接做改善，只能做图像的预处理和识别后处理来提高准确率。

以下是几家平台的指标对比图：

公司/对比百度-通用文字识别腾讯-通用印刷体识别阿里云-通用文字识别有道-通用OCR识别准确率印刷体识别准确率99%。复杂场景的手写体识别率准确率比较低。印刷体的平均准确率可达90%以上，手写体的识别平均准确率高达85%以上。普通版，对临近边界、笔画多字体、中英混合的识别效果不理想，高精版准确率可达95%以上。印刷体文字识别测试效果比较好的。手写体识别效果一般，复杂场景识别不好。服务方式云端Paas服务接口，用户可直接调用API或使用SDK对图片中的文字进行识别。提供离线SDK和本地私有化部署。提供直接调用的全面的 API 接口和SDK 供开发者使用。提供直接调用的 API 接口云端Paas服务接口，支持IOS/Android SDK和API接入。提供离线及本地私有化OCR部署SDK支持语言支持Android、iOS、Java、PHP、Python、C++、C#、Node.js多种编程语言Java、PHP、Python、Node；SDK不支持移动端开发语言IOS/Android识别速度测试接口识别速度1s-2s，同时识别时间会受图片大小、字数多少及网络环境影响。一般在200ms - 1s内，识别时间会受图片大小、字数多少及网络环境影响。使用通用GPU识别，识别速度快，一般200ms测试识别速度比较快，识别时间会受图片大小、字数多少及网络环境影响。QPS免费服务不保证，付费服务10/s通用印刷体识别：20次/秒;高速版：10次/秒;高精度版：10次/秒3600/小时价格通用版：价格0.0025—0.005/次，50000次/天免费调用量;高精度版：价格0.01—0.03/次，500次/天免费调用量;含位置版本：价格0.0047—0.01/次，500次/天免费调用量.通用版：价格0.15元/次—0.06元/次，1000次/月免费调用;高速版：价格0.50元/次—0.20元/次，1000次/月免费调用;高精度版：价格0.50元/次—0.20元/次，1000次/月免费调用.按资源包形式购买，资源包有效期1年。有500次免费调用量。通用版：价格0.238元/次—0.023元/次;高精版：价格0.50元/次—0.10元/次通用版：价格0.0045元/次—0.01元/次，每月没有免费调用量

6.确定方案
通过上述分析，我们要确定最终方案，需要根据OCR技术实现的候选方法/策略出发，一方面需要与客户反复沟通需求，思考清楚业务场景; 另一方面需与开发一起选用适合的技术以及算法，然后综合公司的实际情况决定哪些场景都需要用AI解决，投入多少资源（成本）进行研发。