分享好友 最新动态首页 最新动态分类 切换频道
AI如何与票据交易场景结合
2024-12-26 23:42

本文基于之前做过的票据交易服务平台,思考AI技术如何与票据交易场景相结合。应用OCR和NLP技术,可以辅助票据录入和票据签收,从而提高企业的工作效率。本文按以下几个部分作说明

这是我一年前参与的从0开始设计的项目,当时没有在业务场景中应用AI技术。但现在回顾,还是有不少场景可以通过AI技术来提高效率的。下面内容是对当时业务作的简单回顾

一些概念

  • 将票据持有到期,由银行托收后回款,但时间较长(通常3月~12月);
  • 把票据贴现给银行,获得现金,但贴现流程繁琐;
  • 质押给金融机构,获得现金,需办理质押流程;
  • 转让给第三方(企业,获得现金。

3.票据中介,一般指通过买断票据,再贴现给银行,赚取差价的企业。这类企业的优势之一在于在收票端有大量的票源,出票端对接多家合作银行,可以找到最低的价格来贴现。

票据作为支付或融资手段,关于票据或其衍生品的金融产品很多。票据业务的知识广泛,本文只作最简单的说明,票据知识入门推荐看 什么是票据?终于有人说明白了

用户画像

平台主要服务的用户是票据中介和具备票据流转操作需求的企业,此类客户有高频交易的特性。此类客户的业务诉求,简单概要为
1.能高效率地获取精准的票源客户
2.资金交易安全
3.交易及时,实现秒打款(从有交易意向到钱票交换完成,通常在30分钟以内是可接受范围

产品介绍

我们的票据服务平台主要分为三个技术核心系统
1.票据撮合系统:为持有票据的中小企业获取贴现渠道,让收票机构高效率低成本的获取精准客户,解决市场信息匮乏和不对称等问题。
2.票据交易系统:让企业完成在线“钱票交换”,即资金、票据的安全流转。包括资金的收付、票据的转让和签收。
3.SaaS票据审批管理系统:基于SaaS结构的业务审批系统,包括企业的收票、出票业务审批、库存管理、报价管理、统计报表管理等

业务主流程及解决方案

2)业务发起
业务发起根据发起角色,发起方式,不同会影响后续的交易和审批流程。但发起的表单的内容较为固定,包含信息有:票据信息、票据报价、平台费用。此部分在业务层面上,是有提高效率的需求的。
当时的解决方案:人工录入票据信息,在创建卖票时从“票据库”选中相关票据,对缺少的信息作人手补充。

3)业务审批
业务审批部分,企业可根据内部审批政策来自定义审批流程,一般包含运营审核、财务审核,运营通常关注票据及价格信息,财务关注票据、价格、费用、收款人/付款人信息等。

4)钱票交换
此部分操作主要在票据交易系统完成,系统间作信息的交换,审批系统会收到交易对手方的相关操作信息,如操作状态和结果等。

5)记账
记账分为收票记账和出票记账。对票据信息进行完善,并对票据库存作更新。
当时的解决方案:登录网银查看,人手检查并在系统中记录。未能自动记账的原因主要是票据签收中有线下维护的信息,为了保证交易时效把此部分放在交易后维护。

从业务规则是否简单/固定、业务流程的耗时和频率、出错率、容错率等维度出发,得出以下适用结合AI技术的业务场景。

场景一:票据录入
1.需求背景
在票据交易的卖票业务场景下,企业询价通常需要先录入票据,所以票据录入是企业用户询价的第一步,是用户的高频需求。票据的关键信息众多。任何一个关键信息都可能会影响交易。如果要添加多张票据,一个个添加是很低效率的行为,且不能保证准确性,还需人工一个个校验。

2.使用场景
如果在我们的平台交易的票据,信息就已经在签收、收票记账时维护好了,不需要再录入。需要录入票据的场景有
1)从其他线上平台收回来的票据,财务登录企业网银将票据的正背面截图保存下来,共享给运营部门,然后在在PC端录入到票据库中;
2)还有一种场景是运营或业务员在移动端录入票据。

综合来说,识别的图像主要以截图图片为主,识别的文本有中文、数字、金额符号。操作平台为:移动端和PC端。

上述描述的业务场景,可以使用OCR技术辅助,将票据录入到系统,并对票据的正面和背书信息过行分析。

1.卖票询价-票据录入

2.票据签收与记账

文字识别,俗称OCR光学字符识别(Optical Character Recognition)是对输入图像进行分析识别处理,获取图像中文字信息的过程。

OCR主要分为两类

  • 印刷体、手写体识别
  • 复杂场景文字识别

1.OCR技术流程

2.OCR识别技术

字符识别技术从字符模板匹配,到以特征提取为主的识别模型(SVM分类器,再到基于深度学习的CNN字符识别、最后向端到端的方向发展。

字符模板匹配–>传统机器学习–>深度学习CNN字符识别–>端到端系统

字符模板匹配
比如识别只有数字的场景,需要首先定义10个数学模板(0~9,然后用模板匹配图像上的字符,这种策略虽然简单但相当有效,且只需要维护好模板库就可以了。但这个方法只限于一些很简单的场景,对于稍微复杂的场景,并不太实用。显然不适合我们文中的需求

传统机器学习方法(基于特征提取
传统机器学习方法做字符识别的步骤为:特征提取—>模型选择—>数据训练—>语言模型—>输出识别结果
首先需要对原始数据进行处理,抽象出关键特征(字符的结构特征:字符的端点、交叉点、圈的个数、横线竖线条数等,将关键特征作为算法模型的输入 ; 使用分类器(如SVM)作为OCR识别模型; 用数据对模型进行训练; 为了减少识别错误率,还可以将识别问题跟语言模型结合起来,通过动态规划的方法给出最优的识别结果。

此类方法存在的问题

  • 特征获取困难,且不一定绝对正确。另外,文字的位移,笔画的粗细,断笔,粘连,旋转等因素的影响,也极大影响特征提取的难度。
  • 单一的特征在字体变化、模糊或背景干扰时,泛化能力迅速下降。
  • 过度依赖字符切分的结果,字符切分准确率影响最终识别准确率。(长度为L的文字行,其识别的平均准确率=(字符切分准确率*单字符识别准确率)的L次方。
  • 在复杂场景的文字识别方面,表现不好。

2)文字检测的算法
基于深度学习的文本检测方法使用效果更加鲁棒的高层语义特征,利用更多的数据去拟合更复杂、泛化能力更强的模型。要执行文字检测任务现在主流算法是基于CNN的,例如

  • 基于回归的YOLO、SSD,它的特点是:精度较低,但速度较快。
  • 基于Faster RCNN的方法,它的特点是:精度较高,但速度较慢。

CNN的网络结构
1.卷积层提取图片初步特征
2.池化层提取图片主要特征
3.全连接层将各部分特征汇总
4.产生分类器,进行预测识别

使用CNN的好处
1.对原始图像自动提取特征,免除传统模型的人工提取特征这一比较困难的核心部分
2.比传统模型有更高的精度
3.比传统模型更好的泛化能力

该任务根据是否有先验信息和自身的复杂性又可以划分为:受控场景文字检测、非受控场景的文字检测。
1.受控场景的文字检测,如身份证识别、银行卡识别、发票识别等场景。
本文中讨论的票据识别就属于这种,它的正面的先验信息有
a.大部分银行的电票的正面是长宽度固定的;b.字体及大小一致;c.文本的相对位置是较为固定;d.存在固定文字。e.电票的背面的长度是跟随着处理的业务,业务类型是可以穷举出来的,也可以转化成结构化的信息。
主要算法:Faster RCNN(是一种用于任意方向文本的端到端文本检测方法,能够有效解决文字尺度不一、形态各异,和检测器对尺度过于敏感等问题,大幅提高了检测环节的精度。)

2.非受控场景的文字检测,适用为复杂的场景图像文本检测任务,例如广告文字这类背景复杂的随意文字。
主要算法:CTPN、FSTN、RRPN、DMPNet、EAST、SegLink、WordSup

  • 简单的CNN+softmax网络结构,可以识别不定长的序列,适合简单的文字识别。
  • 基于CTC训练RNN的方法:CRNN算法(CNN+Bi-LSTM+CTC)是目前较为流行的图文识别模型,可识别较长的文本序列
  • 基于注力Attention model+CNN+RNN

–深度学习OCR方法需要考虑

  • 需要大量的训练数据,那么如果我们没有办法得到大量训练数据时,这种方法很可能没有效果。
  • 神经网络的训练需要花费大量的时间
  • 需要用到的硬件资源一般都比较多

端到端系统
同时完成文字检测和文字识别任务的端到端的系统,论文中的到的算法比如:STN-OCR、FOTS等

关于各类算法,参考了以下文章
场景文字识别(OCR)调研
OCR技术浅析
美团-深度学习在OCR中的应用
腾讯-OCR检测与识别技术

3.OCR算法的指标

衡量OCR系统的好坏有两部分内容
1)是否成功地圈出了文字
2)对于圈出来的文字,有没有成功识别

常用量化指标有准确率召回率F-值识别速度
准确率=正确识别的文字数量占所有被识别字符的比例。
召回率=正确识别的文字数量占所有字符的比例。
F-值= 2 X 召回率X 准确率/(召回率+准确率,此值越大越好

识别异常的情况为:识别错误字符、漏识别字符、识别多余字符。OCR技术识别结果要结合人工确认,允许用户对识别结果进行修改。

使用OCR技术进行字符识别有如下几种策略

  • 内部AI自研团队
  • 使用开源OCR引擎
  • 对接OCR开放平台获得技术服务

要选择采用哪种策略或方法,首先需要从构成OCR产品的三大要素:算法、数据、算力来考虑。

1.算法:关于技术实现的各类算法在技术预研中已经有描述。

2.云服务器:AI模型的训练对服务器的运算能力有较高要求,GPU服务器比一般云服务器更适合深度学习项目,企业通常可以采用租用GPU云服务器或购买GPU服务主机进行模型训练。

4.深度学习开源框架:文字识别技术研究已久,从传统OCR到深度学习OCR,有少成成熟的OCR技术和产品产生。比如Tesseract、OpenCV、Tensorflow

  • Google的Tesseract OCR引擎,最新版本能支持深度学习OCR,它的特点是开源、免费、支持多语言多平台,可以快速搭建图文识别系统,可以读取各种格式的图像并将它们转化成超60种语言的文本。如果应用是要识别英文或数字的,可以考虑使用Tesseract OCR; 如果是识别中文,效果并不理想,需要自己去改善,开发符合自身需求的OCR引擎,但要达到高识别率,后期微调/优化还是要下很多功夫。
  • OpenCV,是一个跨平台的开源计算机视觉库,可以运行在Linux、Windows和Mac OS操作系统上,它轻量级而且高效,实现了图像处理和计算机视觉方面的很多通用算法。OpenCV模块支持Caffe、TensorFlow、Torch、PyTorch等深度学习框架应用于OCR领域,可用于检测、识别自然场景图像中的文本。OpenCV在数据增强方面价值尤其突出,通过合成数据集,训练算法,提高OCR识别率。
  • Tensorflow,该框架由Google研发开源,是目前最火的深度学习框架之一。尤其是对图像处理有很好的效果,基于其深度学习库,可以很好的进行OCR文字识别训练。基于深度学习库的使用,可以设计出更适应业务需求的网络结构,更好的提高OCR识别效率。

如果要使用自研团队来实现算法模型,就需要了解深度学习OCR的开源框架,根据业务选择合适的开发平台,设计网络结构。

5.OCR开放平台:行业知名的OCR技术和产品,如百度OCR、腾讯优图、阿里云通用文字识别、京东、有道、ABBYY fineReader等。衡量OCR系统核心指标包括:准确率、识别速度、接口稳定性、QPS、用户界面的友好性、易用性及可行性等。
是否对接开放平台,除了考虑以上指标外,还需要考虑到此方法的两个问题
1)成本。要关注调用服务的价格。一般平台都会有免费的调用量。
2)企业对AI产品的控制程度不足。我们想要提升识别准确率,不可以从OCR识别上做改进,因为平台作为技术提供方,toB企业直接做改善,只能做图像的预处理和识别后处理来提高准确率。

以下是几家平台的指标对比图

公司/对比百度-通用文字识别腾讯-通用印刷体识别阿里云-通用文字识别有道-通用OCR识别准确率印刷体识别准确率99%。复杂场景的手写体识别率准确率比较低。印刷体的平均准确率可达90%以上,手写体的识别平均准确率高达85%以上。普通版,对临近边界、笔画多字体、中英混合的识别效果不理想,高精版准确率可达95%以上。印刷体文字识别测试效果比较好的。手写体识别效果一般,复杂场景识别不好。服务方式云端Paas服务接口,用户可直接调用API或使用SDK对图片中的文字进行识别。提供离线SDK和本地私有化部署。提供直接调用的全面的 API 接口和SDK 供开发者使用。提供直接调用的 API 接口云端Paas服务接口,支持IOS/Android SDK和API接入。提供离线及本地私有化OCR部署SDK支持语言支持Android、iOS、Java、PHP、Python、C++、C#、Node.js多种编程语言Java、PHP、Python、Node;SDK不支持移动端开发语言IOS/Android识别速度测试接口识别速度1s-2s,同时识别时间会受图片大小、字数多少及网络环境影响。一般在200ms - 1s内,识别时间会受图片大小、字数多少及网络环境影响。使用通用GPU识别,识别速度快,一般200ms测试识别速度比较快,识别时间会受图片大小、字数多少及网络环境影响。QPS免费服务不保证,付费服务10/s通用印刷体识别:20次/秒;高速版:10次/秒;高精度版:10次/秒3600/小时价格通用版:价格0.0025—0.005/次,50000次/天免费调用量;高精度版:价格0.01—0.03/次,500次/天免费调用量;含位置版本:价格0.0047—0.01/次,500次/天免费调用量.通用版:价格0.15元/次—0.06元/次,1000次/月免费调用;高速版:价格0.50元/次—0.20元/次,1000次/月免费调用;高精度版:价格0.50元/次—0.20元/次,1000次/月免费调用.按资源包形式购买,资源包有效期1年。有500次免费调用量。通用版:价格0.238元/次—0.023元/次;高精版:价格0.50元/次—0.10元/次通用版:价格0.0045元/次—0.01元/次,每月没有免费调用量

6.确定方案
通过上述分析,我们要确定最终方案,需要根据OCR技术实现的候选方法/策略出发,一方面需要与客户反复沟通需求,思考清楚业务场景; 另一方面需与开发一起选用适合的技术以及算法,然后综合公司的实际情况决定哪些场景都需要用AI解决,投入多少资源(成本)进行研发。

最新文章
新上汽大众帕萨特与速派的区别是什么
新上汽与有不少区别。 外观设计上帕萨特延续大众稳重大气风格融入时尚元素更显年轻动感速派简洁大气线条流畅有力量感。 车身尺寸方面帕萨特为 4933 毫米、1836 毫米、1469 毫米轴距 2871 毫米速派是 4869 毫米、1865 毫米、1489 毫米轴距 2
二房东转租合同范本,二房东转租合同怎么写才有效
在没有事先约定的情况下,租客转租房屋必须经过房东同意,未经房东同意而擅自转租的,房东有权解除合同。对给第三方租客造成的损失,由转租者承担。甲、乙双方就房屋租赁事宜,达成如下协议:甲方将位于xx市xx街道xx小区x号楼xxxx号的房屋
游戏服务器开发岗位职责
岗位职责:1、负责游戏服务器架构的搭建/优化,核心模块开发以及技术攻关;2、迅速响应并解决游戏开发过程中及线上出现的问题,与运维团队紧密合作,确保游戏服务器的稳定运行;3、实时监控服务器性能,针对游戏性能及稳定性进行调优,提升
开搜AI搜索
免费无广告,直达结果网站服务:01-常用,AI搜索,AI搜索引擎,开搜AI,搜索软件,浏览器搜索,知识问答,开搜AI,AI搜索引擎,知识问答,AI搜索,浏览器搜索,搜索软件,A-工作,01-常用,AI搜索,AI搜索引擎,开搜AI,搜索软件,浏览器搜
深耕网站建设,构建优质、高效、安全的在线平台
本文目录导读:要点:设计先行,用户体验至上要点二:技术支撑,性能优化是关键要点三:持续维护,迭代更新不可或缺随着互联网的普及和技术的飞速发展,网站建设已经成为企业与个人展示自我、传递信息、提供服务的重要渠道,深耕网站建设,
公众号推广全攻略,全方位优化策略解析
优化公众号推广,全方位策略指南包括:明确目标受众,打造优质内容;利用多渠道推广,如朋友圈、KOL合作;优化界面设计,提升用户体验;定期分析数据,调整策略;互动营销,增强粉丝粘性;整合线上线下活动,扩大影响力。随着移动互联网的
百度推广网址
百度推广网址摘要:,,百度推广是一个在线广告平台,提供多种广告服务,包括搜索推广、信息流广告、品牌推广等。通过百度推广,企业可以将自己的产品或服务展示给更多的潜在客户,提高品牌知名度和销售额。如果您需要了解更多关于百度推广
如何提高https站点的收录
开始教大家部署SSL证书的时候就跟大家说了,如果是没有基础的网站做https会比同样零基础http协议的网站优化更难。具体什么原因个人认为还是搜索引擎的原因,习惯问题,要想改过来还是很难的,有基础的站点影响不是很大小编觉得是因为http30
漫画分镜的著作权保护
作者:林娜一、 事情的起源2023年1月31日,哔哩哔哩漫画出了一则公告,称接到对漫画《幽冥诡匠》侵犯著作权投诉,平台经调查后,决定对其永久下架。细节请见:威理扬ACG法新闻[1]https://mp.weixin.qq.com/s/dNtJJq7GqUnnRFO00QVDxA 此次
静安区SEO秘籍,企业网络曝光度提升利器
静安区企业提升网络曝光度,秘诀在于搜索引擎优化(SEO)推广。通过精准关键词、高质量内容与策略性链接建设,静安区企业能有效提高搜索引擎排名,吸引潜在客户,实现高效网络营销。随着互联网的普及,越来越多的企业开始意识到网络营销的
相关文章
推荐文章
发表评论
0评