分享好友 最新动态首页 最新动态分类 切换频道
二、从网络爬取到场景化采集,数据服务行业的三场战事
2024-12-26 14:37

人类创造了AI,但AI也同时改变了人类。从AlphaGo 初出茅庐大杀四方,到Zero绝迹江湖却搅起围棋行业的腥风血雨开始,人们对于这个聚光灯下的行业所抱有的期望就一直在不断上升。

而将目光转移到聚光灯外,作为AI技术的底层支撑,数据采集与标注相较算法研究、数据挖掘等AI领域的其他工种,似乎一直以来都是被边缘化乃至低视的一个存在。

尽管,在通常情况下,人工投喂数据的质量往往直接影响着智能的精度

而摘掉廉价劳动力的帽子,我们会发现,在被忽视的角落之中,AI数据服务行业也在进行着日新月异的变化。

小到用数据爬虫抓取互联网现存数据,并进行拉框,大到根据用户定制化的硬件以及场景需求,去完成数据的采集与多维度数据标注。这个行业,如今正朝着专业化、细分化、场景化的方向不断演进。而在这一过程中,一批诸如百度数据众包、云测数据等更加专业、更具备实践经验的团队与企业也正应运而出成为行业中的佼佼者

他们的诞生一方面是这个行业前行的见证者,同时也是开拓者。

那么他们是如何成长起来的?

这个一直被忽略、被边缘化的行业究竟又发展到了哪个阶段?

最后,从他们的角度出发,AI又经历了怎样的发展与变迁?

通过深度走访AI数据服务行业的头部玩家云测数据以及多位AI数据服务行业从业者,了解他们的故事与对这个行业的看法,我们得以看到大数据行业最真实的一面,也进一步从另一个角度看到了AI发展过程之中最隐秘的变化与成长。

作为谷歌首席架构师、谷歌人工智能团队谷歌大脑(Google Brain)的负责人,Jeff Dean曾在公开场合这样强调大数据对于人工智能算法的重要性:

以上横轴为数据量,纵轴为准确率,蓝色以及绿色线条分别代表深度学习以及传统算法。根据Jeff Dean的预判,随着数据规模的不断扩大,未来深度学习算法的精度也将不断提升。

也就是说,处在技术大爆发与数字洪水阶段,谁掌握了更多的数据、更精准的数据,那么谁的算法精度也就会更领先一步

但一直以来,在AI的发展中,数据的采集与标注却始终在有意或者无意的被忽视着,乃至被边缘化。

但是在云测数据的总经理贾宇航看来,对于算法落地来说,“据不仅充当饲料,同时也在逐渐充当婴儿的奶粉,运动员的优质蛋白一样,拥有了就可以更好的成长具备竞争力”而想要为算法提供足够优质的婴儿奶粉,并没有那么容易。

举个简单的例子,如果只是人脸检测,那么开源数据集或平台众包就可以很快满足需求。但随着技术要求的提升,AI不仅仅是做人脸检测,而是视线追踪、或是微表情检测。很显然,这类需求很难通过互联网或者众包用户采集完成。

那么如何解决这个问题?或许只有更专业的数据采集与标注团队才能完成这一任务。

也正是基于这样的市场需求,2017年,云测旗下AI数据服务品牌云测数据成立。基于此前对于To B行业的深刻理解以及专业化的团队搭建,云测数据成立不久就跻身国内一流的AI数据服务解决方案提供商。

那么云测数据如何解决上面所说的问题?

那么云测数据如何解决上面所说的问题?

贾宇航表示,云测数据的办法是自建数据采集基地,搭建专门的场景实验室。目前,云测数据已经有了200多人的研发与产品经理,以及近千人的数据标注团队,在规模以及质量上都处在行业前列。

以多角度多姿态的动作采集为例,贾宇航表示,云测数据专门在横店建了一个数据采集基地,根据客户订单需求,进行特定动作、表情和表情的捕捉。

当然,这些不仅是有趣或者单一客户需求所驱动的成果,而是整个AI数据服务行业从粗放的劳动密集型时代走向精耕细作所必须的过程。

走到如今,AI数据服务行业已经迈向场景化与复杂化,而以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求。

贾宇航解释,现如今,一个完整的数据服务工作流程是由可行性评估到执行,到审核,再到交付四个环节组成。这中间,如何分工,审核与执行之间又该如何形成反馈闭环,怎样能够提升工作效率都是需要经验摸索以及成本投入的。

以云测数据为例,在进行数据服务时,云测会有专门的研发投入以及不少于350个小时的团队培训流程。

通过研发团队搭建的协同分工流程平台以及诸如快速框选、快速选点等小工具的开发,可以将数据采集以及标注的速度与效率成倍的提升。以法令纹的采集标注为例,有时候客户不仅需要将其准确的框选出来,还需要将其进行均匀的四点等分,如果单纯的通过手工作业,那么无论效率还是精确度都将受到极大的影响。但是通过工具的开发,就可以在框选之后,快速的进行自动等分标注。

而针对特定的用户需求,云测还搭建了专门的场景实验室,可以基于客户算法模型定制化搭建采集场景,以达到覆盖尽可能多的实际场景及边际场景的目的,保证采集数据契合算法模型,为客户提供高精度的采集数据。

在AI的落地中,数据服务行业也在不断自我演进,同时也见证与反哺着下游AI企业的成长与变化。

如果回顾数据服务行业这二十年来的发展,我们会发现在这个行业一定经历了三大阶段的战事,每一场中都有其代表性的玩家出现,每一阶段,也都印证着AI行业发展的脚步。

第一阶段,可以简单概括为免费阶段。

这一时期,AI也基本还停留在初步的实验室阶段,对于数据本身的精确度要求并不算高。比如有企业需要人脸数据,只要把来自社交网络或者对搜索引擎图片进行简单的爬取就能够满足基本的需求。

进一步演化出,以ImageNet等开源数据集为代表,企业不再需要自己爬取网络数据,而是直接使用网上开源的现成数据,进而可以减少很多时间以及精力成本。但是这种数据偏通用,无法满足定制化需求。AI的发展也在这一时期进入一个小高潮,但是距离产业化应用却还有一定距离。

第二阶段,数据服务行业开始有了初步的商业化,众包成为了这一阶段行业的代表性服务形态。

但是相应的,专业性也成为这一时期行业的代表性问题。首先,是众包用户无法满足客户对于诸如疲劳驾驶检测、情绪捕捉等方面的复杂需求;其次,对于客户需求的理解方面,众包用户由于没有经受专业的训练,可能会出现质量参差不齐或者理解不到位的情况。因此整体所能做的事情相对简单,无法满足AI企业往下一个阶段进化时的数据需求。

发展至如今,数据服务已经走入第三阶段。这一时期,AI落地已经成为行业发展的一大重要阶段,AI+5G+IoT催化了数据大爆炸,带来了广阔的行业机遇,相应的数据服务也走入了场景化以及精细化时代。

相对应的,云测数据对自身的定位也进一步明确,针对数据的安全性、定制化和精细化提出了更高要求。

针对高安全性,贾宇航总结,云测数据针对客户“可复用的只有经验,但绝不包括数据。”对此,云测数据建立了一套数据隔离机制:可以将数据封闭在标注平台之内,全程采取专业化设备,以保证数据的采集、标注者只有数据的操作权,但是没有拷贝、转移的权利。

而针对场景化,云测数据目前在华东、华北、华南都设有数据交付中心和数据采集基地,可以满足方言采集,特定目标采集等定制化客户需求。

最后是精细化,据贾宇航表示,在数据采集环节,云测数据可以通过定制化场景搭建、专业人员实战来满足用户特定需求;而在数据标注环节,则会通过对员工培训以及专门开发例如法令纹标注等专业化工具,以使得框选、标注的精度进一步提升。

而随着场景化、细分化的不断发展,对客户进行专家式服务也成了当前行业发展的一大特色。

贾宇航向我们讲述了一个案例,曾经有一家自动驾驶企业前来云测数据,表示想要针对自动驾驶场景,对激光雷达以及摄像头数据进行采集标注。客户要求将摄像头拍到的车辆,在激光雷达的捕捉的数据中全部标记出来。

但实际上,对于激光雷达捕捉到的数据中,10个点以下的内容,实际上在标注的时候可以直接忽略,否则反而会影响最终算法的识别精度。这也就是专业化的数据标注团队,对于客户需求的进一步增益。

我们不难发现,作为AI的基石,AI数据服务的发展其实也正从一个独特的角度,对AI的发展形成侧写。

从云测数据的角度来看,贾宇航发现当前的AI发展出现了三大特征:细分化、多模态以及专业化,相应的,对于AI数据服务行业也形成了一定的影响与方向指引。

首先是细分化,当前AI已经进入技术落地阶段,行业发展的主力已经由此前的技术流AI专家主导变成了由行业专家与技术流AI专家共同合作完成技术落地。他们一方面拥有着丰富的细分领域行业经验,另一方面又具备着深厚的技术研发实力,两相结合将AI从象牙塔带进了安防、金融、家居、交通等各大行业。

进一步影响到数据服务行业,贾宇航发现,在进行数据标注时,通常有驾驶经验的工作人员在标注自动驾驶的时候也会有很好的工作效率。而未来,在数据标注行业,玩家们也将随着AI行业而一同进入定位与细分市场追逐阶段。以云测数据为例,目前,他们集中于智能安防、智能驾驶、智慧金融、智慧家居,并在这几个领域中建立了较高的行业壁垒。

其次是多模态,所谓多模态,即是对多维时间、空间、环境数据的感知与融合。比如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知的更精准、更真实。相应的,在数据服务的时候,企业也要跟上客户需求,掌握好对多维传感器融合的数据采集与标注。

最后则是专业化,尽管当前AI技术已经进入落地阶段,但是头部AI企业相较传统行业的AI落地,在技术上会有前沿性的领跑。而这些算法企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,相应的数据服务企业也要有前瞻性,才能在行业竞争中建立长期的壁垒。

从贵阳、河南农村走向北京城里,理念更先进、技术更硬核、服务更专业的AI数据服务企业正将数据采集与标注带入精细化运营时代。

一方面,AI落地,让技术脱离实验室刷榜走向实际场景,也让数据服务行业从幕后走到台前,成为这一过程之中最隐秘的见证者。

另一方面,5G+AI+IoT时代来临,为市场带来新的爆发机遇,台前是百花齐放的AI产品,背后则是默默无闻的数据服务产业,正是他们托起了AI发展的基石。

最新文章
盘点AI编写剧本:国内免费好用的AI编写剧本平台
随着人工智能的快速发展,我们的生活中有越来越多的应用场景。其中之一就是帮助我们提高工作效率,比如,在创作领域中,有许多AI编写剧本平台,可以帮助我们快速提高写作效率,节省时间和精力。下面我们来详细盘点一下这些平台的特点和优势
让废片变身高清美图!无损放大技艺与搜狐简单AI工具全解析
访问搜狐简单AI官方网站或微信小程序:首先在浏览器中搜索“搜狐简单AI”,并点击进入工具页面。上传你的照片:在主页上,找到上传按钮,选择需要放大的照片。支持多种格式,比如JPG、PNG等,方便用户选择。选择放大参数:在确认上传成功后
黑龙江省博物馆、东北烈士纪念馆等18日起恢复开放
记者从相关部门了解到,黑龙江省博物馆、黑龙江省民族博物馆、东北烈士纪念馆、中共黑龙江历史纪念馆、黑龙江省图书馆等展馆18日起恢复对外开放。黑龙江省博物馆一、开放时间每周一闭馆(节假日除外),开放日9时—16时30分,15时30分停止
德国otto独立站运营事项
  在电商行业蓬勃发展的当下,众多企业倾向于在德国 Otto 等电商平台之外构建独立站点。这一举措有助于企业牢牢把控品牌自主权,并有效拓展销售路径。  德国 otto 独立站怎么运营?  网站设计与用户体验:  独立站的网站设计处于核
美国云服务器apache虚拟站点开设403权限不足解决方法
美国云服务器apache虚拟站点开设403权限不足解决方法如图所示当我出现这个提示的时候往往就是权限不足。我们可以有两种方法来解决这个问题。 方法一:设置httpd.conf配置文件 在apache文件目录下找到“httpd.conf‘文件用文本格式打开。 找
阿里热炒的夸克搜索,真的有未来?
搜索引擎领域正在面临新老巨头新一轮的虎视眈眈,这是近半年以来最新的互联网行业趋势。从字节跳动推出独立的头条搜索、建立头条百科,到微信不断发力移动端“搜一搜”,再到华为在海外发布独立搜索应用,消停许久的搜索引擎市场似乎正在迎
醴陵网站排名优化费用是如何计算的?
醴陵搜索引擎优化营销推广服务包括醴陵营销型网站建设、整站优化、SEM快速排名、营销系统和营销工具的研发;致力于搜索引擎营销流程化、数字化、智能化、规模化的研究,探索和实践。醴陵做网络营销找哪家网站推广公司好?创新互联是专业做
走出抑郁症的7个方法,你可以试一试!--重庆抑郁症医院排名
每个人都有可能得抑郁症,只是发病率不一样,就抑郁症而言,遭受痛苦、挫折、创伤比较多的人,更容易得抑郁症;没有经历创伤、痛苦的人也可能得抑郁症,只是概率会低一点。 --中国科学院院士、北京大学第六医院院长陆林抑郁症,就像是一场
精准定位关键词,新时代企业营销的制胜之路
在互联网时代,信息爆炸,竞争激烈,企业要想在市场中脱颖而出,就必须掌握精准定位的营销策略。关键词,作为互联网营销的灵魂,是实现精准传播和高效转化的重要手段。本文将从关键词定位的重要性、如何进行关键词以及如何应用关键词等方面
集美大学毕业设计(论文)工作规定(修订)
一、毕业设计(论文)的目的、要求(一)培养学生严肃认真的科学态度和求实的工作作风,形成正确的世界观,掌握科学的方法论。(二)培养学生综合运用所学的基础理论、专门知识、基本技能,发现、分析、解决与本专业相关的实际问题,以及从
相关文章
推荐文章
发表评论
0评