分享好友 最新动态首页 最新动态分类 切换频道
10年+,阿里沉淀出怎样的搜索引擎?(v2019-09-24)
2024-12-27 02:07

搜索引擎分为数据源聚合(俗称dump)、全量/增量/实时索引构建及在线服务等部分,以Tisplus为入口经由Bahamut(Maat进行工作流调度)->Blink->Hdfs/Swift->BuildService->Ha3->SP->SW等阶段对客户提供高可用/高性能的搜索服务。其中数据源聚合在tisplus平台和Blink平台完成,Build service和Ha3在suez平台完成,SP和SW通过drogo进行部署。具体架构图如下

10年+,阿里沉淀出怎样的搜索引擎?(v2019-09-24)

1688目前有spu、cspu,company,buyoffer和feed等引擎及offer离线在tisplus运维,该平台主要ha3和sp的搭建和维护,大体架构如下

在日常维护中偶尔会遇到数据源产出失败的问题,主要是由于数据源表权限过期及zk抖动等原因。性能方面,在集团内搜索中台团队的引入Blink Batch模型后,dump执行时间被缩短,具体指标如下(以buyoffer引擎为例

在tisplus平台,离线dump的入口如下

DAG数据源图示例

下面主要说下离线dump数据源处理流程,包括Bahamut、Maat和数据输出。

Bahamut是离线数据源处理的组件平台,将web端拼接的数据图通过jobManager翻译成可执行的sql语句。目前Bahamut包含的组件有四类,分别是

  1. 数据输入:datasource(支持tddl和odps

  2. KV输入:HbaseKV(Hbase数据表

  3. 数据处理:Rename(数据字段重命名,DimTrans(使用1对多的数据聚合,Functions(简单字段处理,Selector(字段选择,UDTF(数据逻辑处理,Merge(数据源聚合,Join(left join

  4. 数据输出:Ha3(Hdfs/swift

对数据源的处理过程,描述如下

by 敬明

而对于Bahamut->blink过程可以陈述如下

其中,Bahamut将任务拆解后扔给JobManager进行逻辑节点到物理节点的转换,形成若干节点后再归并组合成一个完整的SQL语句,例如上图Kratos_SQL就是一个增量Join的完整SQL,配合资源文件一起通过BayesSDK提交任务。此外,平台增加了一个弱个性化配置的功能,可以通过个性化配置来实现控制某个具体任务的并发度、节点内存、cpu等等参数。

Maat是基于开源项目Airflow再次开发的分布式流程调度系统,具有可视化编辑及通用的节点类型,Drogo化部署,分集群管理及完善的监控&报警机制等优点。

关于Airflow及其他工作流系统,对比陈列如下

eed引擎为例,maat调度页面如下

当任务错误时,可以通过该页面进行“将指定步骤置fail”然后重跑全量任务,也可以通过查看某个步骤的log获悉任务失败原因。

经过上述步骤后,最后将数据以xml的形式(isearch format)输出到HDFS/Pangu路径(全量)和Swift Topic(增量,引擎全量时通过HDFS路径获取全量doc文件进行build,增量时直接从swift topic中获取增量更新消息更新到引擎中。离线平台通过一个服务为Tisplus引擎模块提供表信息的查询等功能,以下是一个HA3表包含的信息

 
 

 经过上述步骤后,数据以xml(isearchformat)的格式产出到Hdfs和swift,然后通过在suez_ops平台的离线表中选择数据类型为zk并配置相应的zk_server和zk_path即可。

然后由Build service完成全量/增量/实时索引的构建,然后分发到Ha3在线集群提供服务。

suez的离线表构建逻辑如下

suez在线服务逻辑如下

下面针对离线(buildservice)和在线(ha3)进行简述

Build Service(简称BS)是一套提供全量、增量、实时索引的构建系统

build_service总共有五类角色

  • admin :负责控制整体build流程,切换全量增量状态,发起定期任务,相应用户的控制请求

  • processor :负责数据处理,将用户的原始文档转化为轻量级可build的文档形态

  • builder :负责构建索引

  • merger :负责索引整理

  • rtBuilder :负责在线索引的实时构建。

其中admin、processor、builder、merger是以二进制程序的方式运行在hippo上,rtBuilder是以lib的形式提供给在线部分使用。

一个完整的全量+增量过程会产生一个generationid,该generation会经历  process full-> builder full -> merger full ->process inc -> builder inc ->merger inc的过程,其中处于inc过程后,builder inc和merger inc会交替出现。1688在ha3升级之前经常会出现 build tooslow问题就是因为分配到了坏节点或builderinc/merger inc阶段卡住。

Ha3是一套基于suez框架的全文检索引擎,提供丰富的在线查询子句,过滤子句,排序子句,聚合子句且支持用户自定义开发排序插件。服务架构如下

1688主搜引擎由一组Qrs、searcher和summary组成

  • Qrs的作用是:对输入的查询作解析与校验,通过后把查询转发给相应的;searcher,收集合并searcher返回的结果,最后对结果做一些加工并返回给用户。其中也可以通过写meger插件干预合并规则

  • searcher:可以是文档的召回服务(searcher),也可以是文档的打分与排序服务(ranker)或者是文档的摘要服务(summary)

  • summary:1688主搜将searcher和summary分离,summary集群只提供取商品详情的服务。

qrs/searcher/summary等机器通过挂载到cm2提供服务,比如qrs有对外cm2,可以对SP等调用方提供服务,searcher和summary有对内cm2,可以接收从qrs来的请求并完成召回排序取详情等服务。

一次调用方的query服务,要经由qrs->query解析->seek->filter->rank(粗排)->agg(聚合)->rerank(精排)->extraRank(最终排)->merger->summary(取详情)的过程,具体描述如下

其中,ReRank和ExtraRank由Hobbit插件及基于Hobbit的战马插件完成,业务方可以根据自身需求开发战马特征并指定各特征权重得到商品的最终分。

drogo是基于二层调度服务Carbon的无数据服务的管控平台,1688的SP服务及QP代理服务均部署在该平台。

1688搜索链路主要服务平台部署情况简述如下

最新文章
精准策略解码,高效优化百度推广方案,全面提升广告效能
深入解析优化百度推广方案,关键在于精准定位关键词、合理设置出价和创意,定期调整优化策略。通过分析数据,挖掘潜在客户需求,提高广告投放效果。结合百度平台特色,利用智能推广工具,实现高效。优化百度推广方案需持续关注数据变化,灵
揭秘12月第2周武侯人气楼盘榜单!这些楼盘为何备受关注?
热度排名楼盘名地址价格1新绿启境一环路南三段16号省体育馆旁40000元/平方米2科华388南二环科华旁王府井对侧28000元/平方米3保利天悦航空路与高攀路交汇处18000元/平方米起4尊邸中环路(火车南站东路15号,城南驿站旁)25000元/平方米5会所
惠州SEO博客,推动本地企业互联网营销新格局
惠州SEO博客专注于本地SEO领域,致力于帮助企业提升网络营销效果,开启互联网营销新篇章。随着互联网的飞速发展,搜索引擎优化(SEO)已经成为企业提升网络知名度、扩大市场份额的重要手段,在众多城市中,惠州作为广东省的重要城市,其SEO
最新Android 4.2 搭建开发环境
1.下载JDK         JDK即Java Development Kit(Java开发工具包),包括JAVA运行环境,基础类库和JAVA工具,是JAVA运行的基础。 网址:http://www.oracle.com/technetwork/java/javase/downlo
竞价推广的监测与分析工具推荐
在如今竞争激烈的市场环境中,企业需要采取各种手段来提升品牌知名度和销售额。而竞价推广,作为一种有效的网络营销方式,受到了越来越多企业的关注和应用。然而,竞价推广的成功并非一蹴而就,需要不断进行监测和分析,以便更好地优化广告
迈向标准化新时代:工信部成立人工智能标准化技术委员会的深远影响
近日,工信部在其官方网站上公布了成立人工智能标准化技术委员会的消息,这一重要举措标志着中国在人工智能领域的标准化建设进入了一个全新的阶段。该委员会的成立不仅意味着行业标准的拟定和修订将更加科学和系统,也预示着未来人工智能技
谷歌加速器
谷歌加速器app2024官方最新版也叫做OurPlay加速器、谷歌空间、谷歌商店加速器等等,是一款由谷歌官方所推出的手机游戏加速器软件,这款软件采用了简洁直观的操作界面、傻瓜式的操作步骤,相关用户通过这款软件可以对一系列手机游戏进行加速
西藏2024年初级经济师考后资格复核时间:12月16日-20日
西藏2024年度初级经济师考试成绩已发布,考后资格复核时间为12月16日-20日,请考试合格人员在规定时间内进行资格复核。如果担心自己错过证书领取时间,建议大家使用文章顶部的 服务,预约成功后,我们会以短信的形式提醒您证书领取等重要时
美漫:从年迈狼叔,开始全知全能
  2029年,4月,晴朗。  贫民窟最繁华的街道上,仓库门口停着一辆老旧的货车,有几个工人正往敞开的车厢搬着一箱箱酒水,“哔呤哔呤”酒瓶子相互碰撞的动静在耳边回荡。  “小心点,这里面可都是啤酒,别放那么重!”  奥多夫边呵
谷歌深夜炸场发布Gemini 2.0 2025属于智能体之年?
  AI大厂的竞争日趋白热化,一边OpenAI正如火如荼进行着为期12天的产品发布活动,另一边谷歌也在频频放大招。  目前谷歌完全对外开放的新模型是Gemini 2.0 Flash体验版,这是谷歌的主力模型,具有低延迟特性。与此前的1.5 Flash版本相
相关文章
推荐文章
发表评论
0评