分享好友 最新动态首页 最新动态分类 切换频道
大数据架构设计
2024-12-26 12:25

本博客地址:https://security.blog.csdn.net/article/details/136657478

1、解决传统数据架构无法及时响应用户请求的常用解决方法
,通过工作处理层批量处理异步处理队列中的数据修改请求。
,通常建立 Key 分区,以主键/唯一键 Hash 值作为 Key。
,通常专门编写脚本来自动完成,且要进行充分测试。
,主数据库处理写请求,通过复制机制分发至从数据库。
,按照业务上下文边界拆分数据组织结构,拆分单数据库压力。

2、大数据处理技术主要分为以下几种
● 基于分布式文件系统 Hadoop。
● 使用 Map/Reduce 或 Spark 数据处理技术。
● 使用 Kafka 数据传输消息队列及 Avro 二进制格式。

3、大数据的利用过程分为:、、和 4 个过程。

4、大数据处理系统面临的挑战主要有
● 如何利用信息技术等手段处理非结构化和半结构化数据。
● 如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模。
● 数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响。

5、大数据处理系统应具有的属性和特征包括:、、、、、、。

1、Lambda 架构是一种用于、、分布式系统。

2、Lambda 架构分为以下 3 层:、、。

3、。该层核心功能是,主数据集数据具有原始、不可变、真实的特征。批处理层周期性地将增量数据转储至主数据集,并在主数据集上执行批处理,生成批视图。架构实现方面可以使用 Hadoop HDFS 或 HBase 存储主数据集,再利用 Spark 或 MapReduce 执行周期批处理,之后使用 MapReduce 创建批视图。

4、。该层的核心功能是。架构实现方面可以使用 Hadoop HDFS 或 HBase 存储实时数据,利用 Spark 或 Storm 实现实时数据处理和实时视图。

5、。该层的核心功能是。具体来说就是接收用户请求,通过索引加速访问批视图,直接访问实时视图,然后合并两个视图的结果数据集生成最终数据集,响应用户请求。架构实现方面可以使用 HBase 或Cassandra 作为服务层,通过 Hive 创建可查询的视图。

6、
● Lambda 架构的优点,。
● Lambda 架构的缺点,。

7、与 Lambda 架构相似的模式有、。

1、Kappa 架构是在 Lambda 架构的基础上进行了优化,删除了 ,将以进行替代。
图 22.3 Kappa 架构

2、Kappa 架构分为如下 2 层:、。

3、。该层核心功能是,。具体来说是采用流式处理引擎逐条处理输入数据,生成实时视图。架构实现方式是采用 Apache Kafka 回访数据,然后采用 Flink或 Spark Streaming 进行处理。

4、。该层核心功能是。实践中使用数据湖中的存储作为服务层。

5、Kappa 架构本质上是通过改进 Lambda 架构中的加速层,使它既能够进行实时数据处理,同时也有能力在业务逻辑更新的情况下重新处理以前处理过的历史数据。

6、Kappa 架构的优点是将。缺点是。

1、两种架构特性对比

对比内容Lambda 架构Kappa 架构复杂度与开发维护成本维护两套系统(引擎,复杂度高,成本高维护一套系统(引擎)复杂度低,成本低计算开销周期性批处理计算,持续实时计算
计算开销大必要时进行全量计算
计算开销相对较小实时性满足实时性满足实时性历史数据处理能力批式全量处理,吞吐量大
历史数据处理能力强
批视图与实时视图存在冲突可能流式全量处理,吞吐量相对较低
历史数据处理能力相对较弱

2、对于两种架构设计的选择可以从以下 4 个方面考虑

设计考虑Lambda 架构Kappa 架构业务需求与技术要求依赖 Hadoop、Spark、Storm 技术依赖 Flink 计算引擎,偏流式计算复杂度实时处理和离线处理结果可能不一致频繁修改算法模型参数开发维护成本成本预算充足成本预算有限历史数据处理能力频繁使用海量历史数据仅使用小规模数据集

1、架构图如下

2、对于图中的数据计算层可以分为、、 3 个部分。

3、:用于存储持续增长的批量离线数据,并且会周期性地使用 Spark 和Map/Reduce 进行批处理,将批处理结果更新到批视图之后使用 Impala 或者 Hive 建立数据仓库,将结果写入 HDFS 中。

4、:采用 Spark Streaming,只处理实时增量数据,将处理后的结果更新到实时视图。

5、:合并批视图和实时视图中的结果,生成最终数据集,将最终数据集写入HBase 数据库中用于响应用户的查询请求。

1、架构图如下

2、以上基于 Lambda 架构的广告平台,分为、、。

3、:每天凌晨将 Kafka 中浏览、下单等消息同步到 HDFS 中,将 HDFS 中数据解析为 Hive 表,然后使用 HQL 或 Spark SQL 计算分区统计结果 Hive 表,将 Hive 表转储到 MySQL中作为批视图。

4、:使用 Spark Streaming 实时监听 Kafka 下单、付款等消息,计算每个追踪链接维度的实时数据,将实时计算结果存储在 Redis 中作为实时视图。

5、:采用 Java Web 服务,对外提供 HTTP 接口,Java Web 服务读取 MySQL 批视图表和 Redis 实时视图表。

1、架构图如下

2、以上智能决策大数据系统是一个基于 Kappa 架构的实时日志分析平台。

3、具体的实时处理过程如下
:用统一的数据处理引擎 Filebeat 实时采集日志并推送给 Kafka 缓存。
:利用基于大数据计算集群的 Flink 计算框架实时读取 Kafka 消息并进行清洗,解析日志文本转换成指标。
:日志转储到 ElasticSearch 日志库,指标转储到 OpenTSDB 指标库。
:单独设置告警消息队列,保持监控消息时序管理和实时推送。

1、架构图如下

2、该平台基于 Kappa 架构,使用统一的数据处理引擎 Funk 可实时处理流数据,并将其存储到数据仓库工具 Hive 与分布式缓存 Tair 中,以供后续决策服务的使用。

最新文章
2024年最酷会议头像图片:视联动力申请角色头像展示专利,AI头像制作来帮忙!
1、我们在电脑或手机浏览器中打开简单AI(https://ai.sohu.com/pc/generate/textToImg?trans=030001_jdaitxdt),或者在微信小程序搜索【简单AI】。在左侧导航栏选择“AI绘图”中的“文字生成图片”,在“选择画什么”模块选择“动漫头像”
810万元4座电子驻车汽车续航排行榜
速腾踩油门车抖动的原因有很多。一是发动机和变速箱的固定机脚胶磨损老化松动。二是火花塞点火头的间隙过大积碳过多影响跳电和燃烧质量。三是点火线圈工作不正常。四是汽油压力不足喷油嘴喷油量不一致需清洗油嘴。
2025年葫芦岛国家公务员考试成绩啥时间出
  辽宁华图小编为您整理国家公务员考试文章:2025年葫芦岛国家公务员考试成绩啥时间出  2025年辽宁国考笔试已结束,国考笔试成绩预计1月中上旬发布成绩及最低合格分数线考生可登录国家公务员局查询,查询网址:http://www.scs.gov.cn/
2024国产护肤品排行榜前十名,让你实现光滑肌肤之选
2024国产护肤品排行榜前十名,让你实现光滑肌肤之选在追求完美肌肤的道路上,美白祛斑是永恒不变的话题之一。只有把色斑甩掉,才可以让我们的“门面”撑起来,今天本文将为您解读美白祛斑的误区,提供正确的祛斑策略,让您的肌肤在科学的护
AI自动写剧本(APP)?推荐三款
【搭画快写】-AI自动写剧本的自动写作在当今数字化时代,人工智能的迅猛发展已经渗透到了我们生活的方方面面。而在娱乐行业中,AI自动写剧本APP成为一个备受关注的领域。其中,“搭画快写”是一款备受广大创作者喜爱的AI自动写剧本APP。它
A股:AI框架概念龙头股,名单都在这啦!(2024/12/17)
    据南方财富网概念查询工具数据显示,AI框架概念股:  一、紫光股份:  从近五年营收复合增长来看,公司近五年营收复合增长为9.33%,过去五年营收最低为2019年的540.99亿元,最高为2023年的773.08亿元。  在近7个交易日中,紫
2024年仙侠手游推荐:十大高人气手游排行榜,看看你玩过几款?
​​一、文章导读  1、《逆水寒手游》游戏类型:高自由度仙侠手游。全网热度:800 万。上榜理由:画面精美绝伦,活动丰富多样,社交系统完善,为玩家提供高度个性化的仙侠体验。游戏介绍:在《逆水寒手游》中,玩家仿佛踏入一个梦幻般的
idea基于docker插件部署docker服务
IDEA开发完项目,直接部署至docker上镜像运行,接下来开始体验吧注意:假定您的项目开发完了,假定你准备好了docker服务哈 没安装docker的来抄作业(docker的安装) 我的docker所在宿主机的内网ip
2023淘宝年终好价节什么时候开始招商?商家报名有哪些好处?(2023淘宝年终好物节什么时候开始)
淘宝年终好价节是淘宝平台一年一度的重大促销活动,为消费者提供海量商品的超值优惠。对于商家来说,这是一个展示自己实力、提升销售额和增加品牌曝光的好机会。那么2023淘宝年终好价节什么时候开始招商?下面我们就来给大家讲解一下。一、2
2024新澳免费资料大全,前沿解答解释落实_iShop18.58.67
2024新澳免费资料大全:前沿解答与落实指南在当今信息爆炸的时代,获取准确、及时的数据和资料对于各行各业都至关重要,特别是对于跨境电商行业而言,掌握最新的市场动态、消费者行为以及竞争对手的信息,是制定有效商业策略的关键,本文将
相关文章
推荐文章
发表评论
0评