深入云原生数据库的心脏:一本书读懂分布式数据库底层逻辑

   日期:2024-12-27     作者:m61ct       评论:0    移动:http://3jjewl.riyuangf.com/mobile/news/8264.html
核心提示:关注我们丨文末赠书我们现在来学习这本书,吃透强悍的 Greenplum 吧。Part.2这样吃透强悍的 Greenplum 《深入浅出 Greenplum 分

关注我们丨文末赠书

深入云原生数据库的心脏:一本书读懂分布式数据库底层逻辑


我们现在来学习这本书,吃透强悍的 Greenplum 吧。

Part.2

这样吃透强悍的 Greenplum
《深入浅出 Greenplum 分布式数据库:原理、架构和代码分析》介绍了分布式数据库的基础理论和架构,对 Greenplum 进行了源码级的剖析,还探讨了数据库的发展趋势。本书可以分为三个部分,我们来具体学习。

01基础原理

这部分首先介绍了数据库的历史和发展,探讨了云计算对数据库的挑战以及云原生数据库的特点。

对于并发控制,详细介绍了基于锁的并发控制、基于时间戳的并发控制、基于验证法的乐观并发控制、MVCC 技术以及快照隔离技术等关键概念。

这些内容为理解 Greenplum 的实现提供了坚实的理论支撑。

02深入剖析Greenplum

探讨了分布式计算的实现,涉及 Greenplum 的执行计划、运算执行器的算子、分布式快照、共享内存、哈希和重分布等内容。分析了分布式存储的实现,包括数据分布方式、高可用性和外部表存储。
这部分通过深入代码层级的分析,使读者能够理解分布式理论在工业实践中的应用。

03数据库和新技术

这部分内容使读者能够把握数据库技术的最新发展趋势,并思考如何在新技术的推动下优化和发展数据库系统。


吃透了强悍的 Greenplum,你对云数据库的未来已经有了强大的把握。那么,在云计算及大数据领域,还有不少彪悍的数据库相关产品,而且我国的开源数据库系统表现也非常抢眼,我们来继续深入探索它们吧。


流式处理实时地处理一个或多个事件流。事件流是无边界数据集的抽象表示,具有有序、不可变和可重放的特点。这些事件流可以代表各种业务活动,例如信用卡交易、股票交易等。
《流式系统》这本书汇集了 Tyler Akidau、Slava Chernyak、Reuven Lax 三位专家的智慧。本书理论高度概括,讲解流式处理最核心的概念、特性、设计和方法。
书中内容可分为两大部分:

第一部分以 Beam 模型为核心,深入探讨了批处理与流处理数据模型,包括奠定流处理的基本概念,定义专业术语,评估流系统的功能,区分处理时间和事件时间,以及研究常见的数据处理模式等。

还阐释了处理乱序数据的核心概念,利用动画展示时间维度。探讨时间进度的度量、方法及其在流水线中的传递方式,并剖析实际案例中的水位线应用,延续对高级窗口技术和触发器的讨论。

第二部分深化了概念讨论,专注于 “流与表” 的流处理思维模式。阐释流和表的基本概念,构建普适的流表理论。探讨引入持久状态的动因,考察关系代数和 SQL 中的流式含义,对比 Beam 模型与经典 SQL 在表和流设计上的倾向,提出将流式语义整合入 SQL 的途径。

Apache ShardingSphere 是 Apache 顶级开源项目,它解决了云原生数据库管理的难题。
该项目社区活跃,目前在 GitHub 星标超过 19.8k,它提供了标准化的数据分片、分布式事务和数据库治理功能,适用于多种应用场景。
本书从理论入门到安装应用可以分为三部分。读者在学习前要预备一些基础知识,包括了解数据库产品的基本操作,会使用 SQL 语言。

第一部分先是说明了数据库管理系统(DBMS)在现代生产环境中面临的挑战,以及数据库开发人员角色的演变。通过深入探讨 DBMS 的未来发展方向,读者可以了解到 ShardingSphere 生态及其核心概念。

书中还详细介绍了 ShardingSphere 的架构,包括其分布式数据库架构、Database Plus 理念、部署架构和插件平台,为读者提供了坚实的理论基础。

第二部分专注于 ShardingSphere 的安装与配置。该部分详细介绍了 ShardingSphere-JDBC 和ShardingSphere-Proxy 的安装步骤,以及如何配置它们以满足不同的应用场景。

无论是通过二进制包、Docker,还是通过 YAML 配置,读者都可以获得清晰的指导,确保能够顺利地在现有基础设施中部署和配置ShardingSphere。

在应用广泛的物联网以及工业互联网环境中,有着大量的实时数据,而且数据格式复杂,谁能做好实时数据的处理,谁就能得天下。
TDengine 就是一款世界级水准的国产开源时序大数据平台,目前在 GitHub 上已经获得 23.4k 星标。
TDengine 是专为处理时间序列数据而设计的高性能时序数据库。它不仅能够应对数据采集的复杂性,还能提供高效的数据存储和实时分析能力,使其成为 AI 时代的数据发动机。
本书从理论至实践,由浅入深地阐述了 TDengine 的基本知识、运维管理、技术内幕以及行业应用。书中知识可以分为五部分来学习。

第一部分是基础知识,对于零基础小白来说,要在这一步掌握时序数据的基础知识,知道 TDengine 的核心特性,包括数据模型、数据写入、数据查询、数据订阅和流计算等。

第二部分是运维管理,主要是TDengine 的功能使用与配置。书中详细介绍了 TDengine 的日常运维管理,包括安装部署、资源规划、图形化管理、数据安全等关键内容。

第三部分深入讲解如何利用 TDengine 进行应用开发,介绍了包括 Java 在内的多种编程语言的连接器使用、订阅数据方法,以及使用 C 语言与 Python 开发自定义函数等高级功能,并说明 TDengine 与 Grafana、Power BI 等第三方工具的集成方法。

第四部分是透彻理解核心技术原理,这是全书的关键内容,书中揭示了 TDengine 的内核设计,详细介绍了从分布式架构到存储引擎、查询引擎、数据订阅,再到流计算引擎的知识。

分享你对分布式数据库的理解


在留言区参与互动,并点击在看和转发活动到朋友圈,我们将选1名读者获得e读版电子书1本,截止时间12月30日。




 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号