(七)Lambda架构:Twitter亿级实时数据分析架构背后的倚天剑

###Lambda架构 案例需求:用户端广告精准投放,拥有海量的用户网站访问行为。根据用户的行为分析建立一个模型,然后根据这个模型来投放用户洗好的广告。 我们知道,批处理架构和流处理架构的各自特点: 批处理架构:高延迟性的,数据的处理量很大,数据都是PB,EB,ZB的级别,显然,案例需求这个批处理架构不合适处理这个场景 流处理架构:如果用流处理架构,只能使用现在的访问信息,对于用户

- 阅读全文 -

(五)发布/订阅模式:流处理架构中的瑞士军刀

发布/订阅模式,又可以称为生产者/消费者模式,(Publish/Sbuscribe Pattern ) 或者(Pub/Sbu) 首先介绍几个概念:消息和消息队列 ##消息 在分布式架构中,架构中的每个组件(Componet)需要相互联系沟通.组件可以是后台的数据库,可以是前端浏览器,也可以是公司内部不同的服务器端(Service Endpoint),各个组件之间是通过依靠发送消息互相通讯的

- 阅读全文 -

(四)workflow设计模式

在上一节中,主要介绍了有边界数据,无边界数据,事件事件,处理事件,批处理,流处理(实时处理,准实时处理)等一些比较常见的基本概念,可以帮助让我们根据实际需求确认是用批处理或者是流处理,或者是这两种情况的融合.这一节我们主要讲解大规模数据处理中常见的四中设计模式: 复制模式,过滤模式,分离模式,合并模式,下面我们进行逐一的讲解 学大数据处理的时候,比较常见的案例就是WordCount的案例:一个

- 阅读全文 -

(三)大规模数据批处理和流处理的区别

大数据处理无论如何也绕不开的两种处理模式: 1)批处理(Batching Processing) 2) 流处理(Streaming Processing) 大规模的视频流系统,大规模物联网(loT)数据监控系统等大数据系统的大量出现,导致了大数据处理越来越受到关注 为了更好的理解大数据的处理模式,先介绍几个概念 #####有边界数据和无边界数据 现在大数据有两种形式:一种是无边界数据(

- 阅读全文 -

(二)架构师不得不知的三大指标

在上一个笔记中,主要记录了SLA的相关知识,以及如何评估自己系统的SLA. 今天需要理解的几个概念: ####1.可扩展性 扩展分为两种:水平扩展和垂直扩展 水平扩展就是在现有的系统中增加的新的机器节点 垂直扩展:在不改变系统中机器的数量的情况下,"升级"现有的机器性能,比如:增加机器的内存,磁盘等等 水平扩展相比较垂直扩展,操作起来可能会更简单,因为可能不会重启系统,并且提升了系统的

- 阅读全文 -

CAP理论

在理论计算机科学中,CAP定理(CAP theorem),又被称作布鲁尔定理(Brewer's theorem),它指出对于一个分布式计算系统来说,不可能同时满足以下三点:[1][2] **一致性(Consistency)**: (等同于所有节点访问同一份最新的数据副本) **可用性(Availability)**:(每次请求都能获取到非错的响应——但是不保证获取的数据为最新数据) **

- 阅读全文 -