清远_zlm

分布式协议Raft浅析

背景

Paxos协议晦涩难懂，在工程实践中难以得到应用。Raft是一种分布式一致算法，是RaplicationAnd Fault Tolerant的缩写。Raft相对来说容易理解，容易应用到工程实践中去。所以Raft会大行其道。

Raft协议

Raft的协议主要包含以下3个特性
1. leader选举(leader election)
  1. 主要涉及到3个角色:leader, follower和candidate。leader在Raft协议处于核心地方，数据是单向流动的。从leader->follower。candidate不接受leader发送的心跳。
  2. candidate:如果follower在规定的时间内没有收到leader的心跳，follower则认为leader已死。该follower作为candidate，发起投票。如果接收到来自集群的大多数follower的投票，则该candidate被选举为新的leader(如下candidate被选举为leader的过程)
    1. 一般情况下客户端不会把请求发送到follower。即使客户端将请求发送到follower, follower会拒绝client的请求，并把leader的ip返回给client 。
  3. 初始化时，所有的节点都是follower。当一个节点在规定的时间内没有收到leader的心跳，自己会转变成一个candidate,term加1。并向其他的follower发起投票。大多数的follower返回给candidate的投票，该candidate成为leader。
  4. follower接收leader的replication log。
2. 日志复制(log replication): leader将follower执行的指令，心跳，leader的快照和配置(Cold, Cold,new)都通过replication log传递。
3. 安全性(safety): 即无论何种情况(例如网络时延,丢包等情况) 最终返回client的结果是一致的。
Raft 简述
1. 通过日志的复制(传递)来实现各个机器状态(执行命令)的传递。
2. 每个机器(follower)接收leader的日志(是一种'推'的方式)。日志中按顺序存储命令。每个状态机按照顺序执行日志中的命令。日志中的命令(leader从client接收的请求。leader会将请求中的内容写入日志中)
3. 如下图图1所示
  1. Consensus Module接收从客户端发来的请求. Consensus Module会和其他机器(follower)上的Consensus Module连接, 保证其他机器接收的replication log中包含相同顺序的指令(即客户端发送给leader的执行命令)。即每个机器执行的命令顺序是一致的。
  2. leader从client获取执行的命令, 之后通过replication log传递给其他server(follower)。leader告诉follower replication log是否安全(即log的顺序是否有序一致).如果有序一致，则可以通过follower的State Machine(状态机)执行replication log中的内容。
  3. leader自己决定client 请求的内容在log中的位置，不需要和其他的follower协商。数据流的顺序是从leader到其他的follower。这个特性决定了Raft的效率要比Paxos的高。
  4. follower如果和leader无法连接，无法连接的follower会成为candidate(此时term + 1), 向其他的follower发起leader的选举。其他的follower会响应这个candidate发起的投票，收到大多数的投票的candidate会成为新的leader。

图1: ConsensusModule处理log的一致性

candidate被选举为leader的过程.如下图2

图2:follower作为新的leader的过程

Folloer和leader的连接超时,该Follower作为candidate会发起一次选举.
如果该candidate接收到大多数选票,则该candidate有可能被选举为新的leader

leader的选举过程
1. 正常情况下, leader会通过心跳(心跳不会携带entry log, 客户端发起请求的指令)和它的follower保持联系。如果follower在其周期内没有收到leader发来的心跳，则follower会认为leader已经dead了，它会重新发起选举。
2. 此时,没有收到这个leader心跳的follower会增加自己的term,身份从follower改变为candidate。它会给自己投一票，然后发送投票申请到其他follower。(正所谓老大死了，我做老大)

发生以下三种情况, b中描述的follower会终止发送投票
1. 自己当了老大(leader)
  1. 其他follower会根据先到先得的原则，给最早发来投票申请的candidate发送投票(vote)。
  2. 每个follower只能给一个candidate投票。
  3. 新的leader产生，它会立刻把新的心跳发送给其他follower。并终止正在进行的选举。
2. 别人当了老大.
  1. 如果新leader的term大于候选者(candidate)的term,则candidate认为新的leader是合法的
  2. 如果新leader的term小于候选者(candidate)的term,则candidate认为新的leader是非法的，自己仍然是candidate的身份.
3. 这个周期(term)内没有产生新的老大
  1. 多个follower成为新的candidate，没有新的leader产生(即每个candidate都没有收到绝大多数(超过一半)的投票)。会进入无限死循环的过程。
  2. 为了避免1的情况发生，Raft的follower和Leader的timeout时间是随机的(150-300ms)。避免多个follower同时进入candidate状态。所以正常情况下，只有一个follower会进入candidate的身份。
  3. 还有一种解决方案，就是每个candidate都有rank(联系实际生活，每个想当老大的地位不同，地位越高，越容易成为新的老大。厂长退休，很多副厂长转正成为厂长)

日志复制(log replication)
1. leader处理客户端发来的指令(command),该指定最后被replicated state machine执行。leader会把该指令放在replication log中，通过rpc并发的发送给各个follower。如果replication log被安全的发送给各个follower(类似tcp/ip握手协议，follower需要应答leader)，leader的指令(command)会被leader的replicated state machine执行(committed)，并把执行结果返回给client.
2. Raft按照以下规则构建Log Machine Property
  1. two log entries 在不同的log(leader传递给各个follower的replication log)有相同的index(指令在log中的位置)和term，则这两个log entries存储相同的指令。
  2. two log entries在不同的log(leader传递给各个follower的replication log)有相同的index和term，则这两个log entries在各个follower执行的顺序是一致的。
1. 如果发生不一致的情况，leader会强制把replication log推给follower。也就是说follower的replication log被leader的replication log覆盖，保证follower的执行顺序和leader一致。也就是保证了其安全性。
2. AppendEntries consistent check会检查leader和follower的log是否一致.如果不一致，leader会减少nextIndex，即指针会移动到上次分发log的index，并且重试AppendEntries RPC，直到follower的log和leader的log保持一致。
3. leader不会删除或者覆盖自己已经commit的log。没有commit的log 也可能被leader删除。
4. 正常情况下，一次AppendEntries RPC过程就可以完成leader和follower的日志复制
5. candidate会发送选票到各个follower，如果follower的log比candidate的log更新，则follower会拒绝candidate的投票。
6. 判断是否新日志的规则
  1. 首先判断term的值，term越大越新
  2. 如果term相同，log越大越新
7. 安全协议
  1. leaderu是第u term阶段的leader, leadert是第t term阶段的leader。termu > termt
  2. commit log在leaderu选举阶段是不会出现在leaderu的log中的(联系现实生活，大选阶段是宣传和造势的阶段，不是干事的阶段:)。之所以进行选举，是因为term u阶段follower无法和leader在规定的时间内进行连接。所以上一个阶段的commit log是无法到leaderu的log中。

t term阶段大多数的follower会收到leadert发送的commit log。在u term阶段大多数的follower会收到candidateu(以后的leaderu)发来的选票。所以这个过渡阶段有些follower既会收到leader_u的commit log，也会收到candidate_u的选票。此时该follower会处于矛盾状态。
如果t term阶段commit log的时间比u term阶段的选票时间要早，则接收该commit log。否则拒绝该commit log。因为u term在时间上比 t term更'新'。
即使拒绝了t term阶段的commit log.上一个阶段的follower(voter)也会存储leadert发来的commit log。
follower将选票投给了新的leader, 也就是leaderu。leaderu需要把log更新到最新。此时会产生两种矛盾情况发生。
1. leaderu的log必须大于等于follower(即接收到选票有接收到commit log的follower)的log大小。也就是说leaderu的log是包含follower 的commit log
所以u term 阶段的log必须包含t term阶段的所有的commit log
Log Machine Property保证新的leader产生的log包含了老的term阶段产生的log

follower(candidate) crash
1. 如果follower(candidate)crash, leader发送到follower(candidate)的AppendEntries RPC请求或者其他candidate发来的投票请求(RequestVote)都会失败。失败后，Raft会重试上述方式。crash的follower重启后，会成功处理RPC请求。
2. 如果crash发生在RPC请求之后，response之前，follower会收到相同的RPC，由于RPC是幂等的，后来的RPC请求follower会忽略。
Raft的时间限制

broadcastTime <= electionTimeout <= MTBF

broadcastTime: leader发送请求到各个follower, 并且各个follower response的时间。
electionTimeout:是选举时间。一般设置为0.5ms-20ms之间。
MTBF:机器损坏的周期。

Raft对集群中成员变化的处理
1. Raft集群中成员的增减导致集群配置的改变，这种改变可能导致在同一个term(阶段)中存在两个leader。
2. 一些系统会在第一阶段禁用旧的配置，这个阶段client无法连接cluster。第二阶段启用新的配置。
3. Raft采用过度阶段(joint consensus Cold,new)保证顺序安全。即不会反正存在两个配置，导致集群执行的命令是不一致的。
  1. 每个follower会收到新老两个配置。
  2. 任何一个收到新老两个配置的机器(follower)，可以作为一个leader提供服务。
  3. 新老两个配置在集群中大多数的follower中都存在。
4. Raft采用的过度阶段协议允许在该阶段内client连接服务器。
5. Cluster configuration 以特定形式存储在replication log中。当leader收到请求的配置从Cold到Cnew的过程中时, Cold,new过度阶段协议会以特定形式存储在replication log中，之后会把log传递给各个follower。
6. 当一个leader crash的时候，新的leader可能采用Cold或者Cold,new作为配置，也就是说新的leader不可能采用Cnew作为整个集群的配置。
7. Raft的过度协议决定了拥有Cold,new的follower才可以作为新的leader。之后新的leader采用Cnew作为整个集群新的配置，并把新的配置通过replication log传递给各个follower。
8. 过度协议(joint consensus)可能会带来的问题
  1. 新的follower加入时间比较长，这段时间内replication log可能无法commit log。此时Raft会把新加入的member当做非投票的member。
  2. Cnew中不包含leader时，新的leader会从Cold中选举。
  3. Cnew配置中，cluster的多个节点处于不可用状态。这些阶段收不到心跳，这时会产生新一轮的选举，新的leader会产生。不可用的节点处于不可用状态。
日志的压缩
1. Raft采用快照的方式压缩replication log。系统的整个状态都会以快照的方式存储在可用的存储中。之后当前时刻的整个日志都会丢弃。之前的snapshot也会被删除。

图3:日志的snapshot方式

commit log(1->5)有新的快照。x<-0, y<-9。snapshot最后会包含下term处理的index和term。
新加入的节点或者异常的节点，leader会把snapshot发送给它，使这个节点更新到最新的状态。
这种处理方式仍然保留了数据流是从leader到follower的过程。只不过follower根据leader的snapshot，自己组织数据。
快照方式仍然存在两个问题
1. 什么时刻打快照。太频繁会浪费磁盘的性能。通用的方式是当replication log大小达到一定大小时，打一个快照。
2. 打快照会浪费很多处理正常请求的时间。解决方案是：Copy-on-write方式。

Raft和Paxos的区别
1. Raft比Paxos更容易理解，代码实现更简单(有点像做广告，比较虚)
2. 配置更新(新的节点加入或者故障节点移除), paxos会采用两阶段协议，第一个阶段先禁止client连接cluster，之后把新的配置更新到follower节点。Raft协议采用过度阶段。即当leader收到Cold，Cnew两个配置之后，进入过度节点(joint consensus)。leader会把Cold,new通过replication log传递给各个follower。
3. Raft协议是单向数据流。强调了leader的核心作用。弱化了follower的功能。
4. zk有10种消息类型;Raft有4中消息类型,2中RPC请求，2中RPC应答。

现有系统的思考和借鉴

当前蘑菇街数据平台离线计算ETL的主要工具是hdata。hdata在处理小规模数据(百万级别的数据)性能表现尚可。但是处理大规模数据，其单机性能的短板就暴露出来的。所以hdata分布式就呼之欲出了。
目前分布式系统大概有两种组织形式
1. 有中心节点的模式，即master-slave模式。该模式是业界很多分布式系统的常规模式，如hadoop NameNode和dataNode；Raft的Leader和Follower。采用中心节点模式相对来说简单，客户端直接和中心节点连接。中心节点控制各个子节点。
2. 非中心节点模式。即所谓的p2p模式。本人才疏学浅，p2p模式还没有研究过。

hdata分布式的考虑
1. Master节点：Master是一个相对瓶颈的节点，所以master节点进行分配'轻'一点的工作。结合hdata的现状，master节点主要任务是分片，收集进度和维护和各个worker节点的心跳。
  1. 分片:分片相对来说是比较'轻'的任务。假设集群有1个master，5个worker。假设读取mysql的分片, 根据主键计算出max(id), min(id)。之后根据每次获取的条数，如10000条。计算每个worker的分片。以此类推。
    1. 计算出第一个worker获取的分片为min(id) <= id < min(id) + 10000;
    2. 第二个worker获取的分片为:min(id) + 10000 < id
    3. 第三个worker获取的分片为:min(id) + 20000 <= id < min(id) + 30000;
    4. 第五个worker获取的分片为:max(id) - 10000 < id <= max(id);
    5. 第四个worker获取的分片为:max(id) - 20000 < id <= max(id) - 10000;
  2. worker定期向master汇报worker的状态。
  3. worker定期向master汇报自己的进度。master汇总各个worker的进度，向client汇报整个job的进度。
2. worker节点负责具体的读取和写入操作
3. 【todo】如果一个worker 执行了一部分后crash了，要考虑怎么回滚已经write的数据，将分片重新分配到其他的worker上。

参考资料

raft_分布式协议简单说明
Diego Ongaro and John Ousterhout Stanford University In Search of an Understandable Consensus Algorithm (Extended Version)

互联网对信息的传输深度链的新鲜事
在现在的高速发展的互联网的社会里面信息传输已经成为了我们日常生活中必不可少的一个重要的环节，为什么这么说呢？因为我们现在每天都在无时无刻的接触大数据或联网信息。我们每天都要处理以亿为单位的数据信息量。那么如果说没有大数据的互联网的存在，那么我们的数据可能会崩溃。就是因为有了互联网大数据的存在。我们才能有这样好质量的生活水平，都简单的例子就是我们的我们的快递物流系统。大家每天都会在互联网上进行商品的
忆享聚焦|全球云计算市场份额、数字虚拟人、“元宇宙”实体店……近期行业热点速览忆享科技 devops 云计算运维自动化物联网
“忆享聚焦”栏目第四期来啦！本栏目汇集近期互联网最新资讯，聚焦前沿科技，关注行业发展动态，筛选高质量讯息，拓宽用户视野，让您以最低的时间成本获取最有价值的行业资讯。1.工信部：增强新基建，适度超前推进网络、平台、安全三大体系建设工信部新闻发言人赵志国在国新办新闻发布会上表示，增强新基建，下好数字经济的“先手棋”。适度超前推进网络、平台、安全三大体系建设，提升工业互联网大数据中心、标识解析体系、安全
怎么做引流推广？互联网推广引流该怎么做？九千营销
现在是互联网大数据时代，互联网根据社会群体属性，可以根据用户偏好和特点智能推广广告形式的需求，可以准确推送、定制.灵活.准确，传播快.效果好等优点。给大家介绍一下我们九千营销工作室，专注做互联网整合营销推广，主营业务有抖音全自动引流、贴吧引流，软件开发，软文发布，小红书，快手，抖音信息流，三网竞价，问答引流、软文营销等业务，欢迎大家来咨询了解，可扫码加微，也可点击链接了解。https://www.
数据分析的理念、流程、方法、工具（上）学掌门数据分析 IT 程序员数据分析数据挖掘
一、数据的价值1、数据驱动企业运营从电商平台的「猜你喜欢」到音乐平台的「心动模式」，大数据已经渗透到了我们生活的每一个场景。不论是互联网行业，还是零售业、制造业等，各行各业都在依托互联网大数据（数据采集、数据存储、数据处理、数据挖掘、数据分析、数据呈现）实现企业价值。企业中数据从产生到应用依次要经过数据源层、数据仓库层、数据建模层，最后到数据应用层，经过层层加工逐渐支持到上游的应用环节。数据应用层
9月青果网络代理IP测试，最新代理IP质量测试 Spider赵毅 python 爬虫 http ip 网络
1.为什么要测试HTTP代理？在当今互联网大数据时代，数据采集日益发展，HTTP代理在其中扮演着重要的角色。和其他产品一样，在使用HTTP代理的时候我们也会遇到诸如：稳定性、匿名程度、响应速度、IP池可用率等问题，如何对HTTP代理进行测试，才能满足我们的需求？目前市面上很多HTTP代理都有提供试用，购买之前大部分人都会试用，但是我们很经常看到，很多uu在互动社区评判HTTP代理服务提供商提供的产
ai智能写作的应用前景与挑战：如何让机器写出优秀文章 AquaDream 经验分享
随着人工智能技术的迅速发展，ai智能写作正逐渐成为一个备受关注的领域，越来越多人选择通过ai智能写作进行创作。它不仅可以减少人力成本，提高工作效率，还可以帮助我们更好地理解和利用互联网大数据，实现更准确的文本创作与推广。那么你知道什么是ai智能写作吗？不知道也没关系，本文将介绍ai智能写作的原理、应用场景以及优势，探究其在未来的发展前景和挑战。ai智能写作可以通过机器学习、自然语言处理等技术，让计
“微信的摇一摇周边”将有哪些商机如何把握？今日为你解密亿创传媒
“摇一摇周边”的商家也能通过线上、线下两方面信息的结合，对顾客进行更精准的客流分析和用户营销，通过微信摇一摇周边，精准定位使我们的生活更加智能化。山东菏泽亿创传媒有限公司就势推出了摇一摇周边，摇头条管理系统结合云播技术，互联网大数据，小程序，整合异业联盟，实现资源共享，建立新型的线上线下媒体传播渠道，使广告信息传播更快、受众面更广、效果更直接，从而帮助商家企业快速提高品牌影响力。亿创传媒【摇一摇周
和平精英PK王者荣耀，互联网大数据告诉你！白茶清欢_9b6d
游戏对大家来说都不陌生，尤其是对于一些广大的游戏爱好者，就和平精英和王者荣耀来说：《和平精英》是腾讯光子工作室群研发的反恐军事竞赛体验手游，该作于2019年5月8日正式公测。《和平精英》采用虚幻4引擎研发，致力于从画面、地图、射击手感等多个层面，为玩家全方位打造出极具真实感的军事竞赛体验。2020年7月8日，《和平精英》成为第三届超新星运动会的比赛项目。《王者荣耀》是由腾讯游戏开发运营的一款And
【81】深度融合幽幽白书0
图片发自App今天在电脑旁坐了一天，为的是录入和核对数据，干着重复而机械式的工作，但是还不能马虎，因为每一条数据都关乎一个很严肃的话题！今天完成了一本，这样的的本子还有5本，想想就眼睛疼。工作没有好的捷径和方法，就必须面对这耗时耗力的重复性现实，一年又一年，年年如此。殊不知增加了多大工作量，又增加了多大风险？但是每年数据又在成阶梯状递增，感叹互联网大数据如此的今天，云计算、大数据、人工智能，统筹数
口罩奇缺，复工在即，互联网大数据有没有可能破解口罩困局？慕容随风
2020年的春节，口罩可以说已经成为当前市场最大的需求，但是如今依然是一罩难求，2月7日，世界卫生组织表示由于当前形势，世界正面临口罩、手套等个人防护用品的长期短缺，目前的需求量是正常水平的100倍，而价格则是正常水平的20倍以上。而这一副小小的口罩，其产业链几乎折射了能够想象的所有商业问题，从产能到供应，从物流到配给，再到零售，那么面对着巨大的口罩需求和如今的口罩荒，我们的互联网大数据到底能为口
大数据赋能电竞出海企业发展火星数据-Tina 电竞数据安全数据分析
近几年电竞行业发展迅速，我国单2022年新增近4万家电竞相关企业，竞争十分激烈。中国电竞市场规模在全球占比19%左右，海外有巨大的增量市场，特别是东南亚、中南亚和拉丁美洲是电竞市场增长最快的地区，在2020至2025年期间的复合增长率预计分别为27.6%、23.4%和19%。于是国内电竞企业许多企业选择出海发展。互联网大数据时代，企业的发展离不开大数据赋能，火星数据提供专业的电竞数据接口，为大量电
Redis 简介 HuaLuLemon Redis redis 数据库缓存
1、数据库架构发展随着互联网+和大数据时代的来临，传统的关系型数据库已经不能满足中大型网站日益增长的访问量和数据量，这个时候就需要一种能够快速存取数据的组件来缓解数据库服务I/O的压力，来解决系统性能上的瓶颈。数据库应用的发展历史：架构描述单数据库实例在互联网大数据时代来临前，企业的一些内部信息管理系统，一个单个数据库实例就可以应付系统的需求。缓存+数据库实例随着系统访问量用户的增多，数据量的增大
副业赚钱的路子有哪些（推荐10大靠谱的赚钱路子）声优配音圈
兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、等等。。。每日更新。01.闲鱼无货源店铺众所周知，闲鱼是一个卖二手的平台，但是有些店铺是专门做低价新品，从中获利的。如果你没有实物产品也不必忧心，互联网大数据时代下，一切需求都有人帮助你解决，最重要的是0成本。我
Python爬虫超详细讲解（零基础入门，包教包会）程序员老冉 python python 爬虫开发语言
讲解我们的爬虫之前，先概述关于爬虫的简单概念（毕竟是零基础教程）爬虫网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上，只要是浏览器(客户端)能做的事情，爬虫都能够做。为什么我们要使用爬虫互联网大数据时代，给予我们的是生活的便利以及海量数据爆炸式的出现在网络中。过去，我们通过书籍、报纸、电视、广播或许信息，这些信
关于师也的定位、使命、愿景、价值观师也
01公司简介Companyprofile深圳师也科技有限公司是一家数字技术驱动和产品模式创新的互联网大数据科技型公司，创始团队在互联网平台运作、数字化技术研发与应用、市场营销和产品设计等专业领域均有充足的实战经验。创始人蒲海柱先生是一位互联网连续创业者，也是一位优秀的企业战略咨询师，长期奉行理论与实战并重，战略与战术共进的创业理念，曾任国内大型企业管理咨询集团高管，随后创建全球首个共享快递平台“阿
晨间日记☞当单打独斗遇上互联网大数据半盏素茶
前言：此文完全代表我的个人经历，于任何事物任何人皆无关系。疫情在家，歇了两三个月，陪孩子网课，每日忙忙碌碌，觉得时间过得还不错，但是当五月份来临的时候，我就像做了一场梦一样，突然的惊醒：虽然实体的赚钱方式停止了，但是网络还在高速运转，在你睡着的时候在你清醒的时候，它一直都在啊！我立刻起身，下单了一个小本子，准备记录每日的工作计划，然后开始了我的网络“掘金”之旅。立刻说做就做。我快速分析了一下目前的
区块链是互联网+、大数据、人工智能、物联网的基础技术烨子墨
区块链是互联网大数据人工智能的基础技术Ａｉ人工智能、区块链，云计算，大数据组成的现代科技推动人类社会进入一个全新的时代。图片发自App我们经历的一个大的变局、人类社会的不是延续工业4.0而是从工业文明进入一个新的文明即数字文明.推动互联网大数据人工智能与实体经济深度的融合及培育新的增长点，形成新动能.各项新兴技术的应用场景，无疑具有革命性、颠覆性.但是相互之间并非独立发展，而是具有紧密的内在联系！
信息管理一站式平台是什么清风明月渝满天
信息管理一站式平台是什么？信息管理一站式平台汇总关键选用的是布氏漏斗构思，根据一站式独立平台的构建（PC版官方网站+手机安卓版官方网站+微信公众平台），从各种各样总流量通道（网上有些人气的地区）将顾客流引进到建造平台，根据建造平台过虑后，将潜在用户存进vip会员智能管理系统中，并将总流量转换为顾客，完成互联网大数据的融合。信息管理一站式平台详尽三个层面详细介绍01，H5自适应网站H5自适应网站网页
引流推广需要怎么做？互联网推广引流九千营销
现在是互联网大数据时代，互联网依据社交群体属性，可以根据商家需要对用户喜好和特点进行智能推广的广告形式，可以精准推送，定制化、灵活、准确，具有传播快、效果好等优势。给大家介绍一下我们九千营销工作室，专注做互联网整合营销推广，主营业务有抖音全自动引流、贴吧引流，软件开发，软文发布，小红书，快手，抖音信息流，三网竞价，问答引流、软文营销等业务，欢迎大家来咨询了解，可扫码加微，也可点击链接了解。http
Hudi 在 vivo 湖仓一体的落地实践 vivo互联网技术数据湖大数据计算与存储效率提升
作者：vivo互联网大数据团队-XuYu在增效降本的大背景下，vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。一、Hudi基础能力及相关概念介绍1.1流批同源能力与Hive不同，Hudi数据在Spark/Flink写入后，下游可以继续使用Spark/Flink引擎以流读的形式实时读取数据。同一份Hudi数据源既可以批
奔驰PK宝马，互联网大数据告诉你！ 57b05c5a8eca
在当今社会中，我们很难去抉择去选一辆车。哪辆豪车更值得购买？哪一辆大众更认为是最牛的？让我们通过大数据告诉你！下面是宝马与奔驰的一些比较，我们会用一些互联网大数据报告告诉你，这样就更直观，更清晰，一目了然，对我们做的比较就更好一些。用百度指数的一些比较：一、百度指数index.baidu.com奔驰&宝马从目前这些大数据可以看出宝马明显胜出奔驰。用头条指数分析：通过热度指数可以看出奔驰与宝马在20
区块链如何改变物流行业 ULAM（乌拉姆）公链区块链
在中国改革开放大发展趋势的40年中，物流领域也发生了翻天覆地的变化，从以人力资源搬货为主导的传统式运送方式到以互联网大数据、人工智能技术等高新科技加仓的智能化物流发展趋势新时期。据公开资料显示，近年来物流行业发展迅速。2016年至2022年，全球范围物流市场年复合增长率预计为3.48%，2022年将达到12.256万亿美元，而中国的物流业已接近全球份额的40%，连续三年居世界第一。实际上，传统的物
1w字详解 ClickHouse漏斗模型实践方案（收藏）浪尖聊大数据-浪尖大数据数据分析 java python 数据库
作者：互联网大数据团队-WuYonggang日常工作中做为数仓开发工程师、数据分析师经常碰到漏斗分析模型，本文详细介绍漏斗模型的概念及基本原理，并阐述了其在平台内部的具体实现。针对实际使用过程的问题，探索基于ClickHouse漏斗模型实践方案。一、背景需求漏斗分析是衡量转化效果、进行转化分析的重要工具，是一种常见的流程式的数据分析方法。它能够帮助你清晰地了解转化情况，从多角度剖析对比，定位流失原
为你写诗-1373-《在这个被互联网大数据以及社交网络架空的世界，我们无处可逃》幻梦邪魂
如果说互联网绑架了我们的生活，那么大数据就是在雀占鸠巢企图谋杀你和我。。。随着人类越来越依赖人工智能作出决定这种生命是由无数抉择产生的因果一点一滴将会彻底颠覆我们的生活未来或许只会存在0和1的选择直到它们最后演变成为生存还是死亡的漩涡现在我们只是信赖由Netflix提供娱乐由Google地图来决定我们是往左还是往右应该往哪个方向调转机车我们习惯了在Facebook上披露自己的生活由粉丝的互动和评论
《增值陷阱》：如何停止不必要的买买买，只需避开这三个花钱陷阱竞走的蜗牛
岁月人间促，今天活动多。更确切的说，是各商家的促销活动多，每月都有新主题，总是用各种促销信息，从车站广告到APP开屏推送，无孔不入的告诉你，买买买，是解决各种烦恼的最好良药。但是，事实真的如此吗，当然不是的，买买买最直接的效果就是让你账户里的金额越来越少是真的。不得不承认，这些年随着市场营销学、顾客心理学等学科的不断发展，以及互联网大数据的神助攻，商家对于每名顾客的了解，对于每个人购买需求的掌握，
震惊互联网大数据未来趋势竟然是这样！小花同学嘿
✎今天给带来的是互联网的重大趋势之大数据，那现在火爆的互联网大数据是什么呢？下面跟着花花一起去了解一番吧。封面设计丨Sweety责编丨花花第5篇丨每日一篇好文：1751字丨5分钟阅读大数据已经渗透到当今每个行业和业务功能区域，成为一个重要的生产要素。未来的时代不是IT时代，而是DT时代。大数据的价值越来越显著，在各个领域的作用也越来越重要。未来企业之间的竞争不再是其他的竞争，而是数据的竞争。大数据
英雄联盟与绝地求生的竞争，互联网大数据告诉你！天涯_a07a
大家都知道英雄联盟和绝地求生是近几年来很是火热的两款游戏，相对于英雄联盟而言，它延续至今的时间是比较长的，英雄联盟的崛起使得很多热销网络游戏大大下跌，是受广大玩家心中热爱的信仰型游戏。为什么要说英雄联盟是信仰，因为绝地求生的兴起，使英雄联盟有了一个很大的竞争对手，绝地求生是一款枪战、团队、生存模式类型游戏，在中国可谓是瞬间炮红。那么接下来我们来好好看这两款游戏的竞争趋势是怎样的！上图所示，是英雄联
BI 数据可视化平台建设（2）—筛选器组件升级实践 vivo互联网技术前端组件设计组件库开发设计模式
作者：vivo互联网大数据团队-WangLei本文是vivo互联网大数据团队《BI数据可视化平台建设》系列文章第2篇-筛选器组件。本文主要介绍了BI数据可视化平台建设中比较核心的筛选器组件，涉及组件分类、组件库开发等升级实践经验，通过分享一些对交互和业务耦合度高的组件开发迭代的思考，希望可以给正在做组件重构解耦的读者带来启发。往期系列文章：BI数据可视化平台建设（1）—交叉表组件演变实战一、引言B
BI 数据可视化平台建设（1）—交叉表组件演变实战 vivo互联网技术 BI可视化表格组件交叉表架构演进
作者：vivo互联网大数据团队-ZhuJianchen本文是vivo互联网大数据团队《BI数据可视化平台建设》系列文章第1篇-交叉表组件。交叉表在数据分析里应用广泛，通过本文，你将了解到：交叉表的基本概念，以及BI可视化平台常见术语。我们的表格类组件的演化过程，以及如何通过技术调研和优化实现大数据量下渲染性能，一步一步从原先的~10s降低到3~4s。交叉表的一些特定场景，提供了一些技术实现简易描述
抖音小店无货源选品技巧分享，都是最简单的选品方法，一学就会电商糖果电子商务
大家好，我是电商糖果新手开店第一步肯定就是选品，选品选不好会直接影响小店的销量和评分。糖果今天就给大家总结了几种选品的方法，都是非常简单的选品技巧，新手小白一看就会。第一种：软件选品如果你是刚开始开小店，一点儿选品经验也没有，那么利用选品软件选品绝对是最好的选择。首先我们下载一些选品的软件，糖果这边常用的就是蝉妈妈，飞瓜数据这两种。查看选品软件排行榜前150的商品，这些商品都是根据互联网大数据筛选
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

分布式协议Raft浅析

背景

Raft协议

图1: ConsensusModule处理log的一致性

现有系统的思考和借鉴

参考资料

你可能感兴趣的:(互联网大数据)