qq838642798

如何理论上从零开始设计一个去中心化的分布式数据库集群

网络上有句流行语 : 集齐七颗龙珠，便可召唤神龙。那么问题来了，如果从零开始设计一套分布式去中心化的数据库集群需要多少颗“龙珠”呢？答案是 6 颗，对你没听错，不是 998 ，也不是 888 ，只需 6 颗龙珠，你也可以从理论上拥有一个私人订制的分布式去中心化的数据库集群系统，还犹豫什么吗，赶快往下看。

怎么设计？我们需要从一个用户的角度去看问题，什么叫用户的角度，说白了就是一个key-value对象时如何存储到数据库中，然后如何从一个数据库中读取出来，最后这个数据库要实现一定的容灾能力。

整个流程就是按照一个key-value从客户端发送过来。第一，这个key-value对象的逻辑数据结构是怎么设计的，这就用到了龙珠one:key-value的逻辑数据结构设计，个人觉得列族模型相对灵活。第二，该对象是如何找到对应的服务节点的，用到了龙珠two:分发策略设计，主要是一致性哈希。第三，数据到了服务节点后在数据库内部是如何存储的并且当要查询某个key对应的value值时是如何快速实现的，这个用到了龙珠tree:存储和查找key-value设计，哈希函数的应用是关键。第四，这份数据是怎样落地到磁盘的，这就用到了龙珠four:持久化策略设计，绕不开的是重做日志。第五，由于整个集群是去中心化的，保持节点信息和生产数据的一致性就成为个难题，这就用到了龙珠five：节点间一致性设计,核心就是Gossip协议实现最终的一致性。第六，是不管是不是分布式数据库都配置的那就是备份和容灾策略，用到了龙珠six：备份和负载均衡设计，相对于多份副本都在一个集群上，我更倾向于通过主从集群进行备份。

龙珠one:key-value的逻辑数据结构设计（列族模型）

大家都知道分布式数据库的基本的逻辑数据结构都是key-value键值对设计，区别只在于value值的数据结构不同，我们看看三个标本数据库是怎么设计的。

Cassandra是列族模型，简单来说就是在key下面还存在另一层维度，那就是列，一个key下面有多个列（而且数量可以不固定），每个列对应一个value值，所以你可以吧多个列和这些列对应的value值作为一个整体当做是这个key对应的value值。

Redis呢？redis的value值的数据结构是可变的，可以直接是个string，也可以是个容器比如list，set等，当value是个容器时，跟cassandra的列族的概念差不多，都是key对应有多条记录，每条记录还有自己的唯一标识。

Hbase跟cassandra很类似，都是列族模型。就不再细说了。

个人觉得从实际情况来看列族模型更灵活。

龙珠two:分发策略设计（一致性哈希算法或者它的变种）

所谓分布式，那就是以为着数据要分散存储在不同主机不同节点上，所以任何分布式数据库首先要解决的就是如何把客户端发送过来的key-value对象按照一定的算法存储到相应的节点上。我们先看目前比较流行的3种分布式数据库是怎么做的，没接触过hbase，早上冲忙看了一眼，说的不对的地方请各位见谅。cassandra：一致性哈希。Redis：一致性哈希的变种，hbase：由master节点控制着key的分片机制。注意，hase是分布式数据库但不是去中心化，所以对这篇文章而言也就是个对比例子，没太多借鉴的理论，某种程度而言hbase数据库的理论体系是相对落后的，当然落后不一定不好，落后意味着相对简单，从而相对稳健。从这三种比较来看，一致性哈希是比较好的选择，什么是一致性哈希呢？（具体的请看上篇文章《Redis分布式集群机制原理》，那里有详细而通俗的介绍，在这里就简单说一下：简单来说就是定义一个大数组，先把集群节点也映射到对应的数组下标中，等客户端发送过来的key-value对象发过来时，哈希映射到对应的数组下标中，最后根据就近原则，把离某个节点下标近的key-value对象按照顺时针的方向分发给该节点管理。一致性哈希的优点在于当节点进行增删时，数据迁移量会较小，只影响被增删的节点相领的节点，不影响其他节点的数据。而hbase使用的由master节点管理key-value对象的分发路由表，如果某个节点被移除或增加了，这张路由表就要全局更新，至于数据的迁移量有多大要由这个路由表的生成算法决定。但无论如何hbase必须依靠master节点进行分发管理，不符合去中心化的设计。所以龙珠one的选择就是“一致性哈希”。

龙珠tree:存储和查找key-value设计（哈希函数）

分布式数据库基本上都以key-value的形式作为逻辑上的数据结构存储，那么如何设计出根据key值快速访问到对应的value值就对数据库的性能就显得格外重要，以三个标本数据库来看看是怎么实现的。

Cassandra是通过Bloom过滤器和索引文件，data文件共同形成快速查找的能力。每个data文件对应着一个Bloom过滤器和一个索引文件，什么是Bloom过滤器呢？又得用到我们的杀手锏了，哈希算法。所谓的Bloom过滤器简单来说就是先定义一个大的数组，然后数组的每个元素都取0和1两种值，然后定义若干个比如8个哈希函数，然后对要存储的key值做8个哈希计算，最终得到8个结果值（指纹），然后把八个值对应下标的数组都取1，当下次这个key要被访问时，直接用这个key作为输入计算出八个指纹值，然后查看8个下标对应的数组元素是否都为1，如果都为1的话，那么说明可能存在于这个布隆器对应的存储文件中（注意，只是可能不是一定，为什么呢？因为存在哈希冲突），否则说明一定不存在。然后确定了这个存储文件可能存在这个key的数据时，下一步进入这个存储文件的索引文件中，由于data文件中的key-value对象时按照key值顺序存储的，所以可以通过以key为主键建立的索引文件进行二分查找进行快速定位。根据索引文件找到该key对应的value值在data文件中的偏移量，最后找到相应的value值。

Redis因为是因为全量的生产数据都存放在内存中，所以快速查找设计相对简单，具体详细内容见上篇文章《对redis数据结构进一步探析》，简单来说就是用了哈希表来实现，首先创建了一个一定长度的空的数组hash[n]（注意是数组，不是链表，因为只有数据能做到随机访问而不需遍历，也就能达到时间要求是n(1)），由于数组是在内存中定长并且连续排列的，所以每个元素的偏移量都是可以根据下标直接计算得来，而不需遍历。然后对要存储的key-value对象的key做哈希计算，根据结果值存放到对应的数组下标中，如果出现哈希冲突的话就在加到同个数组下标的短链表后面，由于一般而言哈希函数选用得当的话出现哈希冲突的概率不是很大，所以可以认为所有的key—value们都均匀得放置在数组中，并且每个数组下标只放一个key-value对象。所以当我们根据key=7去访问对应的value值时，实际上的操作步骤1.7%4=3 步骤2：获取到hash[3]，所以整个流程的速度非常快，效率几乎达到完美的n(1)。

Hbase草草看了下，感觉跟cassandra的设计里面相似。所以对于分布式的物理上存放的数据结构基本上就上面两种分类，但是无论那种，哈希函数的应用都是至关重要的一点。

龙珠four:持久化策略设计（重做日志）

数据库不可避免的问题是如何持久化，不管是所谓的内存数据库还是偏向于磁盘存储的数据库，持久化是个设计要点。看看三个标本数据库是怎样做持久化的。

Cassandra的持久化是通过写缓存和commitlog来实现，什么意思呢？就是当客户端往数据库中写数据时，集群服务端接收到数据后，先写commitlog日志记录下这条数据记录，然后往写缓存中写该条数据，当写缓存满后就冲刷到磁盘上以文件的形式存储。这样即使节点挂了，写缓存中的数据丢失了，也能根据commitlog来恢复,所谓的commitlog跟oracle的重做日志一样的原理。当写缓存中的数据已经冲刷到磁盘后，就可以清理掉commitlog里面相关的记录。

Redis作为一个内存数据库，是通过全量快照写磁盘和追加操作命令到重做日志的形式实现的。流程是这样的，一条数据过来，redis服务端拿到后先写到重做日志中，然后再修改内存中对应的key-value对象。当需要全量从内存中dump一份全量的数据就执行命令全量备份一份快照。

hbase貌似跟cassandra类似，也是通过写缓存和commitlog来实现。

通过分析三个标本数据库来看，持久化第一步就是得写重做日志，这个步骤是不能省的。然后再根据数据库的特性，设计写缓存以提高数据库的写速度。最后生成数据要全量下载一份到磁盘上保存起来。

就我个人而言，cassandra的持久化设计思想相对要好，虽然也要保存一份重做日志，但是可以根据已经持久化到磁盘上的数据的情况来清理掉没用的重做日志。因为重做日志的作用只是为了防止写缓存丢失的发生。所以如果要设计内存数据库，持久化策略可以参考redis的，如果是非内存数据库的话，持久化策略可以参考cassandra。

龙珠five：节点间一致性设计（Gossip协议及其变种）

去中心化的分布式数据库面临的一大挑战是在没有全局管理者也就是没有老大的情况下如何维持各个节点（小弟）的数据信息的最终一致性？并且要尽快短的时间达到一致。没有核心节点就会引发一个非常严重的问题，那就是各个节点之间的信息如何进行同步，最终达到一致性的呢？如果以前有核心，有老大，老大掌握最权威的全局信息数据，然后各个小弟有不明白的就去问老大，获取最权威的最新的数据，所有小弟有新的发现了也会报告给老大，所以老大的数据永远是最新的最权威的。但是有一天老大没了，小弟们该怎么办呢？一个笨办法就是每个小弟一有什么新数据都集体广播给其他小弟，然后其他小弟根据广播的信息对比下自己的数据，一发现有更新的数据了就把自己的旧数据更新成最新的。这个办法很有效，但是太笨了，笨到系统根本撑不住这么大量的网络广播数据量。所以这个办法不可行。

我们先看看三个标本数据库是如何实现的。Cassandra：Gossip协议，redis：Gossip协议，hbase：非去中心化，由master节点统一管理节点信息，不存在这个问题。关于Gossip协议的详细具体介绍可见上篇文章《Redis分布式集群机制原理》，在这里简单说一下：Gossip协议哲学思想是世界万物事物之间必然存在某种关联。就如著名的六人定理：在现代社会中，无论身份地位相差多远的两个人总能通过6个人的关联取得联系。也就是你和奥巴马之间的关系很可能是只要你同学的亲戚的男朋友的前女友的邻居的大姨妈肯给你介绍，你就能跟奥巴马取得联系。在一个集群节点中，每个节点都随机地选择和一个（其他节点通信，先实现这两个节点的数据信息的一致性，经过几轮这种随机的通信，最终所有节点的状态都会达成一致。整个流程如下：节点A作为同步发起者准备好一份数据摘要，里面包含了A上数据的指纹。随机选择一个通讯节点B,节点B接收到摘要之后将摘要中的数据与本地数据进行比较，并将A有的但是B没有的数据差异封装成一个数据请求包a，同时把B有但是A没有的数据差异做成另一个数据包b, 最后把这两个数据包都返回给A。A接受到数据请求包a和数据包b后A根据b数据包中的数据更新A本身的旧数据并且把请求包a要的数据发送给B。B接收到A再次发来的数据后更新自己的旧数据。

数据库的一致性包括两大块：一是节点信息数据的一致性（很好理解，就是每个节点的状态信息，是宕机了还是在干其他事，这个信息要全部节点都要知道，才能针对性地做动作，比如某个节点A挂了，其他节点都知道了，如果有一个key-value值数据从客户端过来B节点，本来应该是要转发存储到A节点的，但是B节点知道A挂了，于是自己先帮A保存起来，等A节点重启恢复后再转发给它。另一个就是当A节点正常从集群中移除后，其他节点要知道这个信息好重新动态分配一致性哈希的势力范围。）这种节点的信息量一般不大，没有太多复杂的数据结构好说，直接用Gossip协议传输信息包就行。另一大块比较麻烦，那就是生产数据的一致性。先看看三个标本是怎样实现的，这一点redis和hbase有点像，它们是用主从集群的方式进行实现备份策略的。所以对于它们而言主集群（注意是主集群而不是主节点）各个节点之间是不存在生产数据一致性的问题，因为每个key-value对象只存放在对应的一个节点上，所以是强一致性的。但是cassandra不一样，cassandra没有主从集群的概念，一个key-value对象可能在集群的各个节点间存放N份副本，那么问题来了，由于cassandra的写不是强一致性的，什么意思呢？就是对应cassandra写而言，在往集群中写一个key-value对象时可以指定成功写入N份副本中的某一份就返回写成功，这就出现了N份副本的生产数据版本不一致的情况，怎么办呢？首先协议还是用Gossip协议，但是传输的数据的数据结构要费点心思，因为如果传输的是该节点所有key-value对象最新版本的数据的话，那对网络io的压力就太恐怖了，每当这个时刻，我们的杀手锏哈希算法又出来救场了。Cassandra用了一种Merkle Tree,这是什么鬼呢？看起来很高大上的，其实说白就是一个最低层叶子节点由最新版本的key-value对象经过哈希公式计算得出的值，然后每一层的父节点就由下面的叶子节点的值经过哈希计算得出的数值组成的二叉树。这样就大大减少了网络传输的数据量，然后用这个作为数据包使用Gossip协议进行节点间的通讯，这样每个接收到这个数据包的其他节点，沿着最顶层的父节点逐渐向下面各个树杈进行一一比较，如果某一层的某个树杈的父节点是和自己相同的节点是一致的，那就说明这个父节点下面的子节点都不需再比较了，肯定是一样的，不需要进行一致性修复，如果某一层的某个树杈的父节点是和自己相同的节点是不同的，那就要继续往下面子节点比较下去，最后整个比较下来就能知道哪些key-value对象在这两个节点中版本存在不一致，接着就向数据包的发送包发送该节点找到的不一致的key-value对象的最新版本数据，并且要求发送方也发一份同样的key-value对象的最新版本数据给接收方，然后发送方和接收方都有了对方的不一致key-value对象数据，在根据key-value对象中的时间戳确定哪个版本是最新的，双方都更新到最新版本的数据。当然就是这样经过优化后的数据结构所携带的数据量也是很大的，所以这种一致性修复在cassandra中也是不能频繁进行的。

个人觉得一般生产环境都数据的一致性要求都比较高，所以cassandra这种需要修复生产数据一致性的系统并不是太好的选择。个人相对觉得redis这种形式的主从集群备份，然后只使用Gossip协议同步节点间的信息而不同步节点间的生产数据这种设计相对比较可控。

龙珠six：备份和负载均衡设计（主从集群）

其实备份策略在上面的龙珠two中已经说了很多，以三个标本数据库对比而言，cassandra是通过在集群中不同节点中存放若干个副本的形式实现，redis和hbase是通过主从集群的形式进行备份。备份本事其实除了起到容灾的功能外也同时负责了负载均衡的作用，道理很简单，备份数据本身就可以提供查询访问能力，所以就起着分流访问压力的功能。首先说说cassandra这种备份策略，第一眼看上去高大上，不过致命问题就是生产数据一致性同步比较麻烦。对于对数据的一致性要求很高的生产系统不适合使用。比如银行系统，我今天存了1百万，结果我再次查询时只剩下昨天余额的1千块，那客户还不疯了。相对而言redis和hbase的备份策略比较老土，但是主备数据的一致性收敛速度要快的多。所以我个人偏向redis的主从集群的备份机制。

说到这里，好像所谓的去中心化分布式数据库的主要设计点就说完了，说实在的这个标题有点吓人，我个人也觉得诚惶诚恐，其实是标题党，吸引大家来看为的文章，我觉得这篇文章还真不可能指导你去从零开始设计一个去中心化的分布式数据库，虽然对设计一个去中心化的分布式数据库的所有要点都有涉及到，真要实现一个超简单的分布式数据库不是不可能，但是更重要的是从设计的角度去理顺了整个去中心化分布式数据库的难点和要点，希望对于大家更深入地理解去中心化分布式数据库有所帮助。文章主要目的是加深我个人的学习印象，如有偏颇错误的地方请大家见谅。有机会再继续修正。

题外话，我现在只找到了6颗龙珠，还差一颗，希望大家有什么想法可以文明留言交流。

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

如何理论上从零开始设计一个去中心化的分布式数据库集群

龙珠four:持久化策略设计（重做日志）

龙珠five：节点间一致性设计（Gossip协议及其变种）

龙珠six：备份和负载均衡设计（主从集群）

你可能感兴趣的:(大数据)