hatuw

学习笔记：MapReduce on Ray

/*
理论上支持其他平台，只要Python的版本和Ray的版本对应即可。笔者已在macOS和Ubuntu上面进行测试，均无错误。如果读者在实现的过程中发现错误，欢迎提issue.
本文中的代码已上传至Github，文中在抄写代码的过程中可能出现纰漏，代码以Github为准。欢迎大家指正，谢谢！
*/

MapReduce

什么是MapReduce?

MapReduce最早（~2004年）是由Jeff Dean等人提出的一种面向大规模数据处理的并行计算模型和方法。源于函数式编程语言中的map和reduce内置函数，MapReduce的主要思想是Map（映射）和Reduce（规约），通常用于大规模数据集的并行运算。

关于MapReduce的原理和例子网络上有挺多优秀的文章，本文只是简单说一下MapReduce的原理和一个粗糙的例子，以便读者快速理解。个人建议可以去翻翻MapReduce的论文和相关的资料（见文末）。

Map(映射):

Map过程就是把一组数据按照某种Map映射成新的数据。如下面这个例子，就是用Python3.6中内置的map函数，将list[0, 1, 2, 3, 4]中的每个元素进行了平方的操作。（需要注意的是，Python3.x中的map返回的是迭代器，2.x返回的是列表）

# Python2.x 中map方法返回的是列表
# Python3.x 中map方法返回的是迭代器
iter_map = map(lambda x: x ** 2, range(5))
for item in item_map:
    print(item, end=" ")
# >> Output: 0 1 4 9 16

Reduce(规约):

Reduce过程就是把map输出的结果汇总到一起。继上面的例子，我们计算了几个数的平方，现在需要求他们的和。reduce方法需要传入两个参数，然后递归地对每个参数（除第一个参数）执行运算

# Python2.x 中可以直接调用reduce
# Python3.x 中将reduce放到functools里面了
from functools import reduce
iter_map = map(lambda x: x ** 2, range(5))  # 0 1 4 9 16
reduce(lambda: x, y: x + y, iter_map)  # 0+1+4+9+16 = 30
# >> Output: 30

例子：

Hadoop中的一个例子，用MapReduce实现的词频统计：

假设现在要统计Wikipedia上所有文章的词频，单机是放不下了。一个简单的思路就是将文章分批（Splitting），每个机器分别处理一批数据(Mapping)，最后再将数据汇总(Reducing)。在汇总之前，需要将相同的单词放在一起（Shuffling），以便汇总。

在本文中，我们只关心Mapping和Reducing步骤的实现。

Ray

什么是Ray?

“Ray is a flexible, high-performance distributed execution framework.”

Ray是由UC Berkeley的RISELab (RealTime Intelligence with Secure Execution) 提出的一种新型的分布式执行框架。RISELab前身是AMPLab，AMPLab (Algorithms, Machines and People Lab) 主导研发了Spark等在大数据领域著名的项目。从RISE的名字可以知道，实验室目前侧重于安全的、实时的智能系统。

Ray即如此，其主要是为深度学习、增强学习和分布式训练等量身定做，并能做到实时计算（尤其是在增强学习领域，如自动驾驶，人们会更加关注性能表现）。按照目前的发展趋势来看，Ray的出现是很有必要。

有兴趣的读者可以看看《UC Berkeley提出新型分布式执行框架Ray》，和知乎上的问题《如何看UCBerkeley RISELab即将问世的Ray，replacement of Spark？》中的高赞回答。网上可搜到，文末也会给出。两篇资料都分析得挺到位，在此不再复述了。读者如果感兴趣的话也可以读读Ray的论文，当然以后如果时间允许的话我也会写一篇关于Ray的paper reading.

安装Ray很简单：

pip install ray

如果你使用的是Anaconda，注意目前无法通过conda来安装。当然，你也可以通过源码安装/Docker等方式来安装。

在每次使用Ray之前，需要执行 ray.init() 来初始化Ray:

import ray
ray.init()
""" Output: 
Process STDOUT and STDERR is being redirected to /tmp/ray/session_2018-12-22_17-15-29_3097/logs.
Waiting for redis server at 127.0.0.1:52922 to respond...
Waiting for redis server at 127.0.0.1:50403 to respond...
Starting the Plasma object store with 6.714851328 GB memory using /dev/shm.

======================================================================
View the web UI at http://localhost:8890/notebooks/ray_ui.ipynb?token=d187db1e2b1d612be2336a469836843fa6d7e9a15fba3564
======================================================================
"""

调用ray.init()之后，我们可以看到Ray启动了Redis server, 如果只是使用单机版本的Ray的话，可以暂不关心Redis server的地址等信息，只知道它初始化成功即可。

关于ray.init()的主要启动参数：

redis_address: (str) – 要连接的Redis server的地址，不填则默认在本地启动。（程序退出时会关掉Redis server）
num_cpus: (int) – 本地调度器配置的cpu数量
ignore_reinit_error: (bool) – 如果第二次调用ray.init，程序会报错并退出，设为True可不抛出异常
具体解析和API文档请移步至： The Ray API - Ray 0.6.0 documentation

Ray的简单使用：

在Ray中，分别通过ray.put()和ray.get()方法来设置和读取变量的值。其中，ray.put() 方法返回的是对象的id， ray.get() 方法需要传入对象的id，返回变量的值。如：

x = "Hello Ray"
x_id = ray.put(x)
# 当然，ray.put()的传入参数也可以是number, list...等其他类型，如：
#    x_id = ray.put([i for i in range(10)])
print(x_id)
# >> Output: ObjectID(ffffffffba55fc8d16f249d14868946b44ff9652)

x_res = ray.get(x_id)  # ray.get()中，传入的参数也可以是ObjectID的list
print(x_res)
# >> Output: Hello Ray

（搬运Ray文档中的例子）

在单线程的情况下，如果函数f()的执行时间为~5s，显然下面的例子需要执行~20s.

def f():
    time.sleep(5)
    return 0

tic = time.time()
results = [f() for _ in range(4)]
toc = time.time()
print(toc - tic)
# >> Output: 20.014071226119995

如果使用Ray分布式执行框架，只需要在函数定义时加上ray.remote作为函数的修饰即可。但需要注意的是，Ray中的远程函数不能直接调用，需要通过f.remote()来调用，调用结果返回对象的id, 再通过ray.get()就可以获取执行的结果。

如下：

@ray.remote
def f():
    time.sleep(5)
    return 0

tic = time.time()
ray.init()
results = ray.get([f.remote() for _ in range(4)])
toc = time.time()
print(toc - tic)
# >> Output: 5.0089240074157715

# for i in range(4):
#     print(f.remote())
""" Output:
ObjectID(0100000069672b193fb42e9ead39fb73e8a656ba)
ObjectID(010000002c31d522f2ce9969946e38d2c928160d)
ObjectID(010000005a0910e5c35bd4e5d5447b880f34172a)
ObjectID(01000000e9e04c5ea8b146c730f77fb706528d1d)
"""

显然，使用Ray并行执行的速度远远比单线程的方法要快。虽然这样对比是不公平的，但是对于笔者这样的手残党来说，实现并行化的门槛大大降低了。

MapReduce on Ray

热身

我们还是以上面求一个list的平方和作为例子，Map步骤需要计算list中每一个数的平方，而Reduce步骤需要将list中的数汇总（求和）。在实现的过程中，为了对比的效果更明显，笔者在每个执行的过程中加了一秒的延迟。

首先是单线程的MapReduce实现：

# Map 步骤
def square_local(x):
    time.sleep(1)
    return x ** 2

# map_serial_res = map(lambda x: x ** 2, range(5))
map_serial_res = map(square_local, range(5))
# >> Output: [0, 1, 4, 9, 16]


# Reduce 步骤
def sum_local(x, y):
    time.sleep(1)
    return x + y

# reduce_serial_res = reduce(lambda x, y: x + y, map_serial_res)
reduce_serial_res = reduce(sum_local, map_serial_res)
# >> Output: 30

需要注意的是，Ray中的远程函数(remote)不能直接调用，需要借助remote方法来调用，如func.remote(x1, x2, ...) . 所以在定义Ray的远程函数后，还需要定义一个远程执行的方法（下面code的reduce_parallel()方法）。

在Reduce步骤中，我们采用分治的方法来求和，而求每两个数的和交给Ray的remote function来解决。

不幸的是，这样做的话，IO是一笔不小的开销。除了调度之外，每次计算结果还需要调用 ray.get() 获取。因此在这里采用分治来求和是不明智的选择，在这个例子这样做只是为了体现并行化而已。在实际问题中，通常需要把数据划分成n个batch，而不是细化到两个元素，这样可以大大减少IO的开销。

# Map 步骤
@ray.remote
def square_remote(x):
    time.sleep(1)
    return x ** 2

# exec ray remote function
map_parallel = ray.get(map_parallel(square_remote, range(5)))
# >> Output: [0, 1, 4, 9, 16]


# Reduce 步骤
@ray.remote
def sum_remote(x, y):
    time.sleep(1)
    return x + y


# 这里采用分治算法来执行，如:
# input: [0, 1, 4, 9, 16]
# ->    [0, 1]  [4, 9, 16]
# ->      1,   [4], [9, 16]
# ->      1,     4,   25 
# ->      1,        29
# ->          30
def reduce_parallel(func, xs):
    len_xs = len(xs)
    if len_xs == 1:
        return xs[0]
    elif len_xs == 2:
        return ray.get(func.remote(xs[0], xs[1]))

    x_left = xs[:(len_xs // 2)]
    x_right = xs[(len_xs // 2):]

    return reduce_parallel(func, x_left) + reduce_parallel(func, x_right)

reduce_parallel_res = reduce_parallel(sum_remote, map_parallel_res)
# >> Output: 30

实战

关于MapReduce，很多教程都是以WordCount来作为例子，毕竟不少搜索引擎（如Google）的原理就是通过WordCount来建立单词到文档的索引，而网络上的数据庞大，自然而然就需要用到分布式的相关技术了。

本文搬运了Ray中用MapReduce实现的WordCount,

Streaming MapReduce on Ray

预处理

demo中的数据是用了wikipidia, 使用pip安装wikipidia库后直接调用就可以获取文章内容了，用来作为测试的语料库是个不错的选择。获取文章内容之后，我们首先要对文本进行一些简单处理：（分词）

英文的分词比较简单，根据空格将单词分开，再去掉符号即可（当然也可以先去掉符号再分词，注意符号需要用空格或者其他符号代替）；如果是中文的分词，可以选用 “jieba” 等开源的中文分词库。
统计词频的话这里使用collections库里面的Counter方法

如：（在这里我们只使用空格和换行符来作为分隔符，当然也可以加上其他的符号）

import re
from collections import Counter

text = """
Since 1989, Guangdong has topped the total GDP rankings among all provincial-level divisions,
with Jiangsu and Shandong second and third in rank.
According to state statistics,
Guangdong's GDP in 2017 reached 1.42 trillion US dollars (CNY 8.99 trillion),
making its economy roughly the same size as Mexico.
Since 1989, Guangdong has had the highest GDP among all provinces of Mainland China.
The province contributes approximately 12% of the PRC's national economic output,
and is home to the production facilities and offices of a wide-ranging set of Chinese and foreign corporations.
Guangdong also hosts the largest import and export fair in China,
the Canton Fair,
hosted in the provincial capital of Guangzhou.
"""

print(Counter(re.split(r" |\n", text)))

# >> Output: 
"""
Counter({'the': 8, 'and': 6, 'of': 5, 'in': 4, 'Guangdong': 3,
 'GDP': 3, '': 2, 'Since': 2, '1989,': 2, 'has': 2, 'among': 2,
...
})
"""

首先我们创建一个Stream类，类似于"迭代器"，类中的next方法随机地从关键词列表中获取一个关键词。所以这里会重复地统计几篇文章的词频，结果会不准确。如果关键词列表足够多的话，可以不用random方法，直接用Python的迭代器即可。

class Stream(object):
    def __init__(self, elements):
        self.elements = elements

    def next(self):
        i = np.random.randint(0, len(self.elements))
        return self.elements[i]

Map

其实上面(预处理部分)做的分词和统计词频的工作，就是Map步骤主要的内容。Mapper步骤主要的工作内容有：

获取文章内容
分词&统计词频(get_new_article)，返回结果给Reducer处理(get_range)

实现如下：

@ray.remote
class Mapper(object):
    def __init__(self, title_stream):
        self.title_stream = title_stream
        self.num_articles_processed = 0
        self.articles = []
        self.word_counts = []

    def get_new_article(self):
        # 获取文章内容
        article = wikipedia.page(self.title_stream.next()).content
        # 分词&统计词频
        self.word_counts.append(Counter(re.split(r" |\n", article)))
        self.num_articles_processed += 1

    def get_range(self, article_index, keys):
        # Process more articles if this Mapper hasn't processed enough yet.
        while self.num_articles_processed < article_index + 1:
            self.get_new_article()
        # Return the word counts from within a given character range.
        return [(k, v) for k, v in self.word_counts[article_index].items()
                if len(k) >= 1 and k[0] >= keys[0] and k[0] <= keys[1]]

Reduce

Reducer就是负责获取Mapper的结果(next_reduce_result). 即：
Mapper.get_new_article --> Mapper.get_range --> Reducer.next_reduce_result…

@ray.remote
class Reducer(object):
    def __init__(self, keys, *mappers):
        self.mappers = mappers
        self.keys = keys

    def next_reduce_result(self, article_index):
        word_count_sum = defaultdict(lambda: 0)

        # 调用mapper的get_range方法获取结果
        # (注意ray的远程函数需要通过remote来调用和传参)
        count_ids = [mapper.get_range.remote(article_index, self.keys)
                     for mapper in self.mappers]

        # TODO(rkn): We should process these out of order using ray.wait.
        for count_id in count_ids:
            for k, v in ray.get(count_id):
                word_count_sum[k] += v
        return word_count_sum

最后，初始化Ray, 创建关键词列表，调用……

ray.init(
        include_webui=False,
        ignore_reinit_error=True
        )

# Create 3 streams
kw_list = ["SenseTime", "AI", "MapReduce"]
streams = [Stream(kw_list) for _ in range(3)]

# Partition the keys among the reducers.
chunks = np.array_split([chr(i) for i in range(ord("a"), ord("z") + 1)], 4)
keys = [[chunk[0], chunk[-1]] for chunk in chunks]

# Create a number of mappers.
mappers = [Mapper.remote(stream) for stream in streams]

# Create a number of reduces, each responsible for a different range of
# keys. This gives each Reducer actor a handle to each Mapper actor.
reducers = [Reducer.remote(key, *mappers) for key in keys]

# Map & Reduce
for article_index in range(10):
    print("article index = {}".format(article_index))
    wordcounts = {}
    counts = ray.get([reducer.next_reduce_result.remote(article_index)
                      for reducer in reducers])
    for count in counts:
        wordcounts.update(count)
        
    # get most 10 frequent words
    most_frequent_words = heapq.nlargest(10, wordcounts,
                                         key=wordcounts.get)
    for word in most_frequent_words:
        print("  ", word, wordcounts[word])

Reference

MapReduce论文： Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
Wikipedia MapReduce: MapReduce - Wikipedia
Ray论文： Moritz P, Nishihara R, Wang S, et al. Ray: A Distributed Framework for Emerging {AI} Applications[C]//13th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 18). 2018: 561-577.
Ray 项目源码： ray-project/ray
Ray 项目文档： Ray - Ray 0.6.0 documentation
Ray MapReduce: https://github.com/ray-project/ray/blob/master/examples/streaming/streaming.py
AI前线：UC Berkeley提出新型分布式执行框架Ray：有望取代Spark
如何看UCBerkeley RISELab即将问世的Ray，replacement of Spark？

最后唠叨两句

可能的话，之后会写关于Ray的paper reading, 以及Ray在Reinforcement Learning的一些实践。
文笔不好，见笑了。

About author: 吴嘉熙，双非野鸡本科在读，商汤科技见习研究员。
转载请说明出处，并告知原作者（让我开心一下），谢谢！

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
等保测评中的关键技术挑战与应对策略亿林数据网络安全等保测评
在信息安全领域，等保测评（信息安全等级保护测评）作为确保信息系统安全性的重要手段，其过程中不可避免地会遇到一系列技术挑战。这些挑战不仅考验着企业的技术实力，也对其安全管理水平提出了更高要求。本文将深入探讨等保测评中的关键技术挑战，并提出相应的应对策略。一、等保测评中的关键技术挑战1.复杂系统架构的评估难度随着信息技术的快速发展，企业信息系统的架构日益复杂，包括分布式系统、微服务架构、云计算环境等。
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
深入解析 Dubbo 的 attachments 机制及其应用场景 molashaonian dubbo attachments 隐式传参
背景在分布式系统中，服务之间的调用（RPC调用）是非常常见的。而在这种服务调用过程中，常常需要在不同服务之间传递一些上下文信息，比如用户身份信息、请求追踪ID、客户端IP等。Dubbo提供的attachments机制，能够帮助开发者在RPC调用时隐式传递这些数据，而不需要修改接口方法签名。通过分析架构图，我们可以看到，在服务调用链路中，使用Dubbo的attachments机制可以简化上下文信息的
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Nacos 与 Eureka 的区别 litGrey 微服务 eureka
随着微服务架构的流行，服务发现成为了构建分布式系统的关键技术之一。在众多服务发现工具中，Nacos和Eureka是两个非常受欢迎的选择。本文将深入探讨这两者的区别，帮助你在选择适合自己的服务发现解决方案时做出明智的决策。如果你不懂得怎么选择，请记得看最后一点小建议！1.基础对比1.1.架构设计：集中式vs分布式Eureka采用的是客户端-服务器（Client-Server,CS）架构。Eureka
边缘计算在现代数据中心的应用 666IDCaaa 边缘计算人工智能
当今数字化时代，数据中心扮演着至关重要的角色，而边缘计算的出现为现代数据中心带来了新的机遇和挑战。一、边缘计算的概念与特点边缘计算是一种将计算和数据存储靠近数据源或用户的分布式计算模式。与传统的集中式云计算相比，边缘计算具有以下特点：低延迟：由于数据处理在靠近数据源的地方进行，减少了数据传输的距离和时间，从而实现了更低的延迟。这对于实时性要求高的应用，如工业自动化、自动驾驶、虚拟现实等至关重要。高
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
项目内部调用的远程接口开发 cyt涛 java OpenFeign 远程调用 FeignClient 内部调用同步调用远程接口
编写一个项目内部调用的远程接口通常是为了在分布式系统或者微服务架构中，实现各个服务之间的通信和数据交换。这样的远程接口专门用于服务之间的调用，而不是直接暴露给外部用户或前端。项目内部的远程接口统一放在api工程首先进入api编写接口，注意使用@FeignClient注解进入服务提供者微服务，编写接口实现类1.在api工程中编写接口在api工程中，定义远程调用的接口。这个接口将通过Feign进行服务
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
导购返利系统的分布式事务管理 wx_tangjinjinwx 分布式
导购返利系统的分布式事务管理大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天我们来探讨导购返利系统中的分布式事务管理。随着系统的分布式架构越来越普遍，如何有效地管理分布式事务成为了一个关键问题。本文将详细介绍如何在Java应用中实现分布式事务管理，并提供相应的代码示例。1.分布式事务的挑战在分布式系统中，事务通常涉及多个服务或数据库，这给事务的一致性和可靠性带
Arch - 演进中的架构小小工匠【凤凰架构】架构
文章目录Pre原始分布式时代1.背景与起源2.分布式系统的初步探索3.分布式计算环境（DCE）4.技术挑战与困境5.原始分布式时代的失败与教训6.未来展望单体时代优势缺陷单体架构与微服务架构的关系总结SOA时代1.SOA架构及其背景1.烟囱式架构（InformationSiloArchitecture）2.[微内核架构](https://www.oreilly.com/content/softwa
DM8 分布计算集群（DMDPC）Docker 命令行部署指南 69岁法外狂徒 docker 容器数据库分布式
简介DMDPC是一款同时支持在线分析处理(OLAP)和在线事务处理(OLTP)的新型分布式数据库系统。它不仅保留了传统单机数据库的大部分功能，还提供了分布式计算集群所特有的高可用性、高扩展性、高性能、高吞吐量以及对用户透明等高级特性。本文借助命令行工具部署DPC集群。系统架构DMDPC的架构由三个核心组件组成：计划生成节点(SP)：对外提供分布式数据库服务，负责接收用户请求、生成执行计划，并调度计
区块链如何大规模落地？西门锤靴
区块链要实现大规模的落地应用，有三个前提，一是技术本身的进步，二是要有保护商业安全和利益的机制，三是要能够服务于实体经济。以下针对这三点分别来阐述。技术本身，区块链在过去几年的发展很迅速，但从技术革命的角度来看，现在还是处于很早期的阶段：1）首当其冲的是性能问题，即使是EOS，号称能做到百万TPS，但还是有待时间验证。区块链作为一个去中心化技术，自然也受到类似于分布式系统的CAP定律的制约。CAP
Hystrix&Feign 快乐肥翟z hystrix java 运维
Hystrix1，概念Hystrix是一个用于处理分布式系统的延迟和容错的开源库，可以保证一个服务出现故障时，不会导致整个系统出现雪崩效应，以提高分布式系统弹性；作为“断路器”，在一个服务出现故障时，可以通过短路器监控，返回一个可以处理的响应结果，保证服务调用线程不会长时间被占用，避免故障蔓延。雪崩当一个服务器中要同时处理多个请求时，当一个请求无法正确响应，请求超时。会将请求阻塞到该服务的线程池中
ArcGIS地图切片原理与算法数智侠 GIS
ArcGIS地图切图系列之（一）切片原理解析点击打开链接ArcGIS地图切图系列之（二）JAVA实现点击打开链接ArcGIS地图切图系列之（三）MapReduce实现点击打开链接
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
DevOps -分布式追踪与监控 Flying_Fish_Xuan devops ci/cd 自动化
DevOps中的分布式追踪与监控在当今的DevOps环境中，随着微服务架构和云原生应用的广泛采用，系统复杂性显著增加，传统的监控方式已经无法满足现代分布式系统的需求。为了提高系统可观测性，分布式追踪和监控成为现代DevOps实践中至关重要的工具。通过分布式追踪，开发者可以深入了解跨多个服务和组件的请求流，并通过监控实时捕捉系统的运行状态和性能数据，从而迅速定位和解决问题。本文将深入探讨分布式追踪与
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
Redis与MySQL双写一致性如何保证？陈二狗想吃肉
一致性就是数据保持一致，在分布式系统中，可以理解为多个节点中数据的值是一致的。强一致性：这种一致性级别是最符合用户直觉的，它要求系统写入什么，读出来的也会是什么，用户体验好，但实现起来往往对系统的性能影响大弱一致性：这种一致性级别约束了系统在写入成功后，不承诺立即可以读到写入的值，也不承诺多久之后数据能够达到一致，但会尽可能地保证到某个时间级别（比如秒级别）后，数据能够达到一致状态最终一致性：最终
使用java9的uuid生成方式，让uuid生成速度提升一个档编程小世界
简介UUID的目的，是让分布式系统中的所有元素，都能有唯一的辨识信息，而不需要通过中央控制端来做辨识信息的指定。uuid常用场景IOT设备，设备号；网站sessionid，cookie用户id；数据库主键id；uuid生成工具hutoolJava工具包集mica基于Spring、java8微服务工具集压测代码测试基于JMH，是专门用于代码微基准测试的工具套件，基于方法层面的基准测试，精度可以达到微
LLM大模型学习：LLM大模型推理加速七七Seven～学习人工智能 transformer 深度学习 llama
文Mia/叶娇娇推理优化部署、推理加速技术是现在，尤其在大模型时代背景之下，消费级GPU和边端设备仍为主流的状况下。推理加速是实际工程落地的首要考虑因素之一，今天笔者来聊聊涉及到的可以实现大模型推理加速的技术。目录一、模型优化技术二、模型压缩技术三、硬件加速四、GPU加速五、模型并行化和分布式计算技术一、模型优化学习常见的模型优化技术，如模型剪枝、量化、分片、蒸馏等，掌握相应的实现方法。1.1剪枝
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
@rabbitlistener注解小小懒懒 RabbitMQ
@RabbitListener是SpringAMQP（AdvancedMessageQueuingProtocol）框架中的一个注解，用于创建RabbitMQ消息监听器。RabbitMQ是一个开源的消息代理和队列服务器，它实现了AMQP协议，用于在分布式系统中进行消息传递。SpringAMQP是Spring框架对RabbitMQ的集成，提供了方便的消息发送和接收的功能。通过使用@RabbitLis
redis:全局ID生成器实现我的程序快快跑啊 redis 数据库缓存
问题：订单id不能设置为自增长的原因id的规律性太明显，受订单的数据量限制:若数据量过大，需要多张表存储，若自增会导致id重复全局ID生成器：在分布式系统中用来生成全局唯一ID的工具ID的组成：符号位：1bit，默认为0时间戳：31bit以秒为单位，可以使用约69年序列号：32bit，秒内的计数量，@ComponentpublicclassRedisIdWorker{@Resourceprivat
面试Spring Cloud 问了我35个问题，全部分享出来！套马杆的程序员
❝对于目前来说，微服务已经是程序员必会的技能之一了。SpringCloud作为一个优质的微服务框架，已经被很多公司使用。以下小编给大家整理35道SpringCloud的知识点，或者说是面试题都不冲突。后续还会继续更新⛽️❞1.什么是SpringCloud?SpringCloud为开发人员提供了工具，以快速构建分布式系统中的一些常见模式（例如，配置管理，服务发现，断路器，智能路由，微代理，控制总线，
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，