华为云开发者联盟

大数据开发，Hadoop Spark太重？你试试esProc SPL

摘要：由于目标和现实的错位，对很多用户来讲，Hadoop成了一个在技术、应用和成本上都很沉重的产品。

本文分享自华为云社区《Hadoop Spark太重，esProc SPL很轻》，作者：石臻臻的杂货铺。

随着大数据时代的来临，数据量不断增长，传统小机上跑数据库的模式扩容困难且成本高昂，难以支撑业务发展。很多用户开始转向分布式计算路线，用多台廉价的PC服务器组成集群来完成大数据计算任务。Hadoop/Spark就是其中重要的软件技术，由于开源免费而广受欢迎。经过多年的应用和发展，Hadoop已经被广泛接受，不仅直接应用于数据计算，还发展出很多基于它的新数据库，比如Hive、Impala等。

Hadoop/Spark之重

Hadoop的设计目标是成百上千台节点的集群，为此，开发者实现了很多复杂、沉重的功能模块。但是，除了一些互联网巨头企业、国家级通信运营商和大型银行外，大多数场景的数据量并没有那么巨大。结果，经常能看到只有几个到十几个节点的Hadoop集群。由于目标和现实的错位，对很多用户来讲，Hadoop成了一个在技术、应用和成本上都很沉重的产品。

技术之重

如果真的有几千台计算机组成的集群，是不可能依靠手工个性化管理的。试想，将这些计算机罗列出来，运维人员看都看不过来，更别说管理和分配任务了。再说，这么多机器，难免会不断出现各种故障，怎么保证计算任务顺利执行？Hadoop/Spark的开发者为了解决这些问题，编写了大量代码，用于实现自动化节点管理、任务分配和强容错功能。

但是，这些功能本身就要占用很多计算资源（CPU、内存和硬盘等），如果用到几台到十几台节点的集群上，就太过沉重了。集群本来就不大，Hadoop还要占用相当一部分的资源，非常不划算。

不仅如此，Hadoop产品线很长，要把这些模块都放在一个平台上运行，还要梳理好各个产品之间的相互依赖性，就不得不实现一个包罗万象的复杂架构。虽然大多数场景只用其中一两个产品，也必须接受这个复杂、沉重的平台。

后来出现的Spark弥补了Hadoop对内存利用的不足，技术上是不是可以变轻呢？很遗憾，Spark走向了另一个极端，从理论模型上就只考虑内存计算了。特别是Spark 中的 RDD 采用了 immutable 机制，在每个计算步骤后都会复制出新的 RDD，造成内存和 CPU 的大量占用和浪费，离开大内存甚至无法运行，所以技术上还是很重。

使用之重

Hadoop技术上太过复杂，也就意味着安装和运维会很麻烦。集群只有几台计算机时，却不得不使用为几千台节点集群设计的节点管理、任务分配和容错功能。可想而知，安装、配置、调试都很困难，日常运行的维护、管理工作也不容易。

即使克服这些困难让Hadoop运行起来了，编写大数据计算代码时还会面临更大的麻烦。Hadoop编程的核心框架是MapReduce，程序员要编写并行程序，只要写 Map 和 Reduce 动作即可，用来解决求和、计数等简单问题也确实有效。但是，遇到复杂一些的业务逻辑，用MapReduce编程就会变得非常困难。例如，业务计算中很常见的JOIN计算，就很难用MapReduce实现。再比如，很多和次序有关的运算实现起来也很困难。

Spark的Scala语言具备一定的结构化数据计算能力，是不是能简单一些呢？很可惜，Scala使用难度很大，难学更难精。遇到复杂一些的运算逻辑，Scala也很难写出来。

MapReduce、Scala都这么难，所以Hadoop/Spark计算语法开始回归SQL语言。Hive可以将SQL转化为MapReduce所以很受欢迎，Spark SQL的应用也比Scala广泛的多。但是，用SQL做一些常规查询还算简单，用于处理多步骤过程计算或次序相关运算还是非常麻烦，要写很复杂的UDF。而且，许多计算场景虽然勉强能用SQL实现，但是计算速度却很不理想，也很难进行性能调优。

成本之重

虽然 Hadoop 软件本身开源免费，但它技术复杂、使用困难，会带来高昂的综合成本。

前面说过，Hadoop自身会占用过多的CPU、内存和硬盘，而Spark需要大内存支撑才能正常运行。所以不得不为Hadoop/Spark采购更高配置的服务器，要增加硬件支出。

Hadoop/Spark使用困难，就需要投入更多的人力去完成安装、运维，保证Hadoop/Spark的正常运转；还要投入更多的开发人员，编程实现各种复杂的业务计算，要增加人力资源成本。

由于使用过于困难，很多用户不得不采购商业公司的收费版本Hadoop/Spark，价格相当可观，会大幅增加软件采购成本。

既然Hadoop如此沉重，为什么还有很多用户会选择它呢？答案很简单：暂时找不到别的选择，也只有Hadoop勉强可用，好歹知名度高一些。

如此一来，用户就只能安装、配置Hadoop的重型应用，并忍受Hadoop本身对计算资源的大量消耗。小规模集群的服务器数量本来就不多，Hadoop又浪费了不少，小马拉大车，最后运行的效果可想而知。花了大价钱采购、费事费力的使用Hadoop，实际计算的性能却不理想。

就没有别的选择了？

轻量级的选择

开源的esProc SPL是轻量级大数据计算引擎，采用了全新的实现技术，可以做到技术轻、使用简单、成本低。

技术轻

本文开头说过，越来越大的数据量让传统数据库撑不住，所以用户只能转向分布式计算技术。而数据库之所以撑不住，是因为SQL难以实现高速算法，大数据运算性能只能指望数据库的优化引擎，遇到复杂计算时，优化引擎又常常无能为力。

所以，我们应该想办法设计更高效的算法，而不是一味地追求分布式计算。按照这个思路，SPL提供了众多高性能算法（有许多是业界首创）以及高效的存储方案，同等硬件环境下可以获得远超过数据库的运算性能。安装在单机上的SPL就可以完成很多大数据计算任务，架构比集群简单很多，从技术上自然就轻的多了。

SPL的高性能算法有下面这些：

对于数据量更大的情况，SPL实现了轻量级集群计算功能。这一功能的设计目标是几台到十几台节点的集群，采用了与Hadoop完全不同的实现方法。

SPL集群不提供复杂沉重的自动化管理功能，而是允许对每个节点进行个性化配置。程序员可以根据数据特征和计算目标来决定各节点存储什么样的数据，完成哪些计算。这样做，不仅大大降低了架构复杂度，也是提升性能的重要手段。

以订单分析为例，订单表很大，要通过产品号字段与较小的产品表主键做关联，再按照产品供应商分组汇总订单金额。SPL集群可以很容易的将订单表分段存放在各个节点的硬盘上，再将较小的产品表读入每个节点的内存中。计算时，每个节点仅对本机上的订单分段和产品数据做关联、分组汇总，可以缩短总计算时间；再将结果传输到一个节点上做二次汇总。由于传输的是第一次汇总的结果，数据量小、网络传输时间较短。总体来说，这个方案可以获得最佳性能，虽然程序员需要做一些更细致的工作，但对于小规模集群来说，增加的工作量并不大。

SPL也不提供超强的容错能力，不会像Hadoop那样，在有节点故障的情况下，还要保证任何一个任务都会执行成功。实际上，大多数计算任务的执行时间都在几个小时以内，而几台、十几台机器的集群一般都能做到较长时间正常运行，不会这么频繁的出故障。即使偶尔出现节点故障导致任务执行失败，再重新计算一遍也可以接受，毕竟这种情况不会经常发生。所以，SPL的容错能力只是保证有少数节点故障的时候，整个集群还能继续工作并接受新任务（包括重算的任务），这就大大降低了SPL集群的复杂度。

在内存计算方面，SPL没有使用Spark RDD的 immutable机制，而是采用了指针式复用机制，利用地址（指针）访问内存，在数据结构没有改变的情况下，直接用原数据的地址形成结果集，不必每个计算都将数据复制一遍，仅仅多保存一个地址（指针），可以同时减少 CPU 和内存的消耗，运行起来要比Spark轻很多了。并且，SPL改进了当前的外存计算算法体系，降低了复杂度并扩大了适应范围，可以做到内外存计算结合，充分提升计算性能的同时，还不像Spark那样依赖大内存。

使用简单

SPL采用轻量级技术，自然更容易安装、配置和运行维护。SPL不仅可以作为独立服务器使用，还很容易集成到需要高性能计算的应用中，比如即时查询系统，只要引入几个jar包即可。Hadoop则很难集成，只能在边上作为一个数据源运行。有些临时性数据需要随时进行处理，则可使用SPL的桌面集成开发环境可视化地计算，快速得到结果。如果要安装部署Hadoop，那么等环境搭建好时临时数据任务已经过期了。

前面展示的众多SPL高性能算法，也能让大数据计算编程变得简单。程序员可以在较短时间内掌握这些算法函数，学习成本相对较低。而且，使用这些现成的函数很容易实现各种复杂的计算需求，不仅比MapReduce/Scala简单，比SQL也简单很多。

比如，以电商网站常见的漏斗分析为例，用SQL实现三步漏斗的代码大致如下：

with e1 as (
    select gid,1 as step1,min(etime) as t1
 from T
    where etime>= to_date('2021-01-10', 'yyyy-MM-dd') and etime= to_date('2021-01-10', 'yyyy-MM-dd') and e2.etime t1
        and e2.etime < t1 + 7
        and eventtype='eventtype2' and …
    group by 1
),
with e3 as (
    select gid,1 as step3,min(e2.t1) as t1,min(e3.etime) as t3
 from T as e3
    inner join e2 on e3.gid = e2.gid
    where e3.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e3.etime t2
        and e3.etime < t1 + 7
        and eventtype='eventtype3' and …
    group by 1
)
select
 sum(step1) as step1,
 sum(step2) as step2,
 sum(step3) as step3
from
    e1
    left join e2 on e1.gid = e2.gid
    left join e3 on e2.gid = e3.gid

SQL写出来要三十多行，理解起来有相当的难度。如果用MapReduce/Scala来写，会更加困难。即使是用SQL实现，写出来的这段代码和漏斗的步骤数量相关，每增加一步就要再增加一段子查询。

相比之下，SPL 就简单得多，处理任意步骤数都是下面这样简洁的代码：

SPL集群计算的代码也非常简单，比如前面提到的订单分析计算，具体要求是：大订单表分段存储在4个节点上，小产品表则加载到每个节点的内存中，两表关联之后要按照产品供应商分组汇总订单金额。用SPL写出来大致是下面这样：

这段代码执行时，任务管理（内存加载、任务拆分、合并等）所需要的计算资源，远远小于关联和分组汇总计算的消耗。如此轻便的任务管理功能，可以在任意节点、甚至是集成开发环境IDE上执行。

成本低

与Hadoop相同，SPL也是开源软件，不同的是SPL不仅软件免费，综合成本也非常低。

SPL安装、配置、运维很容易，可以大大降低支持人员的人力资源成本。同时，由于SPL降低了大数据计算编程的难度，程序员很容易实现各种复杂的计算，开发效率显著提高，也就节省了程序员的人力资源成本。

而且，由于SPL技术体系非常轻，平台自身占用的CPU、内存和硬盘很少，可以让更多的资源用于业务计算，能大幅提高硬件利用率。SPL也不像Spark那样依赖大内存，总体来说，大大减少了硬件采购成本。

SPL既轻且快

SPL技术轻、自身消耗小，而且还提供了众多高性能算法，所以，在几个到几十个节点的集群，甚至单机的情况下，比Hadoop/Spark有更好的性能表现。

案例1：某电商漏斗分析计算。

Spark：6节点，每节点4CPU核，平均计算时间：25秒。

SPL：单机，8线程计算，平均计算时间可达10秒。代码量仅有Spark Scala的一半。

案例2：某大型银行用户画像分析。

Hadoop上某OLAP服务器：虚拟机100CPU核，计算时间：120秒。

SPL：虚拟机12CPU核，计算时间：仅4秒。性能提高250倍。

案例3：某商业银行的手机银行APP，活期明细查询，数据量大且高并发。

基于Hadoop的某商用数据仓库：高并发时无法达到秒级的响应速度，只好换用6台ES集群。

SPL单机：达到6台ES集群同样的并发和响应能力。

总结来说，Hadoop/Spark是源自头部互联网企业的重型解决方案，适合需要有超大规模集群的巨大企业。很多场景的数据虽然也不少，但小集群甚至无集群就足够处理，远没多到这些巨大企业的规模，也没有那么多的硬件设备和维护人员。这种情况下，轻量级的大数据计算引擎SPL是首选，投入很低的成本，就可以做到技术轻、使用简便，而且还能提高开发效率、达到更高的性能。

SPL资料

SPL下载
SPL源代码

点击关注，第一时间了解华为云新鲜技术~

水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
探索ASPICE V3.1：汽车行业软件开发的中文指南阮懿同
探索ASPICEV3.1：汽车行业软件开发的中文指南ASPICE_V3.1中文版.pdf.zip项目地址:https://gitcode.com/open-source-toolkit/422a2在汽车软件工程领域，高质量的标准对于确保行车安全和提升用户体验至关重要。今天，我们为您介绍一个珍贵的开源宝藏——ASPICEV3.1中文版资源。这是一篇专为国内汽车行业开发者、质量管理者准备的深度解读，旨
SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗? 瑞金彭于晏 spring boot 后端 java MVC spring 数据库
SpringBoot和SpringMVC都是SpringFramework生态系统中的一部分，但它们各自扮演着不同的角色和提供不同的功能集。理解它们之间的关系，首先需要了解SpringFramework本身。SpringFrameworkSpringFramework是一个全面的、开源的应用程序开发框架，它提供了广泛的功能来支持企业应用开发的几乎所有方面。SpringFramework的核心特性之
css设置当字数超过限制后以省略号（...）显示周bro css 前端 vue css3 html 经验分享
1、文字超出一行，省略超出部分，显示’…’用text-overflow:ellipsis属性来，当然还需要加宽度width属来兼容部分浏览。overflow:hidden;text-overflow:ellipsis;white-space:nowrap;2、多行文本溢出显示省略号display:-webkit-box;-webkit-box-orient:vertical;-webkit-lin
Nginx：高性能的Web服务器与反向代理张某布响丸辣 nginx 前端服务器 java SpringBoot
在当今的互联网世界中，Web服务器的选择对于网站的性能、稳定性和安全性至关重要。Nginx（发音为“engineX”）凭借其卓越的性能、丰富的功能集和灵活的配置选项，成为了众多网站和应用程序的首选Web服务器和反向代理。本文将深入探讨Nginx的特点、应用场景、基本配置以及它如何助力你的Web项目。Nginx简介Nginx是一个开源的、高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin