MongoBD大数据处理第38页

Spark

sparkspark大数据处理类型spark生态圈spark基础概念spark运行流程RDDRDD依赖关系stage划分RDD运行过程spark部署SparkAPI实践spark基于内存计算的大数据并行计算框架

MP-214·2020-07-27 14:41

快速掌握阿里云 E-MapReduce

阿里云ElasticMapReduce（E-MapReduce）是一种大数据处理的系统解决方案。

xmvip01·2020-07-27 14:19

Hadoop中空间数据的存储（一）

Hadoop十周年了，基于Hadoop的空间大数据处理与分析平台出现了好几个，也死掉了不少。由于空间数据的空间特性，导致原型的Hadoop在处理空间大数据方面有很多缺陷。

GeoWin_CAU·2020-07-27 14:50

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

摘要大数据处理技术朝传统数据库领域靠拢已经成为行业趋势，目

weixin_45906054·2020-07-27 14:51

大数据学习资源汇总

当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法

weixin_34199335·2020-07-27 13:49

【大数据时代面临的七个挑战】

包括七大方面的挑战：1)业务部门没有清晰的大数据需求导致数据资产逐渐流失2)企业内部数据孤岛严重，导致数据价值不能充分挖掘;3)数据可用性低，数据质量差，导致数据无法利用;4)数据相关管理技术和架构落后，导致不具备大数据处理能力

lijieshare·2020-07-27 12:54

初始大数据处理--NoSQL之MongoDB

Ø问题背景UMC监控对计数器数据绘图，描绘曲线的走势。默认3秒钟获取一个样本，当跟踪时间拉长到1周时，计数器数据可能达到千万级别。要在有限的图表上描绘这么多节点，是不可能的，无法看清晰去曲线走势。问题简化方案：本质上是一个数学问题，不计较标准偏差，可以对数据二次加工，计算每5分钟的最大值、最小值、平均值，用5分钟一个样本描绘走势。算法描述：将原始时间Createtime和最小创建时间做差，精确到秒

iteye_3856·2020-07-27 12:06

SpreadJS 纯前端表格控件应用案例：雷鸟365在线文档系统

二、项目背景随着网络信息化的发展，各类业务系统、表单系统、报表系统、分析系统和数据库等相继诞生，大数据处理和高性能要求是这类系统的普遍特征。

powertoolsteam·2020-07-23 16:24

Linux系统CentOS7版yum安装mongoBD(3步完成)

1.配置MongoDB的yum源vim/etc/yum.repos.d/mongodb-org-4.0.repo[ngodb-org]name=MongoDBRepositorybaseurl=http://mirrors.aliyun.com/mongodb/yum/redhat/7Server/mongodb-org/4.0/x86_64/gpgcheck=0enabled=1gpgkey=h

意必固我_LRL·2020-07-18 15:00

00-Spark介绍

ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。

CSDN_小路·2020-07-16 07:10

物联网之边缘服务

在传统的自动化控制服务中，诸如数据归一化、数据清洗、数据记录、数据分析等在物联网边缘服务同样适用，但又有通过云边协同的大数据处理来进行智能预

py_free·2020-07-16 04:01

这个工具能替代Excel，可惜90%的人都没用过！

但我也看到不少知友困惑于Excel的深入学习难度，鸡肋的大数据处理效率。

纳元罗斯·2020-07-16 03:01

Scala和Java的语法差异

目前spark、kafaka等流行的大数据处理的软件都是由scala编写。1语法差异罗列下面介绍一些scala语言和java

正行天下·2020-07-16 03:26

浅谈大数据处理

刚接触大数据处理，将大数据处理的框架记录下来，之后深入的研究。大数据处理的必要性目前互联网中数据的数量正在飞速的增长，首先是G为单位，然后是T级别、P级别、E级别。

_Vern·2020-07-16 03:42

Spark入门实战指南——Spark生态圈+第一个Spark程序

一、Spark及其生态圈简介1．目前大数据处理场景有以下几个类型：1.复杂的批量处理（BatchDataProcessing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时

江湖小小虾·2020-07-16 02:17

Apache Spark处理大数据入门，看这一篇就够了

什么是SparkApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。

金乐笑·2020-07-16 02:39

小码王：少儿编程图鉴，你会让孩子学编程吗？

不论是美国在线编程教育网站发起的“编程一小时”活动，还是教育部召开新闻发布会，宣布在此次「新课标」改革中，正式将人工智能、物联网、大数据处理划入新课标的新闻，都有相同的中心思想：下一代教育里，编程可能跟英语一样重要

深圳小码王少儿编程·2020-07-16 01:24

那些阿里人写过的书

出版时间：2014-08-01内容简介：随着大数据实时处理需求的强劲增长，Storm的出现填补了大数据处理生态系统的缺失，并被越来越多的公

阿里云云栖号·2020-07-16 00:49

python中np.genfromtxt一个简单例子

比如我现在有txt文件，如下所示，前面是路径，后面的对应的标签，图像大数据处理的人都知道，需要有一个txt文件，然后根据这个txt文件来读取图像或者制作数据比如我的txt文件列表是train1/9381

hjxu2016·2020-07-16 00:34

大数据Spark企业级实战版【学习笔记】---Spark简介

1.1Spark简介基于RDD，Spark成功构建了一体化、多元化的大数据处理体系，而且Spark成功使用SparkSQL、SparkStreaming、MLlib、GraphX近乎完美地解决了大数据中

WEL测试·2020-07-15 23:00

Apache Flink入门

要求：无需大数据开发经验了解Java8软件开发通用经验您将学习到：1.ApacheFlink在大数据处理中的地位和作用2.使用ApacheFlink开发应用的核心技能3.学习如何处理有界(批量)和无界(

cricket1981·2020-07-15 21:10

大数据处理面试题分析

**大数据处理面试题分析**最近学习了关于搜索方面的数据结构--搜索树，AVL树，红黑树，哈希表，哈希表的扩展-位图，布隆过滤器；大数据在当前社会下是非常火的，同样随之而来的是在IT行业进行面试的时候，

John__xs·2020-07-15 20:24

快速掌握阿里云 E-MapReduce

阿里云ElasticMapReduce（E-MapReduce）是一种大数据处理的系统解决方案。

xmvip01·2020-07-15 17:24

学者贵于行，报名参加线上大数据技术峰会的4个理由

weixin_33909059·2020-07-15 15:30

使用 Kubernetes 部署 Flink 应用

Kubernetes是目前非常流行的容器编排系统，在其之上可以运行Web服务、大数据处理等各类应用。

薄荷脑·2020-07-15 12:31

Java IO 字节流字符流写入、读取、复制文件

分别使用字节流和字符流完成以下程序：1.在指定的路径下新建一个txt文件"aura.txt"，利用程序在文件中写入如下内容："Hadoop（hdfs、mapreduce、yarn）元老级大数据处理技术框架

Song_MJ·2020-07-15 11:45

Apache Beam: Google一统大数据处理的野心？

虽然简单来说，这里只是开源了一个SDK，但却显示了Google在统一大数据处理方面的野心。一.ApacheBeam是什么？

xywtalk·2020-07-15 11:37

大量数据查找、去重：BitSet、BitMap

大数据处理算法之一：BitMap如有错误，欢迎指正1.(1)通过存储2表示是十进制的数进制位如图：（2）可以快速排序/查找：bitmap.set（11）,会直接在11的位上置为1，查询的时候直接查询这个位置是否是

xxing_0228·2020-07-15 10:18

win7安装MongoDB失败,无法启动此程序,因为计算机中丢失api-ms-win-crt-runtime-|1-1-0.dll.尝试重新安装该程序以解决此问题

无法启动此程序,因为计算机中丢失api-ms-win-crt-runtime-|1-1-0.dll.尝试重新安装该程序以解决此问题起因是因为我第一次安装完了mongoBD,然后在控制面板中卸载了,又重新装

xxTheodore·2020-07-15 10:46

MongoBD 查询快速学习入门

MongoBD查询快速学习入门简单条件查询多条件查询条件操作符查询IN|NOTIN排序简单条件查询db.getCollection('ruleParam').find({"param":"最新签约状态"

三分之一给你·2020-07-15 10:29

kettle连接cdh——读取hdfs中的数据

目前pentaho——kettle已经到了8.1的版本了，本文主要介绍如何利用kettle进行大数据处理。好，下面上货。

0day__·2020-07-15 09:55

Anaconda 入门详解

AnacondaAnaconda简介Anaconda是一个免费开源的Python和R语言的发行版本，用于计算科学（数据科学、机器学习、大数据处理和预测分析），Anaconda致力于简化包管理和部署。

weixin_34337265·2020-07-15 05:31

我为什么要写：新书《离线和实时大数据开发实战》

空无和薛奎的书评大数据技术一直是个领先互联网公司的必备核心技术，阿里巴巴最近10年一直在持续加大投入，并将大数据处理技术用于大量的大规模业务场景。

weixin_34335458·2020-07-15 05:30

零基础搭建Hadoop大数据处理-环境

由于Hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMwareWorkstation为准，安装CentOS7，具体的安装此处不作过多介绍，只作需要用到的知识介绍。VMware的安装，装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机，省时省力，需要注意的是需要修改每个虚拟机的IP与主机名。所有虚拟机采用NAT模式上网，而且要保证与物理主机的IP互相能

weixin_34265814·2020-07-15 05:10

视频教程-2019年模块化打包工具webpack4教程webpack4入门到进阶webpack视频教程-其他...

视频教程7年的开发架构经验，曾就职于国内一线互联网公司，开发工程师，现在是某创业公司技术负责人，擅长语言有node/java/python，专注于服务端研发，人工智能相关领域,熟悉分布式高可用系统的架构，大数据处理

weixin_32198755·2020-07-15 04:13

视频教程-2019年Linux命令行与shell脚本编程从入门到精通的视频教程-Linux

脚本编程从入门到精通的视频教程7年的开发架构经验，曾就职于国内一线互联网公司，开发工程师，现在是某创业公司技术负责人，擅长语言有node/java/python，专注于服务端研发，人工智能相关领域,熟悉分布式高可用系统的架构，大数据处理

weixin_31832147·2020-07-15 04:41

大数据处理-Trie树

大数据处理——Trie树1.1、什么是Trie树Trie树，即字典树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。

weixin_30897079·2020-07-15 03:46

大数据处理-Bitmap

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"Bit-map空间压缩和快速排序去重1.Bit-map的基本思想32位机器上，对于一个整型数，比如inta=1在内存中占32bit位，这是为了方便计算机的运算。但是对于某些应用场景而言，这属于一种巨大的浪费，因为我们可以用对应的32bit位对应存储十进制的0-31个数，而这就

weixin_30556161·2020-07-15 03:07

深入理解大数据大数据处理与编程实践pdf

全书的主要内容包括：■大数据处理技术与Hado

weixin_30449239·2020-07-15 03:12

【转】分布式协调服务ZooKeeper工作原理

大数据处理框架Hadoop、Redis分布式服务Codis、淘宝的分布式消息

javaadu·2020-07-15 02:44

Spark快速入门指南 – Spark安装与基础使用

本文转载自Spark快速入门指南–Spark安装与基础使用ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。

Ezioooooo·2020-07-15 01:01

大数据之道 BitMap (按位存取)

一：起因（0）大数据的预处理那一篇博客，仅仅讲解了如何处理数据，以及清洗数据的原则；并没有讲解大数据处理过程中，数据在内存中的存储问题，这正是本文要关注的重点。

瞭望天空·2020-07-15 00:55

传统数据与大数据处理方式对比

扩展性传统数据纵向扩展：表示在需要处理更多负载时通过提高单个系统处理能力的方法来解决问题。最简单的情况就是为应用系统提供更为强大的硬件。服务器数量不发生变化，配置越来越高（发生变化）例：如果数据库所在的服务器实例只有8G内存、低配CPU、小容量硬盘，进而导致了数据库不能高效地运行，那么我们就可以通过将该服务器的内存扩展至16G、更换大容量硬盘或者更换高性能服务器来解决这个问题。大数据横向扩展：是将

没去过埃及的法老·2020-07-14 20:24

大数据生产环境部署 CDH5

ClouderaManager（本文以下简称为CM）则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件，对集群中

qiaoqiaoqiaozh·2020-07-14 16:58

位图和哈希切分的大数据处理

位图是一个数组的每个数据的每个二进制位表示一个数据，0表示数据不存在，1表示数据存在；在现实生活中，大数据的处理十分的常见；比如说，给40亿个不重复的无符号整数，没排过序，如何快速判断一个数是否在这40亿个数中？要解决这个问题，我们首先想到的是先排序，在进行二分查找，很容易就可以判断成功。但是排序并不好排，40亿个数据，让我们来算一算需要多少的内存，40亿*4字节=4G*4=16G;一般的电脑都是

no_name_sky·2020-07-14 15:57

布隆过滤器与大数据处理

目录哈希函数（散列函数）布隆过滤器Redis原子性操作反向代理哈希函数（散列函数）哈希函数的输入域可以是非常大的范围，但是输出域是固定的范围设为R，并具有如下性质：1、典型的哈希函数都有无穷的输入值域2、当给哈希函数传入相同的输入值时，返回值一样3、当给hash函数传入不同的输入值时，返回值可能一样，也可能不一样4、很多不同的输入值所得到的返回值会均匀地分布在R上布隆过滤器1)布隆过滤器是用来判断

lzw2019sun·2020-07-14 14:49

小白量化学习（1）准备环境

Python是人工智能、大数据处理，网络爬虫的首选计算机语言。（5）我们使用Python3.6及以上

荷蒲·2020-07-14 11:53

实时大数据开发实践

88188117，或访问本人博客http://fangchao.me/2018/12/07/realtime-big-data-best-practice.html本文主要从大数据起源谈起，介绍了几种主要的大数据处理框架

flygfch·2020-07-14 10:35

代码练习----位图排序----与大数据处理

一道位图排序解决的题目如下：输入：一个文本文件最多包含n个正整数的字符串，每个数都小于n，逗号间隔，其中n=10000000,没有重复的整数。输出：按升序排列这些数，并打印输出到另外一个文本文件中。格式也是逗号间隔、允许末尾有逗号。约束：算法复杂度为O(N),接口函数运行时申请内存或栈不超过2M。对外提供的接口为：intstat(constchar*InFileName,constchar*Out

danxibaoxxx·2020-07-14 09:25

简单介绍spark

ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm

微笑达人_4b5d·2020-07-14 08:32

推荐频道

MongoBD大数据处理

Spark

快速掌握阿里云 E-MapReduce

Hadoop中空间数据的存储（一）

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

大数据学习资源汇总

【大数据时代面临的七个挑战】

初始大数据处理--NoSQL之MongoDB

SpreadJS 纯前端表格控件应用案例：雷鸟365在线文档系统

Linux系统CentOS7版yum安装mongoBD(3步完成)

00-Spark介绍

物联网之边缘服务

这个工具能替代Excel，可惜90%的人都没用过！

Scala和Java的语法差异

浅谈大数据处理

Spark入门实战指南——Spark生态圈+第一个Spark程序

Apache Spark处理大数据入门，看这一篇就够了

小码王：少儿编程图鉴，你会让孩子学编程吗？

那些阿里人写过的书

python中np.genfromtxt一个简单例子

大数据Spark企业级实战版【学习笔记】---Spark简介

Apache Flink入门

大数据处理面试题分析

快速掌握阿里云 E-MapReduce

学者贵于行，报名参加线上大数据技术峰会的4个理由

使用 Kubernetes 部署 Flink 应用

Java IO 字节流 字符流写入、读取、复制文件

Apache Beam: Google一统大数据处理的野心？

大量数据查找、去重：BitSet、BitMap

win7安装MongoDB失败,无法启动此程序,因为计算机中丢失api-ms-win-crt-runtime-|1-1-0.dll.尝试重新安装该程序以解决此问题

MongoBD 查询快速学习入门

kettle连接cdh——读取hdfs中的数据

Anaconda 入门详解

我为什么要写：新书《离线和实时大数据开发实战》

零基础搭建Hadoop大数据处理-环境

视频教程-2019年模块化打包工具webpack4教程webpack4入门到进阶webpack视频教程-其他...

视频教程-2019年Linux命令行与shell脚本编程从入门到精通的视频教程-Linux

大数据处理-Trie树

大数据处理-Bitmap

深入理解大数据 大数据处理与编程实践pdf

【转】分布式协调服务ZooKeeper工作原理

Spark快速入门指南 – Spark安装与基础使用

大数据之道 BitMap (按位存取)

传统数据与大数据处理方式对比

大数据生产环境部署 CDH5

位图和哈希切分的大数据处理

布隆过滤器与大数据处理

小白量化学习（1）准备环境

实时大数据开发实践

代码练习----位图排序----与大数据处理

简单介绍spark

Java IO 字节流字符流写入、读取、复制文件

深入理解大数据大数据处理与编程实践pdf