MongoBD大数据处理第34页

[大数据处理]——布隆过滤器

布隆过滤器说到布隆这两个字大家可千万不要认为我们这里讲的是英雄联盟中的布隆大叔，今天我们所讲的布隆过滤器是一种大数据处理利器，他是由布隆算法BloomFilter音译而来，是以Bitmap集合为基础的去重算法

lucky52529·2020-08-16 07:53

大数据项目：新闻日志大数据处理系统

.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echarts项目名称：新闻日志大数据处理系统项目简介

TALKDATA·2020-08-16 05:38

大数据时代的思考

以上提到的这些概念都是解决了人类之前无法解决的一些事，这种方法就是利用大数据处理技术

wangyhwyh753·2020-08-16 04:41

如何在Windows下搭建storm

就是因为这个原因，导致了很大一部分Storm的潜在用户放弃了将storm整合的到大数据处理框架中。非常感谢Storm的开发者DavidLao以及来自Yahoo！的贡献(making-sto

_张牧之_·2020-08-16 04:50

从大数据谈起1：OLTP和OLAP的设计区别

我们首先还是从概念来看，大数据处理系统概念其实很简单，只有两个组成部分：存储+查询。不管再复杂的大数据分析系统，都是这两个部分的组合：存储

weixin_33779515·2020-08-16 02:09

【Storm流式处理框架第一期】Storm简介

一、Storm概况Storm是个实时的、分布式以及具备高容错的计算系统Storm进程常驻内存Storm数据不经过磁盘，在内存中处理Twitter开源的分布式实时大数据处理框架，最早开源于github2013

DXH924·2020-08-15 21:29

【2017年第1期】智慧城市多源异构大数据处理框架

刘岩1，王华2，秦叶阳3，朱兴杰11.泰康保险集团股份有限公司数据信息中心，北京1022062.中国人民大学，北京1008723.北京大学，北京100871摘要：智慧城市建设的重心已由传统IT系统和信息资源共享建设，转变为数据的深度挖掘利用和数据资产的运营流通。大数据中心是数据资产管理和利用的实体基础，其核心驱动引擎是大数据平台及各类数据挖掘与分析系统。讨论了智慧城市大数据中心建设的功能架构，围绕

唐名威·2020-08-15 17:21

直击信息本质 - 数据结构总结篇

数据结构前言后语数组出现的原因链表正确使用的方式高级语言中数组本质高级语言中的动态、静态object与字典c/c++与其他主流语言的区别大数据处理方案与数据库设计算法和数据结构的关系信息结论传送门前言在数据结构系列文章中讲到了三种基础的数据结构数组

keng_s·2020-08-15 14:19

IO-Link—为工业物联网提供底层数据基础

一、工业物联网需要工业做出哪些变革——IO-Link技术的出现工业4.0的发展，使得可通过实际的智能制造和大数据处理的互相融合，

工业通讯__HongKe·2020-08-15 10:52

Hadoop生态圈简单介绍

HDFS:分布式文件系统（HadoopDistributedFileSystem）,设计有着为大数据处理“私人订制”的意思，提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

忙碌的影子·2020-08-15 09:16

Apache Spark 1.5发布，新特性一览

ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。

weixin_34161029·2020-08-15 08:36

Spark 生态系统组件

引言：随着大数据技术的发展，实时流计算、机器学习、图计算等领域成为较热的研究方向，而Spark作为大数据处理的“利器”有着较为成熟的生态圈，能够一站式解决类似场景的问题。

博文视点·2020-08-15 07:18

【Kylin】（一）初识 Apache Kylin

在大数据处理技术领域，用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果，同时也希望传统的商务智能工具能够直接和大数据平台连接起来，以便使用这些工具做数据分析。

云祁·2020-08-15 05:58

大数据各组件的简要概述

大数据处理组件HDFS:数据存储Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储

已个人·2020-08-14 21:33

居民通

1、平台概述“居民通”是云坤科技基于先进的互联网+、云计算及大数据处理技术，建设的网上一站式便民综合服务平台，聚合区域内所有便民服务等政府基础服务事项，通过统一的办事入口，为居民提供一站式服务。

qq_40040366·2020-08-14 19:36

Spark与大数据处理常用操作

初始化RDDRDD的transform1Spark可以分为1个driver(笔记本电脑或者集群网关机器上)和若干个executor(在各个节点上)，通过SparkContext(简称sc)连接Spark集群、创建RDD,简单可以认为SparkContext是Spark程序的根本。Driver会把计算任务分成一系列小的task，然后送到executor执行。executor之间可以通信，在每个exe

jose_yubin·2020-08-14 18:43

想要高效简洁自助处理数据，Smartbi的这些功能少不了！

这块强大数据处理功能不仅支持异构数据，还内置排序、去重、映射、行列合并、行列转换聚合、去空值等等数据预处理功能，满足客户日常数据处理的需要。下面

思迈特软件·2020-08-14 18:20

redis使用场景之位操作（大数据处理）

在学习redis的过程了，看到了redis还能用于大数据处理，具体场景如下：腾讯10亿用户，要几个毫秒内查询到某个用户是否在线，你能怎么做？

dianlin1577·2020-08-14 17:59

网络爬虫

这次去杭州参加阿里巴巴的离线大数据处理暑期课，得到一个思路。之前一直纠结于没有数据要怎么训练我的旅行个性化推荐。毕设木有头绪啊，做不粗来要人命呀！

a512977208·2020-08-14 16:03

zeppelin 配置安装与mysql解析器

1.1概述Zeppelin是基于Notebook技术开发的大数据交互分析服务软件,可以基于Web界面组合多个大数据分析引擎的处理能力,并内置提供了基于Web的可视化界面,可以连接几乎所有的Apache大数据处理服务系统

光远006·2020-08-14 16:48

DASK

Dask是一个并行计算库，能在集群中进行分布式计算，能以一种更方便简洁的方式处理大数据量，与Spark这些大数据处理框架相比较，Dask更轻。Dask更侧重与其他框架，如：Numpy，Pandas

从未知踏上大数据之路·2020-08-14 14:04

帮助您了解什么是运营商大数据获客

帮助您了解什么是运营商大数据获客运营商大数据获客依托运营商的海量数据以及大数据处理能力，在确保用户数据隐私安全的前提下，通过对数据的深入挖掘、对行业的深度研究、对渠道的资源整合，为各类企业客户优化营销策略

大数据L·2020-08-14 11:58

大数据处理之哈希表（二）--出现频率最多的top xxx 位

上篇文章中只是求了出现频次最高的值，可是大数据处理往往需求的是top10，top100或者某一段区间的数据。显然只定义一个Hasha是不能放下的。如果是求出现频次top100呢？

spring_hui123·2020-08-14 08:21

阿里云发布敏感数据保护产品SDDP，数据贴身防护实现“外防内控”

SensitiveDataDetectionandProtection），该产品参考Gartner提出的DCAP框架（Data-CentricAuditandProtection，以数据为中心的审计与保护），结合了阿里云多年大数据处理技术

阿里云技术·2020-08-14 01:59

读书·2020

1、工业物联网安全斯拉瓦尼2月2、软件架构穆拉德沙巴纳2月3、物联网之云云平台搭建与大数据处理王见2月4、如何准备PMP考试张元3月5、CISSP官方学习指南第八版3月6、企业私有云建设指南孙杰3月7、

云上笛暮·2020-08-14 00:57

从入门到进阶，那些让你看了以后大呼过瘾的数据分析六件套

看到这些提问后感慨万千，自己也是两眼一抹黑的走上了数据领域这条道路，从业务运营，到数据分析、数据挖掘，数据处理工具也从传统方法：Excel、Access(估计这个知道的不多了)，到大数据处理框架：Hadoop

Python学习与数据挖掘·2020-08-13 21:39

日志解析(一) 大文件遍历

这几天接了一个项目，log日志大数据处理，需要从日志里提取URL，进行http请求，检查该URL是否含流量统计代码。

weixin_30840573·2020-08-13 20:50

大数据技术图谱

大数据处理框架SparkRDDSparkSQLSparkStreamingMLLibHadoopHDFS(分布式文件系统)Mapreduce（计算框架）Yarn（资源管理平台）a.https://www.iteblog.com

TonyShu^_^·2020-08-13 19:54

大数据架构基本逻辑梳理

大数据架构基本逻辑梳理流处理、批处理、交互式查询之间区别在文末大数据的特点：Value（价值）Velocity（速度）Variety（多样性）Volume（体量）大数据处理主要解决两个问题。

子鱼_sunmac·2020-08-13 15:38

Netty 是如何支撑高性能网络通信的？

作为一个高性能的NIO通信框架，Netty被广泛应用于大数据处理、互联网消息中间件、游戏和金融行业等。

架构师-橘子·2020-08-13 15:00

大数据学习必须掌握的五大核心技术有哪些？

首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

bobo79888·2020-08-13 13:32

中国数字中台行业研究报告（2019艾瑞）笔记

因此数字中台融合分布式、微服务、容器云、DevOps、大数据处理及高可用高性能

itbgj·2020-08-13 11:18

敏捷大数据，了解一下？

一、敏捷大数据的理念原则组件化／平台化／产品化／本地化组件化／平台化：通过对大数据处理链路进行模块化抽象，形成多个功能高度內聚的组件化平台；组件化平台既可独立与已有平台组件整合使用，也可

敏捷大数据·2020-08-13 11:02

SpreadJS 纯前端表格控件应用案例：雷鸟365在线文档系统

二、项目背景随着网络信息化的发展，各类业务系统、表单系统、报表系统、分析系统和数据库等相继诞生，大数据处理和高性能要求是这类系统的普遍特征。

葡萄城控件·2020-08-12 21:29

【机器学习】tensorflow: 稀疏自编码

这些方法很多都基于最优化理论，在大数据处理上，相比传统的方法，比如PCA，在计算复杂度上有很大的提升。稀疏自编码是其中一种数据压缩方法。稀疏编码的公式为:argm

artzers·2020-08-12 14:16

Spark SQL, DataFrames and Datasets Guide

DataFrame的设计是为了让大数据处理起来更容易。DataFrame允许开发者把结构化

你看起来很好吃·2020-08-12 12:32

海量数据处理（查重，topk）

文章目录查重问题哈希表示例问题：找第一个重复的数字统计数字及其出现的次数可以使用无序映射表求topk对内存有限制的大数据处理查重问题查重：就是在一组海量数据中，查找重复的数据，一般的解题思路就是哈希表哈希表名称特点

qq_43313035·2020-08-12 12:02

大数据处理实例——Amazon商品评分&评论（四）

背景在本系列的第二篇中给出了Storm实时处理框架。其中有提到由于后面的离线学习部分都是基于文本的词频向量，因此需要统计非重复单词个数(向量维度)以及为每个单词编号(该单词词频所在列)。本篇就重点介绍自己基于ZK集群的实现方式分析我自己的想法就是在StormTopolopy的去停用词阶段(StopWordsFilterBolt)为每一个新单词在ZK指定路径上创建一个新的节点。同时启动一个ZKlis

晨丢丢·2020-08-12 00:48

Flink DataStream API使用及原理

flinkDataStreamAPI使用及原理传统的大数据处理方式一般是批处理式的，也就是说，今天所收集的数据，我们明天再把今天收集到的数据算出来，以供大家使用，但是在很多情况下，数据的时效性对于业务的成败是非常关键的

xyzkenan·2020-08-12 00:30

Docker部署Hadoop集群之安装Hadoop集群

1.hadoop是大数据处理领域的第一代的数据处理、存储引擎。在很多大公司的内部都会使用到hadoop集群，使用里面的yarn来统一管理资源，hdfs来做为分布式存储。

DeltaTheta·2020-08-11 22:49

大数据学习必须掌握的五大核心技术有哪些？

首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

小迪和夫人·2020-08-11 21:51

网贷风控体系之-系统架构

网贷风控体系之-系统架构目前常见的大数据架构是基于实时大数据处理框架Lambda架构。Lambda架构的数据通道分为实时流和离线两部分。

李元乐·2020-08-11 21:50

Hadoop学习笔记二：MapReduce的IO类型 && 文件切片

质量可能不够，数量一定管够高容错性：一个节点任务失败，能自动转移到其他空闲节点适合大数据处理：得益

Chord_Gll·2020-08-11 18:26

开源大数据处理平台简史

一说到开源大数据处理平台，就不得不说此领域的开山鼻祖Hadoop，它是GFS和MapReduce的开源实现。

weixin_30468137·2020-08-11 04:30

Spark 调优技巧总结

Spark是大数据处理必备技术之一，在开发工作中必然会面对性能调优和各种问题故障的处理，那么面试官也最爱在这些方面进行机关枪式的提问，本Chat就针对当前实际开发工作中常遇到的热门和冷门问题进行归纳式总结

蔚1·2020-08-11 04:05

数据挖掘之异常点检测

iForest（IsolationForest）孤立森林是一个基于Ensemble的快速异常检测方法，具有线性时间复杂度和高精准度，是符合大数据处理要求的state-of-the-art算法（详见新版教材

_小羊·2020-08-11 03:33

Spark（Python）学习（一）

BigTable\HbaseNoSQLNewSQL（2）分布式处理MapReduceSparkFlink参考资料：HDFS与GFS的设计差异GFS、MapReduce和BigTable：Google的三种大数据处理系统

雨山林稀·2020-08-11 03:49

Spark初识（学习总结一）

美国加州大学伯克利分校AMP实验室开发的大数据处理框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目。

流川没有枫·2020-08-11 03:19

六问六答帮你了解人工智能（四）

其实人工智能的发展中，大数据处理、深度学习和GPU计算三个方面的技术起到了关键的推动作用。大数据的

CDA·数据分析师·2020-08-11 01:41

大数据处理常见问题：统计3亿个整数中没有出现过的整数和不重复出现的整数

对于统计3亿个整数中没有出现过的整数，只需要使用一个BitMap这样的结构即可。BitMap就是使用一个Bit数组，每一个Bit位表示这个数是否出现过，其空间使用是普通数组的1/32，一般只要求答出这样即可，有的还需要具体实现，实现的方法是借助int数组，然后做状态压缩。下面是示例代码Set先找到那一个数组位置，然后往那个位置上或上一个lassBitMap{public:BitMap(size_t

wwxy261·2020-08-11 01:24

推荐频道

MongoBD大数据处理

[大数据处理]——布隆过滤器

大数据项目：新闻日志大数据处理系统

大数据时代的思考

如何在Windows下搭建storm

从大数据谈起1：OLTP和OLAP的设计区别

【Storm流式处理框架第一期】Storm简介

【2017年第1期】智慧城市多源异构大数据处理框架

直击信息本质 - 数据结构总结篇

IO-Link—为工业物联网提供底层数据基础

Hadoop生态圈简单介绍

Apache Spark 1.5发布，新特性一览

Spark 生态系统组件

【Kylin】（一）初识 Apache Kylin

大数据各组件的简要概述

居民通

Spark与大数据处理常用操作

想要高效简洁自助处理数据，Smartbi的这些功能少不了！

redis使用场景之位操作（大数据处理）

网络爬虫

zeppelin 配置安装与mysql解析器

DASK

帮助您了解什么是运营商大数据获客

大数据处理之哈希表（二）--出现频率最多的top xxx 位

阿里云发布敏感数据保护产品SDDP，数据贴身防护实现“外防内控”

读书·2020

从入门到进阶，那些让你看了以后大呼过瘾的数据分析六件套

日志解析(一) 大文件遍历

大数据技术图谱

大数据架构基本逻辑梳理

Netty 是如何支撑高性能网络通信的？

大数据学习必须掌握的五大核心技术有哪些？

中国数字中台行业研究报告（2019艾瑞）笔记

敏捷大数据，了解一下？

SpreadJS 纯前端表格控件应用案例：雷鸟365在线文档系统

【机器学习】tensorflow: 稀疏自编码

Spark SQL, DataFrames and Datasets Guide

海量数据处理（查重，topk）

大数据处理实例——Amazon商品评分&评论（四）

Flink DataStream API使用及原理

Docker部署Hadoop集群之安装Hadoop集群

大数据学习必须掌握的五大核心技术有哪些？

网贷风控体系之-系统架构

Hadoop学习笔记二：MapReduce的IO类型 && 文件切片

开源大数据处理平台简史

Spark 调优技巧总结

数据挖掘之异常点检测

Spark（Python）学习（一）

Spark初识（学习总结一）

六问六答帮你了解人工智能（四）

大数据处理常见问题：统计3亿个整数中没有出现过的整数和不重复出现的整数