E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据处理
Flink学习笔记【巨详细!】(一)
一、Flink的简介1.1Flink的概述Flink和Spark一样,是一个
大数据处理
引擎。主要区别在于Flink做的是流处理,Spark做的是批处理。
水花还在漂移
·
2023-08-18 06:15
flink
学习
大数据
大数据与云计算之间的关系是怎样的?
例如,亚马逊的“ElasticMapReduce”演示了如何利用CloudElasticComputes的功能进行
大数据处理
。两者的结合为组织带来了有益的结果。
大数据基础入门教程
·
2023-08-17 17:48
大数据
hadoop
spark
Hive加密,PostgreSQL解密还原
当前公司数据平台使用的处理架构,由Hive进行
大数据处理
,然后将应用数据同步到PostgreSQL中做各类外围应用。
灰哥数据智能
·
2023-08-16 23:39
hive
hadoop
数据仓库
传统数据与大数据的差别
文章目录一、传统数据与大数据的对比二、传统数据与
大数据处理
方式对比一、传统数据与大数据的对比二、传统数据与
大数据处理
方式对比
舰圣
·
2023-08-15 19:07
大数据
Spark Streaming:通过Dstreams 或 DataFrames做流数据处理,结果写入ClickHouse或Hive表
ApacheSpark当前最流行的
大数据处理
框架之一。最初它是作为替代Hadoop的MapReduce批处理框架而创建的,但现在它也支持SQL、机器学习和流处理。
西土城计划
·
2023-08-14 19:04
实时系统
数据挖掘算法
spark
hive
大数据
谁能讲清楚Spark之与MapReduce的对比
我们已经知道Spark是如何设计和实现数据处理流程的,这里我们再深入思考一下,为什么Spark能够替代MapReduce成为主流的
大数据处理
框架呢?对比MapReduce,Spark究竟有哪些优势?
数据咩
·
2023-08-14 14:08
大数据之路
spark
mapreduce
大数据
介绍 Apache Spark 的基本概念和在大数据分析中的应用
ApacheSpark是一种基于内存计算的
大数据处理
框架,它支持分布式计算,并且能够处理比传统处理框架更大量的数据。
领取
·
2023-08-14 08:32
github
弹性网络的
大数据处理
与存储:介绍弹性网络的
大数据处理
与存储,包括
大数据处理
技术、存储架构、数据存储与备份等方面
作者:禅与计算机程序设计艺术云计算(CloudComputing)作为下一个互联网的高潮,已经吸引了众多行业对其应用、投入资源、提升效率等一系列需求。基于此趋势,越来越多的公司、组织开始从私有数据中心向公有云平台迁移,希望利用公有云平台提供的服务和能力,更好地管理和运维公司的大数据和业务数据,进一步释放IT部门的生产力。基于大数据的海量、高速增长、动态变化以及无限的可能性,在云计算领域也面临着巨大
禅与计算机程序设计艺术
·
2023-08-14 04:46
大数据AI人工智能
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
Hadoop知识点总结
1.什么是Hadoop
大数据处理
的分布式系统2.Hadoop****生态圈三大核心:HDFS集群:分布式文件存储系统YARN集群:运算资源调度MapReduce分布式计算模型3.讲一下MapReduceMapReduce
longLiveData
·
2023-08-12 10:40
大数据处理
需要用到的九种编程语言
大数据处理
需要用到的九种编程语言随着大数据的热潮不断升温,几乎各个领域都有洪水倾泻般的信息涌来,面对用户成千上万的浏览记录、记录行为数据,如果就单纯的Excel来进行数据处理是远远不能满足的。
Alukar
·
2023-08-10 18:18
用AIGC生成大数据教程
目录第一章:引言介绍大数据的概念和重要性解释为什么大数据在当今世界中如此关键第二章:大数据基础知识解释大数据的定义和特征探讨大数据的来源和类型介绍大数据的处理流程解释大数据技术背后的原理和概念第三章:
大数据处理
工具和技术介绍常用的
大数据处理
工具
醉心编码
·
2023-08-10 12:10
技术类
AIGC
大数据
信息可视化
阿里、蚂蚁金服 Java面试问题
8、多线程、socket通讯;9、Java基础,spring、hibernate、struts、mybatis;10、Elasticsearch;11、PriorityQueue的底层数据结构;11、
大数据处理
相关技术
陈晓阳_矿洞程序员
·
2023-08-09 07:02
使用TransBigData快速高效地处理、分析、挖掘出租车GPS数据
01、TransBigData简介TransBigData是一个为交通时空
大数据处理
、分析和可视化而开发的Python包。
TiAmo zhang
·
2023-08-07 18:34
Python
大数据
信息可视化
TransBigData
bigdata
python
信息技术及python程序设计,信息技术python小海龟
2018年1月16日,教育部召开新闻发布会,正式将人工智能、物联网、
大数据处理
划入高中新课标,并于今年秋季开始执行。这就意味着,2018秋季入学的高中生,将要学习——Python。
小发猫
·
2023-08-07 12:52
小发猫
大数据开发:Oozie调度框架简介
在
大数据处理
的各个环节当中,各种任务的执行,往往需要调度框架来协调。市面上的调度框架,也有很多开源产品,而Oozie框架还是占有一定的市场地位的。
成都加米谷大数据
·
2023-08-06 19:26
Hive执行引擎的区别
执行引擎Tez、Spark和MapReduce都是用于在
大数据处理
中执行任务的框架或引擎,它们在性能、优化、适用场景等方面有一些区别。
Matthew117
·
2023-08-06 06:43
hive
数据仓库
python三方库Apache Spark,举例介绍基本的使用
ApacheSpark是一个快速、通用、基于内存的
大数据处理
系统,它可以用来处理大规模数据集。它提供了高级别的API,以便用户可以用Java、Scala、Python和R等语言编写Spark应用程序。
Dream SYC_UCC
·
2023-08-04 14:06
Apache
Spark
spark
大数据
分布式
什么是大数据开发?
大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对
大数据处理
系统本身进行开发。第一类工作感觉更适用于dataanalyst这种职位吧,而
yoku酱
·
2023-08-04 13:19
Apache Flink概述
Flink是构建在数据流之上的一款有状态的流计算框架,通常被人们称为第三代大数据分析方案第一代
大数据处理
方案:基于Hadoop的MapReduce静态批处理|Storm实时流计算,两套独立的计算引擎,难度大
LJiaWang
·
2023-08-03 10:15
flink
flink
Flink
Flink提供了强大的流处理和批处理功能,具有低延迟、高吞吐量和高容错性,适用于各种
大数据处理
场景。
summer_west_fish
·
2023-08-03 10:15
大数据
flink
Apache Spark 的基本概念和在大数据分析中的应用
ApacheSpark是一种快速、通用、可扩展的
大数据处理
引擎,用于大规模数据处理任务,如批处理、交互式查询、实时流处理、机器学习和图形处理等。
Dream SYC_UCC
·
2023-08-02 03:18
计算机
/
人工智能
spark
数据分析
大数据
Apache
Spark
Flink教程-keyby 窗口数据倾斜的优化
在
大数据处理
领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。
大数据技术与应用实战
·
2023-08-02 02:31
浅谈大数据软件的功能性分析
在当今时代的潮流中,工作中遇到
大数据处理
的时候非常多,因此需要一些大数据分析软件帮助人们进行工作。
懂电商API接口的Jennifer
·
2023-08-01 05:52
IT技术系列
数据挖掘
数据库
大数据
网络爬虫
大数据架构图
大数据处理
的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。随着业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。
ixiaoyang8
·
2023-07-31 17:10
在线画流程图
大数据
架构图
流程图
思维导图
项目管理
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述
本文将介绍Hadoop的组成和其在
大数据处理
中的重要作用,让我们一同踏上学习Hadoop的旅程。Hadoop概述Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
老虎也淘气
·
2023-07-31 05:41
Hadoop学习指南
大数据
hadoop
分布式
短视频矩阵系统源码---开发技术源码能力
短视频矩阵系统开发涉及到多个领域的技术,包括视频编解码技术、
大数据处理
技术、音视频传输技术、电子商务及支付技术等。
(ylhd898978)
·
2023-07-29 12:18
抖音seo源码
音视频
矩阵
数据结构
短视频矩阵系统源码
开源软件
抖音账号矩阵系统源码开发
大数据处理
框架-Spark DataFrame构造、join和null空值填充
1、SparkDataFrame介绍DataFrame是SparkSQL中的一个概念,它是一个分布式的数据集合,可以看作是一张表。DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。2、构造DataFrameimportorg.apache.log4j.{Level,Logger}importorg.apache.
申子辰林
·
2023-07-29 11:06
Scala
Spark
BigData
spark
大数据
分布式
数据湖如何为企业带来9%的高增长?可否取代数据仓库?
您可以按原样存储数据,而不必首先构造数据,并运行不同类型的分析—从仪表板和可视化到
大数据处理
、实时分析和机器学习,以指导更好的决策。为什么需要数据湖?通过数据成功创造商业价值的组织将胜过同行。
产品经理自我修养
·
2023-07-29 07:25
大数据
数据库
Spark(1)-- 一文看懂Spark
Spark介绍:Spark是一个快速而通用的
大数据处理
框架,它提供了高效的分布式数据处理和分析能力。
三水写代码
·
2023-07-28 21:13
大数据
spark
大数据
分布式
谁能讲清楚Spark之小白入门
首先,Spark是
大数据处理
框架的一种,那么什么是
大数据处理
框架?什么是大数据?字面意思懂得都懂。
数据咩
·
2023-07-28 18:44
大数据之路
spark
大数据
分布式
大数据处理
架构详解:Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓
分布式数据模型详解:OldSQL=>NoSQL=>NewSQL》《分布式计算模型详解:MapReduce、数据流、P2P、RPC、Agent》《大数据存储架构详解:数据仓库、数据集市、数据湖、数据网格、湖仓一体》《
大数据处理
架构详解
Shockang
·
2023-07-28 15:34
大数据理论体系
架构
大数据
数据仓库
mongodb原理与实现
关系型数据存在以下问题:
大数据处理
能力差;水平扩展能力差;分库分表复杂;应用程序开发效率低;表结构变动困难;比如要增加字段,就需要改变表结构。
congchp
·
2023-07-28 12:20
Linux
server
数据库
linux
服务器
后端
数据库
mongodb
十个大数据最好用的开发工具,你知道几个?
整个互联网现已进入大数据年代,“大数据”一词的要点现也现已不只在于数据规划的定义,它更代表着信息技术展开进入了一个新的里程,代表着爆炸性的数据信息给传统的核算技术和信息技术带来的技术挑战和困难,代表着
大数据处理
所需的新的技术和方法
bigdata大大
·
2023-07-28 08:09
大数据开发:Flink SQL快速入门
Flink在
大数据处理
上,是流批一体的框架,针对于各种场景下的数据处理,也有一套FlinkSQL的操作思路。今天的大数据开发分享,我们就来讲讲基本的FlinkSQL快速入门。
成都加米谷大数据
·
2023-07-27 19:23
Python用pandas进行大数据Excel两文件比对去重300w
大数据处理
Python用pandas进行大数据Excel两文件比对去重背景介绍:通俗理解有两个excel文件分别为A和B我要从B中去掉A中含有的数据,数据量大约在300w左右因为数据量较大,无论是wps还是office自带的去重都无法正常使用这样就需要用到脚本了话不多说,代码如下:importpandasaspdfromtqdmimporttqdm#引号内填写需要去重的表格路径targetExcel=r'.
小张冲鸭
·
2023-07-27 01:55
Python
pandas
大数据
数据分析
python
为什么最努力的人,一遇到大事就搞砸?
混沌大学的邢波老师有讲过这么一个案例:几年前,邢波老师给Facebook开发一个
大数据处理
的程序。结果,原本测试正常的程序,在大规模应用时,速度却出奇地慢,根本无法商用。
践者行之
·
2023-07-26 15:27
ClickHouse(一):ClickHouse介绍及OLAP场景特征
1.ClickHouse与其特性在
大数据处理
场景中,流处理和批处理使用到的技术大致如下:批处理会将源业务系统中的数据通过数据抽取工具(例如Sqoop)将数据抽取到HDFS中,这个过程可以使用MapReduce
IT贫道
·
2023-07-26 11:05
大数据OLAP体系技术栈
clickhouse
olap
实时数仓
分布式数据库
三分钟部署Laxcus大数据管理系统
最新的2.x版本已经全面覆盖和集成当前大数据主流技术和功能,并投入到国内多个
大数据处理
业务中使用。Laxcus同时保持了使用和部署的极简性,这将使所有人都能很容易学习和掌握它。
LAXCUS分布式操作系统
·
2023-07-26 08:11
大数据
集群
laxcus
laxcus
超算
部署
大数据
史上最全“大数据”学习资源集合
当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着
大数据处理
所需的新的技术和方法
yoku酱
·
2023-07-26 02:43
Kafka在
大数据处理
中的应用
Kafka在
大数据处理
中的应用一、Kafka简介1.基础概念2.Kafka的主要功能3.Kafka的特点二、应用场景1.数据采集和消费2.数据存储和持久化3.实时数据处理和流计算4.数据通信和协同三、技术融合
格林希尔
·
2023-07-25 11:56
Kafka
kafka
架构
数据结构
大数据
全文检索
关于Azure Databricks 你必须要知道的几件事
AzureDatabricks是由ApacheSpark的创始团队和微软共同打造的,它为数据科学和数据工程团队提供了一个用于
大数据处理
和机器学习的统一平台。通过将Databricks的强大功能
醍醐灌顶
·
2023-07-24 03:09
大数据云计算学习书籍推荐
大数据,涉及到计算机、数学、统计学都多个学科的知识,而云计算,也是大数据发展当中不可或缺的关键性技术,正是这些技术的综合运用,才真正使得
大数据处理
技
会飞的鱼go
·
2023-07-23 11:55
Spark内存计算
MapReduceVSSparkMapReduce作为第一代
大数据处理
框架,在设计初
小中.
·
2023-07-23 04:17
Spark
spark
【Python入门系列】第十七篇:Python
大数据处理
和分析
【Python入门系列】第十七篇:Python
大数据处理
和分析文章目录前言一、数据处理和分析步骤二、Python
大数据处理
和分析库三、Python
大数据处理
和分析应用1、数据清洗和转换2、数据分析和统计
JosieBook
·
2023-07-22 09:43
#
Python全栈
python
大数据
hdfs详解
中分布式的文件存储系统;具有高容错、可扩展;广泛的用于大数据项目中(不仅仅是hadoop)优点容错性高数据自动保存多个副本(可设置)副本丢失后,自动恢复适合批处理移动计算而非移动数据数据位置暴露给计算框架适合
大数据处理
水木清华_f221
·
2023-07-22 08:39
搞大数据必知的
大数据处理
框架技术
这5种必知的
大数据处理
框架技术,你的项目到底应该使用其中的哪几种?大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。
丨程序之道丨
·
2023-07-22 00:51
【Hudi】数据湖(一):数据湖概念
数据湖概念一、什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:
大数据处理
九层之台起于累土
·
2023-07-21 17:21
【BigData】
kubernetes
云原生
容器
HDFS系列(1)-架构
适合
大数据处理
1)处理数据达到GB
46a1a20b39a7
·
2023-07-21 15:03
Hadoop
大数据处理
与分析教程
本文所需文件(Vmware虚拟机、密匙、乌班图系统、JDK、Hadoop)链接:https://pan.baidu.com/s/1yU5s36Rgl_jE_mAmHsJBfQ?pwd=i5s6提取码:i5s6一、Linux操作系统的安装二、Hadoop的伪分布式安装1.配置ssh无密登录(1)安装sshsudoapt-getinstallssh(2)产生SSHKeyssh-keygen-trsa(
Lemon✰
·
2023-07-20 12:47
hadoop
大数据
java
2.Hadoop 生态圈及核心组件简介
1.Hadoop生态圈Hadoop是目前应用最为广泛的分布式
大数据处理
框架,其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。
墨家先生
·
2023-07-20 11:33
Hadoop
hadoop
big
data
spark
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他