E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据系列
大数据随记 —— WordCount 案例
大数据系列
文章:目录文章目录一、WordCount案例简介二、WordCount实现1、WordCount实现分析Ⅰ、Map阶段Ⅱ、Reduce阶段2、WordCount代码实现Ⅰ、Maven依赖配置Ⅱ
繁依Fanyi
·
2022-09-07 20:45
大数据
大数据
hadoop
mapreduce
Spark系列-2、Spark快速入门
大数据系列
文章目录官方网址:http://spark.apache.org/、https://databricks.com/spark/about目录版本介绍环境准备源码编译Spark安装第一步、安装Scala
技术武器库
·
2022-08-24 14:56
大数据专栏
spark
scala
hadoop
Cris 玩转
大数据系列
之消息队列神器 Kafka
Cris玩转
大数据系列
之消息队列神器KafkaAuthor:Cris文章目录Cris玩转
大数据系列
之消息队列神器KafkaAuthor:Cris1.Kafka概述1.1消息队列①点对点模式②发布/订阅模式
cris_zz
·
2022-08-24 11:24
大数据框架
分布式框架之
Kafka
大数据框架
Kafka
消息队列
实战练习
框架整合
【1】笔记 之 大数据平台--通用架构及技术体系
以下截图和笔记均来自于盲目搜索时,非原创(参考文章在文末有标注)大数据技术体系.pngHadoop与spark大数据技术栈.png学习笔记.jpg参考文档(司内):[【
大数据系列
1】大数
涅槃Ls
·
2022-08-02 20:34
【
大数据系列
零二】大数据时代下的数据同步利器Sqoop
一、sqoop概述环境要求:Hadoop,关系型数据库(如MySQL),SqoopScoop是什么?1、Apache项目,开源的数据传输工具2、Hadoop生态圈中的一个第三方模块,可以快速实现在Hadoop(HDFS/hive/hbase)和关系型数据库中进行数据传输3、支持分布式并行,支持多种数据库(如MySQL、oracle)4、sqoop主要功能:数据导入,数据导出,sqoop作业Scoo
Anlior
·
2022-07-07 15:19
大数据
sqoop
从12306看海量并发网站架构
2012-02-2020:27|19643次阅读|来源CSDN专稿|28条评论|作者付江高并发产品设计新浪微博tup大数据摘要:2月18日CSDN和《程序员》杂志举办了CSDNTUP技术沙龙第19期:
大数据系列
研讨会之从
junecauzhang
·
2022-06-17 20:26
软件产品
架构设计
nosql
活动
产品
互联网
云计算
TUP第19期综述:从12306看海量并发网站架构
摘要:2月18日CSDN和《程序员》杂志举办了CSDNTUP技术沙龙第19期:
大数据系列
研讨会之从12306谈起。本次活动分上下午两部分组成,上午是小规模专家研讨会,下午是开放式的主题演讲。
PAPALIAN
·
2022-06-17 20:26
框架
大数据处理
大数据处理
12306
网站架构
高并发
大数据环境搭建 —— CentOS 安装
大数据系列
文章:目录文章目录一、环境准备1.虚拟机准备2.镜像准备二、镜像安装1.虚拟环境准备2.硬件配置3.CentOS镜像安装一、环境准备1.虚拟机准备目前常见的虚拟机有VMwareWorkstation
繁依Fanyi
·
2022-06-07 12:59
大数据
centos
linux
运维
大数据系列
——ZooKeeper理论
概述在介绍ZooKeeper前先了解下分布式应用。分布式应用是指在网络中的多个或多种操作系统上运行,通过外部协调控制他们有效的完成特定业务作业,尤其是复杂、耗时的业务作业,应用分布式技术可以很快能完成。一般大型分布式应用都以集群的方式部署应用。ZooKeeper就是其中一种解决分布式应用协调服务的开源框架,用来解决分布式集群中的应用服务的集中管理,例如:名字服务、一致性、可靠性、配置管理等内容。Z
mql007007
·
2022-05-28 02:46
数字化转型
Linux系列
医疗健康
zookeeper
big
data
分布式
大数据系列
——ZooKeeper部署及应用
ZooKeeper有三种部署方式,分别为单机模式、伪集群模式、集群模式。其中单机模式比较简单,自行查找;伪集群模式和集群模式基本一样,区别就是前者都在一台电脑上,后者在不同的电脑上。下面以生产环境一般用的集群方式部署为例说明,按最小要求3台节点来介绍集群部署方式。本样例是在3台虚拟机下部署的,每个节点安装Centos7核心版(不带GUI)3台机器分别规划如下:hdp1:10.10.10.110hd
mql007007
·
2022-05-28 02:16
医疗健康
数字化转型
Linux系列
linux
运维
服务器
这绝对是C站面试笔记的天花板,禁止自学浪费脑细胞
Mybatis,Redis,RocketMQ,Kafka,Zookeeper,Netty,Dubbo,ElasticSearch,Flink,SpringBoot,SpringCloud,高并发项目,
大数据系列
码农翻身把歌唱
·
2022-05-26 10:23
java
后端
面试
经验分享
架构
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hive篇
硬刚
大数据系列
文章链接:2021年从零到大数据专家的学习指南(全面升级版)2021
王知无(import_bigdata)
·
2022-02-28 15:02
大数据成神之路
硬刚大数据
hive
大数据面试
大数据
大数据系列
一:Hadoop安装&配置&基本测试
一.前言趁这几天放假,把以前大数据学习笔记梳理下,复习&整合下知识点,包含hadoop系列,流计算框架,ELKStack等;大数据的笔记相对完整些,开源词法&语法分析工具ANTLR4本来想分享一个系列,无奈笔记太零散了,代码又比较多,实在没精力整合;希望这个系列能完成。二.基础配置2.1.OS准备3台centos/rhel7服务器,虚机/实体机都可以,OS默认安装即可。IP&HOSTNAME:19
henry.zhu
·
2022-02-27 09:09
bigdata
大数据
hadoop
DataHunter创始人程凯征:数据可视化的趋势和应用
DataHunter创始人兼CEO程凯征受邀参加本届世界互联网大会“互联网之光”博览会,并在共赢
大数据系列
论坛活动
DataHunter小数
·
2022-02-22 06:27
互联网大数据挖掘策略梳理
(参考广发
大数据系列
一)2.公告信息披露平台数据(参考广发
大数据系列
二)3.股吧论坛数据(参考广发
大数据系列
三
剑杰John_Galt
·
2022-02-15 21:23
阿里云ACP认证练习题(三)
ACP认证目前又按专业方向分四种:云计算(主要对应阿里云基础架构产品)、大数据(主要对应阿里云
大数据系列
产品)、云安全(主要对应阿里云云盾系列产品)、企业级互联网架构(主要对应阿里云企业级中间件系列产品
·
2021-10-22 14:51
阿里云
阿里云ACP认证练习题(二)
ACP认证目前又按专业方向分四种:云计算(主要对应阿里云基础架构产品)、大数据(主要对应阿里云
大数据系列
产品)、云安全(主要对应阿里云云盾系列产品)、企业级互联网架构(主要对应阿里云企业级中间件系列产品
·
2021-10-21 17:27
阿里云
阿里云ACP认证练习题(一)
ACP认证目前又按专业方向分四种:云计算(主要对应阿里云基础架构产品)、大数据(主要对应阿里云
大数据系列
产品)、云安全(主要对应阿里云云盾系列产品)、企业级互联网架构(主要对应阿里云企业级中间件系列产品
·
2021-10-21 14:44
阿里云
阿里云ACA考试认证练习题
ACP认证目前又按专业方向分四种:云计算(主要对应阿里云基础架构产品)、大数据(主要对应阿里云
大数据系列
产品)、云安全(主要对应阿里云云盾系列产品)、企业级互联网架构(主要对应阿里云企业级中间件系列产品
·
2021-10-20 16:19
阿里云
23篇
大数据系列
(三)sql基础知识(史上最全,建议收藏)
免费下载海量【PPT模板、简历模板、学习资料】:https://blog.csdn.net/weixin_39032019/article/details/118088462
大数据系列
文章,从技术能力、
明月十四桥
·
2021-06-22 12:02
大数据集锦
数据仓库
Hive
大数据
sql
大数据岗位要求之大数据运维
继续介绍
大数据系列
岗位要求,大数据运维可能是“技术含量最高”的职位之一,这里说的大数据运维主要是指hadoop生态体系方面的运维,在一些小公司或者传统行业的大公司也会使用oracle、db2等技术栈
数据追随者
·
2021-06-22 07:35
23篇
大数据系列
(二)scala基础知识全集(史上最全,建议收藏)
大数据俱乐部、机器学习:https://blog.csdn.net/weixin_39032019/article/details/117997723
大数据系列
文章,从技术能力、业务基础、分析思维三大板块来呈现
明月十四桥
·
2021-06-19 19:01
大数据集锦
大数据
scala
23篇
大数据系列
爽文,学完薪资起飞丨2万字java篇(文末抽奖,建议收藏)
公众号:数据与智能、大数据club
大数据系列
爽文,从技术能力、业务基础、分析思维三大板块来呈现,你将收获:❖提升自信心,自如应对面试,顺利拿到实习岗位或offer;❖掌握大数据的基础知识,与其他同事沟通无障碍
明月十四桥
·
2021-06-17 18:45
大数据集锦
java
大数据
java
超详细版企业离线部署CDH6.10集群与配置使用
死磕
大数据系列
1.死磕
大数据系列
将从企业上千节点集群的搭建(包
涤生手记
·
2021-06-11 10:55
大数据
数据挖掘
集群搭建
cdh集群
hadoop
大数据系列
课程——根据情况调整
Hadoop系列课程安排手把手带你转行大数据人工智能大数据和人工智能的发展前景大数据开发都在开发什么项目整体介绍与大数据开发训练速成开发运行测试环境的介绍与搭建通过前端代码了解大数据业务离线日志分析系统页面展示程序后台框架搭建用户信息分析结果展示用户数据的抽取转换加载(ETL数据清洗)新增会员和总会员分析代码编写活跃用户分析模块代码编写活跃会员分析模块代码编写新增会员和总会员分析模块代码编写会话分
Albert陈凯
·
2021-05-14 23:31
##
大数据系列
(1)——Hadoop集群坏境搭建配置
大数据系列
(1)——Hadoop集群坏境搭建配置-指尖流淌-博客园http://www.cnblogs.com/zhijianliutang/p/5731002.html数据量的大小决定了集群整体的存储大小
葡萄喃喃呓语
·
2021-04-20 13:59
大数据系列
报道:贵州交警大数据之二十七
贵州交警:联勤联动,科学用警依托大数据打造智慧平安春运冬季贵州凝冻天气多发,影响道路交通安全,交警在高速公路进行车辆引导贵州是我国西南地区的交通枢纽,受特殊地形影响,全省公路长下坡及桥梁隧道占比高,道路通行环境宽容度较差,加之雨雾和凝冻天气影响,春运交通安全和保畅压力较大。那么,2019年贵州交警在春运道路交通保障中采取了哪些措施呢?效果如何?贵州是我国西南地区的交通枢纽A、加强春运安全风险预测预
不死冥王
·
2021-04-19 10:09
大数据系列
--框架介绍
简介hadoop是一个文件系统,外加一个离线处理框架(map-reduce执行框架),主要用于海量数据文件的保存、非实时的海量数据的计算。提供的上层api不太友好,且mapreduce处理框架比较慢,现在基本上只拿它来作为文件系统使用。spark是一个执行引擎,本身不保存数据,需要外部的文件系统来保存数据,很多时候会基于hadoop来保存数据。spark计算时尽可能把数据放到内存中(基于内存),还
feiying0canglang
·
2021-02-22 21:13
大数据
python开发岗位职责_
大数据系列
之大数据开发工程师
继续介绍
大数据系列
岗位的要求,今天是“最热门”的岗位大数据开发工程师,之所以说热门主要是基于2个原因,一是因为很多应届生或者想转入大数据行业的同学,都是期望从事“大数据开发”这一定位不是很清晰的岗位;
weixin_39569076
·
2020-12-30 15:59
python开发岗位职责
python 大数据开发工程师_
大数据系列
之大数据开发工程师
继续介绍
大数据系列
岗位的要求,今天是“最热门”的岗位大数据开发工程师,之所以说热门主要是基于2个原因,一是因为很多应届生或者想转入大数据行业的同学,都是期望从事“大数据开发”这一定位不是很清晰的岗位;二是因为至少有
weixin_39601743
·
2020-12-22 05:36
python
大数据开发工程师
大数据系列
之kafka-java实现
Java源码GitBub地址:https://github.com/fzmeng/kafka-demo关于kafka安装步骤可见文章http://www.cnblogs.com/cnmenglang/p/6520166.html在上篇文章中使用shell命令处理了kafka的消息生产与消息消费。下面介绍Java语言对kafka的消息生产与消息消费的处理。1.代码结构如图2.pom.xml4.0.0
CodeM91
·
2020-09-15 23:19
IT视频课程集(包含各类Oracle、DB2、Linux、Mysql、Nosql、Hadoop、BI、云计算、编程开发、网络、大数据、虚拟化
马哥Linux培训视频课程:http://pan.baidu.com/s/1pJwk7dpOracle、
大数据系列
课程:http://pan.baidu.com/s/1bnng3yZ天善智能BI培训视频课程
无奈的伤城
·
2020-09-15 07:41
oracle
大数据系列
(五)NoSQL数据库Hbase之shell与springboot使用api操作HBase
目录HBase的基本读写流程写入流程读取流程HBase的模块与协作HBase启动RegionServer失效HMaster失效HBase常用的Shell命令进入shellhelp命令查询服务器状态查看所有表创建一个表获得表的描述添加一个列族删除一个列族插入数据查询表中有多少行获取一个rowkey的所有数据获得一个id,一个列簇(一个列)中的所有数据查询整表数据扫描整个列簇指定扫描其中的某个列使用l
codemperor
·
2020-09-14 17:30
大数据
大数据
hadoop
hbase
Hadoop
大数据系列
之NoSql海量数据库Hbase入门Shell篇(二)
一、Hbaseshell相关操作进入Hbase操作hbaseshell说明:搭建好了大数据平台前提下,并且配置了配置环境变量,直接在任何路径下可用1、help帮助命令help'命令名字'1.1、status查看状态1.2、version查看版本2、hbase中数据库的概念namespace(命名空间,相当于传统数据库的DataBases)2.1、显示所有的数据库(命名空间)list_namespa
wunanliu
·
2020-09-14 12:41
Hbase
大数据
数据库
大数据
Hadoop
大数据系列
之NoSql海量数据库Hbase详解原理篇(一)
Hbase的引言一、什么是Hbase1、hbase是Apache组织开源的顶级项目distributed,scalable,bigdatastore产品。2、hbase是Google的BigTable论文的开源实现。3、hbase是基于Hadoop的一个NoSQL产品Column(列存储)类型的NoSQL。4、hbase是GoogleBigTable的开源实现,数据存储于Hdfs上。5、hbase
wunanliu
·
2020-09-14 12:09
大数据
Hbase
数据库
大数据
hbase
java
大数据系列
文章汇总 - 更新到15篇----------IT十年
大数据(一)-hadoop生态系统及版本演化大数据(二)-HDFS大数据(三)-YARN大数据(四)-MapReduce大数据(五)-HBase大数据(六)-ZooKeeper大数据(七)-Flume大数据(八)-Sqoop大数据(九)-Hive大数据(十)-Pig大数据(十一)-Mahout大数据(十二)-Oozie大数据(十三)-Azkaban大数据(十四)-Storm大数据(十五)-JSto
iFTY_Rostiute
·
2020-09-12 23:40
ZZZ
大数据备赛资料暂存
清华
大数据系列
讲座——大数据发展与区块链应用成功举办
2018年9月15日,由清华-青岛大数据工程研究中心主办的“清华
大数据系列
讲座—大数据发展与区块链应用”在中国海洋大学成功举办。
数据派THU
·
2020-09-11 10:32
大数据系列
教程006-开启日志聚合功能
Container日志是hadoop各个container记录的日志,其中会包含错误或失败的重要信息。如果没有打开日志聚合,默认是分布在各个nodemanager节点上的。如果打开了日志聚合选项,则会统一放在集中的位置(比如HDFS上)。Container日志会记录作业运行时会发生的各种运行时信息和错误,对于调试和调优有很大的帮助。1.修改master的yarn-site.xml配置,新增:yar
Java潘老师
·
2020-09-11 02:47
大数据系列教程
大数据系列
教程008-DFS介绍
1.DFS介绍由于一台机器的存储容量有限,一旦数据量达到足够的级别,就需要将数据存放在多台机器上,这就是分布式文件系统,又称之为DFS(DistributedFileSystem),DFS是HDFS的基础。2.什么是DFS分布式文件系统DFS是基于Master/Slave模式,通常一个分布式文件系统提供多个供用户访问的服务器,一般都会提供备份和容错的功能。分布式文件系统管理的物理资源不一定直接连接
Java潘老师
·
2020-09-11 02:47
大数据系列教程
hadoop
分布式
大数据
DFS
大数据系列
教程007-windows配置hosts
1.修改windows的hosts配置,为了方便通过主机名访问虚拟机2.在C盘windows文件中找到System32-->drivers-->etc,进入到etc文件夹中就能看到hosts文件3.修改4.如遇360提示劫持域名,选择允许修改5.如遇无权限1)在配置hosts时,有时会遇到无权限保存情况,这时需要给当前用户分配权限。在hosts文件上右键菜单点击属性2)弹出窗口点击页签安全,点击选
Java潘老师
·
2020-09-11 02:47
大数据系列教程
大数据
hadoop
大数据系列
教程005-NTP方式同步服务器时间
版权声明:
大数据系列
教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。
Java潘老师
·
2020-09-11 02:15
大数据系列教程
大数据系列
教程004-完全分布式环境搭建步骤
版权声明:
大数据系列
教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。
Java潘老师
·
2020-09-11 02:15
大数据系列教程
大数据系列
——Flume入门和认识
1.Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统支持在日志系统中定制各类数据发送方,用于收集数据Flume提供对数据进行简单处理,并写到各种数据接收方2.FlumeOG与FlumeNGFlumeOG:Flumeoriginalgeneration,即Flume0.9x版本FlumeNG:Flumenextgeneration,即Flume1.x版本3.Flu
EVAO_大个子
·
2020-08-24 14:08
flume
python的基础知识
python的基础知识观看唐宇迪的Python基础课所做的笔记:编译环境:Python学习基础开发web开发运维开发机器学习深度学习计算机视觉与自然语言处理数据挖掘Spark
大数据系列
大数据—>机器学习
markron先生
·
2020-08-22 13:23
python
大数据系列
之----海量数据下是kafka设计和实战演练
网上有很多Kafka的文章,但大多写得千篇一律,要么偏理论化,无实战数据参考。要么写了发现的某个问题的解决方案,对于想在实际环境上搭建真实的Kafka环境,参考意义并不大。这篇文章基于大量的实战经验,在大规模,海量数据,以及实时处理的环境下,这些经验也是在解决Kafka很多真实问题得出的。试图在一开始就协助大家在大家在搭建真实Kafka环境的时候,提前做好最优的解决方案,避免后续不断的出各类问题,
阿源
·
2020-08-21 21:12
架构设计和软件设计
大数据
源哥讲技术
什么是用户画像?金融行业大数据用户画像实践 [
金融行业大数据用户画像实践[复制链接]电梯直达楼主发表于昨天14:36|只看该作者|只看大图
大数据系列
零基础由入门到实战视频本帖最后由丫丫于2015-10-2614:50编辑问题导读1.用户画像的目的是什么
javastart
·
2020-08-21 19:13
大数据
系统架构
大数据系列
——Spark学习笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读
EVAO_大个子
·
2020-08-20 21:30
spark-streaming
大数据系列
——Spark学习笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读
EVAO_大个子
·
2020-08-20 21:30
spark-streaming
大数据系列
——Storm安装和API
1.实时计算有别于传统的离线批处理操作(对很多数据的集合进行的操作)实时处理,说白就是针对一条一条的数据/记录进行操作实时计算计算的是无界数据2.有界数据和无界数据2.1有界数据离线计算面临的操作数据都是有界限的,无论是1G、1T、1P、1EB、1NB数据的有界必然会导致计算的有界2.2无界数据实时计算面临的操作数据是源源不断的向水流一样,是没有界限的数据的无界必然导致计算的无界3.计算中心和计算
EVAO_大个子
·
2020-08-20 21:08
storm
大数据系列
——Storm安装和API
1.实时计算有别于传统的离线批处理操作(对很多数据的集合进行的操作)实时处理,说白就是针对一条一条的数据/记录进行操作实时计算计算的是无界数据2.有界数据和无界数据2.1有界数据离线计算面临的操作数据都是有界限的,无论是1G、1T、1P、1EB、1NB数据的有界必然会导致计算的有界2.2无界数据实时计算面临的操作数据是源源不断的向水流一样,是没有界限的数据的无界必然导致计算的无界3.计算中心和计算
EVAO_大个子
·
2020-08-20 21:08
storm
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他