大数据系列第3页

MySQL六种窗口函数用法案例

Java和大数据系列注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，PythonJavaScalaSQL代码，CVNLP推荐系统等，SparkFlinkKafkaHbaseHiveFlume

陈万君Allen·2022-11-21 18:23

大数据系列 | SparkSQL&HiveSQL报错解决方法

问题原因：问题报错提示：Distinctwindowfunctionsarenotsupported:count(distinctxx)windowspecdefinition(name#9,_w4#39,ROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING);问题报错原因：查阅资料后发现sparksql中的窗口函数不支持COUNT(DISTINCT

woshinsy·2022-09-21 13:09

大数据系列（未完，待续）

大数据架构大数据架构：搭建CDH5.5.1分布式集群环境Hive大数据：Hive常用参数调优SparkSpark基本架构及原理SparkContext原理解析SparkRDD、DataFrame原理及操作详解SparkOnYarn的两种模式yarn-cluster和yarn-client深度剖析Spark广播变量BroadCastSparkStreaming基本架构及使用SparkStreamin

weixin_30425949·2022-09-09 09:25

大数据随记 —— WordCount 案例

大数据系列文章：目录文章目录一、WordCount案例简介二、WordCount实现1、WordCount实现分析Ⅰ、Map阶段Ⅱ、Reduce阶段2、WordCount代码实现Ⅰ、Maven依赖配置Ⅱ

繁依Fanyi·2022-09-07 20:45

Spark系列-2、Spark快速入门

大数据系列文章目录官方网址：http://spark.apache.org/、https://databricks.com/spark/about目录版本介绍环境准备源码编译Spark安装第一步、安装Scala

技术武器库·2022-08-24 14:56

Cris 玩转大数据系列之消息队列神器 Kafka

Cris玩转大数据系列之消息队列神器KafkaAuthor：Cris文章目录Cris玩转大数据系列之消息队列神器KafkaAuthor：Cris1.Kafka概述1.1消息队列①点对点模式②发布/订阅模式

cris_zz·2022-08-24 11:24

【1】笔记之大数据平台--通用架构及技术体系

以下截图和笔记均来自于盲目搜索时，非原创（参考文章在文末有标注）大数据技术体系.pngHadoop与spark大数据技术栈.png学习笔记.jpg参考文档（司内）：[【大数据系列1】大数

涅槃Ls·2022-08-02 20:34

【大数据系列零二】大数据时代下的数据同步利器Sqoop

一、sqoop概述环境要求：Hadoop，关系型数据库（如MySQL），SqoopScoop是什么？1、Apache项目，开源的数据传输工具2、Hadoop生态圈中的一个第三方模块，可以快速实现在Hadoop（HDFS/hive/hbase）和关系型数据库中进行数据传输3、支持分布式并行，支持多种数据库（如MySQL、oracle）4、sqoop主要功能：数据导入，数据导出，sqoop作业Scoo

Anlior·2022-07-07 15:19

从12306看海量并发网站架构

2012-02-2020:27|19643次阅读|来源CSDN专稿|28条评论|作者付江高并发产品设计新浪微博tup大数据摘要：2月18日CSDN和《程序员》杂志举办了CSDNTUP技术沙龙第19期：大数据系列研讨会之从

junecauzhang·2022-06-17 20:26

TUP第19期综述：从12306看海量并发网站架构

摘要：2月18日CSDN和《程序员》杂志举办了CSDNTUP技术沙龙第19期：大数据系列研讨会之从12306谈起。本次活动分上下午两部分组成，上午是小规模专家研讨会，下午是开放式的主题演讲。

PAPALIAN·2022-06-17 20:26

大数据环境搭建 —— CentOS 安装

大数据系列文章：目录文章目录一、环境准备1.虚拟机准备2.镜像准备二、镜像安装1.虚拟环境准备2.硬件配置3.CentOS镜像安装一、环境准备1.虚拟机准备目前常见的虚拟机有VMwareWorkstation

繁依Fanyi·2022-06-07 12:59

大数据系列——ZooKeeper理论

概述在介绍ZooKeeper前先了解下分布式应用。分布式应用是指在网络中的多个或多种操作系统上运行，通过外部协调控制他们有效的完成特定业务作业，尤其是复杂、耗时的业务作业，应用分布式技术可以很快能完成。一般大型分布式应用都以集群的方式部署应用。ZooKeeper就是其中一种解决分布式应用协调服务的开源框架，用来解决分布式集群中的应用服务的集中管理，例如：名字服务、一致性、可靠性、配置管理等内容。Z

mql007007·2022-05-28 02:46

大数据系列——ZooKeeper部署及应用

ZooKeeper有三种部署方式，分别为单机模式、伪集群模式、集群模式。其中单机模式比较简单，自行查找；伪集群模式和集群模式基本一样，区别就是前者都在一台电脑上，后者在不同的电脑上。下面以生产环境一般用的集群方式部署为例说明，按最小要求3台节点来介绍集群部署方式。本样例是在3台虚拟机下部署的，每个节点安装Centos7核心版(不带GUI)3台机器分别规划如下：hdp1:10.10.10.110hd

mql007007·2022-05-28 02:16

这绝对是C站面试笔记的天花板，禁止自学浪费脑细胞

Mybatis，Redis，RocketMQ，Kafka，Zookeeper，Netty，Dubbo，ElasticSearch，Flink，SpringBoot，SpringCloud，高并发项目，大数据系列

码农翻身把歌唱·2022-05-26 10:23

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hive篇

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021

王知无(import_bigdata)·2022-02-28 15:02

大数据系列一：Hadoop安装&配置&基本测试

一.前言趁这几天放假，把以前大数据学习笔记梳理下，复习&整合下知识点，包含hadoop系列,流计算框架，ELKStack等；大数据的笔记相对完整些，开源词法&语法分析工具ANTLR4本来想分享一个系列，无奈笔记太零散了，代码又比较多，实在没精力整合；希望这个系列能完成。二.基础配置2.1.OS准备3台centos/rhel7服务器，虚机/实体机都可以，OS默认安装即可。IP&HOSTNAME:19

henry.zhu·2022-02-27 09:09

DataHunter创始人程凯征：数据可视化的趋势和应用

DataHunter创始人兼CEO程凯征受邀参加本届世界互联网大会“互联网之光”博览会，并在共赢大数据系列论坛活动

DataHunter小数·2022-02-22 06:27

互联网大数据挖掘策略梳理

（参考广发大数据系列一）2.公告信息披露平台数据（参考广发大数据系列二）3.股吧论坛数据（参考广发大数据系列三

剑杰John_Galt·2022-02-15 21:23

阿里云ACP认证练习题（三）

ACP认证目前又按专业方向分四种：云计算（主要对应阿里云基础架构产品）、大数据（主要对应阿里云大数据系列产品）、云安全（主要对应阿里云云盾系列产品）、企业级互联网架构（主要对应阿里云企业级中间件系列产品

·2021-10-22 14:51

阿里云ACP认证练习题（二）

ACP认证目前又按专业方向分四种：云计算（主要对应阿里云基础架构产品）、大数据（主要对应阿里云大数据系列产品）、云安全（主要对应阿里云云盾系列产品）、企业级互联网架构（主要对应阿里云企业级中间件系列产品

·2021-10-21 17:27

阿里云ACP认证练习题（一）

ACP认证目前又按专业方向分四种：云计算（主要对应阿里云基础架构产品）、大数据（主要对应阿里云大数据系列产品）、云安全（主要对应阿里云云盾系列产品）、企业级互联网架构（主要对应阿里云企业级中间件系列产品

·2021-10-21 14:44

阿里云ACA考试认证练习题

ACP认证目前又按专业方向分四种：云计算（主要对应阿里云基础架构产品）、大数据（主要对应阿里云大数据系列产品）、云安全（主要对应阿里云云盾系列产品）、企业级互联网架构（主要对应阿里云企业级中间件系列产品

·2021-10-20 16:19

23篇大数据系列（三）sql基础知识（史上最全，建议收藏）

免费下载海量【PPT模板、简历模板、学习资料】：https://blog.csdn.net/weixin_39032019/article/details/118088462大数据系列文章，从技术能力、

明月十四桥·2021-06-22 12:02

大数据岗位要求之大数据运维

继续介绍大数据系列岗位要求，大数据运维可能是“技术含量最高”的职位之一，这里说的大数据运维主要是指hadoop生态体系方面的运维，在一些小公司或者传统行业的大公司也会使用oracle、db2等技术栈

数据追随者·2021-06-22 07:35

23篇大数据系列（二）scala基础知识全集（史上最全，建议收藏）

大数据俱乐部、机器学习:https://blog.csdn.net/weixin_39032019/article/details/117997723大数据系列文章，从技术能力、业务基础、分析思维三大板块来呈现

明月十四桥·2021-06-19 19:01

23篇大数据系列爽文，学完薪资起飞丨2万字java篇（文末抽奖，建议收藏）

公众号：数据与智能、大数据club大数据系列爽文，从技术能力、业务基础、分析思维三大板块来呈现，你将收获：❖提升自信心，自如应对面试，顺利拿到实习岗位或offer；❖掌握大数据的基础知识，与其他同事沟通无障碍

明月十四桥·2021-06-17 18:45

超详细版企业离线部署CDH6.10集群与配置使用

死磕大数据系列1.死磕大数据系列将从企业上千节点集群的搭建（包

涤生手记·2021-06-11 10:55

大数据系列课程——根据情况调整

Hadoop系列课程安排手把手带你转行大数据人工智能大数据和人工智能的发展前景大数据开发都在开发什么项目整体介绍与大数据开发训练速成开发运行测试环境的介绍与搭建通过前端代码了解大数据业务离线日志分析系统页面展示程序后台框架搭建用户信息分析结果展示用户数据的抽取转换加载（ETL数据清洗）新增会员和总会员分析代码编写活跃用户分析模块代码编写活跃会员分析模块代码编写新增会员和总会员分析模块代码编写会话分

Albert陈凯·2021-05-14 23:31

##大数据系列（1）——Hadoop集群坏境搭建配置

大数据系列（1）——Hadoop集群坏境搭建配置-指尖流淌-博客园http://www.cnblogs.com/zhijianliutang/p/5731002.html数据量的大小决定了集群整体的存储大小

葡萄喃喃呓语·2021-04-20 13:59

大数据系列报道:贵州交警大数据之二十七

贵州交警：联勤联动，科学用警依托大数据打造智慧平安春运冬季贵州凝冻天气多发，影响道路交通安全，交警在高速公路进行车辆引导贵州是我国西南地区的交通枢纽，受特殊地形影响，全省公路长下坡及桥梁隧道占比高，道路通行环境宽容度较差，加之雨雾和凝冻天气影响，春运交通安全和保畅压力较大。那么，2019年贵州交警在春运道路交通保障中采取了哪些措施呢?效果如何?贵州是我国西南地区的交通枢纽A、加强春运安全风险预测预

不死冥王·2021-04-19 10:09

大数据系列--框架介绍

简介hadoop是一个文件系统，外加一个离线处理框架（map-reduce执行框架），主要用于海量数据文件的保存、非实时的海量数据的计算。提供的上层api不太友好，且mapreduce处理框架比较慢，现在基本上只拿它来作为文件系统使用。spark是一个执行引擎，本身不保存数据，需要外部的文件系统来保存数据，很多时候会基于hadoop来保存数据。spark计算时尽可能把数据放到内存中（基于内存），还

feiying0canglang·2021-02-22 21:13

python开发岗位职责_大数据系列之大数据开发工程师

继续介绍大数据系列岗位的要求，今天是“最热门”的岗位大数据开发工程师，之所以说热门主要是基于2个原因，一是因为很多应届生或者想转入大数据行业的同学，都是期望从事“大数据开发”这一定位不是很清晰的岗位；

weixin_39569076·2020-12-30 15:59

python 大数据开发工程师_大数据系列之大数据开发工程师

继续介绍大数据系列岗位的要求，今天是“最热门”的岗位大数据开发工程师，之所以说热门主要是基于2个原因，一是因为很多应届生或者想转入大数据行业的同学，都是期望从事“大数据开发”这一定位不是很清晰的岗位；二是因为至少有

weixin_39601743·2020-12-22 05:36

大数据系列之kafka-java实现

Java源码GitBub地址：https://github.com/fzmeng/kafka-demo关于kafka安装步骤可见文章http://www.cnblogs.com/cnmenglang/p/6520166.html在上篇文章中使用shell命令处理了kafka的消息生产与消息消费。下面介绍Java语言对kafka的消息生产与消息消费的处理。1.代码结构如图2.pom.xml4.0.0

CodeM91·2020-09-15 23:19

IT视频课程集(包含各类Oracle、DB2、Linux、Mysql、Nosql、Hadoop、BI、云计算、编程开发、网络、大数据、虚拟化

马哥Linux培训视频课程：http://pan.baidu.com/s/1pJwk7dpOracle、大数据系列课程：http://pan.baidu.com/s/1bnng3yZ天善智能BI培训视频课程

无奈的伤城·2020-09-15 07:41

大数据系列（五）NoSQL数据库Hbase之shell与springboot使用api操作HBase

目录HBase的基本读写流程写入流程读取流程HBase的模块与协作HBase启动RegionServer失效HMaster失效HBase常用的Shell命令进入shellhelp命令查询服务器状态查看所有表创建一个表获得表的描述添加一个列族删除一个列族插入数据查询表中有多少行获取一个rowkey的所有数据获得一个id，一个列簇（一个列）中的所有数据查询整表数据扫描整个列簇指定扫描其中的某个列使用l

codemperor·2020-09-14 17:30

Hadoop大数据系列之NoSql海量数据库Hbase入门Shell篇（二）

wunanliu·2020-09-14 12:41

Hadoop大数据系列之NoSql海量数据库Hbase详解原理篇（一）

Hbase的引言一、什么是Hbase1、hbase是Apache组织开源的顶级项目distributed,scalable,bigdatastore产品。2、hbase是Google的BigTable论文的开源实现。3、hbase是基于Hadoop的一个NoSQL产品Column(列存储)类型的NoSQL。4、hbase是GoogleBigTable的开源实现,数据存储于Hdfs上。5、hbase

wunanliu·2020-09-14 12:09

大数据系列文章汇总 - 更新到15篇----------IT十年

大数据(一)-hadoop生态系统及版本演化大数据(二)-HDFS大数据(三)-YARN大数据(四)-MapReduce大数据(五)-HBase大数据(六)-ZooKeeper大数据(七)-Flume大数据(八)-Sqoop大数据(九)-Hive大数据(十)-Pig大数据(十一)-Mahout大数据(十二)-Oozie大数据(十三)-Azkaban大数据(十四)-Storm大数据(十五)-JSto

iFTY_Rostiute·2020-09-12 23:40

清华大数据系列讲座——大数据发展与区块链应用成功举办

2018年9月15日，由清华-青岛大数据工程研究中心主办的“清华大数据系列讲座—大数据发展与区块链应用”在中国海洋大学成功举办。

数据派THU·2020-09-11 10:32

大数据系列教程006-开启日志聚合功能

Container日志是hadoop各个container记录的日志，其中会包含错误或失败的重要信息。如果没有打开日志聚合，默认是分布在各个nodemanager节点上的。如果打开了日志聚合选项，则会统一放在集中的位置（比如HDFS上）。Container日志会记录作业运行时会发生的各种运行时信息和错误，对于调试和调优有很大的帮助。1.修改master的yarn-site.xml配置，新增：yar

Java潘老师·2020-09-11 02:47

大数据系列教程008-DFS介绍

1.DFS介绍由于一台机器的存储容量有限，一旦数据量达到足够的级别，就需要将数据存放在多台机器上，这就是分布式文件系统，又称之为DFS（DistributedFileSystem），DFS是HDFS的基础。2.什么是DFS分布式文件系统DFS是基于Master/Slave模式，通常一个分布式文件系统提供多个供用户访问的服务器，一般都会提供备份和容错的功能。分布式文件系统管理的物理资源不一定直接连接

Java潘老师·2020-09-11 02:47

大数据系列教程007-windows配置hosts

1.修改windows的hosts配置，为了方便通过主机名访问虚拟机2.在C盘windows文件中找到System32-->drivers-->etc,进入到etc文件夹中就能看到hosts文件3.修改4.如遇360提示劫持域名，选择允许修改5.如遇无权限1）在配置hosts时，有时会遇到无权限保存情况，这时需要给当前用户分配权限。在hosts文件上右键菜单点击属性2）弹出窗口点击页签安全，点击选

Java潘老师·2020-09-11 02:47

大数据系列教程005-NTP方式同步服务器时间

Java潘老师·2020-09-11 02:15

大数据系列教程004-完全分布式环境搭建步骤

Java潘老师·2020-09-11 02:15

大数据系列——Flume入门和认识

1.Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统支持在日志系统中定制各类数据发送方，用于收集数据Flume提供对数据进行简单处理，并写到各种数据接收方2.FlumeOG与FlumeNGFlumeOG：Flumeoriginalgeneration,即Flume0.9x版本FlumeNG：Flumenextgeneration，即Flume1.x版本3.Flu

EVAO_大个子·2020-08-24 14:08

python的基础知识

python的基础知识观看唐宇迪的Python基础课所做的笔记：编译环境：Python学习基础开发web开发运维开发机器学习深度学习计算机视觉与自然语言处理数据挖掘Spark大数据系列大数据—>机器学习

markron先生·2020-08-22 13:23

大数据系列之----海量数据下是kafka设计和实战演练

网上有很多Kafka的文章，但大多写得千篇一律，要么偏理论化，无实战数据参考。要么写了发现的某个问题的解决方案，对于想在实际环境上搭建真实的Kafka环境，参考意义并不大。这篇文章基于大量的实战经验，在大规模，海量数据，以及实时处理的环境下，这些经验也是在解决Kafka很多真实问题得出的。试图在一开始就协助大家在大家在搭建真实Kafka环境的时候，提前做好最优的解决方案，避免后续不断的出各类问题，

阿源·2020-08-21 21:12

什么是用户画像？金融行业大数据用户画像实践 [

金融行业大数据用户画像实践[复制链接]电梯直达楼主发表于昨天14:36|只看该作者|只看大图大数据系列零基础由入门到实战视频本帖最后由丫丫于2015-10-2614:50编辑问题导读1.用户画像的目的是什么

javastart·2020-08-21 19:13

大数据系列——Spark学习笔记Spark Streaming

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream（代理）,本质上就是一系列连续的RDD，DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂，该DStream里面生产都是相同业务逻辑的RDD，只不过是RDD里面要读

EVAO_大个子·2020-08-20 21:30

推荐频道

大数据系列

MySQL六种窗口函数用法案例

大数据系列 | SparkSQL&HiveSQL报错解决方法

大数据系列（未完，待续）

大数据随记 —— WordCount 案例

Spark系列-2、Spark快速入门

Cris 玩转大数据系列之消息队列神器 Kafka

【1】笔记 之 大数据平台--通用架构及技术体系

【大数据系列零二】大数据时代下的数据同步利器Sqoop

从12306看海量并发网站架构

TUP第19期综述：从12306看海量并发网站架构

大数据环境搭建 —— CentOS 安装

大数据系列——ZooKeeper理论

大数据系列——ZooKeeper部署及应用

这绝对是C站面试笔记的天花板，禁止自学浪费脑细胞

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hive篇

大数据系列一：Hadoop安装&配置&基本测试

DataHunter创始人程凯征：数据可视化的趋势和应用

互联网大数据挖掘策略梳理

阿里云ACP认证练习题（三）

阿里云ACP认证练习题（二）

阿里云ACP认证练习题（一）

阿里云ACA考试认证练习题

23篇大数据系列（三）sql基础知识（史上最全，建议收藏）

大数据岗位要求之大数据运维

23篇大数据系列（二）scala基础知识全集（史上最全，建议收藏）

23篇大数据系列爽文，学完薪资起飞丨2万字java篇（文末抽奖，建议收藏）

超详细版企业离线部署CDH6.10集群与配置使用

大数据系列课程——根据情况调整

##大数据系列（1）——Hadoop集群坏境搭建配置

大数据系列报道:贵州交警大数据之二十七

大数据系列--框架介绍

python开发岗位职责_大数据系列之大数据开发工程师

python 大数据开发工程师_大数据系列之大数据开发工程师

大数据系列之kafka-java实现

IT视频课程集(包含各类Oracle、DB2、Linux、Mysql、Nosql、Hadoop、BI、云计算、编程开发、网络、大数据、虚拟化

大数据系列（五）NoSQL数据库Hbase之shell与springboot使用api操作HBase

Hadoop大数据系列之NoSql海量数据库Hbase入门Shell篇（二）

Hadoop大数据系列之NoSql海量数据库Hbase详解原理篇（一）

大数据系列文章汇总 - 更新到15篇----------IT十年

清华大数据系列讲座——大数据发展与区块链应用成功举办

大数据系列教程006-开启日志聚合功能

大数据系列教程008-DFS介绍

大数据系列教程007-windows配置hosts

大数据系列教程005-NTP方式同步服务器时间

大数据系列教程004-完全分布式环境搭建步骤

大数据系列——Flume入门和认识

python的基础知识

大数据系列之----海量数据下是kafka设计和实战演练

什么是用户画像？金融行业大数据用户画像实践 [

大数据系列——Spark学习笔记Spark Streaming

【1】笔记之大数据平台--通用架构及技术体系