大数据系列第4页

大数据系列——Sqoop学习笔记

1.Sqoop简介ApacheSqoop是一种专门为hadoop和比如关系型数据库等结构化数据库之间的高效数据转换一种工具。数据的搬运工Sqoop在大多数自动化数据转换的过程中，依托于数据库相关的Schema描述信息，转换的过程是使用MapReduce来进行的Sqoop目前有两个版本，完全不兼容，Sqoop和Sqoop2.可以通过版本号来进行简单的区分，1.4.x为sqoop或sqoop1，1.9

EVAO_大个子·2020-08-20 21:07

大数据系列——Sqoop学习笔记

1.Sqoop简介ApacheSqoop是一种专门为hadoop和比如关系型数据库等结构化数据库之间的高效数据转换一种工具。数据的搬运工Sqoop在大多数自动化数据转换的过程中，依托于数据库相关的Schema描述信息，转换的过程是使用MapReduce来进行的Sqoop目前有两个版本，完全不兼容，Sqoop和Sqoop2.可以通过版本号来进行简单的区分，1.4.x为sqoop或sqoop1，1.9

EVAO_大个子·2020-08-20 16:22

大数据系列——Sqoop学习笔记

1.Sqoop简介ApacheSqoop是一种专门为hadoop和比如关系型数据库等结构化数据库之间的高效数据转换一种工具。数据的搬运工Sqoop在大多数自动化数据转换的过程中，依托于数据库相关的Schema描述信息，转换的过程是使用MapReduce来进行的Sqoop目前有两个版本，完全不兼容，Sqoop和Sqoop2.可以通过版本号来进行简单的区分，1.4.x为sqoop或sqoop1，1.9

EVAO_大个子·2020-08-20 16:22

大数据系列修炼-Scala课程47

大数据系列修炼-Scala课程47核心内容:1、Scala中的多重界定代码实战及其在Spark中的应用源码解析1、Scala中的多重界定核心重点总结在Scala当中，类型变量涉及到很多内容，比如：类型变量的上下界

安静的技术控·2020-08-18 19:39

大数据系列之SparkCore应用解析（二)

文章目录第1章RDD概念1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1Transformation2.3.2Action2.3.3数值RDD的统计操作2.3.4向RDD操作

开封程序员阿强·2020-08-18 10:34

大数据系列之SparkSql应用解析（三)

文章目录第1章SparkSQL概述1.1什么是SparkSQL1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2Dataframe1.2.3Dataset1.2.4三者的共性1.2.5三者的区别第2章执行SparkSQL查询2.1命令行查询流程2.2IDEA创建SparkSQL程序第3章SparkSQL解析3.1新的起始点SparkSession3.2创建DataFr

开封程序员阿强·2020-08-18 10:34

大数据系列之Spark基础解析（一）

文章目录第1章Spark概述1.1什么是Spark1.2Spark特点1.3Spark的用户和用途第2章Spark集群安装2.1集群角色2.2机器准备2.3下载Spark安装包2.4配置Spark2.5配置JobHistoryServer2.6配置SparkHA第3章执行Spark程序3.1执行第一个spark程序3.2Spark应用提交3.3启动SparkShell3.3.1启动Sparkshe

开封程序员阿强·2020-08-18 10:33

大数据系列之Flink实时统计每小时HTTP请求Top10

文章目录1Maven工程bigdata-analysis-collect生成测试数据2Maven工程bigdata-analysis-flink读取文件测试3测试方案之读取文件测试3.1文件测试类型输出结果4测试方案之读取Kafka测试将结果写入ElasticSearch4.1KafkaEagle创建topic4.2KafkaEagle查看TopicMeta4.3Kibana整合ElasticSe

开封程序员阿强·2020-08-18 10:01

大数据系列之Spark作业提交流程剖析

文章目录大数据系列之Spark作业提交流程剖析1.术语名词解释2.Driver、Worker、Executor功能介绍2.1Driver功能介绍2.2Worker功能介绍2.3Executor功能介绍3

开封程序员阿强·2020-08-18 10:01

大数据系列之SparkStreaming应用解析（四)

文章目录第1章SparkStreaming概述1.1什么是SparkStreaming1.2SparkStreaming特点第2章运行SparkStreaming2.1编写第一个程序第3章架构与抽象第4章SparkStreaming解析4.1初始化StreamingContext4.2什么是DStreams4.3DStreams输入4.3.1基本数据源文件数据源自定义数据源RDD队列4.3.2高级

开封程序员阿强·2020-08-18 10:51

使用Storm和Trident进行实时趋势分析（一）

Trident进行实时趋势分析（一）[复制链接]poppowerlb235主题64帖子1490积分高级会员积分1490收听TA发消息电梯直达楼主发表于2015-6-120:33:20|只看该作者|只看大图大数据系列零基础由入门到实战视频本帖最后由

buster2014·2020-08-15 10:43

玩转大数据系列之三：数据报表与展示

经过了数据采集与数据同步、数据分析和处理，我们应该考虑将处理好的数据做成报表或者大屏展示给老板们看，以便老板们可以更加精准地做出战略决策，为业务的发展指明方向。提到数据报表，不得不说说QuickBI。QuickBI提供海量数据实时在线分析服务，支持拖拽式操作、提供了丰富的可视化效果，可以帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。它不止是业务人员看数据的工具，更是数据化运营的助推器

weixin_34233679·2020-08-14 21:59

大数据系列修炼-Scala课程48

大数据系列修炼-Scala课程48核心内容:1、Scala类型约束代码实战及其在Spark中的应用源码解析1、Scala类型约束的使用1>在scala中，常见的两种类型约束：A=：=B含义：表示A类型等同于

安静的技术控·2020-08-12 10:27

入职大数据开发两个月后，我...

面试之前，一直在搞毕设，抽空看图书馆借来的大数据系列书籍，到后面终稿完成一提交，紧接着就在网上公开简历。两天以后接到面试通知，其实之前有过面试经历，面试过java实施工程师，java开发，游戏

OK OK 007·2020-08-12 10:22

大数据系列之数据仓库Hive中分区Partition如何使用

Hive系列博文，持续更新~~~大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用及JDBC

CodeM91·2020-08-11 05:26

大数据系列之数据仓库Hive知识整理 Hive建表，建分区表，建桶表，建视图

以下所建立的表都是在mydb数据库创建的（在Hive的命令行下，直接usemydb;然后进行如下操作就可以）。1.Hive建表建表的完整语法如下：CREATETABLEIFNOTEXISTSt2(idint,namestring,ageint)COMMENT'xx'//注释ROWFORMATDELIMITED//行分隔符FIELDSTERMINATEDBY','//字段分隔符，这里使用的是逗号可以

jiaohonggang·2020-08-11 05:05

大数据系列之elasticsearch、elasticsearch-head、kibana安装

大数据系列之elasticsearch、elasticsearch-head、kibana安装elasticsearch下载地址https://www.elastic.co/cn/downloads/past-releases

开封程序员阿强·2020-08-06 10:16

大数据系列之Spark性能优化案例详细剖析

文章目录大数据系列之Spark性能优化案例分析什么是数据倾斜？解决数据倾斜的出发点？导致Spark数据倾斜的本质是什么？数据倾斜只会发生在Shuffle过程，可能触发Shuffle的算子有哪些？

开封程序员阿强·2020-08-06 10:16

大数据系列之Java调用elasticsearch的增删查改聚合

文章目录大数据系列之Java调用elasticsearch的增删查改聚合Maven依赖获取elasticsearch连接创建索引根据Id查询文档多条件And查询多条件Or查询模糊查询范围查询聚合查询count

开封程序员阿强·2020-08-06 10:43

【面试】学哥学姐，毕业找工作45个经典面试问题回答技巧送给你

NLP、机器学习，深度学习等等），大数据系列(Spark,Hadoop,Scala,kafka等)，程序员必修系列（C、C++、j

五角钱的程序员·2020-08-04 22:39

大数据系列（hadoop） Hadoop+Zookeeper 3节点高可用集群搭建

---恢复内容开始---一、集群规划主机名ipNameNodeDataNodeYarnZooKeeperJournalNodenode01192.168.1.201是是否是是node02192.168.1.202是是否是是node03192.168.1.203否是否是是注：所有操作都是在root用户下操作，如需其他用户，请自行创建。注意文件权限问题。二、环境搭建1、安装JDK1.1下载jdk这里使

weixin_34174132·2020-08-04 05:10

【技术分享】数据之道笃行拓新

毕业后进入北京人大金仓信息技术股份有限公司，参与金仓数据库产品的研发，曾任咨询服务部总监、产品中心总监，现任大数据业务部总监，负责大数据系列产品研发，以及大数据解决方案的咨询和实施服务。

gaokeke·2020-08-03 10:24

运营商大数据系列（一） LTE信令数据简析

一、通信业务的数据传输方式通信业务，从大体上说可以分为语音业务和数据业务两大类，从体量上来说，语音业务需要的带宽要明显小于数据业务。而通信系统处理这两种业务的交换技术就是：电路交换（CS）和分组交换（PS：packet）1、电路交换的意思既是在两个通信的终端之间分配专用物理传输通道，所以问题来了，这种方法对通信资源的占用很大。当业务量越来越大时，就会有大量资源浪费。2、分组交换既基于IP的数据包传

不会写代码的张某某·2020-08-03 07:42

一、Hadoop框架介绍

OK~从今天开始，我们就开始我们的fromzerotohero大数据系列的博客编写，今天是第一篇，开篇为《Hadoop框架介绍》，Hadoop系列将会收录在《fromzerotohero（Hadoop篇

象在舞·2020-08-01 09:21

Spark大数据系列教程持续更新

Spark大数据系列教程想学习大数据的福利来了，由于近期工作繁忙，本人已将自己学习大数据的过程陆续开始更新：Spark大数据系列：一、RDD详解Spark大数据系列二、Spark入门程序WordCount

davide_tian·2020-07-31 18:19

大数据系列修炼-Scala课程40

大数据系列修炼-Scala课程40核心内容:1、Set、Map、TreeSet、TreeMap操作代码实战1、Set、Map、TreeSet、TreeMap操作代码实战1>在scala当中，对于集合而言

安静的技术控·2020-07-27 18:58

大数据系列修炼-Scala课程23

大数据系列修炼-Scala课程23核心内容:1、scala中高阶函数代码实例2、高阶函数代码实战详解1、scala中函数的相关概念1>函数是scala中的一等公民,所以函数可以保存在其它变量中,函数可以像普通的变量或者常量一样作为参数传递给我们的函数

安静的技术控·2020-07-27 18:58

大数据系列修炼-Scala课程09

核心内容:1、Scala单例对象详解2、Scala伴生对象代码实战1、Scala单例对象详解(1)Scala中没有静态方法或静态字段，但是通过object语法结构可以达到同样的目的,所谓Object对象类似于我们Java中的静态(static)类,Object对象里面的所有成员都是静态的,可以通过Object对象名的方式进行访问(2)在Scala中,静态的属性和方法只是表明了该成员具有可以通过类对

安静的技术控·2020-07-27 18:58

大数据系列修炼-Scala课程106

大数据系列修炼-Scala课程106核心内容:1、Akka中的消息的不同发送方式详解1、Akka中的消息的不同发送方式详解1>在Akka中，从类型上而言，有两种消息的发送方式：第一种方式：消息发送之后立即忘记

安静的技术控·2020-07-27 18:58

一起学大数据｜最详细的大数据学习资源教程，呕心沥血全部分享

跟大家已经分享了这么长时间的大数据文章了，我们的一起来学大数据系列已经将Java和Linux全部做了一次基础的分享。今天，我把我整理的全套大数据资源分享给大家，一起共同学习，记得关注呦。

金罗老师·2020-07-27 12:46

大数据系列：Spark 常用数据格式介绍CSV、JSON、Avro、Parquet

Spark常用文件格式介绍：ApacheSpark支持许多不同的数据格式，例如无处不在的CSV格式和Web友好的JSON格式。主要用于大数据分析目的的常见格式是ApacheParquet和ApacheAvro。在本文中，我们将使用ApacheSpark来介绍这四种格式的特性-CSV，JSON，Parquet和Avro。CSVCSV（逗号分隔值）文件通常用于在使用纯文本的系统之间交换表格数据。CSV

3d游戏建模经验交流·2020-07-15 22:03

大数据系列修炼-Scala课程90

大数据系列修炼-Scala课程90核心内容:1、基于Scala的Actor之上的分布式并发消息驱动框架Akka初体验1、基于Scala的Actor之上的分布式并发消息驱动框架Akka初体验1>Akka是一个用

安静的技术控·2020-07-15 19:57

IT十年--大数据系列讲解

个人觉得IT十年的大数据系列的博文非常干货。对于希望掌握整个大数据行业的技术栈的一个初步了解非常的有帮助，本人也是有事没事的上来看看。所以整理出来一个目录，放在自己的博客里，方便寻找学习。

中琦2513·2020-07-15 12:04

大数据系列（4）——Hadoop集群VSFTP和SecureCRT安装配置

前言经过前三篇文章的介绍，已经通过VMware安装了Hadoop的集群环境，当然，我相信安装的过程肯定遇到或多或少的问题，这些都需要自己解决，解决的过程就是学习的过程，本篇的来介绍几个Hadoop环境中需要用到的软件，确切的说是两款：VSFTP和SecureCRT。闲言少叙，进入本篇的正题。背景这里简要说明下这两款软件的作用。1、VSFTP这个从字面就能理解就是搭建FTP服务器用的，为什么要搭建F

weixin_34149796·2020-07-15 05:09

ACP认证考试-必须要了解的那点事

一.主要包括三种认证类型：助理工程师（ACA），认证工程师（ACP），认证高级工程师（ACE）针对不同的类型又按专业方向分四种：云计算（阿里云基础架构产品）、大数据（阿里云大数据系列产品）、云安全（阿里云云盾系列产品

weixin_33874713·2020-07-15 04:27

大数据系列之Flume(Flume+HDFS / Flume+Kafka)

1.flume概念flume是分布式的，可靠的，高可用的，用于对不同来源的大量的日志数据进行有效收集、聚集和移动，并以集中式的数据存储的系统。flume目前是apache的一个顶级项目。flume需要java运行环境，要求java1.6以上，推荐java1.7.将下载好的flume安装包解压到指定目录即可。2.flume中的重要模型2.1.1.flumeEvent：flume事件，被定义为一个具有

挖矿的小强·2020-07-15 00:33

大数据系列（二）：HDFS（Hadoop分布式文件系统）（一）

HDFS设计HDFSisafilesystemdesignedforstoringverylargefileswithstreamingdataaccesspatterns,runningonclustersofcommodityhardware.HDFS不适用的情况低时间延迟的数据访问（Low-latencydataaccess)HDFS是为高吞吐量应用优化的，这会导致它的高延迟性（Rememb

Carlin_entheos·2020-07-14 09:37

大数据系列——jdk和ssh免密登录

致读者：博主是一名数据科学与大数据专业大二的学生，真正的一个互联网萌新，写博客一方面是为了记录自己的学习过程中遇到的问题和思考，一方面是希望能够帮助到很多和自己一样处于困惑的读者。>由于水平有限，博客中难免会有一些错误，有纰漏之处恳请各位大佬不吝赐教！之后会写大数据专业的文章哦。GitHub链接https://github.com/wfy-belief尽管现在我的水平可能还不太及格，但我会尽我自己

ZZULI_星.夜·2020-07-14 03:24

大数据系列（5）——Hadoop集群MYSQL的安装

前言有一段时间没写文章了，最近事情挺多的，现在咱们回归正题，经过前面四篇文章的介绍，已经通过VMware安装了Hadoop的集群环境，相关的两款软件VSFTP和SecureCRT也已经正常安装了。本篇主要介绍在大数据应用中比较常用的一款软件Mysql，我相信这款软件不紧紧在大数据分析的时候会用到，现在作为开源系统中的比较优秀的一款关系型开源数据库已经被很多互联网公司所使用，而且现在正慢慢的壮大中。

weixin_34355881·2020-07-14 03:22

大数据系列（3）——Hadoop集群完全分布式坏境搭建

前言上一篇我们讲解了Hadoop单节点的安装，并且已经通过VMware安装了一台CentOS6.8的Linux系统，咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群，闲言少叙，进入本篇的正题。技术准备VMware虚拟机、CentOS6.864bit安装流程我们先来回顾上一篇我们完成的单节点的Hadoop环境配置，已经配置了一个CentOS6.8并且完成了java运行环境的搭建，Hos

weixin_34026276·2020-07-14 03:01

大数据系列（2）——Hadoop集群坏境CentOS安装

前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项，本篇我们主要来分析如何安装CentOS操作系统，以及一些基础的设置，闲言少叙，我们进入本篇的正题。技术准备VMware虚拟机、CentOS6.864bit安装流程因为我的笔记本是Window7操作系统，然后内存配置，只有8G，内存配置太低了，当然为了演示，我会将Hadoop集群中的主节点分配2GB内存，然后剩余的三个节

weixin_34247032·2020-07-14 00:03

大数据系列（1）——Hadoop集群坏境搭建配置

前言关于时下最热的技术潮流，无疑大数据是首当其中最热的一个技术点，关于大数据的概念和方法论铺天盖地的到处宣扬，但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案，更有很多数据相关的项目比如弄几张报表，写几个T-SQL语句就被冠以“大数据项目”，当然了，时下热门的话题嘛，先把“大数据”帽子扣上，这样才能显示出项目的高大上，得到公司的重视或者高层领导的关注。首先

weixin_34032827·2020-07-14 00:02

从零学大数据系列之数据库第一章:MySQL基础

QF大数据·2020-07-13 09:28

大数据系列之(一) Streaming模式基础知识

作者：TylerAkidau译者：张磊原文：http://radar.oreilly.com/2015/08/the-world-beyond-batch-streaming-101.html译者摘要现在大数据，云计算已经成为互联网的标配，但是现在主流的大数据处理依旧是使用batch模式，batch模式就是将数据按某种规则分成块，然后对整个块跑计算逻辑，缺点是延迟太高(至少是分钟)，常用的工具就是

CCJHDOPC·2020-07-12 23:25

大数据系列免费视频教程【Linux、Hadoop、Spark、Kylin等】-梁勇-专题视频课程

大数据系列免费视频教程【Linux、Hadoop、Spark、Kylin等】—8390人已学习课程介绍大数据技术是以数据流为核心的多个技术组成的技术栈，Mars将和大家一起持续学习，持续交流，持续更新~

天善智能·2020-07-12 21:12

58同城离线计算平台设计与实践

分享嘉宾：余意58同城高级架构师编辑整理：史士博内容来源：58大数据系列直播出品平台：DataFun导读：58离线计算平台基于Hadoop生态体系打造，单集群4000+台服务器，数百PB存储，日40万计算任务

过往记忆·2020-07-12 04:51

大数据系列（hadoop）集群环境搭建 idea 开发设置

搭建idea开发环境，实现idea远程开发、调试、打包。资源环境idea2017.2Hadoop集群环境搭建步骤：http://www.cnblogs.com/YellowstonePark/p/7750213.html新建项目输入GroupId、ArtifactId输入projectName、ProjectLocation修改pom.xml添加依赖4.0.0com.hadoopbookhadoo

weixin_30892037·2020-07-10 07:18

大数据系列——Spark学习笔记Spark Streaming

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream（代理）,本质上就是一系列连续的RDD，DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂，该DStream里面生产都是相同业务逻辑的RDD，只不过是RDD里面要读

EVAO·2020-07-09 22:44

大数据系列（三）之 Hadoop Yarn 资源调度框架详解

目录一、为什么要使用资源调度系统Yarn二、Yarn的主要功能三、Yarn组件四、Yarn架构详解五、Yarn执行工作流程六、Yarn高可用小结一、为什么要使用资源调度系统Yarn这还要从Hadoop1.0说起，关于Hadoop1.0的架构这里就不多做介绍了，感兴趣的同学自行了解一下。在Hadoop1.0中，MR作业的调度还是有两个重要的组件：JobTracker和TaskTracker，随着集群

古小龙·2020-07-08 18:05

大数据系列（一）之 ZooKeeper 分布式协调服务详解、搭建和Java API实现动态上下线，Watcher机制

本文创作的初心是为学习或了解ZooKeeper的童鞋提供帮助，请大家耐心仔细阅读。目录一、Zookeeper是什么？二、Zookeeper在Hadoop生态中是干什么的？三、Zookeeper是怎么实现的？四、ZooKeeper的基本运转流程五、Zookeeper中的事务操作六、Zookeeper特点七、Zookeeper集群中的三种角色八、Zookeeper服务器的4种状态九、选举机制9.1被选

古小龙·2020-07-08 18:05

推荐频道

大数据系列

大数据系列——Sqoop学习笔记

大数据系列——Sqoop学习笔记

大数据系列——Sqoop学习笔记

大数据系列修炼-Scala课程47

大数据系列之SparkCore应用解析（二)

大数据系列之SparkSql应用解析（三)

大数据系列之Spark基础解析（一）

大数据系列之Flink实时统计每小时HTTP请求Top10

大数据系列之Spark作业提交流程剖析

大数据系列之SparkStreaming应用解析（四)

使用Storm和Trident进行实时趋势分析（一）

玩转大数据系列之三：数据报表与展示

大数据系列修炼-Scala课程48

入职大数据开发两个月后，我...

大数据系列之数据仓库Hive中分区Partition如何使用

大数据系列之数据仓库Hive知识整理 Hive建表，建分区表，建桶表，建视图

大数据系列之elasticsearch、elasticsearch-head、kibana安装

大数据系列之Spark性能优化案例详细剖析

大数据系列之Java调用elasticsearch的增删查改聚合

【面试】学哥学姐，毕业找工作45个经典面试问题回答技巧送给你

大数据系列（hadoop） Hadoop+Zookeeper 3节点高可用集群搭建

【技术分享】数据之道 笃行拓新

运营商大数据系列（一） LTE信令数据简析

一、Hadoop框架介绍

Spark大数据系列教程持续更新

大数据系列修炼-Scala课程40

大数据系列修炼-Scala课程23

大数据系列修炼-Scala课程09

大数据系列修炼-Scala课程106

一起学大数据｜最详细的大数据学习资源教程，呕心沥血全部分享

大数据系列：Spark 常用数据格式介绍CSV、JSON、Avro、Parquet

大数据系列修炼-Scala课程90

IT十年--大数据系列讲解

大数据系列（4）——Hadoop集群VSFTP和SecureCRT安装配置

ACP认证考试-必须要了解的那点事

大数据系列之Flume(Flume+HDFS / Flume+Kafka)

大数据系列（二）：HDFS（Hadoop分布式文件系统）（一）

大数据系列——jdk和ssh免密登录

大数据系列（5）——Hadoop集群MYSQL的安装

大数据系列（3）——Hadoop集群完全分布式坏境搭建

大数据系列（2）——Hadoop集群坏境CentOS安装

大数据系列（1）——Hadoop集群坏境搭建配置

从零学大数据系列之数据库第一章:MySQL基础

大数据系列之(一) Streaming模式基础知识

大数据系列免费视频教程 【Linux、Hadoop、Spark、Kylin等】-梁勇-专题视频课程

58同城离线计算平台设计与实践

大数据系列（hadoop） 集群环境搭建 idea 开发设置

大数据系列——Spark学习笔记Spark Streaming

大数据系列（三）之 Hadoop Yarn 资源调度框架详解

大数据系列（一）之 ZooKeeper 分布式协调服务详解、搭建和Java API实现动态上下线，Watcher机制

【技术分享】数据之道笃行拓新

大数据系列免费视频教程【Linux、Hadoop、Spark、Kylin等】-梁勇-专题视频课程

大数据系列（hadoop）集群环境搭建 idea 开发设置