ML&DL-大数据学习第16页

大数据学习系列2-Centos6.7下搭建hadoop-2.6.5集群

集群规划主机IP安装的软件运行的进程mini1192.168.33.61jdk、hadoopNameNode、ResourceManager、SecondaryNameNodemini2192.168.33.62jdk、hadoopDataNode、NodeManagermini3192.168.33.63jdk、hadoopDataNode、NodeManager1.准备Linux环境1.1先将

dream-on·2020-09-10 18:56

整理的最全大数据学习之路「大神必修课」

前言：一、背景介绍二、大数据介绍正文：一、大数据相关的工作介绍二、大数据工程师的技能要求三、大数据学习规划四、持续学习资源推荐（书籍，博客，网站）五、项目案例分析（批处理+实时处理）前言一、背景介绍本人目前是一名大数据工程师

金罗老师·2020-09-10 16:44

大数据学习整理篇（十）大数据应用场景和展现方式整理

根据目前比较通用的大数据应用场景，做了如下整理和分析，具体算法，请自行百度：应用场景算法大类具体算法展现方式会员画像，会员细分聚类模型KMeans聚类饼状图,柱状图预测，预警回归模型线性回归柱状图IVR分析，功能埋点分析关联分析Apriori算法关系图IVR分析FP-growth算法关系图功能埋点会员兴趣，偏好，行为分析协同过滤User-BasedCF雷达图根据会员有共同的行为分析，历史记录，猜出

我还要去追逐我的梦·2020-09-10 10:47

大数据学习整理篇（六）CentOS 7.8搭建Zeppelin 0.9.0-preview2最新版，并使用phoenix访问hbase

基于项目中要使用Spark的原因，所以使用Zeppelin使用SparkML，并进行数据展示是比较好的选择，在搭建0.9.0的时候也解决了几个入坑问题，现在把具体情况说明下：1.首先下载最新的0.9.0-preview2版本下载1.5G的zeppelin-0.9.0-preview2-bin-all.tgz2.下载完后，使用tar-xzvf解压文件3.修改/etc/profile文件，最下面添加如

我还要去追逐我的梦·2020-09-10 10:47

大数据学习整理篇（九）idea创建可以使用scala和java在spark运行的示例

1.新建Java的maven工程后续把groupid和artifactid和版本定义好就行2.定义pom文件，添加具体jar包请查看上篇文章整理篇（八）https://blog.csdn.net/penker_zhao/article/details/108361732scala需要增加新的打包文件，加入到pom文件，具体如下：org.scala-toolsmaven-scala-pluginco

我还要去追逐我的梦·2020-09-10 10:47

大数据学习整理篇（七）Linux下使用Docker搭建Spark多节点，Phoenix单机版，然后使用Spark访问Phoenix(java示例成功版）

我们的大数据平台之前定义的步骤就是，使用ETL工具从关系型数据库抽取到HBase，然后通过Phoenix的二级索引，SQL关联查询，将大数据需要学习的训练集以及验证集提供给spark，调用sparkml的机器学习类库，做相应的算法分析，比如线性回归算法和决策树算法等等，最后生成临时表到phnenix的，使用zeppelin将数据展示出来，整个大数据平台的思路就是这样。下面我们按照步骤逐一展开：1.

我还要去追逐我的梦·2020-09-10 10:47

大数据学习整理篇（八）Zeppelin连接Spark

Zeppelin单独1.5g的版本自带了Spark，所以可以使用local方式直接连接自带的spark。然后可以嵌入scala语言，进行数据统计，如下图所示：新建一个note，Interpreter选择spark可以将下列语句直接带入到一个paragraph中，如下图所示：下面的代码来自（https://blog.csdn.net/majianxiong_lzu/article/details/8

我还要去追逐我的梦·2020-09-10 10:47

大数据学习：离线数仓

学习地址：Bilili1数据仓库概念2项目需求及架构设计2.1项目需求分析2.2阿里云技术框架2.2.1技术选型2.2.3系统数据流程设计

chaoge_dgqb·2020-09-10 09:46

大数据学习之SPARK的重要性

为了辅助大家更好去了解大数据技术，本文集中讨论Spark的一系列技术问题，大家在学习过程中如果遇到困难，可以留言互动，我都将「知无不言，言无不尽」！本文摘自科多大数据武老师的笔记，感谢整理//话题1：MapReduce的局限性有哪些？回复：①MapReduce框架局限性它仅支持Map和Reduce两种操作，而且处理效率低效，具体有这四点：a.Map中间结果写磁盘，Reduce写HDFS，多个MR之

彧11·2020-08-26 23:40

大数据学习路线及各阶段学习书籍推荐

QFdongdong·2020-08-26 22:34

大数据的应用是否会带来大众隐私观的变革？

数据工程师金牛·2020-08-26 12:29

大数据学习之Hadoop集群搭建（二）

目录一、Hadoop集群规划二、配置样板节点1、虚拟机硬件信息2、本地登录配置（1）root用户登录（2）关闭防火墙（3）修改主机名和IP地址（4）配置hosts（5）创建用户设置密码（6）添加sudo权限（7）切换用户验证sudo命令（8）创建软件安装目录3、远程登录配置（1）Xshell远程登录（3）安装jdk和hadoop（4）修改hadoop配置文件（5）配置主机免密登录三、克隆样板节点搭

青衫红叶·2020-08-26 11:23

大数据学习之路108-spark streaming基于redis历史state统计

我们之前使用sparkstreaming做过基于mysql的历史state统计，但是当时的方法很笨，因为写到mysql中第一是性能不好，第二是编码麻烦，所以一般不会有人那么做。而且当时的数据来源是socket。所以现在我们的业务就是：通过一个客户端工具实时的写数据到kafka中，然后通过sparkstreaming实时的监控并消费出来。写入到redis中进行实时的统计。首先我们需要写一个客户端程序

爱米酱·2020-08-26 09:51

大数据学习线路

语言基础篇Java基础篇整个大数据开发技术栈我们从实时性的角度来看，主要包含了离线计算和实时计算两大部分，而整个大数据生态中的框架绝大部分都是用Java开发或者兼容了Java的API调用，那么作为基于JVM的第一语言Java就是我们绕不过去的坎，Java语言的基础也是我们阅读源码和进行代码调优的基础。Java基础主要包含以下部分：语言基础锁多线程并发包中常用的并发容器语言基础Java的面向对象Ja

加码帝国·2020-08-25 12:47

大数据自学，大数据学习路线，大数据学习资源持续更新

学习教程我们一直在更新什么是软件开发：链接:https://pan.baidu.com/s/1MviYOSm6DMJyaLB5LKrxyA密码:eixvHadoop/HDFS学习教程：链接:https://pan.baidu.com/s/13AbsS6esQXPcu760FPBo5w密码:qa9h链接:https://pan.baidu.com/s/1x9GxPIPXKIq0yMUC-1FFeg密

小牛学堂·2020-08-25 08:58

能拿50W+年薪的大数据学习路线！

技术更新迭代速度很快，我们必须时刻保持危机感！一步跟不上，步步跟不上！大数据是当时时代下一门炙热的IT学科，行情十分火爆，不论是阿里巴巴、百度这样的大公司，还是中小企业都很重视，甚至是第一个纳入国家战略的技术，政府扶持力度大，支持甚多！面对这样的大环境下，大数据相关岗位薪水高，就业前景好。因此也吸引了一大批有志之士，想学习并从事大数据相关工作。大数据前景分析随着国家重视大数据，政府扶持大数据，大数

juan777·2020-08-25 07:17

大数据学习之路（一）VMware CentOS7 安装

1、安装VMware14Pro(自己百度去，版本最好12以上，低版本对CentOS7支持不够)一般IntelVT-x处于禁用状态，要启动虚机需要设为启用。重启计算机，进入bios模式（我的机器是Fn+f1），一般在Advanced、Security、BIOSFeatures、Configuration下面，找到IntelVirtualizationTechnology按回车键选择Enabled，表

zsy_li·2020-08-25 06:35

基于大数据学习算法的优惠券预测模型

2019独角兽企业重金招聘Python工程师标准>>>一、目标：预测买家是否会购买某类商品，然后将优惠券发给最有可能购买的人群，从而提升转化率和客单价。（转化率-从意向购买到实际付款；客单价-用户单次购物花费金额）二、分析：落实到算法模型上，包含两个核心的问题2.1、优惠券发给谁，即客户群选择客户群选择实际上是预测买家的购买倾向，并依据购买倾向的强弱来给出排序的结果，落实到学习模型层面来解决。这个

weixin_33686714·2020-08-25 05:56

大数据学习——jdk安装和hadoop安装

1、centos7修改主机文件：masterslave1slave2vim/etc/hosts192.168.58.10master192.168.58.11slave1192.168.58.12slave2检测是否能ping通：pingmasterpingslave1pingslave1(三台机子分别执行)2、centos7SSH互信配置：masterslave1slave2ssh-keygen

Junh.K·2020-08-25 04:43

2.大数据学习之旅——红黑树

红黑树自平衡二叉查找树—时间复杂度O(logn)特征：每一个节点非红即黑根节点一定是黑色所有的叶子节点一定是黑色的nil节点红节点的子节点一定是黑节点任意一条路径中的黑色节点个数一致插入的节点一定是红色修复：当前节点为红，并且父节点且叔父节点为红，那么将父节点以及叔父节点涂黑，然后将祖父节点涂红当前节点为红，并且父节点为红且叔父节点为黑，当前节点为右子叶，以当前节点为轴进行左旋当前节点为红，并且父

零零天·2020-08-25 04:06

【大数据学习】centos7安装

一、下载镜像镜像下载地址：https://mirrors.aliyun.com/centos/7.8.2003/isos/x86_64/CentOS-7-x86_64-Minimal-2003.iso二、使用VMWare安装一直按照图中的勾选即可。下图选择下载好的镜像位置：选完镜像之后点击下一步：下图处理器和核心数，如果机器性能不高，可以全部选1，我的是6核12线程的，就选大了一些。下图是内存设置

沉淀技术这十年·2020-08-25 04:18

大数据学习中的---------搭建全分布式集群

一、搭建全分布式集群首先规划集群的节点数在服务器上面的分配比如我们可以规划为：(1)hadoop00014Gnamenoderesourcemanager(2)datanodenodemanager(3)hadoop00021Gdatanodenodemanagersecondarynamenodehadoop00031Gdatanodenodemanager二、SSH无密登录配置（1）基本语法s

董耕寿 Vol·2020-08-25 02:13

大数据学习之路——安装虚拟机和centos7系统的配置

1、安装虚拟机下载虚拟机：https://www.vmware.com/cn/products/workstation-pro.html自己百度一个key遇到的问题：1）、重启系统，进入BIOS2）、选择advanced选项卡，选择CPUsetup3）、选择IntelVirtualizationTechnology，disable改成enable，保存4）、重启电脑，打开虚拟机。2、安装镜像（ce

Junh.K·2020-08-25 02:00

sparkStreaming：实时流计算Java案例

spark是Scala写出来的了，但是我现在还没系统的学习Scala，所以只能用java写spark程序了，spark支持java，而且Scala也基于JVM,不说了，直接上代码这是官网上给出的例子，大数据学习中经典案例单词计数在

花和尚也有春天·2020-08-24 17:31

大数据学习系列之二 ----- HBase环境搭建(单机)

引言在上一篇中搭建了Hadoop的单机环境，这一篇则搭建HBase的单机环境环境准备1，服务器选择阿里云服务器:入门型(按量付费)操作系统:linuxCentOS6.8Cpu：1核内存：1G硬盘:40G2，配置选择JDK:1.8（jdk-8u144-linux-x64.tar.gz）Hadoop:2.8.2(hadoop-2.8.2.tar.gz)HBase:1.6.2(hbase-1.2.6-b

weixin_34406086·2020-08-24 17:33

大数据学习（4）--分布式数据库HBase

文章目录目录1.HBase概述1.1BigTable1.2HBase简介1.3HBase和传统的关系型数据库之间的区别2.HBase访问接口3.HBase数据模型3.1数据模型概述3.2数据模型相关概念3.3数据坐标3.4概念视图3.5物理视图3.6面向列的存储4.HBase的实现原理4.1HBase功能组件4.2表和region4.3region的定位5.HBase运行机制5.1HBase系统架

Zero-One-0101·2020-08-24 16:56

【大数据学习-实验-2】分布式文件系统应用

分布式文件系统应用一、实验目的1．理解HDFS在Hadoop体系结构中的角色；2．掌握HDFS操作常用的Shell命令；3．熟悉HDFS操作常用的JavaAPI。二、实验内容1．利用Hadoop提供的Shell命令完成以下任务：（1）在Hadoop的/目录下创建一个test1文件夹；（2）在Hadoop的test1文件夹中创建一个file.txt文件；（3）查看Hadoop的根目录下所有文件；（4

计忆芳华·2020-08-24 16:08

大数据学习hadoop3.1.3——Flume企业开发案例二（负载均衡和故障转移）

1、案例需求使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3，采用FailoverSinkProcessor，实现故障转移的功能。2、需求分析3、实现步骤（1）准备工作在/opt/module/flume/job目录下创建group2文件夹cdgroup2/（2）创建flume-netcat-flume.conf配置1个netcatsource和1个chan

Caron_xcb·2020-08-24 15:43

大数据学习笔记53：Flume Sink Processors（Flume接收器处理器）

文章目录一、FlumeSinkProcessors用户指南二、DefaultSinkProcessor三、FailOverSinkProcessor四、LoadBalancingSinkProcessor一、FlumeSinkProcessors用户指南http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-

howard2005·2020-08-24 14:45

设计模式——开发常用的设计模式梳理

欧阳思海·2020-08-24 06:25

视频教程-会感知、响应和学习的流程与决策 – IBM认知业务运营网络大会-大数据...

CSDN讲师¥272.00立即订阅订阅后：请点击此处观看视频课程视频教程-会感知、响应和学习的流程与决策–IBM认知业务运营网络大会-大数据学习有效期：永久观看学习

weixin_29432921·2020-08-24 03:37

DL-深度神经网络原理推导及PyTorch实现

1.前向传播引用一个网站的图：具体来说，就是2行代码，图片中的f为激活函数，这里用sigmoid作为激活函数，事实上有很多其它的套路，这里只讲神经网络的数学原理及初级使用，不会做任何深入扩展：deffeedforward(self,a):#a:inputforb,winzip(self.biases,self.weights):a=sigmoid(np.dot(w,a)+b)returna2.反向

jj_千寻·2020-08-24 00:34

（一）大数据学习引言——大数据概述

一、大数据的概念概念大数据是指：无法在现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。特征Volume：数据量足够大Variety：数据的种类多样Velocity：数据的增长速度快Value：数据蕴藏价值大二、大数据的行业价值1.分析用户的行为，建立数据模型，并进行预测在用户行为分析方面，最典型的是美国沃尔玛公司将尿不湿和啤酒放在一起销售的策略，通过对客户的购物习惯进行关联分析，得出用户

郭建華·2020-08-23 23:52

大数据学习思路分解(2)：机器学习

机器学习是整套大数据学习线路里的第二部分内容，知识点相对来说不是很多，但也是大数据开发中最常用的一部分内容。

尚学先生·2020-08-23 19:11

大数据技术之_01_Linux学习_01_linux的入门+VM和linux的安装+linux的目录结构+远程登录到linux服务器+vi和vim编辑器+开机、重启和用户登录注销+用户管理+用户组管理

大数据学习之_01_Linux学习_011linux的入门1.1Linux的介绍2VM和linux的安装2.1安装vm和Centos2.1.1基本说明2.1.2CentOS安装的步骤2.1.3CentOS

黑泽君·2020-08-23 14:36

【数据结构】双向链表的插入和删除操作

intdata;structDNode*prior;structDNode*next;}DNode,*DLinkList;boolInitDList(DLinkList&DL){DL=newDNode;DL

DXH924·2020-08-23 09:31

怎样进行大数据的入门级学习？

03.大数据科学家04.其他（数据挖掘本质算是机器学习，不过和数据相关，也可以理解为大数据的一个方向吧）由于本人曾是大数据工程师的角色，我就这个方向做一些介绍本回答目录:一、大数据工程师的技能要求二、大数据学习路径三

煎蛋侠_·2020-08-23 05:18

大数据学习路线2019版（附全套视频教程及网盘下载）

什么是大数据？大数据（BIGDATA）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点：VOLUME（大量）、VELOCITY（高速）、VARIETY（多样）、VALUE（低价值密度）、VERACITY（真实性）。为什么要学习大数据？目前，全球数据呈现爆发增长、海

weixin_30950887·2020-08-22 23:28

如何制定一份可实施的2018年大数据学习计划？

没错，福利要放最前面50G大数据学习资料百余本大数据学习书籍Excel全方位技能视频教程回复【学习计划】获取进群资格领取学习资料给大家讲一个恐怖故事那就是在这里还是要推荐下我自己建的大数据学习交流群:199427210

大数据05·2020-08-22 21:49

大数据分析学习之路

大数据分析的五个基本方面二、如何选择适合的数据分析工具三、如何区分三个大数据热门职业四、从菜鸟成为数据科学家的9步养成方案五、从入门到精通——快速学会大数据分析在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙

金光闪闪耶·2020-08-22 12:39

小猴子建筑资料昨日更新内容0727

【2019年一建】【市政】冲刺班【老妖精】-重点背诵【文档】【市政】冲刺班-HQ-密训班-李莹【1-4】【市政】冲刺班-CSW-强化班-董雨佳【1-12】【市政】习题班-DL-章节题战班-付新生【文档】

小猴子建筑资料·2020-08-22 10:59

大数据学习第二课：CDH安装

本章主要内容：Hadoop发行版介绍CDH离线安装教程上一课我们学习了如何搭建虚拟机的，不过那也只是完成了入门大数据的第一步，今天开始进行第二步，也就是大数据相关工具的安装。一、Hadoop发行版ApacheHadoop往小了说就是个开源项目，往大了说简直就是开源界唯一的大数据标准。它实在是太火了，所以很多商业公司在它的基础上包装成不同的发行版。就类似Linux很火，为了方便普通用户它也有很多发行

wangjinnan16·2020-08-22 03:06

大数据学习：MAVEN编译下载太慢，修改为阿里源做法

在使用MAVEN中，编译时download很慢是由于使用默认的源进行下载，这里手动修改$MAVEN_HOME/conf/settings.xml文件，找到mirror段，进行如下修改即可。**nexus-aliyunhttp://maven.aliyun.com/nexus/content/groups/public

月魂_123123·2020-08-22 01:25

SQL总结-思维导图

以上.听说，爱点赞的人运气都不会太差哦如果有任何意见和建议，也欢迎在下方留言~关注这个公众号，定期会有大数据学习的干货推送给你哦~只分享干货！只分享干货！只分享干货！

Shaun_Xi·2020-08-21 22:02

2019新版大数据学习路径

近几年，大数据这个词突然变得很火，不仅纳入阿里巴巴、谷歌等互联网公司的战略规划中，同时也在我国国务院和其他国家的政府报告中多次提及，大数据无疑成为当今互联网世界中的新宠儿。而大数据开发技术，对于学习者来讲专业性强，操作繁琐，完全属于“高大上”的技术。好奇的人或许只会通过网络搜索了解了一些甚至都谈不上皮毛的东西，有时候连概念都说不上来，而有一些人则看到了大数据带来的机遇，想通过专业的培训来学习大数据

QFdongdong·2020-08-21 20:30

大数据学习笔记-------------------(17_2)

17.2简单消费者实例已经创建一个producer给Kafka集群发送信息。现在需要创建一个consumer来接收来自集群中的信息。KafkaConsumerAPI习惯用语接收来自Kafka集群的信息。KafkaConsumer类结构定义如下：publicKafkaConsumer(java.util.Mapconfigs)config：返回消费者配置信息的mapKafkaConsumer类的重要

WEL测试·2020-08-21 19:50

大数据入门资料及需要的学习的时间分析！

大数据学习QQ群：716581014

大数据05·2020-08-21 17:25

学习大数据需要Java基础吗？

大数据资料分享·2020-08-21 16:14

大数据学习

自给定义：短时间快速产生大量多种多样的有价值的信息如今数据越来越多，为了解决数据量过大的问题，垂直扩展机制，和横向扩展机制相继进入视线，垂直扩展指的是再一台服务器上尽可能的扩大内存，而横向扩展指的是将许多个计算机联系起来，例如下图：讲完这些，就不得不说一说hadoop生态圈和spark生态圈了，hadoop包括以下模块HadoopCommon：支持其他Hadoop模块的常用实用程序。Hadoop分

七个馒头·2020-08-21 04:39

大数据学习7：Hadoop Yarn 的调优整理

HadoopYarn的调优整理：对于Yarn的调优，主要从内存和CPU的角度去调整。应从集群所有节点的角度去考虑计算资源，根据Application申请的资源进行分配container（容器）。Container是Yarn中资源分配的最小单元，包含了一定的内存和CPU资源。在集群中，调整内存，CPU，磁盘的资源的平衡性很重要，根据经验，每2个Container使用一块磁盘和1个CPU核的时候，资源

月魂_123123·2020-08-21 03:50

推荐频道

ML&DL-大数据学习

大数据学习系列2-Centos6.7下搭建hadoop-2.6.5集群

整理的最全大数据学习之路「大神必修课」

大数据学习整理篇（十）大数据应用场景和展现方式整理

大数据学习整理篇（六）CentOS 7.8搭建Zeppelin 0.9.0-preview2最新版，并使用phoenix访问hbase

大数据学习整理篇（九）idea创建可以使用scala和java在spark运行的示例

大数据学习整理篇（七）Linux下使用Docker搭建Spark多节点，Phoenix单机版，然后使用Spark访问Phoenix(java示例成功版）

大数据学习整理篇（八）Zeppelin连接Spark

大数据学习：离线数仓

大数据学习之SPARK的重要性

大数据学习路线及各阶段学习书籍推荐

大数据的应用是否会带来大众隐私观的变革？

大数据学习之Hadoop集群搭建（二）

大数据学习之路108-spark streaming基于redis历史state统计

大数据学习线路

大数据自学，大数据学习路线，大数据学习资源持续更新

能拿50W+年薪的大数据学习路线！

大数据学习之路（一）VMware CentOS7 安装

基于大数据学习算法的优惠券预测模型

大数据学习——jdk安装和hadoop安装

2.大数据学习之旅——红黑树

【大数据学习】centos7安装

大数据学习中的---------搭建全分布式集群

大数据学习之路——安装虚拟机和centos7系统的配置

sparkStreaming：实时流计算Java案例

大数据学习系列之二 ----- HBase环境搭建(单机)

大数据学习（4）--分布式数据库HBase

【大数据学习-实验-2】分布式文件系统应用

大数据学习hadoop3.1.3——Flume企业开发案例二（负载均衡和故障转移）

大数据学习笔记53：Flume Sink Processors（Flume接收器处理器）

设计模式——开发常用的设计模式梳理

视频教程-会感知、响应和学习的流程与决策 – IBM认知业务运营网络大会-大数据...

DL-深度神经网络原理推导及PyTorch实现

（一）大数据学习引言——大数据概述

大数据学习思路分解(2)：机器学习

大数据技术之_01_Linux学习_01_linux的入门+VM和linux的安装+linux的目录结构+远程登录到linux服务器+vi和vim编辑器+开机、重启和用户登录注销+用户管理+用户组管理

【数据结构】双向链表的插入和删除操作

怎样进行大数据的入门级学习？

大数据学习路线2019版（附全套视频教程及网盘下载）

如何制定一份可实施的2018年大数据学习计划？

大数据分析学习之路

小猴子建筑资料昨日更新内容0727

大数据学习第二课：CDH安装

大数据学习：MAVEN编译下载太慢，修改为阿里源做法

SQL总结-思维导图

2019新版大数据学习路径

大数据学习笔记-------------------(17_2)

大数据入门资料及需要的学习的时间分析！

学习大数据需要Java基础吗？

大数据学习

大数据学习7：Hadoop Yarn 的调优整理