小K哥_2

大数据集群搭建

linux配置
ip配置

	vim /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE="eth0"
BOOTPROTO="static"
IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
IPADDR=192.168.199.10
NETMASK=255.255.255.0
GATEWAY=192.168.199.2
DNS1=114.114.114.114

重启网络服务

/etc/init.d/network restart
或者  service network restart .

设置开机不启动图形界面

vim /etc/inittab 
找到id:5:initdefault: 这一行，将5 改为3，即将它改为id:3:initdefault:。
可以通过命令切换
init 3    shell 界面
init 5 图形界面   或者  startx

关闭防火墙

开防火墙：service iptables start    或者 /etc/init.d/iptables stop
关闭防火墙：service iptables stop
查看防火墙状态：service iptables status
设置开机不启动
查看状态：chkconfig --list iptables
永久关闭：chkconfig --list iptables

[root@localhost ~]# service iptables status
iptables: Firewall is not running.
[root@localhost ~]# chkconfig --list iptables
iptables        0:off   1:off   2:on    3:on    4:on    5:on    6:off
[root@localhost ~]# chkconfig iptables off
[root@localhost ~]# chkconfig --list iptables
iptables        0:off   1:off   2:off   3:off   4:off   5:off   6:off

更改主机名

vim /etc/sysconfig/network
HOSTNAME=master

本地网络配置

vim /etc/hosts
192.168.199.10 master
192.168.199.11 slave1
192.168.199.12 slave2

安装rz
yum install lrzsz

配置JDK

tar zxf jdk-8u191-linux-x64.tar.gz    
配置环境变量
vim ~/.bashrc
#jdk
export JAVA_HOME=/usr/local/src/jdk1.8.0_191/bin
export PATH=$PATH:$JAVA_HOME
[root@localhost bin]# source ~/.bashrc 
[root@localhost bin]# java -version
java version "1.8.0_191

克隆master为slave1和slave2
修改IP
vi /etc/sysconfig/network-scripts/ifcfg-eth0
slave1: IPADDR=192.168.199.11
slave2: IPADDR=192.168.199.12
解决克隆后无法上网的问题
将系统下/etc/udev/rules.d 路径下的 70-persistent-net.rules 文件清空或删除
rm -rf /etc/udev/rules.d /70-persistent-net.rules
重启
Reboot 或者 init 6
修改主机名
vim /etc/sysconfig/network
slave1: HOSTNAME=slave1
hostname slave1
slave2 HOSTNAME=slave2
hostname slave2

设置互信关系

cd ~/.ssh/
ssh-keygen   按四个回车
[root@master .ssh]# ls
id_rsa  id_rsa.pub
cat id_rsa.pub > authorized_keys  //拷贝，直接覆盖  如果是>>是追加
在另外两台机器也执行ssh-keygen
在分别把slave1和slave2的公钥加到master的authorized_keys里面
拷贝master的authorized_keys到slave上
scp -rp authorized_keys slave1:~/.ssh/
scp -rp authorized_keys slave2:~/.ssh/
用ssh slave1认证

tar -zxf hadoop-2.6.5.tar.gz



设置环境变量
#hadoop
export HADOOP_HOME=/usr/local/src/hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
[root@master hadoop]# pwd
/usr/local/src/hadoop-2.6.5/etc/Hadoop
vim hadoop-env.sh 
export JAVA_HOME=/usr/local/src/jdk1.8.0_191
vim yarn-evn.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_191
[root@master hadoop]# vim slaves 
slave1
slave2

vim core-site.xml



        
                fs.defaultFS
                hdfs://192.168.199.10:9000
        
        
                hadoop.tmp.dir
                file:/usr/local/src/hadoop-2.6.5/tmp/

vim hdfs-site.xml



        
                dfs.namenode.secondary.http-address
                master:9001
        
        
                dfs.namenode.name.dir
                file:/usr/local/src/hadoop-2.6.5/dfs/name
        
        
                dfs.datanode.data.dir
                file:/usr/local/src/hadoop-2.6.5/dfs/data
        
        
                dfs.replication
                2

[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml
[root@master hadoop]# vim mapred-site.xml


        mapreduce.framework.name
        yarn

vim yarn-site.xml


        yarn.nodemanager.aux-services
        mapreduce_shuffle


        yarn.nodemanager.aux-services.mapreduce.shuffle.class
        org.apache.hadoop.mapred.ShuffleHandler


        yarn.resourcemanager.address
        master:8032


        yarn.resourcemanager.scheduler.address
        master:8030


        yarn.resourcemanager.resource-tracker.address
        master:8035


        yarn.resourcemanager.admin.address
        master:8033


        yarn.resourcemanager.webapp.address
        master:8088



        yarn.nodemanager.vmem-check-enabled
        false

mkdir /usr/local/src/hadoop-2.6.5/tmp
mkdir -p /usr/local/src/hadoop-2.6.5/dfs/name
mkdir -p /usr/local/src/hadoop-2.6.5/dfs/data

拷贝文件安装包和环境变量到从节点上

scp -rp ~/.bashrc slave1:~/.bashrc
scp -rp ~/.bashrc slave2:~/.bashrc
scp -rp /usr/local/src/hadoop-2.6.5 slave1:/usr/local/src/
scp -rp /usr/local/src/hadoop-2.6.5 slave2:/usr/local/src/

更新环境变量
source ~/.bashrc
格式化hadoop
hadoop namenode –format
启动集群
start-all.sh

[root@master hadoop-2.6.5]# jps
3136 ResourceManager
2834 NameNode
2998 SecondaryNameNode
3319 Jps

[root@slave1 ~]# jps
2848 Jps
2608 DataNode
2701 NodeManager

监控页面
http://192.168.199.10:8088/
数据管理界面
http://192.168.199.10:50070/
安装zookeeper
tar zxf zookeeper-3.4.11.tar.gz
创建日志文件夹和数据文件夹
[root@master zookeeper-3.4.11]# mkdir data
[root@master zookeeper-3.4.11]# mkdir log
修改配置
[root@master zookeeper-3.4.11]# cd conf/
[root@master conf]# cp zoo_sample.cfg zoo.cfg
[root@master conf]# vim zoo.cfg

dataDir=/usr/local/src/zookeeper-3.4.11/data
dataLogDir=/usr/local/src/zookeeper-3.4.11/log
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

防止zookeeper.out在zookeeper同级目录
[root@master bin]# vim zkEnv.sh

54 if [ "x${ZOO_LOG_DIR}" = "x" ]
  5 then
 56     ZOO_LOG_DIR="/usr/local/src/zookeeper-3.4.11/log"
 57 fi
 58 
 59 if [ "x${ZOO_LOG4J_PROP}" = "x" ]
 60 then
 61     ZOO_LOG4J_PROP="INFO,ROLLINGFILE"

[root@master conf]# pwd
/usr/local/src/zookeeper-3.4.11/conf
[root@master conf]# vim log4j.properties 
  1 # Define some default values that can be overridden by system properties
  2 zookeeper.root.logger=INFO, ROLLINGFILE
  3 zookeeper.console.threshold=INFO

配置环境变量

vim ~/.bashrc
#zookeeper
export ZOOKEEPER_HOME=/usr/local/src/zookeeper-3.4.11
export PATH=$PATH:$ZOOKEEPER_HOME/bin

复制到各个从节点

scp -r ~/.bashrc slave1:~/.bashrc
scp -r ~/.bashrc slave1:~/.bashrc  
scp -rp /usr/local/src/zookeeper-3.4.11 slave1:/usr/local/src/
scp -rp /usr/local/src/zookeeper-3.4.11 slave2:/usr/local/src/

各个节点分别添加ID

Master
echo "1" > /usr/local/src/zookeeper-3.4.11/data/myid
slave1
echo "2" > /usr/local/src/zookeeper-3.4.11/data/myid
slave2
echo "3" > /usr/local/src/zookeeper-3.4.11/data/myid

zkServer.sh start 启动集群
zkServer.sh status 查看转态

也可以使用脚本启动和关闭
start-zks.sh

#!/bin/bash
HOSTNAME="master slave1 slave2"
ZOOKEEPER_HOME="/usr/local/src/zookeeper-3.4.11"
APP_NAME="zookeeper-3.4.11"



for i in $HOSTNAME
do
    echo "Starting ${APP_NAME} on ${i} "
    ssh ${i} "source ~/.bashrc; bash ${ZOOKEEPER_HOME}/bin/zkServer.sh start > /dev/null 2>&1 &"
    if [[ $? -ne 0 ]]; then
        echo "Starting ${APP_NAME} on ${i} is  ok"
    fi
done
echo All $APP_NAME are started
exit 0

stop-zks.sh

#!/bin/bash
HOSTNAME="master slave1 slave2"
ZOOKEEPER_HOME="/usr/local/src/zookeeper-3.4.11"
APP_NAME="zookeeper-3.4.11"



for i in $HOSTNAME
do
    echo "Stoping ${APP_NAME} on ${i} "
    ssh ${i} "source ~/.bashrc; bash ${ZOOKEEPER_HOME}/bin/zkServer.sh stop > /dev/null 2>&1 &"
    if [[ $? -ne 0 ]]; then
        echo "Starting ${APP_NAME} on ${i} is  ok"
    fi
done
echo All $APP_NAME are stoped
exit 0

安装hive

卸载mysql
	[root@master src]# rpm -qa | grep -i mysql
	[root@master src]# rpm -e --nodeps mysql-community-libs-5.6.43-2.el7.x86_64 
安装MySQL	
wget http://repo.mysql.com/mysql57-community-release-el7-8.noarch.rpm
yum -y install mysql-server
	service mysqld start  启动mysql
	[root@master log]# chkconfig --list | grep mysqld   查看是否开机启动
	mysqld          0:off   1:off   2:off   3:off   4:off   5:off   6:off
	[root@master log]# chkconfig mysqld on  	   设置开机启动
出现问题
[root@master mysql]# service mysqld start
MySQL Daemon failed to start.
Starting mysqld:                                           [FAILED]
查看监控日志
[root@master mysql]# tail -f /var/log/mysqld.log
190301  8:01:36 [ERROR] Fatal error: Can't open and lock privilege tables: Table 'mysql.host' doesn't exist

解决
[root@master mysql]# mysql_install_db –usrer=mysql datadir=/var/lib/mysql
[root@master mysql]# mysql_install_db
[root@master mysql]# /etc/init.d/mysqld restart
Stopping mysqld:                                           [  OK  ]
Starting mysqld:                                           [  OK  ]
启动成功
[root@master mysql]# mysql -uroot -p
Enter password:   回车
修改密码
mysql> set password for 'root'@'localhost'=password('123456');
Query OK, 0 rows affected (0.00 sec)
下载：wget http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz
解压：tar zxvf apache-hive-1.2.2-bin.tar.gz
[root@master conf]# mv apache-hive-1.2.2-bin hive-1.2.2
[root@master hive-1.2.2]# pwd
/usr/local/src/hive-1.2.2/conf
cp hive-env.sh.template hive-env.sh

vim hive-env.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_191
export HADOOP_HOME=/usr/local/src/hadoop-2.6.5
export HIVE_HOME=/usr/local/src/hive-1.2.2
export HIVE_CONF_DIR=/usr/local/src/hive-1.2.2/conf

[root@master conf]# vim hive-site.xml


        
                javax.jdo.option.ConnectionURL
                jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true&useSSL=false
        
        
                javax.jdo.option.ConnectionDriverName
                com.mysql.jdbc.Driver
        
        
                javax.jdo.option.ConnectionUserName
                root
        
        
                javax.jdo.option.ConnectionPassword
                123456
        
        
        
                hive.exec.scratchdir
                 /usr/local/src/hive-1.2.2/tmp
        
        
                hive.querylog.location
                 /usr/local/src/hive-1.2.2/log

改环境变量

#hive
export HIVE_HOME=/usr/local/src/hive-1.2.2
export PATH=$PATH:#HIVE_HOME/bin

[root@master conf]# vim hive-log4j.properties
找到hive.log.dir 改成：
hive.log.dir=/usr/local/src/hive-1.2.2/log
下面只写步骤，具体见hive的笔记
创建目录
[root@master hive-1.2.2]# mkdir log
[root@master hive-1.2.2]# mkdir tmp


连接mysql-connectxxx
wget https://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.46.tar.gz
[root@master src]# tar zxf mysql-connector-java-5.1.44.tar.gz
cd mysql-connector-java-5.1.44/
cp mysql-connector-java-5.1.44-bin.jar /usr/local/src/hive-1.2.2/lib/
[root@master src]# cd hadoop-2.6.5/share/hadoop/yarn/lib/
[root@master lib]# mv jline-0.9.94.jar jline-0.9.94.jar.old
[root@master src]# cp hive-1.2.2/lib/jline-2.12.jar hadoop-2.6.5/share/hadoop/yarn/lib/

此处经常会报错
建议;
进入mysql:
mysql>use mysql;
mysql>select user,password from user;
mysql> delete from user where 1=1;
mysql> GRANT ALL PRIVILEGES ON . TO ‘root’@’%’ IDENTIFIED BY ‘123456’ WITH GRANT OPTION;
mysql> flush privileges;
mysql>quit;
hive
安装成功

安装spark
tar zxf spark-2.0.2-bin-hadoop2.6.tgz
[root@master src]# mv spark-2.0.2-bin-hadoop2.6 spark-2.0.2
[root@master conf]# cp spark-env.sh.template spark-env.sh
[root@master conf]# vim spark-env.sh

export SCALA_HOME=/usr/local/src/scala-2.11.8
export JAVA_HOME=/usr/local/src/jdk1.8.0_191
export HADOOP_HOME=/usr/local/src/hadoop-2.6.5
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/src/spark-2.0.2
SPARK_DRIVER_MEMORY=1G

[root@master conf]# vim slaves
slave1
slave2

更改启动文件名，避免和hadoop冲突
[root@master sbin]# mv start-all.sh start-spark-all.sh
[root@master sbin]# mv stop-all.sh stop-spark-all.sh
拷贝
scp -r /usr/local/src/spark-2.0.2 slave1:/usr/local/src/
scp -r /usr/local/src/spark-2.0.2 slave2:/usr/local/src/
scp -r scala-2.11.8 slave1:/usr/local/src/
scp -r scala-2.11.8 slave2:/usr/local/src/
启动集群
[root@master src]# start-spark-all.sh
Master多个Master
Slave多个Worker
安装scala
tar –xzvf scala-2.11.8.tar.gz
配置环境变量
#scala
export SCALA_HOME=/usr/local/src/scala-2.11.8
export PATH= $P A T H :$ SCALA_HOME/bin
安装anaconda3
sh Anaconda3-4.4.0-Linux-x86_64.sh

安装完成后添加环境变量

切换py27，输入这条命令

[root@master bin]# conda create -n py27 python=2.7 -y -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

查看版本信息和切换python

conda info -e           # 查看Python版本信息 
source activate root     # 切换Python 3.6 
source activate py27     #切换py2.7

在~/.bashrc中加入默认启动Python 2.7的配置，并激活配置文件：

更新环境变量

[root@master bin]# source ~/.bashrc 
(py27) [root@master bin]#

安装TensorFlow

(py27) [root@master bin]# conda install -y -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ tensorflow=1.2

在Python 2.7环境下，numpy已经完成安装，不用单独在安装。
pip install numpy

安装kafka
1.下载Kafka安装包
2.上传安装包
3.解压
4.修改配置文件 config/server.properties、
找到以下的配置
host.name=master
log.dirs=/data/kafka
zookeeper.connect=master:2181,slave1:2181,slave2:2181
拷贝到其他节点
#Master
vim config/server.propertie
broker.id=0
#Slave1
vim config/server.propertie
broker.id=1
#Slave2
vim config/server.propertie
broker.id=2

启动：利用脚本启动

#!/bin/bash
HOSTNAME="master slave1 slave2"
KAFKA_HOME="/usr/local/src/kafka_2.11-0.10.2.1"
APP_NAME="kafka_2.11-0.10.2.1"



for i in $HOSTNAME
do
    echo "Starting ${APP_NAME} on ${i} "
    ssh ${i} "source ~/.bashrc; nohup sh ${KAFKA_HOME}/bin/kafka-server-start.sh ${KAFKA_HOME}/config/server.properties > /dev/null 2>&1 &"
    if [[ $? -ne 0 ]]; then
        echo "Starting ${APP_NAME} on ${i} is  ok"
    fi
done
echo All $APP_NAME are started
exit 0

关闭kafka

#!/bin/bash

HOSTNAME="master slave1 slave2"
KAFKA_HOME="/usr/local/src/kafka_2.11-0.10.2.1"
APP_NAME="kafka_2.11-0.10.2.1"


for i in $HOSTNAME
do
    echo "Stopping ${APP_NAME} on ${i} "
    ssh ${i} "source ~/.bashrc;bash ${KAFKA_HOME}/bin/kafka-server-stop.sh"
    if [[ $? -ne 0 ]]; then
        echo "Stopping ${APP_NAME} on ${i} is down"
    fi
done

echo All $APP_NAME are stopped
exit 0

后续更新

大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
Python自动化：Python操作Excel的多种方式Pandas+openpyxl+xlrd 长风清留扬 Python excel python pandas 自动化 Python办公自动化数据分析开发语言
在Python中，操作Excel数据通常可以通过几个流行的库来实现，比如pandas、openpyxl、xlrd等。下面会分别介绍这三个流行库来实现对Excel的操作。博客主页：长风清留扬-CSDN博客每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论推荐阅读：Python入门最全基础Python
高校为什么需要AIGC大数据实验室？泰迪智能科技01 AIGC AIGC 大数据
AIGC大数据实验室是一个专注于人工智能生成内容（AIGC）和大数据相关技术研究、开发与应用的创新实验平台。AIGC主要研究方向包括：AIGC技术创新、大数据处理与分析、AIGC与大数据融合应用。AIGC技术创新：探索如何利用人工智能算法，如深度学习中的生成对抗网络（GAN）、变分自编码器（VAE）、基于Transformer架构的语言模型（如GPT系列）等，来高效地生成高质量的文本、图像、音频、
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
Hbase集群搭建超详细教程笑看风云路集群搭建系列 hbase hbase hadoop 大数据
Hbase集群搭建前言详细步骤1、下载安装包2、解压3、修改配置文件3.1修改hbase-env.sh文件3.2修改hbase-site.xml3.3修改regionservers文件4、分发hbase目录5、启动HBase集群6、查看HBaseWebUI大家好，我是风云，欢迎大家关注我的博客，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！前言HBase是一个开源的、
魔法王国的故事——档案馆的危机健鑫. 数据仓库大数据 hadoop
❝这是一个连续的专栏,在这里,我将用一个奇幻的魔法王国的故事,来向你介绍大数据相关内容，希望在这里可以帮助你学到有用的知识第一章：档案馆的危机在一个遥远的魔法王国，有一个叫做档案馆的地方，那里存放着王国的所有重要的文件，比如法律、历史、魔法、地理等等。这些文件是王国的智慧之源，也是王国的秘密之宝，它们记录着王国的过去、现在和未来。档案馆由一位叫做档案大臣的人负责管理，他是王国最聪明也最忙碌的人之一
西安-腾讯云-Python面试经验--一面凉经 jiet07 腾讯云面试
自我介绍手撕链表排序操作系统a.线程和进程区别b.线程安全c.如何保证线程安全d.线程崩溃，会不会影响所在的进程e.什么是守护进程，僵尸进程，孤儿进程f.如何产生一个守护进程g.如何避免僵尸进程或者孤儿进程redisa.持久化方式有哪些，区别是什么b.redis集群有了解么c.rediszset()—底层如何实现（哈希表+跳跃表）和大数据相关的操作a.请求有多少，数据有多少b.Gbp/s负载均衡a
报表任务治理计划 liujianhuiouc
背景介绍近些年来，大数据技术得到了很广的应用，支撑了业务的快速发展。作为大数据的平台部门，提供了大数据相关的基础能力，业务同学借助于大数据的底层赋能完成更偏向业务的需求开发。报表是大数据支撑最早最广的功能形态。先给大家介绍我们我们公司的报表产出组件图：报表产出图底层平台由HDFS、Yarn分别提供存储和计算支持在这之上我们提供了一套支持MR、Spark任务开发、依赖执行的调度系统BI业务同学利用调
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
大数据从何学起？大数据脑图+学习路线清晰的告诉你！ yoku酱
近些年，大数据的火热可谓是技术人都知道啊，很多人呢，也想学习大数据相关，但是又不知道从何下手，所以今天柠檬这里分享几个大数据脑图，希望可以让你清楚明白从哪里入门大数据，知道该学习以及掌握哪些知识点；当然还有自学教程分享哦！【大数据开发学习资料领取方式】：加入大数据技术学习交流扣扣群458345782，点击加入群聊，私信管理员即可免费领取第一阶段linux+搜索+hadoop体系Linux基础→sh
想学大数据？先看完这几本书再说 yoku酱
真正的数据爱好者有很多需要阅读的内容：大数据，机器学习，数据科学，数据挖掘等。除了这些技术领域，还有一些特定的技术和语言需要你继续研究：Hadoop，Spark，Python，和R等等，还有无数实现自动化的工具等等，这些工具几乎每天都会用到，这就需要你不断的学习。幸运的是，以上提到的这些都不缺关于它们的书籍。本文首先帮大家盘点几本大数据相关的书籍，这些书都是亚马逊上的畅销排行榜上的：关于大数据1、
2019-03-07 bigtian
早七点半起床。今天写了大量代码，最近一周的编码状态越来越好，代码也写得越来越顺手，今天把我的数据服务写了一个客户端调用程序，感觉质量还是比较满意的。公司做数据，但是我一个架构师对大数据相关技术却了解很浅，实在是惭愧。以后需要大力加强这一块的技能。对同事要善良，今天同事工作不开心闹了情绪，我主动将活揽过来，做好之后再跟他解释一遍我的思路，感觉这样他会更容易理解也更好的成长，只要一个人是积极向上的，就
做大数据需要学习哪些东西啊 kuntoria
文章来源：科多大数据做大数据需要学习哪些东西啊，相信不少对大数据职位感兴趣的人都会有这样的疑问。科多大数据老师结合同学们的疑问，为大家整理了做大数据需要学习哪些东西，下面随着科多大数据老师一起来看看吧，希望可以帮助到大家。Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hi
大数据技术之Hadoop 我走之後大数据 hadoop 分布式
相关导论大数据相关导论首先我们要知道一切皆数据数据的作用从海量数据中提取出有效的价值信息,实现数据的商业化,价值化,给企业的决策者或者运营人员提供数据支持或者分析性报告.更好的了解事与物的运行规律,给生活赋能.什么是大数据数据的体量比较大,2000年全球互联的概念提出及普及后,数据量开始快速增长....数据单位:bit,byte,kb,mb,gb,tb,pb,eb,zb,yb,bb,nb,db大数
从 Greenplum 到 Databend，万全网络数据库平台架构演进 Databend 网络数据库架构
作者：代城万全网络高级工程师，负责万全网络数据平台整体架构研发工作，拥有超过7年的大数据相关技术研发经验，一直关注着开源和云技术的发展。万全网络科技有限公司是一家专注于B端电商物流供应链的公司。致力于为客户提供全面的供应链解决方案，涵盖从产品采购到最终配送的全程服务。公司的服务包括但不限于：供应链管理，仓储与配送，信息技术支持。迁移背景在不断发展的科技环境中，企业往往需要不断调整和优化其技术基础设
程序人生系列1-2021年通过私活累积收益1.5w 只是甲程序人生程序员接单私活留学生课程作业
博主在B站更新了接私活的视频，感兴趣的可以移步到我的B站:博主私活记录一.个人介绍 2011年毕业，计算机专业科班出身，10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验，持有OracleOCP和LinuxRHCE认证证书。毕业第一份工作很幸运的成为了一个OracleDBA，刚毕业就开始维护TB级的数据。在知道自身实力不足的情况下，报名培训机构，相继考了OracleO
面试整理 qq_20962187
数据分析/hadoop/机器学习面试题集锦，可能是最全的了…发表于：2017-09-2115:17阅读：178评论：0无论你是想从事大数据相关职位的职场小白，还是准备往高处走的牛牛。小白有了这些在校招中过关斩将，牛牛们温故知新跨过业务壁垒。B格高的HR，或者想要个助理的大数据工作者也可以了解下同行是怎么筛选人。非主流的可以拿来撩HR妹纸，折腾面试的小鲜肉…………………………数据分析1、提前想好答案
高校科研管理系统源代码_教育领域各大高校如何建设智慧校园？你的学校够数字化吗？... weixin_39714835 高校科研管理系统源代码
11月26日，作为数据分析&BI领域领导企业的永洪科技与知名高校东北财经大学数据科学与人工智能学院在北京举行了战略合作签约仪式，共建大数据教学、科研、管理模式顶层设计方案，服务智慧校园建设。双方以教学和科研为中心，以产业为导向，实现与大数据发展实际接轨的发展方向，共同服务高校大数据相关技术与应用的发展。这是永洪科技在教育领域校企合作的又一标杆案例。国务院印发的《促进大数据发展行动纲要》指出，要加强
python爬取可视化html_教你用Python爬网站数据，并用BI可视化分析！ weixin_39824834 python爬取可视化html
作为一名在数据行业打拼了两年多的数据分析师，虽然目前收入还算ok，但每每想起房价，男儿三十还未立，内心就不免彷徨不已~两年时间里曾经换过一份工作，一直都是从事大数据相关的行业。目前是一家企业的BI工程师，主要工作就是给业务部门出报表和业务分析报告。回想自己过去的工作成绩也还算是不错的，多次通过自己分析告，解决了业务的疑难杂症，领导们各种离不开。但安逸久了总会有点莫名的慌张，所以我所在的这个岗位未来
程序员必备的面试技巧——大数据工程师面试必备技能 Francek Chen 话题征文面试职场和发展大数据
目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位2、大数据分析岗位总结前言“程序员必备的面试技巧，就像是编写一段完美的代码一样重要。在面试战场上，我们需要像忍者一样灵活，像侦探一样聪明，还要像无敌铁金刚一样坚定。只有掌握了这些技巧，我们才能在面试
【个人笔记】由浅入深分析 ClickHouse garagong 大数据 clickhouse 数据库大数据列式存储分布式数据库分布式数据仓库
项目中不少地方使用到ClickHouse，就对它做了一个相对深入一点的了解和研究。并对各种知识点及整理过程中的一些理解心得进行了汇总并分享出来，希望对其他同学能有帮助。本文主要讲解ClickHouse的特点、读写过程、存储形式、索引、引擎、物化视图等特性。适合入门和进阶大牛可直接跳过。信息主要来自于互联网以及组内同学的讨论讲解。如有理解错误的地方，欢迎批评指正。大家想了解更多大数据相关内容请移驾我
一站式大数据平台XSailboat简介--Hadoop、Hive、Flink、DataStudio、数据服务、API网关、认证中心、数据可视化、离线分析、实时计算、应用引擎等 OkGogooXSailboat 大数据平台开发技术大数据
1.引言从2021年年底开始，笔者带领一个微型团队开始开发我们的大数据平台XSailboat，目前已经初步具备实用化条件，产品将持续性地开发、完善、迭代升级。在接下来的一段时间，笔者将陆续编写一些关于大数据平台实现相关的技术文档，有兴趣的从事大数据相关的同学，可以关注收藏一下，交流一下开发技术。如果对我们的大数据平台XSailboat感兴趣的同学比较多，希望将其应用于学习或商业项目中，我们可以在条
【个人笔记】ClickHouse 查询优化 garagong 大数据 clickhouse 大数据数据仓库 OLAP 分布式数据库 java
ClickHouse是OLAP（Onlineanalyticalprocessing）数据库，以速度见长。ClickHouse为什么能这么快？有两点原因：架构优越列式存储索引数据压缩向量化执行资源利用关注底层细节但是，数据库设计再优越也拯救不了错误的使用方式，本文以MergeTree引擎家族为例讲解如何对查询优化。大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据
mysql 解析json字符串、数组字符串、json数组字符串扫地增 sql mysql json 数据库
背景：笔者使用mysql5.7进行了一次json字符串的解析，因为一直在搞大数据相关的数据库、olap等，太久没有用mysql5.x的版本，一些函数已经不知道支不支持，我的同事建议我使用like、rlike模糊匹配的方式，身为数据人我不太喜欢用这种手段，因为他们比较低效。于是我想这里总结一下，做一下备忘，希望也对大家有帮助。json字符串解析MySQL解析JSON字符串，可以使用MySQL的JSO
Hadoop基础之初识大数据与Hadoop 林尧彬数据库操作系统大数据
前言从今天起，我将一步一步的分享大数据相关的知识，其实很多程序员感觉大数据很难学，其实并不是你想象的这样，只要自己想学，还有什么难得呢？学习Hadoop有一个8020原则，80%都是在不断的配置配置搭建集群，只有20%写程序！一、引言（大数据时代）1.1、从数据中得到信息我们看一张图片：我们知道这个图片上的人叫张小妹，年龄20岁，职业模特。但是如果只有数据没有图片的话，就没有意义的数据了。所以数据
Spark避坑系列（三）（Spark Core-RDD 依赖关系&持久化&共享变量） garagong 大数据 spark 大数据 hadoop 分布式数据处理
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模PySpark入坑系列第三篇，该篇章主要介绍spark的编程核心RDD的其他概念，依赖关系，持久化，广播变量，累加器等一、RDD依赖关系1、血缘关系（Lineage）在spark中，数据的处理和计算都是通过RDD的转换进行的。由于RDD是不可变的，在转换的过程中就会
Spark避坑系列一（基础知识） garagong 大数据 spark 大数据分布式
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台Spark作为大数据领域离线计算的王者，在分布式数据处理计算领域有着极高的处理效率，而Python作为Spark支持的开发的重要语言之一，特别对各类机器学习算法的支持，使得有着极高的使用率，本系列文章将通过介绍Spark的基础使用，带大伙入
Spark避坑系列二（Spark Core-RDD编程） garagong 大数据 spark 大数据分布式
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模PySpark避坑系列第二篇，该篇章主要介绍spark的编程核心RDD，RDD的概念，基础操作一、什么是RDD1.1概念RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面
个人笔记：分布式大数据技术原理（一）Hadoop 框架 garagong 大数据分布式大数据 mapreduce hadoop
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台ApacheHadoop软件库是一个框架，它允许使用简单的编程模型，实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障，从单个机器扩展到数千台机器（这些机器可以是廉价的），每个机器提供本地计算和存储，
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

大数据集群搭建

你可能感兴趣的:(大数据相关)