高风言

大数据之hadoop 环境搭建从零开始——WordCount词频计数入门实战训练

这里的前提是要先安装一个干净的CentOS系统，我这里用的是CentOS6.6，安装教程参考另一篇博客：https://blog.csdn.net/gaofengyan/article/details/85054337

hadoop 环境搭建

2.3 Hadoop 集群搭建

1. 安装hadoop

2. 格式化与启动

3. hdfs 命令

4. 安装eclipse

5.hdfs分布式 wordcount 单词计数作业测试

hadoop 环境搭建

注意下面Linux环境搭建和jdk安装的部分顺序，有提示（为了方便，少操作步骤，安装完jdk再克隆就少两次jdk安装）。

1. 概念

集群概念图：我们将项目A整体按照规划好的方式拆分多个模块到不同的服务器部署，这些服务器的网址是受到保护的，为了安全，不向外泄露。因此，客户为了访问到项目A的所有内容又不能分不同网址访问不同服务器上的内容，所以用一个虚拟的PC统一管理项目的发布地址，并做安全防护，用户就可以通过中间虚拟PC的链接访问整个内容。而所有的部署了项目服务器就形成一个集群。

1.1 理论
1）集群：指的是多台设备构成一个完整的应用，构成该应用的这些设备就构成了一个集群。
   2）Hadoop：只是集群中的一种，Hadoop集群本身也包含两种集群。
   Hadoop=hdfs + 运算框架。
       Hadoop的运算框架有两种：mapreduce（第一代运算框架）和yarn（第二代运算框架）
   3）hdfs：
   hdfs = hadoop dfs ; d->分布式，fs->filesystem(文件系统，物理存储)
   4）mapreduce
   hadoop第一代运算框架：hadoop的底层运算框架。
   5）yarn
   hadoop第二代运算框架：yarn 必须在第一代运算框架启动后才能使用。

1.2 术语
1）m/s
   m/s指的是master(主)/slave(从)结构，即主从结构
   一个管理者（master）多个工作者（slave）。master负责分配与派发任务，slave负责执行任务。
   在hadoop配置和命令中，主机是namenode，从机是datanode。

   2）公钥
   公钥是一对加密代码（MD5加密文件），A节点将A的公钥发送给其他设备后，A节点就能免密登陆其他设备。
   3）免密登陆
   集群节点之间通信不需要输入密码也能互相登陆发送信息。实现方式是通过公钥实现的。

2. Hadoop集群搭建
2.1 集群配置方案
以下是集群设备配置方案（这里我给的是一个示例，以三台设备来实战练习）：
   角色网络用户名用户名用户组 ip 子网掩码网关 DNS
master node1 hduser hadoop 192.168.3.55 255.255.255.0 192.168.3.1   192.168.3.1
   slave node2 hduser hadoop 192.168.3.56 255.255.255.0 192.168.3.1 192.168.3.1
   slave node3 hduser hadoop 192.168.3.57 255.255.255.0 192.168.3.1 192.168.3.1

2.2 Linux环境搭建
1）创建用户与用户组（root账号用户）
用户：hduser 用户组：hadoop

        [liang@localhost ~]$ su root
        密码：
        [root@localhost liang]$ groupadd hadoop
        [root@localhost liang]$ useradd -g hadoop hduser
        [root@localhost liang]$ passwd hduser
        更改用户 hduser 的密码 。
        新的 密码：
        无效的密码： 过于简单化/系统化
        无效的密码： 过于简单
        重新输入新的 密码：
        passwd： 所有的身份验证令牌已经成功更新。
        [root@localhost liang]#

2）修改网络用户名，所在网卡位置：（/etc/sysconfig/network）

        [root@localhost liang]$ cat   /etc/sysconfig/network
        NETWORKING=yes
        HOSTNAME=localhost.localdomain
        NTPSERVERARGS=iburst
        [root@localhost liang]$ vi  /etc/sysconfig/network

修改hostname 值为 node1

3）修改本地主机名（网络用户名）解析记录

为了更好学习使用集群，我们把Windows主机网络连接更改成静态绑定ip，使用局域网，这样我们可以访问外网，但外网不能访问内部，绑定ip如下：

   打开hosts配置文件
       $>vi /etc/hosts
在文件中增加如下内容：
       192.168.3.55 node1
       192.168.3.56 node2
       192.168.3.57 node3

   4）更改用户 hduser 拥有超级用户角色（ /etc/sudoers )

查看权限：$>ls -l /etc/sudoers -r--r----- 权限码是440
① 修改sudoers权限为可变编辑
$>chmod 777 /etc/sudoers
② 打开sudoers文件增加内容：
$>vi /etc/sudoers
③ 增加内容：

在root ALL=(ALL) ALL 下面增加 hduser ALL=(ALL) ALL
④ 增加完以上内容再将sudoers权限改回440，一定要改回去，不改回去整改系统都会崩掉不能用。
$>chmod 440 /etc/sudoers

   5）配置ip 子网掩码网关 dns

删除完后添加，新建：

更改连接名字，方法改为手动，添加自动分配的ip，子网掩码，网关，DNS服务器，更改好后应用，退出联网。

此时ip地址还没有更改：

解决方法：

6）jdk 安装 root账号（/usr/java）
   卸载已安装的jdk
       解压 tar
       配置环境变量
       生效配置文件
   ------------------------------------------------------------------jdk安装开始----------------------------------------------------------------------------
       A. jdk安装及配置
       1. yum卸载系统以有（默认安装）安装的jdk

$>yum list installed | grep java 查看系统内自带的Java-jdk程序

$>yum remove -y 程序名称
2. 获取jdk的 tar安装包 jdk-8u171-linux-x64.tar.gz 复制到Linux桌面

3. 创建目录 $>mkdir /usr/java
4. 将解压到 /usr/java 路径下
$>tar -zxvf /(补全路径）/ jdk-8u**.tar.gz -C /usr/java/

       B.jdk 配置环境变量（/etc/profile)
① 先打开vi /etc/profile
② 在文档最后追加内容：
       export JAVA_HOME=/usr/java/jdk1.8.0_171
       export PATH=$JAVA_HOME/bin:$PATH

       C.生效环境变量
       $>source /etc/profile
       D.测试
       $>java -version

安装成功！
------------------------------------------------------------jdk安装结束---------------------------------------------------------------------------

7）防火墙服务关闭（root）jdk安装完后再关闭
$>service iptables stop
$>chkconfig iptables off

--------------------------------------------------------以上是集群中的每一台都要的配置---------------------------------------------------------
8）克隆两台设备分别是 CentOS03 , CentOS04
   D:\xuexi\vm\v3
       D:\xuexi\vm\v4

克隆完启动虚拟机，账户名选择新建的用户名操作：

克隆完后，之前设置的终端快捷键和手动分配的ip，子网掩码，网关，DNS服务器都恢复了初始状态，需要重新设置：
克隆完后一定要再次检查并手动修改node1 node2 node3 的 IP 与网络用户名（如果连不上，先把外网断了，再连接Linux网络，ifconfig后网址更改后再连接外网即可）：

1. 克隆完后再检查网络连接：

这里手动更改跟上面的步骤一样：

更改完后重新连接网络，再检查一次：

2. 更改好网络配置后，进入克隆的虚拟机，将克隆的系统的用户名node1改为node2 / node3 记得要用该用户（hduser）的超级用户权限进入修改：

$>sudo vi /etc/sysconfig/network

3. 改完之后重启系统：$>sudo reboot

重复上面的操作将另一个克隆的和被克隆的也改过来。删除之前的用户liang：$>sudo userdel liang

9）集群设备之间免密码登陆（hduser账户操作）
a. 在node1上生成公钥
$>ssh-keygen -t rsa

   b. 将 node1 的公钥派发给 node2
   $>ssh-copy-id node2

   c. 将 node1 的公钥派发给 node3
   $>ssh-copy-id node3

   d. 将 node1 的公钥派发给 node1
   $>ssh-copy-id node1

   e. 将 node1 的公钥派发给 node1的localhost
   $>ssh-copy-id localhost

   f. 将 node1 的公钥派发给 node1的127.0.0.1
   $>ssh-copy-id 127.0.0.1

h. 测试：ssh node2 / node3..... exit退出

2.3 Hadoop 集群搭建

1. 安装hadoop

1.) 获取hadoop 的 tar安装包并解压（先只安装node1）
2.) 解压到 /home/hduser/下，解压后更改文件夹名为hadoop。

//解压到当前用户下
[hduser@node1 ~]$ tar -zxvf /home/hduser/hadoop-2.6.5.tar.gz  -C  /home/hduser/

3.) 解压完后更改包名：

//解压完后更改包名
[hduser@node1 ~]$ mv /home/hduser/hadoop-2.6.5/  /home/hduser/hadoop

4.) 以上步骤完成后我们获取hadoop主目录 /home/hduser/hadoop

[hduser@node1 ~]$ cd /home/hduser/hadoop/

5.）更改hadoop 配置文件（hadoop主目录/etc/hadoop/）其中的配置，在手动配置过程中千万不要有错，不然在格式化后就麻烦了，所有机子都会出问题，严重的就直接重装系统开始做。

进入hadoop主目录/etc/hadoop/ 后用 ll 查看目录：

5.1） hadoop-env.sh （hadoop hdfs运行环境文件）
更改配置文件中JAVA_HOME 如下：

[hduser@node1 hadoop]$ vi  etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_171

5.2） mapred-env.sh （hadoop mapreduce运算框架运行环境文件）

[hduser@node1 hadoop]$ vi  etc/hadoop/mapred-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_171

5.3） yarn-env.sh （hadoop yarn预算框架运行环境文件）

[hduser@node1 hadoop]$ vi  etc/hadoop/yarn-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_171

5.4） slaves （工作者节点信息）

[hduser@node1 hadoop]$ vi  etc/hadoop/slaves

修改工作者信息如下：
node2
node3

查看：

[hduser@node1 hadoop]$ cat  etc/hadoop/slaves
node2
node3

5.5） core-site.xml （hadoop核心配置文件）


	fs.defaultFS
	hdfs://node1:9000

fs,defaultFS:该属性配置的dfs的访问入口 hdfs:// 这是hdfs文件系统的访问协议


  hadoop.tmp.dir
  file:/home/hduser/hadoop/tmp

hadoop.tmp.dir:hadoop 本地临时文件夹 file:/ 是访问本地文件的协议格式

这里的tmp 文件需要后面手动创建
5.6） hsfs-site.xml （hdfs的配置文件）



	dfs.namenode.secordary.http-address
	node1:50090



	dfs.namenode.name.dir
	file:/home/hduser/hadoop/dfs/name



	dfs.datanode.data.dir
	file:/home/hduser/hadoop/dfs/data



	dfs.replication
	2



	dfs.webhdfs.enabled
	true

5.7） mapred-site.xml （mapreduce 配置文件）


	mapreduce.framework.name
	yarn

mapreduce.framework.name ：配置作业运算框架使用yarn框架
[hduser@node1 hadoop]$ cp ~/桌面/mapred-site.xml ~/hadoop/etc/hadoop/ （上面的这些配置文件信息，特别是第5.6.7.8个，要么全部手动输入完成，但必须要正确，不正确，后面格式化后就回报一连串的错误，所有机子都用不了，得重头开始做一遍；要么就是之前有的文件，拷贝到主机的桌面像我这样复制到相应文件即可；最简单的就是用 Xshell 工具在Windows直接复制到相应的目录下。）
5.8） yarn-site.xml （yarn配置文件）

[hduser@node1 hadoop]$ cp ~/桌面/yarn-site.xml ~/hadoop/etc/hadoop/

       创建以上第5.6步需要的三个文件：
       /home/hduser/hadoop/tmp
       /home/hduser/hadoop/dfs/name
       /home/hduser/hadoop/dfs/data

[hduser@node1 hadoop]$ mkdir  /home/hduser/hadoop/tmp
[hduser@node1 hadoop]$ mkdir -p  /home/hduser/hadoop/dfs/name
[hduser@node1 hadoop]$ mkdir   /home/hduser/hadoop/dfs/data

将node1 的 hadoop 文件夹复制到node2 与 node3 的 hduser 对应的文件夹下。

$> scp  -r  /home/hduser/hadoop  hduser@node2:/home/hduser/
$> scp  -r  /home/hduser/hadoop  hduser@node3:/home/hduser/

5.9）配置hadoop环境变量：

A. 先打开vi /etc/profile
在文档最后追加内容：

export HADOOP_HOME=/home/hduser/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

       B. 生效环境变量
       $>source /etc/profile
       C. 测试
       $>hadoop version

2. 格式化与启动

   1）格式化（只能格式化一次）
       利用hadoop主目录下的bin目录下的hadoop命令格式化
               $>hadoop namenode -format
               [hduser@node1 hadoop]$ bin/hadoop namenode -format

       2）启动（这里注意一下，hadoop非常脆弱，每次开关机都要用命令执行，并且先启动的后关闭原则）
       利用hadoop主目录下的sbin目录
               启动分布式文件系统
               $>sbin/start-dfs.sh
               启动运算框架
               $>sbin/start-yarn.sh

       3）关闭
       利用hadoop主目录下的sbin目录
               关闭运算框架
               $>sbin/stop-yarn.sh
               关闭分布式文件系统
               $>sbin/stop-dfs.sh
       4) 浏览器打开：http://node1:50070 web访问分布式系统

3. hdfs 命令

1）访问hdfs 根目录（/）
$>bin/hadoop dfs -ls

[hduser@node1 hadoop]$ bin/hadoop  dfs  -ls

2）在hdfs 新建目录 /test
$>bin/hadoop dfs -mkdir /test

[hduser@node1 hadoop]$ bin/hadoop  dfs  -mkdir  /test

创建后查看是否成功：

[hduser@node1 hadoop]$ bin/hadoop  dfs  -ls /

3）从本地上传文件a.txt到hdfs /test/下
$>bin/hadoop dfs -put ***/a.txt /test/

4）将hdfs /test/下a.txt 下载到本地桌面并命名为b.txt
$>bin/hadoop dfs -get /test/a.txt /home/hduser/hadoop/桌面/b.txt

[hduser@node1 hadoop]$ bin/hadoop dfs -get /test/a.txt  /home/hduser/桌面/b.txt

5）删除hdfs 上 /test 目录
$>bin/hadoop dfs -rmr /test

4. 安装eclipse

新下载 eclipse 需要安装插件，插件名如下：
   1*）这里因为提前准备好了，所以直接将eclipse.tar.gz包解压到 /usr/下（hduser用户操作，需要root用户修改 /usr/文件夹权限）
       更改权限：[root@node1 hadoop]# chmod 777 /usr/
           解压安装：[hduser@node1 hadoop]$ tar -zxvf ~/桌面/eclipse.tar.gz -C /usr/
           更改权限：[root@node1 hadoop]# chmod 755 /usr/
       1）这里为了权限统一并和上面的hadoop安装相同，就直接安装到/home/hduser/目录下这样就不用更改权限那么麻烦。
       解压安装：

[hduser@node1 ~]$ tar -zxvf ~/桌面/eclipse.tar.gz -C /home/hduser/

查看：

[hduser@node1 ~]$ ls
eclipse  hadoop  公共的  模板  视频  图片  文档  下载  音乐  桌面

   2） eclipse 需要hadoop-eclipse-plugin-2.6.4.jar 插件，将该插件复制到 eclipse/plugin/下（这里在安装之前的tar包已经插入了，这一步我这里就省掉了，没有的这里一定要加上去）。
       3）用命令启动eclipse eclipse目录/eclipse -clean
       切换目录：

[hduser@node1 ~]$ cd eclipse/

查看目录下文件（plugins）：

[hduser@node1 eclipse]$ ls
artifacts.xml  dropins  eclipse.ini  icon.xpm  plugins
configuration  eclipse  features     p2        readme

查看plugins/下是否有hadoop-eclipse-plugin-2.6.4.jar 插件：

[hduser@node1 eclipse]$ ls -l plugins/hadoop-eclipse-plugin-2.6.4.jar 
-rwxr--r--. 1 hduser hadoop 31494436 12月  8 18:04 plugins/hadoop-eclipse-plugin-2.6.4.jar

启动eclipse:

[hduser@node1 eclipse]$ ./eclipse  -clean

4）启动后改变显示视图：
windows -> show view -> project Explorer

       5）在命令启动的eclipse后，配置hadoop环境
       eclipse -> windows -> preference -> Hadoop mapreduce 右侧配置：hadoop installation direction: /home/hduser/hadoop

       6）打开mappreduce 选项卡
       eclipse -> windows ->show view -> others -> 搜索并打开 map/Reduce Tools

7）在新打开的map/Reduce 选项卡中右键点击 new Hadoop location 新增 map/Reduce Location ,弹出配置界面

       8）弹出的配置界面做以下配置：
       name: xxxx（例如：firsthadoop）取名字
           DFS:node1 9000
           map/Reduce:node1 9001

       8）保存
       9） eclipse 工作空间左侧project explore 选项卡中，点击 DFS Locations 能看到我们刚配置的分布式文件xxxx.
       10）点击xxxx 展开分布式文件系统目录结构

11）使用完后退出eclipse 但要记得关闭hadoop：

[hduser@node1 eclipse]$ /home/hduser/hadoop/sbin/stop-yarn.sh
[hduser@node1 eclipse]$ /home/hduser/hadoop/sbin/stop-dfs.sh

12）eclipse创建桌面快捷键右键桌面选择【创建启动器】：

找到安装的eclipse，比如我的是：hduser/eclipse ,点击进入：

5.hdfs分布式 wordcount 单词计数作业测试

1） node1 本地( /home/hduser/桌面 )创建1个 2个记事本 1.txt 2.txt

$>vi  /home/hduser/桌面/1.txt 增加以下内容：
       1.txt:
               this is a hadoop text .hadoop is a application .
               this is a example .
$>vi  /home/hduser/桌面/2.txt 增加以下内容：
               2.txt:
               java
               mysql
               hadoop
               mybatis
在分布式hdfs 创建两个文件夹 /input 和 /output

$>bin/hadoop  dfs  -mkdir /input

$>bin/hadoop  dfs  -mkdir /output

2）将node1 本地的1.txt , 2.txt 分别上传到 hdfs /input/下

$>bin/hadoop  dfs  -put  /home/hduser/桌面/1.txt  /input/
$>bin/hadoop  dfs  -put  /home/hduser/桌面/2.txt  /input/

3）在hdfs上新建一个文件夹 /output/ 用于存放计算的结果集。

           4）利用hadoop 自带样例jar 包执行单词计数器运算。
           自带样例：hadoop/share/hadoop/mapreduce/hadoop-mapreduce--examples-2.6.5.jar
               语法：hadoop jar hadoop-mapreduce--examples-2.6.5.jar wordcout 被运算的资源位置结果输出位置
               $>hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /input/* /output/wc1

[hduser@node1 ~]$ hadoop jar  hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input/*  /output/wc1 
19/01/07 14:55:28 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
19/01/07 14:55:29 INFO client.RMProxy: Connecting to ResourceManager at node1/192.168.3.55:8032
19/01/07 14:55:31 INFO input.FileInputFormat: Total input paths to process : 2
19/01/07 14:55:31 INFO mapreduce.JobSubmitter: number of splits:2
19/01/07 14:55:32 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1546823348160_0001
19/01/07 14:55:32 INFO impl.YarnClientImpl: Submitted application application_1546823348160_0001
19/01/07 14:55:33 INFO mapreduce.Job: The url to track the job: http://node1:8088/proxy/application_1546823348160_0001/
19/01/07 14:55:33 INFO mapreduce.Job: Running job: job_1546823348160_0001
19/01/07 14:55:45 INFO mapreduce.Job: Job job_1546823348160_0001 running in uber mode : false
19/01/07 14:55:45 INFO mapreduce.Job:  map 0% reduce 0%
19/01/07 14:56:01 INFO mapreduce.Job:  map 100% reduce 0%
19/01/07 14:56:12 INFO mapreduce.Job:  map 100% reduce 100%
19/01/07 14:56:13 INFO mapreduce.Job: Job job_1546823348160_0001 completed successfully
19/01/07 14:56:14 INFO mapreduce.Job: Counters: 49
	File System Counters
		FILE: Number of bytes read=162
		FILE: Number of bytes written=323858
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=283
		HDFS: Number of bytes written=95
		HDFS: Number of read operations=9
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=2
	Job Counters 
		Launched map tasks=2
		Launched reduce tasks=1
		Data-local map tasks=2
		Total time spent by all maps in occupied slots (ms)=27047
		Total time spent by all reduces in occupied slots (ms)=8817
		Total time spent by all map tasks (ms)=27047
		Total time spent by all reduce tasks (ms)=8817
		Total vcore-milliseconds taken by all map tasks=27047
		Total vcore-milliseconds taken by all reduce tasks=8817
		Total megabyte-milliseconds taken by all map tasks=27696128
		Total megabyte-milliseconds taken by all reduce tasks=9028608
	Map-Reduce Framework
		Map input records=6
		Map output records=19
		Map output bytes=171
		Map output materialized bytes=168
		Input split bytes=188
		Combine input records=19
		Combine output records=13
		Reduce input groups=12
		Reduce shuffle bytes=168
		Reduce input records=13
		Reduce output records=12
		Spilled Records=26
		Shuffled Maps =2
		Failed Shuffles=0
		Merged Map outputs=2
		GC time elapsed (ms)=431
		CPU time spent (ms)=2170
		Physical memory (bytes) snapshot=461422592
		Virtual memory (bytes) snapshot=6173335552
		Total committed heap usage (bytes)=256724992
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=95
	File Output Format Counters 
		Bytes Written=95

查看/output下面是否有wc1:

[hduser@node1 ~]$ hadoop fs  -ls  /output/
19/01/07 14:57:13 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
drwxr-xr-x   - hduser supergroup          0 2019-01-07 14:56 /output/wc1

查看/output/wc1/下面是否有文件:

[hduser@node1 ~]$ hadoop fs  -ls  /output/wc1
19/01/07 14:57:27 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 2 items
-rw-r--r--   2 hduser supergroup          0 2019-01-07 14:56 /output/wc1/_SUCCESS
-rw-r--r--   2 hduser supergroup         95 2019-01-07 14:56 /output/wc1/part-r-00000

查看两个文件的运算结果集：

[hduser@node1 ~]$ hadoop fs  -cat /output/wc1/*
19/01/07 14:58:26 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
.	2
.hadoop	1
a	3
application	1
example	1
hadoop	2
is	3
java	1
mybatis	1
mysql	1
text	1
this	2

           结果：
           this 2
                   is 3
                   hadoop 3

你可能感兴趣的:(大数据相关)

大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
Python自动化：Python操作Excel的多种方式Pandas+openpyxl+xlrd 长风清留扬 Python excel python pandas 自动化 Python办公自动化数据分析开发语言
在Python中，操作Excel数据通常可以通过几个流行的库来实现，比如pandas、openpyxl、xlrd等。下面会分别介绍这三个流行库来实现对Excel的操作。博客主页：长风清留扬-CSDN博客每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论推荐阅读：Python入门最全基础Python
高校为什么需要AIGC大数据实验室？泰迪智能科技01 AIGC AIGC 大数据
AIGC大数据实验室是一个专注于人工智能生成内容（AIGC）和大数据相关技术研究、开发与应用的创新实验平台。AIGC主要研究方向包括：AIGC技术创新、大数据处理与分析、AIGC与大数据融合应用。AIGC技术创新：探索如何利用人工智能算法，如深度学习中的生成对抗网络（GAN）、变分自编码器（VAE）、基于Transformer架构的语言模型（如GPT系列）等，来高效地生成高质量的文本、图像、音频、
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
Hbase集群搭建超详细教程笑看风云路集群搭建系列 hbase hbase hadoop 大数据
Hbase集群搭建前言详细步骤1、下载安装包2、解压3、修改配置文件3.1修改hbase-env.sh文件3.2修改hbase-site.xml3.3修改regionservers文件4、分发hbase目录5、启动HBase集群6、查看HBaseWebUI大家好，我是风云，欢迎大家关注我的博客，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！前言HBase是一个开源的、
魔法王国的故事——档案馆的危机健鑫. 数据仓库大数据 hadoop
❝这是一个连续的专栏,在这里,我将用一个奇幻的魔法王国的故事,来向你介绍大数据相关内容，希望在这里可以帮助你学到有用的知识第一章：档案馆的危机在一个遥远的魔法王国，有一个叫做档案馆的地方，那里存放着王国的所有重要的文件，比如法律、历史、魔法、地理等等。这些文件是王国的智慧之源，也是王国的秘密之宝，它们记录着王国的过去、现在和未来。档案馆由一位叫做档案大臣的人负责管理，他是王国最聪明也最忙碌的人之一
西安-腾讯云-Python面试经验--一面凉经 jiet07 腾讯云面试
自我介绍手撕链表排序操作系统a.线程和进程区别b.线程安全c.如何保证线程安全d.线程崩溃，会不会影响所在的进程e.什么是守护进程，僵尸进程，孤儿进程f.如何产生一个守护进程g.如何避免僵尸进程或者孤儿进程redisa.持久化方式有哪些，区别是什么b.redis集群有了解么c.rediszset()—底层如何实现（哈希表+跳跃表）和大数据相关的操作a.请求有多少，数据有多少b.Gbp/s负载均衡a
报表任务治理计划 liujianhuiouc
背景介绍近些年来，大数据技术得到了很广的应用，支撑了业务的快速发展。作为大数据的平台部门，提供了大数据相关的基础能力，业务同学借助于大数据的底层赋能完成更偏向业务的需求开发。报表是大数据支撑最早最广的功能形态。先给大家介绍我们我们公司的报表产出组件图：报表产出图底层平台由HDFS、Yarn分别提供存储和计算支持在这之上我们提供了一套支持MR、Spark任务开发、依赖执行的调度系统BI业务同学利用调
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
大数据从何学起？大数据脑图+学习路线清晰的告诉你！ yoku酱
近些年，大数据的火热可谓是技术人都知道啊，很多人呢，也想学习大数据相关，但是又不知道从何下手，所以今天柠檬这里分享几个大数据脑图，希望可以让你清楚明白从哪里入门大数据，知道该学习以及掌握哪些知识点；当然还有自学教程分享哦！【大数据开发学习资料领取方式】：加入大数据技术学习交流扣扣群458345782，点击加入群聊，私信管理员即可免费领取第一阶段linux+搜索+hadoop体系Linux基础→sh
想学大数据？先看完这几本书再说 yoku酱
真正的数据爱好者有很多需要阅读的内容：大数据，机器学习，数据科学，数据挖掘等。除了这些技术领域，还有一些特定的技术和语言需要你继续研究：Hadoop，Spark，Python，和R等等，还有无数实现自动化的工具等等，这些工具几乎每天都会用到，这就需要你不断的学习。幸运的是，以上提到的这些都不缺关于它们的书籍。本文首先帮大家盘点几本大数据相关的书籍，这些书都是亚马逊上的畅销排行榜上的：关于大数据1、
2019-03-07 bigtian
早七点半起床。今天写了大量代码，最近一周的编码状态越来越好，代码也写得越来越顺手，今天把我的数据服务写了一个客户端调用程序，感觉质量还是比较满意的。公司做数据，但是我一个架构师对大数据相关技术却了解很浅，实在是惭愧。以后需要大力加强这一块的技能。对同事要善良，今天同事工作不开心闹了情绪，我主动将活揽过来，做好之后再跟他解释一遍我的思路，感觉这样他会更容易理解也更好的成长，只要一个人是积极向上的，就
做大数据需要学习哪些东西啊 kuntoria
文章来源：科多大数据做大数据需要学习哪些东西啊，相信不少对大数据职位感兴趣的人都会有这样的疑问。科多大数据老师结合同学们的疑问，为大家整理了做大数据需要学习哪些东西，下面随着科多大数据老师一起来看看吧，希望可以帮助到大家。Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hi
大数据技术之Hadoop 我走之後大数据 hadoop 分布式
相关导论大数据相关导论首先我们要知道一切皆数据数据的作用从海量数据中提取出有效的价值信息,实现数据的商业化,价值化,给企业的决策者或者运营人员提供数据支持或者分析性报告.更好的了解事与物的运行规律,给生活赋能.什么是大数据数据的体量比较大,2000年全球互联的概念提出及普及后,数据量开始快速增长....数据单位:bit,byte,kb,mb,gb,tb,pb,eb,zb,yb,bb,nb,db大数
从 Greenplum 到 Databend，万全网络数据库平台架构演进 Databend 网络数据库架构
作者：代城万全网络高级工程师，负责万全网络数据平台整体架构研发工作，拥有超过7年的大数据相关技术研发经验，一直关注着开源和云技术的发展。万全网络科技有限公司是一家专注于B端电商物流供应链的公司。致力于为客户提供全面的供应链解决方案，涵盖从产品采购到最终配送的全程服务。公司的服务包括但不限于：供应链管理，仓储与配送，信息技术支持。迁移背景在不断发展的科技环境中，企业往往需要不断调整和优化其技术基础设
程序人生系列1-2021年通过私活累积收益1.5w 只是甲程序人生程序员接单私活留学生课程作业
博主在B站更新了接私活的视频，感兴趣的可以移步到我的B站:博主私活记录一.个人介绍 2011年毕业，计算机专业科班出身，10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验，持有OracleOCP和LinuxRHCE认证证书。毕业第一份工作很幸运的成为了一个OracleDBA，刚毕业就开始维护TB级的数据。在知道自身实力不足的情况下，报名培训机构，相继考了OracleO
面试整理 qq_20962187
数据分析/hadoop/机器学习面试题集锦，可能是最全的了…发表于：2017-09-2115:17阅读：178评论：0无论你是想从事大数据相关职位的职场小白，还是准备往高处走的牛牛。小白有了这些在校招中过关斩将，牛牛们温故知新跨过业务壁垒。B格高的HR，或者想要个助理的大数据工作者也可以了解下同行是怎么筛选人。非主流的可以拿来撩HR妹纸，折腾面试的小鲜肉…………………………数据分析1、提前想好答案
高校科研管理系统源代码_教育领域各大高校如何建设智慧校园？你的学校够数字化吗？... weixin_39714835 高校科研管理系统源代码
11月26日，作为数据分析&BI领域领导企业的永洪科技与知名高校东北财经大学数据科学与人工智能学院在北京举行了战略合作签约仪式，共建大数据教学、科研、管理模式顶层设计方案，服务智慧校园建设。双方以教学和科研为中心，以产业为导向，实现与大数据发展实际接轨的发展方向，共同服务高校大数据相关技术与应用的发展。这是永洪科技在教育领域校企合作的又一标杆案例。国务院印发的《促进大数据发展行动纲要》指出，要加强
python爬取可视化html_教你用Python爬网站数据，并用BI可视化分析！ weixin_39824834 python爬取可视化html
作为一名在数据行业打拼了两年多的数据分析师，虽然目前收入还算ok，但每每想起房价，男儿三十还未立，内心就不免彷徨不已~两年时间里曾经换过一份工作，一直都是从事大数据相关的行业。目前是一家企业的BI工程师，主要工作就是给业务部门出报表和业务分析报告。回想自己过去的工作成绩也还算是不错的，多次通过自己分析告，解决了业务的疑难杂症，领导们各种离不开。但安逸久了总会有点莫名的慌张，所以我所在的这个岗位未来
程序员必备的面试技巧——大数据工程师面试必备技能 Francek Chen 话题征文面试职场和发展大数据
目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位2、大数据分析岗位总结前言“程序员必备的面试技巧，就像是编写一段完美的代码一样重要。在面试战场上，我们需要像忍者一样灵活，像侦探一样聪明，还要像无敌铁金刚一样坚定。只有掌握了这些技巧，我们才能在面试
【个人笔记】由浅入深分析 ClickHouse garagong 大数据 clickhouse 数据库大数据列式存储分布式数据库分布式数据仓库
项目中不少地方使用到ClickHouse，就对它做了一个相对深入一点的了解和研究。并对各种知识点及整理过程中的一些理解心得进行了汇总并分享出来，希望对其他同学能有帮助。本文主要讲解ClickHouse的特点、读写过程、存储形式、索引、引擎、物化视图等特性。适合入门和进阶大牛可直接跳过。信息主要来自于互联网以及组内同学的讨论讲解。如有理解错误的地方，欢迎批评指正。大家想了解更多大数据相关内容请移驾我
一站式大数据平台XSailboat简介--Hadoop、Hive、Flink、DataStudio、数据服务、API网关、认证中心、数据可视化、离线分析、实时计算、应用引擎等 OkGogooXSailboat 大数据平台开发技术大数据
1.引言从2021年年底开始，笔者带领一个微型团队开始开发我们的大数据平台XSailboat，目前已经初步具备实用化条件，产品将持续性地开发、完善、迭代升级。在接下来的一段时间，笔者将陆续编写一些关于大数据平台实现相关的技术文档，有兴趣的从事大数据相关的同学，可以关注收藏一下，交流一下开发技术。如果对我们的大数据平台XSailboat感兴趣的同学比较多，希望将其应用于学习或商业项目中，我们可以在条
【个人笔记】ClickHouse 查询优化 garagong 大数据 clickhouse 大数据数据仓库 OLAP 分布式数据库 java
ClickHouse是OLAP（Onlineanalyticalprocessing）数据库，以速度见长。ClickHouse为什么能这么快？有两点原因：架构优越列式存储索引数据压缩向量化执行资源利用关注底层细节但是，数据库设计再优越也拯救不了错误的使用方式，本文以MergeTree引擎家族为例讲解如何对查询优化。大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据
mysql 解析json字符串、数组字符串、json数组字符串扫地增 sql mysql json 数据库
背景：笔者使用mysql5.7进行了一次json字符串的解析，因为一直在搞大数据相关的数据库、olap等，太久没有用mysql5.x的版本，一些函数已经不知道支不支持，我的同事建议我使用like、rlike模糊匹配的方式，身为数据人我不太喜欢用这种手段，因为他们比较低效。于是我想这里总结一下，做一下备忘，希望也对大家有帮助。json字符串解析MySQL解析JSON字符串，可以使用MySQL的JSO
Hadoop基础之初识大数据与Hadoop 林尧彬数据库操作系统大数据
前言从今天起，我将一步一步的分享大数据相关的知识，其实很多程序员感觉大数据很难学，其实并不是你想象的这样，只要自己想学，还有什么难得呢？学习Hadoop有一个8020原则，80%都是在不断的配置配置搭建集群，只有20%写程序！一、引言（大数据时代）1.1、从数据中得到信息我们看一张图片：我们知道这个图片上的人叫张小妹，年龄20岁，职业模特。但是如果只有数据没有图片的话，就没有意义的数据了。所以数据
Spark避坑系列（三）（Spark Core-RDD 依赖关系&持久化&共享变量） garagong 大数据 spark 大数据 hadoop 分布式数据处理
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模PySpark入坑系列第三篇，该篇章主要介绍spark的编程核心RDD的其他概念，依赖关系，持久化，广播变量，累加器等一、RDD依赖关系1、血缘关系（Lineage）在spark中，数据的处理和计算都是通过RDD的转换进行的。由于RDD是不可变的，在转换的过程中就会
Spark避坑系列一（基础知识） garagong 大数据 spark 大数据分布式
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台Spark作为大数据领域离线计算的王者，在分布式数据处理计算领域有着极高的处理效率，而Python作为Spark支持的开发的重要语言之一，特别对各类机器学习算法的支持，使得有着极高的使用率，本系列文章将通过介绍Spark的基础使用，带大伙入
Spark避坑系列二（Spark Core-RDD编程） garagong 大数据 spark 大数据分布式
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模PySpark避坑系列第二篇，该篇章主要介绍spark的编程核心RDD，RDD的概念，基础操作一、什么是RDD1.1概念RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面
个人笔记：分布式大数据技术原理（一）Hadoop 框架 garagong 大数据分布式大数据 mapreduce hadoop
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台ApacheHadoop软件库是一个框架，它允许使用简单的编程模型，实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障，从单个机器扩展到数千台机器（这些机器可以是廉价的），每个机器提供本地计算和存储，
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

大数据之hadoop 环境搭建从零开始——WordCount词频计数入门实战训练

hadoop 环境搭建

2.3 Hadoop 集群搭建

1. 安装hadoop

2. 格式化与启动

3. hdfs 命令

4. 安装eclipse

5.hdfs分布式 wordcount 单词计数作业 测试

你可能感兴趣的:(大数据相关)

5.hdfs分布式 wordcount 单词计数作业测试