M_SIGNALs

Spark-2.0.1 安装及 WordCount (详细图文)

开”怼“…

1 安装 scala

这次我是安装到了 /usr/local/share 目录下：

1.1 解压

[root@master share]# pwd
/usr/local/share
[root@master share]# tar -zxvf scala-2.11.8.tgz
...

[root@master share]# ll
total 28028
drwxr-xr-x.  2 root root     4096 Sep 20 04:54 applications
drwxr-xr-x.  2 root root     4096 Sep 23  2011 info
drwxr-xr-x. 21 root root     4096 Sep 20 04:49 man
drwxrwxr-x   6 1001 1001     4096 Mar  4  2016 scala-2.11.8
-rw-r--r--   1 root root 28678231 Nov 18 09:14 scala-2.11.8.tgz
[root@master share]# mv scala-2.11.8 scala
[root@master share]#

1.2 配置环境变量

[root@master share]# vi /etc/profile

[root@master share]# source /etc/profile

1.3 使用 scala -version 验证

[root@master share]# scala -version
Scala code runner version 2.11.8 -- Copyright 2002-2016, LAMP/EPFL
[root@master share]#

当出现这样的信息的时候就表示我们的 scala 安装成功了。
发送到其他节点上就可以了…

2 安装 spark

2.1 解压，配置环境变量…

快速飘过…

[root@master hadoop]# pwd
/usr/hadoop
[root@master hadoop]# tar -zxvf spark-2.0.1-bin-hadoop2.6.tgz

...
[root@master hadoop]# mv spark-2.0.1-bin-hadoop2.6.tgz spark-2.0.1
[root@master hadoop]# vi /etc/profile
[root@master hadoop]# source /etc/profile

2.2 修改 spark 配置

进入到 conf 目录

2.2.1 修改 spark-env.sh

[root@master conf]# pwd
/usr/hadoop/spark-2.0.1/conf

[root@master conf]# cp spark-env.sh.template spark-env.sh
[root@master conf]# vi spark-env.sh

在 spark-env.sh 中添加

# scala的安装目录
export SCALA_HOME=/usr/local/share/scala

# java的安装目录
export JAVA_HOME=/usr/java/jdk1.8.0_91

# 每个worker默认分配的 内存.
 # - SPARK_WORKER_MEMORY, to set how much total memory workers have to give executors (e.g. 1000m, 2g)
export SPARK_WORKER_MEMORY=1G

# hadoop的配置文件目录
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.6.4/etc/hadoop

2.2.1 修改 slaves

[root@master conf]# pwd
/usr/hadoop/spark-2.0.1/conf

[root@master conf]# cp slaves.template slaves
[root@master conf]# vi slaves

在 slaves 中如下修改：

2.2.3 修改 log4j.properties

[root@master conf]# pwd
/usr/hadoop/spark-2.0.1/conf

[root@master conf]# cp log4j.properties.template log4j.properties

2.2.4 发送到集群中其他节点

我就三台虚拟机，一直以来都是…

[root@master hadoop]# scp -r spark-2.0.1 root@slave1:/usr/hadoop/
...
[root@master hadoop]# scp -r spark-2.0.1 root@slave2:/usr/hadoop/
...
[root@master hadoop]# scp /etc/profile root@slave1:/etc/
...
[root@master hadoop]# scp /etc/profile root@slave2:/etc/
...

[root@master hadoop]# ssh slave1 'source /etc/profile'
[root@master hadoop]# ssh slave2 'source /etc/profile'

3 启动 spark

进入到 spark 的 sbin 目录：

[root@master sbin]# pwd
/usr/hadoop/spark-2.0.1/sbin

[root@master sbin]# ll
total 92
-rwxr-xr-x 1 root root 2803 Sep 29 08:04 slaves.sh
-rwxr-xr-x 1 root root 1429 Sep 29 08:04 spark-config.sh
-rwxr-xr-x 1 root root 5427 Sep 29 08:04 spark-daemon.sh
-rwxr-xr-x 1 root root 1262 Sep 29 08:04 spark-daemons.sh
-rwxr-xr-x 1 root root 1190 Sep 29 08:04 start-all.sh
-rwxr-xr-x 1 root root 1272 Sep 29 08:04 start-history-server.sh
-rwxr-xr-x 1 root root 1916 Sep 29 08:04 start-master.sh
-rwxr-xr-x 1 root root 1733 Sep 29 08:04 start-mesos-dispatcher.sh
-rwxr-xr-x 1 root root 1423 Sep 29 08:04 start-mesos-shuffle-service.sh
-rwxr-xr-x 1 root root 1279 Sep 29 08:04 start-shuffle-service.sh
-rwxr-xr-x 1 root root 3151 Sep 29 08:04 start-slave.sh
-rwxr-xr-x 1 root root 1395 Sep 29 08:04 start-slaves.sh
-rwxr-xr-x 1 root root 1824 Sep 29 08:04 start-thriftserver.sh
-rwxr-xr-x 1 root root 1478 Sep 29 08:04 stop-all.sh
-rwxr-xr-x 1 root root 1056 Sep 29 08:04 stop-history-server.sh
-rwxr-xr-x 1 root root 1080 Sep 29 08:04 stop-master.sh
-rwxr-xr-x 1 root root 1227 Sep 29 08:04 stop-mesos-dispatcher.sh
-rwxr-xr-x 1 root root 1084 Sep 29 08:04 stop-mesos-shuffle-service.sh
-rwxr-xr-x 1 root root 1067 Sep 29 08:04 stop-shuffle-service.sh
-rwxr-xr-x 1 root root 1557 Sep 29 08:04 stop-slave.sh
-rwxr-xr-x 1 root root 1064 Sep 29 08:04 stop-slaves.sh
-rwxr-xr-x 1 root root 1066 Sep 29 08:04 stop-thriftserver.sh
[root@master sbin]#

使用 start-all.sh 脚本来启动，等一下，有没有觉得很熟悉。这个脚本跟启动 hadoop 集群的脚本重名了。所以我们启动的时候，最好还是指定一下：

[root@master sbin]# ./start-all.sh
...

然后我们使用 jps 命令查看一下 java 进程：

[root@master sbin]# jps
2496 Worker
2593 Master
3798 Jps
[root@master sbin]#

这节点上有一个 master 一个 worker 进程，在集群中的两个子节点会有一个 worker 进程。

当然，这还没有实现 HA 机制，其实实现 HA 也是借助 zookeeper 集群，原理我就不说了，我也不是什么理论派，怕讲不清楚耽误了大家。
我们只需要在 spark-env.sh 文件中添加一行内容就可以了：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zook
eeper.dir=/usr/hadoop/spark-2.0.1/zookeeperDir"

这样看着有点不清不楚的，我给换个格式：

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181

-Dspark.deploy.zookeeper.dir=/usr/hadoop/spark-2.0.1/zookeeperDir

就是这三个参数，只要修改为你们自己安装的 zookeeper 集群的位置就行，zookeeper.dir 是在 zookeeper 集群中的目录…呃，解释不清楚了。等下我们启动了 zk 集群看一下。
然后就是把 spark-env.sh 文件发送到集群中其他节点上的相应位置，重新启动即可。不过，需要先启动 zookeeper 集群。

这个时候我们到 slave1 节点上，手动启动一个 master ，还是进入到 spark 的 sbin 目录，使用 start-master.sh 脚本：

[root@slave1 sbin]# pwd
/usr/hadoop/spark-2.0.1/sbin

[root@slave1 sbin]# ./start-master.sh

哦，对了，我们启动 spark 之后可以通过 webUI 来查看一些状态信息：
通过浏览器访问：”http://master:8080”

我们此时集群中是有两个 master 进程的，我们可以 kill 掉主节点上的 master 进程，然后访问：”http://slave1:8080” ，我们会发现这个时候：

spark master 任然是 standby 状态，但是”http://master:8080“是已经不能访问。稍等一会儿，让zookeeper 选举一会儿（其实是让子弹飞一会儿…），然后我们再刷新”http://slave1:8080“就会发现，状态已经切换成 running 了。

4.运行 wordcount

既然我们的 spark 集群已经安装成功，并且正常启动了。那么我们就来体验一下它是怎么”Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.“
这个是官网上写的，可不是我说的。

4.1 准备工作

我们在Linux上任意一个目录下准备一个文件，写上一部分测试用的单词即可：

[root@master ~]# pwd
/root

[root@master ~]# vi WordCount.txt
Hello World Hello Scala Spark
Hello World Hello Scala Spark
Slave master zookeeper
Slave master zookeeper
Hello World Hello Scala Spark
Slave master zookeeper
Hello World Hello Scala Spark
Slave master zookeeper

"WordCount.txt" 8L, 212C written
[root@master ~] #

4.2 启动 spark 客户端

我们暂时可以通过 spark-shell 来访问 spark集群。

[root@master spark-2.0.1]# spark-shell 

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel).
16/11/24 15:59:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/11/24 15:59:15 WARN SparkContext: Use an existing SparkContext, some configuration may not take effect.
Spark context Web UI available at http://192.168.38.129:4040
Spark context available as 'sc' (master = local[*], app id = local-1479974354326).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.0.1
      /_/

Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_91)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

第一感觉就是：好”帅“呀… * o *
好了，被帅过去之后…

4.3 WordCount 走起

...

# 加载本地的WordCount.txt文件
scala> val file = sc.textFile("file:///root/WordCount.txt")  
file: org.apache.spark.rdd.RDD[String] = file:///root/WordCount.txt MapPartitionsRDD[1] at textFile at :24

# 按照空格划分
scala> val words = file.flatMap(_.split(" "))
words: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at flatMap at :26

# 将划分出来的 words 映射成为 (word,1) 即 MapReduce 的 map 部分
scala> val kv = words.map((_,1))
kv: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[3] at map at :28

# 按照 key 累加 value 即 MapReduce 的 reduce 部分
scala> val result = kv.reduceByKey(_+_)
result: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at :30

# 输出结果
scala> result.foreach(println _)
(Spark,4)
(Hello,8)
(Slave,4)
(master,4)
(zookeeper,4)
(World,4)
(Scala,4)

# 保存为本地文件
scala> result.saveAsTextFile("file:///root/Spark.wordcount.out")

scala>

经过上面一部分你可能不怎么清楚的过程之后，我们的 wordcount 程序就跑完了。我们还将结果输出到了本地，我们可以按照那个路径去看一下：

[root@master ~]# pwd
/root

[root@master ~]# ll Spark.wordcount.out
total 4
-rw-r--r-- 1 root root 75 Nov 24 18:58 part-00000
-rw-r--r-- 1 root root  0 Nov 24 18:58 _SUCCESS
[root@master ~]#

是不是感觉这样的目录结构好熟悉，跟 mapreduce 的输出目录是一样。我们可以看一下 part-00000 这个文件到底有没有保存我们的结果：

跟我们在 spark-shell 中看到一样，而且你在这个过程中你会明显发现，这个运行起来要比我们的 mapreduce 程序确实快很多，而且最重要的是，只需要几行就完成了。其实这个还可以再简单一点：

这个是我之前写的，要比这个更加简略一些。

文章到此就结束了，看官方文档去吧！

你可能感兴趣的:(BigData)

Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
echarts象形渐变柱状图星星跌入梦境* echarts angular.js 前端
一、效果图如下：二、代码如下（1）父组件importitemfrom'../bigdata/components/item.vue'exportdefault{components:{item}}.page-con{width:100%;height:100%;.main-con{width:35%;height:33%;}}（2）子组件importechartsfrom"echarts";exp
大数据（Big Data）：探索信息时代的海量数据世界 hong161688 大数据
大数据（BigData）：探索信息时代的海量数据世界一、大数据的定义与特点大数据（BigData），或称巨量资料，是指那些在传统数据处理应用软件无法有效捕捉、管理和处理的数据集合。这些数据集通常具有海量、高增长率和多样化的特点，需要新的处理模式才能赋予其更强的决策力、洞察发现力和流程优化能力。大数据的“大”不仅体现在数据量的规模上，更在于其处理难度和复杂性，以及对信息提取和价值挖掘的需求。大数据的
Ingest Pipeline & Painless Script 折纸虚桐 ES学习笔记 elasticsearch
DELETEtech_blogs#Blog数据，包含3个字段，tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop,elasticsearch,spark","content":"Youknow,forbigdata"}#测试splittagsPOST_ingest/pipeline/_sim
HIVE 数据模型 HFDYCYY 大数据
体系结构：元数据/HQL的执行安装：嵌入/远程/本地管理：CLI/web界面/远程服务数据类型：基本/复杂/时间数据模型：数据存储/内部表/分区表/外部表/桶表/视图WEB管理工具：http://tdxy-bigdata-04:8889/notebook/editor?type=hive集群状态管理：http://tdxy-bigdata-03:7180/cmf/home基于HDFS没有专门的数据
山东大学大数据管理与分析知识点总结 weixin_51565263 云计算大数据 mapreduce 数据仓库
大数据概述大数据(bigdata)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理大数据四个本质特征大量化（volume），快速化（velocity），多样化（variety），价值化（value）；四个VVolume—数量大：数据每两年就增长一倍（大数据摩尔
大数据-Big Data Dingdangr big data
大数据（BigData）是指规模庞大、多样化、高速度的数据集合。与传统数据相比，大数据具有一些显著的特点，并广泛应用于各个领域。以下是对大数据的详细解释：一、大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。二、大数据的主要特点数据量巨大（Volume）：大数据最
BigData学习日记 wsuan
做一个简单的开篇说明从今天开始，每天定时更新当天所学知识，进行知识总结的同时进行一下日子的计算，也算为自己加油。
pyflink1.18.0 报错 TypeError: cannot pickle ‘_thread.lock‘ object Thomas2143 总结 pyflink
完整报错Traceback(mostrecentcalllast):File"/Users//1.py",line851,inds1=my_datastream.key_by(lambdax:x[0]).process(MyProcessFunction())#返回元组即:f0f1f2三列File"/Users/thomas990p/bigdataSoft/minicondaarm/minicon
扩展学习|大数据，新的认识论和范式转变封印师请假去地球钓鱼计算机辅助信息分析主题扩展阅读大数据科研范式转变
文献来源：[1]KitchinR.BigData,NewEpistemologiesandParadigmShift[J].BigData&Society,2014,1(1):1-12.DOI:10.1177/2053951714528481.下载链接：https://pan.baidu.com/s/1RdnIo5VeL-CERk2sxyILiQ提取码：0ih2一、科学研究的范式转变正如库恩(19
阿里云计算平台大数据基础工程技术团队直聘！！！大数据
大数据基础工程技术团队，隶属于阿里云智能集团计算平台事业部，是一支负责阿里集团、公共云和混合云场景计算平台大数据&AI产品的稳定性建设、架构&成本优化、运维产品ABM（ApsaraBigdataManager）研发和售后技术专家支持的团队。通过软件工程，数据智能化的方法论，围绕数据系统化建设运维智能工具链，打造飞天大数据&AI运维管控平台ABM，解决超大规模分布式集群运维管理问题，提升产品的稳定性
单细胞注释刘综一
单细胞-注释-2022-01-17多个样本单细胞分析流程-(jianshu.com)一、人工注释人工注释需要借助文献检索marker或者结合常用的注释数据库，例如两个常用的数据库：CellMarker（http://bio-bigdata.hrbmu.edu.cn/CellMarker/）；panglaoDB（ASingleCellSequencingResourceForGeneExpressi
[bigdata-050] 规则引擎和专家系统pyke+pyclipse+drools 未济2019
反欺诈最有效的方式，是搜索所有的欺诈事件，然后将欺诈行为和防范措施进行规则化，表达成产生式规则，再由规则引擎驱动进行反欺诈业务实战。产生式规则，就是AI领域早期的专家系统。规则引擎如下：1.clipsehttp://clipsrules.sourceforge.net/http://clipsrules.sourceforge.net/FAQ.html这个是nasa在1985年开发的，ansic，
【Fellow 云集 | 经管主题/EI会议 | 快见刊】第三届大数据、区块链与经济管理国际学术会议 (ICBBEM 2024)，早投稿、早送审、早录用！艾思科蓝 AiScholar 学术会议大数据区块链信任链人工智能软件工程线性回归算法
第三届大数据、区块链与经济管理国际学术会议(ICBBEM2024)The3rdInternationalConferenceonBigdataBlockchainandEconomyManagement大会网站：https://ais.cn/u/YFbQru（更多会议详情）大会时间：2024年3月29-31号大会地点：中国-武汉截稿时间：以官网信息为准提交检索：EICompendex，Scopus
python+大数据学习打卡day1 岁月不静好456 big data 学习
【大数据从0-1打卡-day1】1、简单了解一些关于大数据的概念数据：数据就是对客观事件进行记录并可以鉴别的符号。他不仅仅是指数字，还可以是有一定意义的字母、文字、符号、语音、文字、图画、视频或者这些元素的结合等。企业数据分析方向：现状分析：离线分析原因分析：实时分析预测分析：机器学习数据分析基本流程：采集、处理、分析、应用大数据：大数据(bigdata)，指的是所涉及的资料量规模巨大到无法透过主
因果推断推荐系统工具箱 - CFF（二） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
requests实验临风. 爬虫爬虫网络爬虫 python
文章目录实验目的：实验内容：1.使用百度搜索引擎查询给定的一个关键词（例如：bigdata），将搜索得到的网页存储起来。2.给定使用baidu搜索引擎的关键词列表，将搜索得到的网页分别存储起来。2.1代码展示2.2效果展示2.3注意事项3.在人邮教育官网上搜索“爬虫”的图书信息，结果保存起来。3.1代码展示3.2效果展示4.给定关键词列表（例如：【大数据、java、python】），在人邮教育官网
python数据可视化库_python和r中用于数据可视化的前9个库 weixin_26738983 可视化 python 数据可视化数据分析人工智能
python数据可视化库Intherapidlygrowingworldoftoday,whentechnologyisexpandingataratelikeneverbefore,bigdataisswiftlywalkingintopeople’slives.Thoughpeoplemayhavewaystoobtaindata,whenitcomestodrawinginsightsorc
spark好的文章链接 Trank-Lw spark 大数据分布式
https://blog.51cto.com/u_16099325/6763760`javaspark官方文档sparkjavaapi手册http://www.17bigdata.com/book/spark/BianChengZhiNan/SPARKGongXiangBianLiang.htmlJavaSparkML实现的文本分类https://blog.csdn.net/coderma/art
使用Python和OpenCV检测图像中的物体并将物体裁剪下来要去坐飞船图像处理
转载哦~https://blog.csdn.net/binbigdata/article/details/80029681介绍硕士阶段的毕设是关于昆虫图像分类的，代码写到一半，上周五导师又给我新的昆虫图片数据集了，新图片中很多图片很大，但是图片中的昆虫却很小，所以我就想着先处理一下图片，把图片中的昆虫裁剪下来，这样除去大部分无关背景，应该可以提高识别率。原图片举例（将红色矩形框部分裁剪出来））：s
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
Hadoop搭建（完全分布式）莫噶搭建分布式 hadoop 大数据
节点分布：bigdata-masterbigdata-slave1bigdata-salve2NameNodeNodeManagerNodeManagerSecondaryNameNodeDataNodeDataNodeResourceManagerNodeManagerDataNode目录一、jdk安装：二、hadoop安装一、jdk安装：jdk-8u212链接：https://pan.baid
因果推断推荐系统工具箱 - CFF（一） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
RDD 依赖关系 zmx_messi 大数据 spark
RDD血缘关系RDD不会保存数据的，RDD为了提供容错性，需要将RDD间的关系保存下来，一旦出现错误，可以根据血缘关采将数据源重新读取进行计算。packagecom.atguigu.bigdata.spark.core.rdd.depimportorg.apache.spark.{SparkConf,SparkContext}objectSpark01_RDD_Dep{defmain(args:A
转换算子小案例 zmx_messi spark 大数据
1)数据准备agent.log：时间戳，省份，城市，用户，广告，中间字段使用空格分隔。2)需求描述统计出每一个省份每个广告被点击数量排行的Top33)需求分析4)功能实现整体思路代码实现packagecom.atguigu.bigdata.spark.core.rdd.operator.transformimportorg.apache.spark.{SparkConf,SparkContext}
【征稿已开启】第五大数据、人工智能与软件工程国际研讨会（ICBASE 2024）艾思科蓝-何老师【H8053】大数据人工智能软件工程
第五大数据、人工智能与软件工程国际研讨会（ICBASE2024）20245thInternationalConferenceonBigData&ArtificialIntelligence&SoftwareEngineering2024年09月20-22日|中国温州第五届大数据、人工智能与软件工程国际研讨会（ICBASE2024）将于2024年09月20-22日在中国温州隆重举行。会议主要围绕大数
2024初始Spring（并使用idea创建springweb项目）菜鸟小木 spring java 后端
前言spring呢，以前一直是简单的了解，并没有利用空闲时间去进行对应的深入的学习，今天呢原本是打算好好学的，然后后来呢感觉还是太早了接触，打算把前面知识在过一编之后再开始Spring介绍Spring|Home大家想要访问的话，可以去官网下面具体查看对应的文档Fromconfigurationtosecurity,webappstobigdata—whatevertheinfrastructure
spark学习4：spark安装 hzp666 spark spark 大数据
1.下载spark安装包2.配置环境1.cd/bigdata/spark-3.0.1-bin-hadoop3.2/conf/2.4.添加动态库在hadoop-3.2.2/bin目录下添加hadoop.dll和winutils.exe文件，可以从https://github.com/cdarlint/winutils和https://github.com/steveloughran/winutils
商业智能（BI）数据分析、挖掘概念 kalvin_y_liu 数据科学数据分析数据挖掘
商业智能（BI）数据分析挖掘概念一、商业智能（BI）数据分析挖掘概念数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结。1.分析型客户关系管理（AnalyticalCRM/aCRM用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。2.大数据（BigData）大数据既是一个被滥用的流行语，也是一个当今社
Fink CDC数据同步（二）MySQL数据同步苡~ mysql 数据库 flink
1开启binlog日志2数据准备usebigdata;droptableifexistsuser;CREATETABLE`user`(`id`INTEGERNOTNULLAUTO_INCREMENT,`name`VARCHAR(20)NOTNULLDEFAULT'',`birth`VARCHAR(20)NOTNULLDEFAULT'',`gender`VARCHAR(10)NOTNULLDEFAU
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他