IT时代周刊

大数据基础知识问答----spark篇

dfsSpark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
1.Spark基础知识

1.Spark是什么？

UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架

dfsSpark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

2.Spark与Hadoop的对比（Spark的优势）

1、Spark的中间数据放到内存中，对于迭代运算效率更高
2、Spark比Hadoop更通用
3、Spark提供了统一的编程接口
4、容错性– 在分布式数据集计算时通过checkpoint来实现容错
5、可用性– Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性

3.Spark有那些组件

1、Spark Streaming：支持高吞吐量、支持容错的实时流数据处理
2、Spark SQL， Data frames: 结构化数据查询
3、MLLib：Spark 生态系统里用来解决大数据机器学习问题的模块
4、GraphX是构建于Spark上的图计算模型
5、SparkR是一个R语言包，它提供了轻量级的方式使得可以在R语言中使用 Spark

2.DataFrame相关知识点

1.DataFrame是什么？

DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。

2.DataFrame与RDD的主要区别在于？

DataFrame带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得SparkSQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。

在这里我还是要推荐下我自己建的大数据学习交流qq裙：522189307 ，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

3.DataFrame 特性

1、支持从KB到PB级的数据量
2、支持多种数据格式和多种存储系统
3、通过Catalyst优化器进行先进的优化生成代码
4、通过Spark无缝集成主流大数据工具与基础设施
5、API支持Python、Java、Scala和R语言

3.RDD相关知识点

1.RDD，全称为？

Resilient Distributed Datasets，意为容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。

2.RDD的特点？

它是在集群节点上的不可变的、已分区的集合对象。
通过并行转换的方式来创建如(map, filter, join, etc)。
失败自动重建。
可以控制存储级别(内存、磁盘等)来进行重用。
必须是可序列化的。
是静态类型的。

3.RDD核心概念

Client：客户端进程，负责提交作业到Master。
Master:Standalone模式中主控节点，负责接收Client提交的作业，管理Worker，并命令Worker启动分配Driver的资源和启动Executor的资源。
Worker：Standalone模式中slave节点上的守护进程，负责管理本节点的资源，定期向Master汇报心跳，接收Master的命令，启动Driver和Executor。
Driver：一个Spark作业运行时包括一个Driver进程，也是作业的主进程，负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler，TaskScheduler。
Executor：即真正执行作业的地方，一个集群一般包含多个Executor，每个Executor接收Driver的命令Launch Task，一个Executor可以执行一到多个Task。

4.RDD常见术语

DAGScheduler：实现将Spark作业分解成一到多个Stage，每个Stage根据RDD的Partition个数决定Task的个数，然后生成相应的Task set放到TaskScheduler中。
TaskScheduler：实现Task分配到Executor上执行。
Task：运行在Executor上的工作单元
Job：SparkContext提交的具体Action操作，常和Action对应
Stage：每个Job会被拆分很多组任务（task），每组任务被称为Stage，也称TaskSet
RDD：Resilient Distributed Datasets的简称，弹性分布式数据集，是Spark最核心的模块和类
Transformation/Action：SparkAPI的两种类型；Transformation返回值还是一个RDD，Action返回值不少一个RDD，而是一个Scala的集合；所有的Transformation都是采用的懒策略，如果只是将Transformation提交是不会执行计算的，计算只有在Action被提交时才会被触发。
DataFrame：带有Schema信息的RDD，主要是对结构化数据的高度抽象。
DataSet：结合了DataFrame和RDD两者的优势，既允许用户很方便的操作领域对象，又具有SQL执行引擎的高效表现。

5.RDD提供了两种类型的操作

transformation和action
1，transformation是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD 2，action是得到一个值，或者一个结果（直接将RDD cache到内存中）
3，所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发

6.RDD中关于转换(transformation)与动作(action)的区别

transformation会生成新的RDD，而后者只是将RDD上某项操作的结果返回给程序，而不会生成新的RDD；无论执行了多少次transformation操作，RDD都不会真正执行运算（记录lineage），只有当action操作被执行时，运算才会触发。

7.RDD 与 DSM的最大不同是?

DSM(distributed shared memory)
RDD只能通过粗粒度转换来创建，而DSM则允许对每个内存位置上数据的读和写。在这种定义下，DSM不仅包括了传统的共享内存系统，也包括了像提供了共享 DHT(distributed hash table) 的 Piccolo 以及分布式数据库等。

8.RDD的优势？

1、高效的容错机制
2、结点落后问题的缓和 (mitigate straggler) ：
3、批量操作：
4、优雅降级 (degrade gracefully)

9.如何获取RDD?

1、从共享的文件系统获取，（如：HDFS）
2、通过已存在的RDD转换
3、将已存在scala集合（只要是Seq对象）并行化，通过调用SparkContext的parallelize方法实现
4、改变现有RDD的之久性；RDD是懒散，短暂的。

10.RDD都需要包含以下四个部分

a.源数据分割后的数据块，源代码中的splits变量
b.关于“血统”的信息，源码中的dependencies变量
c.一个计算函数（该RDD如何通过父RDD计算得到），源码中的iterator(split)和compute函数
d.一些关于如何分块和数据存放位置的元信息，如源码中的partitioner和preferredLocations0

11.RDD中将依赖的两种类型

窄依赖(narrowdependencies)和宽依赖(widedependencies)。
窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用。相应的，那么宽依赖就是指父RDD的分区被多个子RDD的分区所依赖。例如，map就是一种窄依赖，而join则会导致宽依赖
依赖关系分类的特性：
第一，窄依赖可以在某个计算节点上直接通过计算父RDD的某块数据计算得到子RDD对应的某块数据；
第二，数据丢失时，对于窄依赖只需要重新计算丢失的那一块数据来恢复；
Spark Streaming相关知识点
1.Spark Streaming的基本原理
Spark Streaming的基本原理是将输入数据流以时间片（秒级）为单位进行拆分，然后以类似批处理的方式处理每个时间片数据

RDD 基本操作

常见的聚合操作
count(*) 所有值不全为NULL时，加1操作
count(1) 不管有没有值，只要有这条记录，值就加1
count(col) col列里面的值为null，值不会加1，这个列里面的值不为NULL，才加1

sum求和
sum(可转成数字的值）返回bigint
avg求平均值
avg（可转成数字的值）返回double
distinct不同值个数
count(distinct col)

按照某些字段排序
select col1,other... from table where conditio order by col1,col2 [asc|desc]

Join表连接
join等值连接（内连接），只有某个值在m和n中同时存在时。
left outer join 左外连接，左边表中的值无论是否在b中存在时，都输出；右边表中的值，只有在左边表中存在时才输出。
right outer join 和 left outer join 相反。

Transformation具体内容：

reduceByKey(func, [numTasks]) : 在一个（K，V)对的数据集上使用，返回一个（K，V）对的数据集，key相同的值，都被使用指定的reduce函数聚合到一起。和groupbykey类似，任务的个数是可以通过第二个可选参数来配置的。
join(otherDataset, [numTasks]) :在类型为（K,V)和（K,W)类型的数据集上调用，返回一个（K,(V,W))对，每个key中的所有元素都在一起的数据集
groupWith(otherDataset, [numTasks]) : 在类型为（K,V)和(K,W)类型的数据集上调用，返回一个数据集，组成元素为（K, Seq[V], Seq[W]) Tuples。这个操作在其它框架，称为CoGroup
cartesian(otherDataset) : 笛卡尔积。但在数据集T和U上调用时，返回一个(T，U）对的数据集，所有元素交互进行笛卡尔积。
flatMap(func) :类似于map，但是每一个输入元素，会被映射为0到多个输出元素（因此，func函数的返回值是一个Seq，而不是单一元素）

Case 1将一个list乘方后输出
val input = sc.parallelize(List(1,2,3,4))
val result = input.map(x => x*x)
println(result.collect().mkString(","))

Case 2 wordcount
val textFile = sc.textFile(args(1))
val result = textFile.flatMap(line => line.split("\\s+")).map(word => (word, 1)).reduceByKey(_ + _)
println(result.collect().mkString(","))
result.saveAsTextFile(args(2))

Case 3 打印rdd的元素
rdd.foreach(println) 或者 rdd.map(println).
rdd.collect().foreach(println）
rdd.take(100).foreach(println）

spark SQL

val bankText = sc.textFile("/bank-full.csv")
case class Bank(age:Integer,job:String,marital:String,education:String,balance:Integer)
val bank = bankText.map(s=>s.split(";")).filter(s=>s(0)!="\"age\"").map(
s=>Bank(s(0).toInt,
s(1).replaceAll("\"",""),
s(2).replaceAll("\"",""),
s(3).replaceAll("\"",""),
s(5).replaceAll("\"","").toInt
)
)
bank.toDF().registerTempTable("bank")
bank.toDF.select("*").show()
统计婚姻状况人数

val df = bank.toDF()
val num = df.groupBy(df("marital")).count()
num.show()
统计单身人数
val single = df.filter(df("marital").equalTo("single")).count()
println("The number of single:"+single)

12.Spark Streaming优劣

优势：
1、统一的开发接口
2、吞吐和容错
3、多种开发范式混用，Streaming + SQL, Streaming +MLlib
4、利用Spark内存pipeline计算

劣势：
微批处理模式，准实时

Storm结构：

DStream

1.将流式计算分解成一系列确定并且较小的批处理作业
2.将失败或者执行较慢的任务在其它节点上并行执行
执行的最小单元为RDD的partition
3.较强的容错能力

spark stream example code

nc -lk 9999

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._
val conf = new SparkConf().setMaster("local[2]").setAppName("NetWork")
val ssc = new StreamingContext(conf,Seconds(100))
val lines = ssc.socketTextStream("localhost",9999)
val words = lines.flatMap(_.split(" "))
val pairs = words.map(word=>(word,1))
val wordCounts = pairs.reduceByKey(_+_)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
1234567891011121314151612345678910111213141516

4.日志系统

1.Flume

Flume是一个分布式的日志收集系统，具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快，完全可以用于生产环境。
Flume的核心是agent。
Agent是一个java进程，运行在日志收集端，通过agent接收日志，然后暂存起来，再发送到目的地。
Agent里面包含3个核心组件：source、channel、sink。
Source组件是专用于收集日志的，可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spoolingdirectory、netcat、sequencegenerator、syslog、http、legacy、自定义。source组件把数据收集来以后，临时存放在channel中。
Channel组件是在agent中专用于临时存储数据的，可以存放在memory、jdbc、file、自定义。channel中的数据只有在sink发送成功之后才会被删除。
Sink组件是用于把数据发送到目的地的组件，目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义。
Apache Kafka是分布式发布-订阅消息系统。
它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。

Apache Kafka与传统消息系统相比，有以下不同：

1、它被设计为一个分布式系统，易于向外扩展；
2、它同时为发布和订阅提供高吞吐量；
3、它支持多订阅者，当失败时能自动平衡消费者；
4、它将消息持久化到磁盘，因此可用于批量消费

5.分布式搜索

搜索引擎是什么？

索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

Lucene是什么？

Lucene一个高性能、可伸缩的信息搜索库，即它不是一个完整的全文检索引擎，而是一个全检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。

Elasticsearch是什么？

Elasticsearch一个高可扩展的开源的全文本搜索和分析工具。
它允许你以近实时的方式快速存储、搜索、分析大容量的数据。Elasticsearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
ElasticSearch 有4中方式来构建数据库
最简单的方法是使用indexAPI，将一个Document发送到特定的index，一般通过curltools实现。
第二第三种方法是通过bulkAPI和UDPbulkAPI。两者的区别仅在于连接方式。
第四种方式是通过一个插件-river。river运行在ElasticSearch上，并且可以从外部数据库导入数据到ES中。需要注意的是，数据构建仅在分片上进行，而不能在副本上进行。
ELK是一套常用的开源日志监控和分析系统
包括一个分布式索引与搜索服务Elasticsearch，一个管理日志和事件的工具logstash，和一个数据可视化服务Kibana
logstash 负责日志的收集，处理和储存
elasticsearch 负责日志检索和分析
Kibana 负责日志的可视化

6.分布式数据库

1hive

1.Hive是什么？

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。本质是将HQL转换为MapReduce程序

2.Hive的设计目标？

1、Hive的设计目标是使Hadoop上的数据操作与传统SQL相结合，让熟悉SQL编程开发人员能够轻松向Hadoop平台迁移
2、Hive提供类似SQL的查询语言HQL，HQL在底层被转换为相应的MapReduce操作
3、Hive在HDFS上构建数据仓库来存储结构化的数据，这些数据一般来源与HDFS上的原始数据，使用Hive可以对这些数据执行查询、分析等操作。

3.Hive的数据模型

1、Hive数据库2、内部表3、外部表4、分区5、桶6、Hive的视图
Hive在创建内部表时，会将数据移动到数据仓库指向的路径，若创建外部表，仅记录数据所在的路径，不对数据位置做任何改变，在删除表的时候，内部表的元数据和数据会被一起删除，外部表只会删除元数据，不删除数据。这样来说，外部表要比内部表安全，数据组织液更加灵活，方便共享源数据。

4.Hive的调用方式

1、Hive Shell
2、Thrift
3、JDBC
4、ODBC

5.Hive的运行机制

1、将sql转换成抽象语法树
2、将抽象语法树转化成查询块
3、将查询块转换成逻辑查询计划（操作符树）
4、将逻辑计划转换成物理计划（M\Rjobs）

6.Hive的优势

1、并行计算
2、充分利用集群的CPU计算资源、存储资源
3、处理大规模数据集
4、使用SQL，学习成本低

7.Hive应用场景

1、海量数据处理
2、数据挖掘
3、数据分析
4、SQL是商务智能工具的通用语言，Hive有条件和这些BI产品进行集成

8.Hive不适用场景

1、复杂的科学计算
2、不能做到交互式的实时查询

9.Hive和数据库（RDBMS）的区别

1、数据存储位置。Hive是建立在Hadoop之上的，所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。
2、数据格式。Hive中没有定义专门的数据格式，由用户指定，需要指定三个属性：列分隔符，行分隔符，以及读取文件数据的方法。数据库中，存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。
3、数据更新。Hive的内容是读多写少的，因此，不支持对数据的改写和删除，数据都在加载的时候中确定好。数据库中的数据通常是需要经常进行修改。
4、执行延迟。Hive在查询数据的时候，需要扫描整个表（或分区），因此延迟较高，只有在处理大数据是才有优势。数据库在处理小数据是执行延迟较低。
5、索引。Hive没有，数据库有
6、执行。Hive是MapReduce，数据库是Executor
7、可扩展性。Hive高，数据库低
8、数据规模。Hive大，数据库小

hive代码简单例子：

创建一个名为”test“的table
create table students (name string,age int,city string,class string) row format delimited fields terminated by ',';
load data local inpath "/opt/students.txt" into table students;

create EXTERNAL table IF NOT EXISTS studentX (name string,age int,city string,class string) partitioned by (grade string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
alter table studentX add partition (grade='excellent') location '/testM/excellent/';
alter table studentX add partition (grade='good') location '/testM/good/';
alter table studentX add partition (grade='moderate') location '/testM/moderate/';

#加载数据
load data inpath "/testtry/studentsm.txt" into table studentX partition (grade='excellent');
load data inpath "/testtry/students.txt" into table studentX partition (grade='good');
show partitions studentX;
select * from studentX where grade='excellent';

表删除操作：drop table students;
创建一个名为”test“的table
create table students (name string,age int,city string,class string) row format delimited fields terminated by ',';
load data local inpath "/bin/students.txt" into table students;

###
练习:创建外部表，指定数据存放位置

create EXTERNAL table IF NOT EXISTS studentX (name string,age int,city string,class string) partitioned by (class string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
alter table test add partition (class='one') location '/testmore/one';

对表进行查询
Select * from students;
分区表操作
hive>create table students (name string,age int,city string,class string) partitioned by (class string) row format delimited fields terminated by ',';
hive>load data local inpath "students.txt" into table students partition (class='one');
hive>show partitions students;
hive>select * from students where grade='two';

查询操作
group by、 order by、 join 、 distribute by、 sort by、 clusrer by、 union all1234567891011121314151617181920212223242526272829303132333435363712345678910111213141516171819202122232425262728293031323334353637

hive常见操作

sum求和
sum(可转成数字的值）返回bigint
avg求平均值
avg（可转成数字的值）返回double
distinct不同值个数
count(distinct col)

按照某些字段排序
select col1,other... from table where conditio order by col1,col2 [asc|desc]

Join表连接
join等值连接（内连接），只有某个值在m和n中同时存在时。
left outer join 左外连接，左边表中的值无论是否在b中存在时，都输出；右边表中的值，只有在左边表中存在时才输出。
right outer join 和 left outer join 相反。 1234567891011121314151617181912345678910111213141516171819

Hbase 的模块：

**原子性（是指不会被线程调度机制打断的操作，这种操作一旦开始，就一直运行到结束，中间不会有任何contextswitch（切换到领一个线程）），一致性，隔离性，持久性

Region- Region用于存放表中的行数据

Region Server

- 一个Region Server包含多个Region
- 管理表格，以及实现读写操作
- Client会直接和Region Server通信获取数据

Master

- 协调多个Region Server
- 侦测各个Region Server的状态并平衡它们之间的workload
- 分配Region给Region Serer
- 允许多个Master节点，但是只有一个服务，其他是backup
- 和Zookeeper一起工作实现HA

Zookeeper

- Hbase中至关重要的模块
- 确保有一个Master处于Running的状态
- 注册Region和Region Server
- 属于Hbase容错性的一部分

HDFS

- Hadoop 的分布式文件系统（Hadoop Distributed File System）

API

- Hbase提供Java的Client API

列式存储格式 Parquet

Parquet 是面向分析型业务的列式存储格式，由 Twitter 和 Cloudera 合作开发， 2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项
目，最新的版本是 1.8.0 。

列式存储和行式存储相比的优势 :

可以跳过不符合条件的数据，只读取需要的数据，降低 IO 数据量。
压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如 Run Length Encoding 和 Delta Encoding ）进一步节约存储空间。
只读取需要的列，支持向量运算，能够获取更好的扫描性能。
适用场景：
在互联网大数据应用场景下，大部分情况下，数据量很大且数据字段数目很多，但每次查询数据只针对其中的少数几行，这时候列式存储

Hive操作

Hive

Hive查询语言-Hql
-创建数据库
hive> CREATE DATABASE IF NOT EXISTS financials;
hive> SHOW DATABASES;
hive> DROP DATABASE IF EXISTS financials;
-查看表
hive>show tables;
创建表

其他知识点

MLlib是spark的可以扩展的机器学习库，由以下部分组成：通用的学习算法和工具类，包括分类，回归，聚类，协同过滤，降维

数据分析常见模式：
1、Iterative Algorithms，
2、Relational Queries，
3、MapReduce，
4、Stream Processing

Scala的好处：
1、面向对象和函数式编程理念加入到静态类型语言中的混合体
2、Scala的兼容性—-能够与Java库无缝的交互
3、Scala的简洁性—-高效，更不容易犯错
4、Scala的高级抽象
5、Scala是静态类型—-类型推断
6、Scala是可扩展的语言

ElasticSearch 基础代码：
ElasticSearch
查看集群健康状况
http://localhost:9200/_cluster/health?pretty
http://172.31.200.7:9200/_cluster/health?pretty
两个测试数据集合：book1.json
book2.json
文档建索引
curl -XPOST “localhost:9200/website/blog/123” [email protected]
curl -XPOST "172.31.200.7:9200/website/blog/123" [email protected]
查询数据
http://localhost:9200/website/blog/_search?pretty
http://172.31.200.7:9200/website/blog/_search?pretty
搜索
Match_all & 只返回第一个文档
curl -XPOST ‘localhost:9200/website/_search?pretty' -d ' { "query": { "match_all": {} }, "size": 1 }'
curl -XPOST '172.31.200.7:9200/website/_search?pretty' -d '{"query":{"match_all":{}}, "size": 1}'
Match_all &返回11到20的文档

curl -XPOST 'localhost:9200/website/_search?pretty' -d ' { "query": { "match_all": {} }, "from": 10, "size": 10 }‘
curl -XPOST '172.31.200.7:9200/website/_search?pretty' -d '{"query":{"match_all":{}}, "from": 10, "size": 10 }'

7.基础问答题

1.你理解的Hive和传统数据库有什么不同？各有什么试用场景。

1、数据存储位置。Hive是建立在Hadoop之上的，所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。
2、数据格式。Hive中没有定义专门的数据格式，由用户指定，需要指定三个属性：列分隔符，行分隔符，以及读取文件数据的方法。数据库中，存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。
3、数据更新。Hive的内容是读多写少的，因此，不支持对数据的改写和删除，数据都在加载的时候中确定好的。数据库中的数据通常是需要经常进行修改。
4、执行延迟。Hive在查询数据的时候，需要扫描整个表（或分区），因此延迟较高，只有在处理大数据是才有优势。数据库在处理小数据是执行延迟较低。
5、索引。Hive没有，数据库有
6、执行。Hive是MapReduce，数据库是Executor
7、可扩展性。Hive高，数据库低
8、数据规模。Hive大，数据库小

2.Hive的实用场景如下：

1、Data Ingestion (数据摄取)
2、Data Discovery(数据发现)
3、Data analytics(数据分析)
4、Data Visualization & Collaboration(数据可视化和协同开发)

SPSS统计分析在大数据的应用测试题—答案

1. 大数据分析与挖掘方法论被称为CRISP-DM方法是以数据为中心迭代循环进行的六步活动，它们分别是：商业理解、数据理解、数据准备、建立模型_、模型评估、结果部署_。

数据分析挖掘方法大致包含（ _A B C D E F ）：
A. 分类 Classification
B. 估计Estimation
C. 预测Prediction
D. 关联规则Association Rules
E. 聚类Cluster
F. 描述与可视化Description and Visualization

在数据分析与挖掘中对数据的访问性要求包括：交互性访问、批处理访问_、迭代计算、数据查询，HADOOP仅仅支持了其中批处理访问，而Spark则支持所有4种方式。

3.Spark作为计算框架的优势是什么？
1、Spark的中间数据放到内存中，对于迭代运算效率更高
2、Spark比Hadoop更通用
3、Spark提供了统一的编程接口
4、容错性– 在分布式数据集计算时通过checkpoint来实现容错
5、可用性– Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性

你可能感兴趣的:(2019年5月,2019年3月,2018年11月,2017年3月,大数据,程序员,编程语言,hadoop)

计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Python连接AutoCAD第三方库pyautocad基础介绍（一） Smile丶Life丶 AutoCAD插件开发 python 开发语言 AutoCAD pyautocad
一、前言在开始探索Python连接CAD实现自动化绘图之前，让我们先明确一下读懂本教程所需的技术及知识基础。首先需要你熟练使用Python编程语言，其次，对于CAD软件，本教程将以常见的AutoCAD平台为例，但您至少需要对CAD的基本操作和绘图原理有初步的认识。了解如何创建、编辑图形对象，设置图层、颜色、线型等属性，以及保存和导出CAD图纸的基本流程。以下是本文所使用的开发环境：Python解释
机器人运动学仿真软件：RobWork_（10）.C++编程基础 kkchenjj 机器人仿真机器人 c++java 机器人仿真开发语言模拟仿真
C++编程基础1.C++语言简介C++是一种静态类型的、编译式的通用编程语言，它支持过程化、面向对象和泛型编程。C++由丹麦计算机科学家BjarneStroustrup在1980年代初期在贝尔实验室开发，是C语言的扩展。C++具有高效性、灵活性和广泛的适用性，特别是在系统软件、应用软件、高性能服务器和客户端应用程序的开发中。
C/C++语言函数查询大全：中文版手册关然
本文还有配套的精品资源，点击获取简介：本资源为C语言和C++编程语言提供了详尽的函数查询手册，旨在帮助开发者高效地查找和理解函数用法。其中包含了C语言的基础函数及其用法，以及C++的面向对象编程支持和标准库。手册以CHM格式提供，方便快速搜索和查看。同时介绍了C语言与C++的联系与区别，强调了面向对象和过程化编程的不同，以及两者结合使用的场景。对于不同经验层次的开发者，这些手册都是提升编程技能和日
黑客？设计师？
二十年前，最好的程序员是一个能够将整个应用程序拟合到64KB的.COM文件,那些能够将小的可怜的80386玩转到极致的人就是当时的编程大师。那是因为在二十年前电脑非常昂贵而编程极其廉价。那是真正的“黑客精神”的时代。那个时代已经终结。由于市场的完完全全的本末倒置，在今天黑客精神再无生存之地。今天，电脑越发廉价，设计师日益珍贵。当代码可读性的远比其性能重要的时候，“开发者精神”的末日已然来临。价格V
什么是Java？想学习却不知道从哪开始？不熬夜不是好程序员
谈起Java，相信有很多小伙伴们也跟我刚开始一样，对他的了解只有难，学成之后工资高，从入门学到入土，但当你真正开始系统的学习之后才发现其实哪些程序猿们也不过尔尔（刚学习完刚入职那种。。。）什么是Java?Java是一门编程语言，Java是一门掌握了技术就可以拿到高薪的工作岗位。Java这个语言在我国发展的很完善，相当于你掌握了Java技术出来，具备一定的开发经验，既可以在一线城市找到合适的岗位工作
Unreal Engine开发：Unreal Engine基础入门_C++编程基础v1 chenlz2007 游戏开发虚幻 c++java unity 游戏引擎交互 lucene
C++编程基础在开始学习UnrealEngine之前，掌握C++编程基础是非常重要的。C++是一种强大的面向对象编程语言，广泛应用于游戏开发、系统软件开发等领域。本节将介绍C++的基本概念、语法和一些常用的功能，为后续的UnrealEngine开发打下坚实的基础。1.C++简介C++是一种静态类型的、编译式的、通用的、中级到高级的编程语言，它支持多种编程范式，包括面向对象编程、泛型编程和过程化编程
失业程序员的逆袭：从代码渣到百万架构师金牌学霸就业规划人生规划职业规划能源软件开发职场和发展职业规划就业指导
职业规划分析：30岁离异失业程序员的重启之路核心优势分析：技术根基扎实：211计算机本科+多年开发经验（假设5年+）行业适配性强：IT领域存在大量技术迁移机会危机意识觉醒：失业状态激发转型动力关键挑战：年龄焦虑（30+求职竞争）职业空白期解释技术更新迭代压力分阶段职业发展路径（3年规划）阶段时间核心目标具体行动方案重启期1-3个月快速就业+心理建设-主攻中大型企业维护型岗位-每天4小时LeetCo
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
从零开始学 Linux：循序渐进的学习指南我爱学嵌入式 Linux基础 linux 服务器
Linux作为一款开源、稳定且安全的操作系统，在服务器领域、嵌入式开发、云计算等场景中占据着举足轻重的地位。对于程序员、运维工程师或IT爱好者而言，掌握Linux技能已成为一项核心竞争力。但面对命令行界面和复杂的系统架构，很多初学者往往感到无从下手。本文将为你梳理一条清晰的Linux学习路径，助你从入门到精通。一、明确学习目标：为什么学Linux？学习Linux前需明确目标，不同目标对应不同的学习
（详细！！）2024最新Neo4j详细使用指南熊猫发电机：miniqq207 neo4j neo4j
Neo4j详细使用指南一、介绍Neo4j是什么Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
“星链”计划对通信及互联网产业影响何在 Lzb6
学号：20000300056姓名：刘照标转载自公众号赛迪智库作者赵燕温晓军2019年5月24日，美国SpaceX公司以一箭多星的方式发射了60颗“星链”卫星，引起全球高科技业界的广泛关注。马斯克的SpaceX公司于2015年提出“星链”计划，预计到2025年完成卫星组网部署，将向全球终端用户提供至少1Gbps/秒、最高可达23Gbps/秒的低延迟、高带宽的网络宽带服务。“星链”计划的实施可能对包括
mysql事物详解
前言：事物是什么？作为一个java程序员，也许我们仅仅只是停留在会使用的程度上，会通过在类上或者方法上使用@Transactional注解的方式来使用事物，但是背后的原理，为什么使用这个注解就能使事物生效可能并不是很清楚。下面本文详细一一介绍事物是什么，事物的特性，怎么使用等等。1.事物是什么所谓事物，在我的理解中就是一系列操作的一个集合，一旦其中一个操作失败，那么整个操作集合必须全部失败，回滚到
崔律·100天挑战阅读《奇特的一生》【《奇特的一生》·Day57·如何评价自己的一生（1）冬夜读书YHY
这是“崔律精时力之100天挑战《奇特的一生》阅读”系列，今天是2019年3月30日一个人在离开了这个世界上以后。后人对他的评价是什么样子，在某种程度上也就决定了这个人在他的有生之年对这个世界做出的贡献吧。柳翁一生有一件非常固执的事情，就是长达几十年的时间记录时间统计时间计划。因为他的这种非常近乎于苛刻的这种方式，让他获得了很多的成就。同时，以它在生物学上的一些贡献，让他的后来的后继者会记住。会沿着
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
200期读书会感悟小海儿2
张海萍焦点网络中级八期山西晋中坚持分享第274天2018年11月23日周五每周五进行的焦点小屋读书会，到今天晚上已经二百期了。雷打不动，每周一期，二百期意味着将近四年的时间，这样的读书会记录，不仅让人感到震撼、不可思议，更让人感到万分激动、深受鼓舞，深感在这样的团队中，是如此的荣幸和荣耀。是啊，“在如今浮躁的社会中，静下心来做事情”、“深挖一口井”、“日不见增，月见其长，月不见增，年见其长”、“抱
Python Scrapy爬取办公用品网站数据的策略 Python编程之道 python scrapy 开发语言 ai
1.引入与连接想象一下，你是一家办公用品公司的市场调研人员，需要了解竞争对手的产品价格、种类等信息。如果手动去各个办公用品网站收集这些数据，那将是一项极其繁琐且耗时的工作。而Python的Scrapy框架就像是一个不知疲倦的超级助手，能帮你快速、高效地从众多网站抓取所需数据。你可能已经对Python有了一定的了解，知道它是一门功能强大且应用广泛的编程语言。Scrapy则是Python中专门用于网络
劝你别瞎自学！2025AI大模型路线图，手把手教你！大模型新人必看，少走三年弯路就靠这篇！ AGI大模型老王人工智能程序员 chatgpt AI产品经理大模型 AI 大模型学习
这两年，大模型从实验室里的高冷研究，走到每个程序员、学生、转行者的聊天框和职业规划表里。几乎每天都有人来问我："师兄，我是做后端的，能不能转大模型？""我在看一些课程，不知道该学哪些才有用？""我试着搭了个模型，发现全是坑，是不是我不适合？"今天这篇文章，我不打算讲那些泛泛而谈的大模型原理，我就站在一个“老转行人+老程序员+老训练营主理人”的角度，跟你聊聊：大模型怎么转？适合哪些人？哪些方向对新手
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
《互联网大厂Java求职者必看！Spring Boot+Redis+微服务高频面试题实战》
《互联网大厂Java求职者必看！SpringBoot+Redis+微服务高频面试题实战》面试现场：谢飞机vs大厂严肃面试官面试官：欢迎来参加我们公司的技术面试，我是本次的技术面试官。先做个自我介绍吧。谢飞机：您好，我叫谢飞机，三年开发经验，写过HelloWorld，也修过线上Bug，喜欢边写代码边喝咖啡……面试官（微笑）：嗯，不错，挺有程序员气质。那我们开始吧。第一轮：基础技术与SpringBoo
Grok网站的后端语言是php和Python2.7 言之。随笔随笔
老马的Grok模型https://grok.com/#subscribephp语法这里还出现了两个bug后端语言能看到是php和python2.7要说卷还是得看中国的程序员啊，天天就是新技术，赶不上别人就35岁毕业退休
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
39岁程序员住进养老院早6晚9的作息！看到后我酸了猿天下
前言最近，有个程序员比较火，一方面他似乎重新定义了“养老”，刺痛很多大龄青年人的神经，一方面又让网友们非常羡慕，提前过上了大家梦想中的生活。事情是这样的，2个月前，重庆一家养老院入住了一位最年轻的住户，年仅39岁的古先生，之前的职业是网络技术员。古先生入住养老院也并非提前养老，而是他患有膝关节滑膜炎，需要长时间疗养，但由于父母早年患癌去世、自己单身，便进入养老院调养。入住养老院后，他早上6点起床，
我在黑马程序员学web前端新手来了@click 前端
1网页由三部分组成1.、html负责网页的结构2.css、负责网页的美化，控制网页元素的样式3、js，负责网页交互html常见的标签：1、form表单input输入框select下拉菜单option下拉列表2、table表格thead表头ｔｂｏｄｙ是表体tr行th表头加粗ｔｄ是列ｂｒ是换行2/CＳＳ常见的三种引入方式行内样式、内部样式、外部样式用ｌｉｎｋ关键字常用的元素选择器：标签选择器、id选择
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。