小飞猪666

新闻网日志实时分析可视化系统项目

本次项目是基于企业大数据经典案例项目（大数据日志分析），全方位、全流程讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。

项目代码托管于github，大家可以自行下载。

一、业务需求分析

捕获用户浏览日志信息
实时分析前20名流量最高的新闻话题
实时统计当前线上已曝光的新闻话题
统计哪个时段用户浏览量最高
生成报表（给销售人员以及Boss参考）

二、系统架构图设计

三、系统数据流程设计

四、集群资源规划设计

五、步骤详解

考虑到实际情况，本人集群配置共三个节点（netcloud03、netcloud04、netcloud05）。

1. Zookeeper分布式集群部署

参考博客

2. Hadoop2.X HA架构与部署

Hadoop 版本选择：

（1）基于Apache厂商的最原始的hadoop版本，所有发行版均基于这个版本进行改进。

（2）基于Cloudera厂商的cdh版本，Cloudera有免费版和企业版，企业版只有试用期。不过cdh大部分功能都是免费的。

需要配置的文件（6个文件）:

1）修改 hadoo-env.sh(配置java环境变量)、2）修改 hdfs-site.xml （nameservice配置，HA的NameNode，jounalNode、副本数目）、3）修改 core-site.xml (指定NameService) 4）修改mapred-site.xml （指定mr框架为yarn方式）、5）修改yarn-site.xml (指定resourcemanager地址，指定zk集群地址）6）修改slaves

参考 hadoop原始版本安装博客、cdh版本安装

3. HBase分布式集群部署与设计

参考博客

4. Kafka分布式集群部署

参考博客

5. Flume部署及数据采集准备

netcloud03节点用作netcloud04与netcloud05节点的数据合并。

netcloud04节点flume的配置如下：

1）重命名 conf/flume-env.sh.template 为 flume-env.sh

重命名 conf/flume-conf.properties.template 为 flume-conf

2) 在flume-env.sh 中配置JDK安装目录

3) 在flume-conf 中配置

a2.sources = r1
a2.sinks = k1
a2.channels = c1
#source的配置
a2.sources.r1.type = exec
a2.sources.r1.command = tail -F /opt/data/weblog-flume.log
a2.sources.r1.channels = c1
#channel的配置
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 1000
a2.channels.c1.keep-alive = 5

#type为avro 表示数据不存储到磁盘而是到 netcloud03节点
a2.sinks.k1.type = avro
a2.sinks.k1.channel = c1
a2.sinks.k1.hostname = netcloud03
a2.sinks.k1.port = 5555

netcloud05节点flume的配置如下：

1）重命名 conf/flume-env.sh.template 为 flume-env.sh

重命名 conf/flume-conf.properties.template 为 flume-conf

2) 在flume-env.sh 中配置JDK安装目录

3) 在flume-conf 中配置 a3为agent的别名也可以使用官方的默认的值

a3.sources = r1
a3.sinks = k1
a3.channels = c1
#source的配置
a3.sources.r1.type = exec
a3.sources.r1.command = tail -F /opt/data/weblog-flume.log
a3.sources.r1.channels = c1
#channel的配置
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 1000
a3.channels.c1.keep-alive = 5

#type为avro 表示数据不存储到磁盘而是到 netcloud03节点
a3.sinks.k1.type = avro
a3.sinks.k1.channel = c1
a3.sinks.k1.hostname = netcloud03
a3.sinks.k1.port = 5555

netcloud04和netcloud05节点可以实时的从磁盘weblog-flume.log 文件中收集数据（模拟程序向文件中生成数据）

netcloud03节点的配置如下

6. Flume+HBase+Kafka集成与开发

版本兼容问题

Flume 1.7.0+Kafka2.11_0.9.0

1. 下载Flume源码并导入Idea开发工具
    1）将apache-flume-1.7.0-src.tar.gz源码下载到本地解压
    2）通过idea导入flume源码
    打开idea开发工具，选择File——》Open

    然后找到flume源码解压文件，选中flume-ng-hbase-sink，点击ok加载相应模块的源码。

2. 官方flume与hbase集成的参数介绍

3. 下载日志数据并分析
到搜狗实验室下载用户查询日志
1）介绍
搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。

2）格式说明

数据格式为:访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同一个用户ID

4. netcloud03聚合节点与HBase和Kafka的集成配置

netcloud03通过flume接收netcloud04与netcloud05中flume传来的数据，并将其分别发送至hbase与kafka中，配置内容如下

a1.sources = r1
a1.channels = kafkaC hbaseC
a1.sinks = kafkaSink hbaseSink

a1.sources.r1.type = avro
a1.sources.r1.channels = hbaseC kafkaC
a1.sources.r1.bind = netcloud03
a1.sources.r1.port = 5555
a1.sources.r1.threads = 5

#****************************flume + hbase******************************
a1.channels.hbaseC.type = memory
a1.channels.hbaseC.capacity = 10000
a1.channels.hbaseC.transactionCapacity = 10000
a1.channels.hbaseC.keep-alive = 20

a1.sinks.hbaseSink.type = asynchbase
a1.sinks.hbaseSink.table = weblogs
a1.sinks.hbaseSink.columnFamily = info
a1.sinks.hbaseSink.serializer = org.apache.flume.sink.hbase.KfkAsyncHbaseEventSerializer
a1.sinks.hbaseSink.channel = hbaseC
a1.sinks.hbaseSink.serializer.payloadColumn = datetime,userid,searchname,retorder,cliorder,cliurl

#****************************flume + kafka******************************
a1.channels.kafkaC.type = memory
a1.channels.kafkaC.capacity = 10000
a1.channels.kafkaC.transactionCapacity = 10000
a1.channels.kafkaC.keep-alive = 20

a1.sinks.kafkaSink.channel = kafkaC
a1.sinks.kafkaSink.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.kafkaSink.brokerList = netcloud03:9092,netcloud04:9092,netcloud05:9092
a1.sinks.kafkaSink.topic = weblogs
a1.sinks.kafkaSink.zookeeperConnect = node5:2181,node6:2181,node7:2181
a1.sinks.kafkaSink.requiredAcks = 1
a1.sinks.kafkaSink.batchSize = 1
a1.sinks.kafkaSink.serializer.class = kafka.serializer.StringEncoder
5. 对日志数据进行格式处理
1）将文件中的tab更换

cat weblog.log|tr "\t" "," > weblog2.log

2）将文件中的空格更换成逗号

cat weblog2.log|tr " " "," > weblog.log

6. 自定义SinkHBase程序设计与开发

1）模仿SimpleAsyncHbaseEventSerializer自定义KfkAsyncHbaseEventSerializer实现类，修改一下代码即可

/**
 * 自定义
 */
public class KfkAsyncHbaseEventSerializer implements AsyncHbaseEventSerializer {
    // 表名
    private byte[] table;
    // 列族
    private byte[] cf;
    // 列值
    private byte[] payload;
    // 列名
    private byte[] payloadColumn;
    private byte[] incrementColumn;
    // 行键前缀
    private String rowPrefix;
    private byte[] incrementRow;
    // 生成行键的方式
    private KeyType keyType;

    /*初始化的时候就得到表名和列簇名*/
    @Override
    public void initialize(byte[] table, byte[] cf) {
        this.table = table;
        this.cf = cf;
    }
    /*执行的方法*/
    @Override
    public List getActions() {
        List actions = new ArrayList();
        if (payloadColumn != null) {
            byte[] rowKey;
            try {
                /*---------------------------代码修改开始---------------------------------*/
                // 解析列字段  a1.sinks.hbaseSink.serializer.payloadColumn = datetime,userid,searchname,retorder,c
                String[] columns = new String(payloadColumn).split(",");
                // 解析flume采集过来的每行的值
                String[] values = new String(payload).split(",");
                for (int i = 0; i < columns.length; i++) {
                    byte[] colColumn = columns[i].getBytes();
                    byte[] colValue = values[i].getBytes(Charsets.UTF_8);
                    // 数据校验：字段和值是否对应
                    if (columns.length != values.length) break;
                    String datetime = values[0].toString();
                    String userId = values[1].toString();
                    rowKey = SimpleRowKeyGenerator.getKfkRowKey(userId, datetime);//获取自定义RowKey
                    PutRequest putRequest = new PutRequest(table, rowKey, cf,
                            colColumn, colValue);
                    actions.add(putRequest);
                    /*---------------------------代码修改结束---------------------------------*/
                }
            } catch (Exception e) {
                throw new FlumeException("Could not get row key!", e);
            }
        }
        return actions;
    }

2）在SimpleRowKeyGenerator类中，根据具体业务自定义Rowkey生成方法
//  根据业务需求自定义rowKey
public static byte[] getKfkRowKey(String userId, String datetime) throws UnsupportedEncodingException {
    return (userId + datetime + String.valueOf(System.nanoTime())).getBytes("UTF8");
}

3) 执行命令打包：mvn install -Dmaven.test.skip=true

4) 镜像添加：


      alimaven
      aliyun maven
      http://maven.aliyun.com/nexus/content/groups/public/
      central

7. 自定义编译程序打jar包

1）在idea工具中，选择File——》ProjectStructrue

2）左侧选中Artifacts，然后点击右侧的+号，最后选择JAR——》From modules with dependencies

3）然后直接点击ok

4）删除其他依赖包，只把flume-ng-hbase-sink打成jar包就可以了。

5）然后依次点击apply，ok

6）点击build进行编译，会自动打成jar包

7）到项目的apache-flume-1.7.0-src\flume-ng-sinks\flume-ng-hbase-sink\classes\artifacts\flume_ng_hbase_sink_jar目录下找到刚刚打的jar包

8）将打包名字替换为flume自带的包名flume-ng-hbase-sink-1.7.0.jar ，然后上传至flume/lib目录下，覆盖原有的jar包即可。

7. 数据采集/存储/分发完整流程测试

1. 在idea开发工具中构建weblogs项目，编写数据生成模拟程序。

package com.example.weblogs;

import java.io.*;

public class ReadWrite {

    static String readFileName;
    static String writeFileName;

    public static void main(String args[]) {
        readFileName = args[0];
        writeFileName = args[1];
        try {
            // readInput();
            readFileByLines(readFileName);
        } catch (Exception e) {
        }
    }
    public static void readFileByLines(String fileName) {
        FileInputStream fis = null;
        InputStreamReader isr = null;
        BufferedReader br = null;
        String tempString = null;
        try {
            System.out.println("以行为单位读取文件内容，一次读一整行：");
            fis = new FileInputStream(fileName);// FileInputStream
            // 从文件系统中的某个文件中获取字节
            isr = new InputStreamReader(fis, "GBK");
            br = new BufferedReader(isr);
            int count = 0;
            while ((tempString = br.readLine()) != null) {
                count++;
                // 显示行号
                Thread.sleep(300);
                String str = new String(tempString.getBytes("UTF8"), "GBK");
                System.out.println("row:" + count + ">>>>>>>>" + tempString);
                method1(writeFileName, tempString);
            }
            isr.close();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        } finally {
            if (isr != null) {
                try {
                    isr.close();
                } catch (IOException e1) {
                }
            }
        }
    }
    public static void method1(String file, String conent) {
        BufferedWriter out = null;
        try {
            out = new BufferedWriter(new OutputStreamWriter(
                    new FileOutputStream(file, true)));
            out.write("\n");
            out.write(conent);
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                out.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

2. 参照前面idea工具项目打包方式，将该项目打成weblogs.jar包，然后上传至netcloud03节点的/usr/local/data/jars目录下（目录需要提前创建）

3. 将weblogs.jar分发到另外两个节点（netcloud04和netcloud05）修改权限： chmod 777 weblogs.jar

1）在另外两个节点上分别创建/usr/local/data/jars目录

mkdir /usr/local/data/jars
2）将weblogs.jar分发到另外两个节点

scp weblogs.jar netcloud04:/usr/local/data/jars
scp weblogs.jar netcloud05:/usr/local/data/jars
4. 编写运行模拟程序的shell脚本

在netcloud04和netcloud05节点的/usr/local/data/目录下，创建weblog-shell.sh脚本。内容为

#/bin/bash
echo "start log......"
#第一个参数是原日志文件，第二个参数是日志生成输出文件
java -jar /usr/local/data/jars/weblogs.jar /usr/local/data/weblog.log /usr/local/data/weblog-flume.log
修改weblog-shell.sh可执行权限

chmod 777 weblog-shell.sh
5. 编写启动flume服务程序的shell脚本

在各节点的flume安装目录下编写flume启动脚本flume-kfk-start.sh。

下面是netcloud03中的配置写法，netcloud04与netcloud05中将a1分别改为a2和a3。

#/bin/bash
echo "flume-1 start ......"
bin/flume-ng agent --conf conf -f conf/flume-conf -n a1 -Dflume.root.logger=INFO,console
6. 编写Kafka Consumer执行脚本kfk-test-consumer.sh。

#/bin/bash
echo "kfk-kafka-consumer.sh start......"
bin/kafka-console-consumer.sh --zookeeper netcloud03:2181,netcloud04:2181,netcloud05:2181 --from-beginning --topic weblogs
7. 将kfk-test-consumer.sh脚本分发另外两个节点
scp kfk-test-consumer.sh netcloud04:/usr/local/kafka_2.10/
scp kfk-test-consumer.sh netcloud05:/usr/local/kafka_2.10/
8. 启动模拟程序并测试

在netcloud04节点启动日志产生脚本，模拟产生日志是否正常。

/usr/local/data/weblog-shell.sh
9. 启动数据采集所有服务

1）启动Zookeeper服务 zkServer.sh start

2）启动hdfs服务 start-dfs.sh start-yarn.sh

3）启动HBase服务 start-hbase.sh

创建hbase业务表

create 'weblogs','info'
4）3台机器启动Kafka服务，并在netcloud03节点创建业务数据topic

bin/kafka-server-start.sh config/server.properties &
bin/kafka-topics.sh --create --zookeeper netcloud03:2181,netcloud04:2181,netcloud05:2181 --topic weblogs --partitions 1 --replication-factor 3
10. 完成数据采集全流程测试
1）在netcloud04和netcloud05节点上完成数据采集。

（1）使用shell脚本模拟日志产生

cd /usr/local/data
./weblog-shell.sh
（2）netcloud04、netcloud05 启动flume采集日志数据发送给聚合节点

2）在netcloud03节点上启动flume聚合脚本，将采集的数据分发到Kafka集群和hbase集群。（Hbase相关类找不到异常，将 Hbase的jar包拷贝到 flume的lib下）

./flume-kfk-start.sh

3）启动Kafka Consumer查看flume日志采集情况

bin/kafka-console-consumer.sh --zookeeper netcloud03:2181,netcloud04:2181,netcloud05:2181 --from-beginning --topic weblogs
4）查看hbase数据写入情况

./hbase-shell
scan 'weblogs

8. MySQL安装

参考博客、ysj博客

9. Hive与HBase集成进行数据分析

1. Hive安装（本地mysql模式），参考博客
2. Hive与HBase集成
1）在hive-site.xml文件中配置Zookeeper，hive通过这个参数去连接HBase集群。也可以将Hbase的配置文件复制到hive的配置文件目录下

hbase.zookeeper.quorum
    netcloud03,netcloud04,netcloud05

   2）将hbase的9个包拷贝到hive/lib目录下。如果是CDH版本，已经集成好不需要导包。
export HBASE_HOME=/opt/modules/hbase-0.98.6-cdh5.3.0
export HIVE_HOME=/opt/modules/hive-0.13.1/lib
ln -s $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-server-0.98.6-cdh5.3.0.jar
ln -s $HBASE_HOME/lib/hbase-client-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-client-0.98.6-cdh5.3.0.jar
ln -s $HBASE_HOME/lib/hbase-protocol-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-protocol-0.98.6-cdh5.3.0.jar
ln -s $HBASE_HOME/lib/hbase-it-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-it-0.98.6-cdh5.3.0.jar
ln -s $HBASE_HOME/lib/htrace-core-2.04.jar$HIVE_HOME/lib/htrace-core-2.04.jar
ln -s $HBASE_HOME/lib/hbase-hadoop2-compact-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-hadoop2-compact-0.98.6-cdh5.3.0.jar
ln -s $HBASE_HOME/lib/hbase-hadoop-compact-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-hadoop-compact-0.98.6-cdh5.3.0.jar
ln -s $HBASE_HOME/lib/high-scale-lib-1.1.1.jar $HIVE_HOME/lib/high-scale-lib-1.1.1.jar
ln -s $HBASE_HOME/lib/hbase-common-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-common-0.98.6-cdh5.3.0.jar
    3）在hive中创建与hbase集成的外部表
CREATE EXTERNAL TABLE weblogs(
id string,
datetime string,
userid string,
searchname string,
retorder string,
cliorder string,
cliurl string
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES("hbase.columns.mapping"=
":key,info:datetime,info:userid,info:searchname,info:retorder,info:cliorder,info:cliurl")
TBLPROPERTIES("hbase.table.name"="weblogs");

#查看hbase数据记录
select count(*) from weblogs;
    4）netcloud05节点启动hive

执行命令：hive --service metastore

netcloud03节点启动客户端

执行命令：hive命令

10. Cloudera HUE大数据可视化分析

参考博客

11. Spark2.X环境准备、编译部署及运行

源码编译的方式参考博客；

预编译安装的方式搭建spark集群参考博客

基于yarn方式的任务的提交，只需要安装一个spark节点用作任务提交。

修改配置文件 spark-env.sh 但是slaves可以不做修改。也不需要启动spark服务

export JAVA_HOME=/opt/java
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
export SPARK_MASTER_IP=netcloud02
export SPARK_WORKER_MEMORY=1G
export SPARK_MASTER_PORT=7077

spark与hive集成的时候（spark程序中创建hive表以及加载查询数据）

需要将hive conf目录下的hive-site.xml 复制到 spark/conf 目录下

同时在 spark-env.sh 中添加hive的安装目录

export HIVE_HOME=/opt/hive

提交任务的是报错信息 java.lang.NoClassDefFoundError: scala/Product$class 这可能是安装的版本和程序编译版本不一致造成。

12. Spark SQL快速离线数据分析

1. Spark SQL 与Hive集成（spark-shell），参考博客
2. Spark SQL 与Hive集成（spark-sql），参考博客
3. Spark SQL之ThriftServer和beeline使用，参考博客
4. Spark SQL与MySQL集成，参考博客
5. Spark SQL与HBase集成，参考博客

13. Structured Streaming业务数据实时分析

1、NC服务安装

在netcoud05节点下安装nc服务： yum install -y nc

在netcloud03节点下词频统计执行命令： bin/run-example --master local[2 ] streaming.NetworkWordCount netcloud05 9999

将spark conf 目录下的log4j.properties 文件的日志级别改为WARN 避免打印出过多的日志信息。

2、SparkStreaming读取socket流数据在IDEA程序执行

object Test {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .master("local[2]")
      .appName("HdfsTest")
      .getOrCreate()

        val ssc = new StreamingContext(spark.sparkContext,Seconds(5));
        val lines = ssc.socketTextStream("netcloud05", 9999)
        val words = lines.flatMap(_.split(" "))
  }

}

上面的程序可以在本地执行，也可以将程序打包通过集群执行。

3、SparkStreaming结果存储到外部数据库中。

object TestStreaming {

  def main(args: Array[String]): Unit = {

    val spark  = SparkSession.builder()
      .master("local[2]")
      .appName("streaming").getOrCreate()

    val sc =spark.sparkContext
    val ssc = new StreamingContext(sc, Seconds(5))
    val lines = ssc.socketTextStream("netcloud05", 9999)
    val words = lines.flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)
    words.foreachRDD(rdd => rdd.foreachPartition(line => {
         Class.forName("com.mysql.jdbc.Driver")
         val conn = DriverManager
           .getConnection("jdbc:mysql://node5:3306/test","root","1234")
         try{
            for(row <- line){
              val sql = "insert into webCount(titleName,count)values('"+row._1+"',"+row._2+")"
              conn.prepareStatement(sql).executeUpdate()
            }
         }finally {
            conn.close()
         }
    }))
      ssc.start()
      ssc.awaitTermination()
  }

}

4.sparkStreaming 与kafka集成

1）Maven引入相关依赖：spark-streaming-kafka

2）编写测试代码并启动运行

object StreamingKafka8 {

def main(args: Array[String]): Unit = {

val spark = SparkSession.builder()

.master("local[2]")

.appName("streaming").getOrCreate()

val sc =spark.sparkContext;

val ssc = new StreamingContext(sc, Seconds(5))

// Create direct kafka stream with brokers and topics

val topicsSet =Set("weblogs")

val kafkaParams = Map[String, String]("metadata.broker.list" -> "netcloud03:9092")

val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](

ssc, kafkaParams, topicsSet)

val lines = kafkaStream.map(x => x._2)

val words = lines.flatMap(_.split(" "))

val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)

wordCounts.print()

ssc.start()

ssc.awaitTermination()

}

3）启动Kafka服务并测试生成数据

bin/kafka-server-start.sh config/server.properties

bin/kafka-console-producer.sh --broker-list bigdata-pro01.kfk.com --topic weblogs

5、Structured Streaming 读取Socket 进行单词统计

scala> :paste
// Entering paste mode (ctrl-D to finish)

val lines = spark.readStream
.format("socket")
.option("host", "netcloud05")
.option("port", 9999)
.load()

// Split the lines into words
val words = lines.as[String].flatMap(_.split(" "))
// Generate running word count
val wordCounts = words.groupBy("value").count()
val query = wordCounts.writeStream
.outputMode("complete")
.format("console")
.start()
query.awaitTermination()

输出的结果值是单词的聚合值

-------------------------------------------
Batch: 0
-------------------------------------------
+------+-----+
| value|count|
+------+-----+
|apache|    1|
| spark|    1|
+------+-----+

-------------------------------------------
Batch: 1
-------------------------------------------
+------+-----+
| value|count|
+------+-----+
|apache|    2|
| spark|    1|
|hadoop|    1|
+------+-----+
...

输出模式是update的情况 输出的结果值是单词的输入新值的统计结果，不包括之前的计算值。

.outputMode("update")

-------------------------------------------
Batch: 0
-------------------------------------------
+------+-----+
| value|count|
+------+-----+
|apache|    1|
| spark|    1|
+------+-----+

-------------------------------------------
Batch: 1
-------------------------------------------
+------+-----+
| value|count|
+------+-----+
|hadoop|    1|
+------+-----+
...

5. Structured Streaming与kafka集成

1）Structured Streaming是Spark2.2.0新推出的，要求kafka的版本0.10.0及以上。集成时需将如下的包拷贝到Spark的jar包目录下。

kafka_2.11-0.10.1.0.jar
kafka-clients-0.10.1.0.jar
spark-sql-kafka-0-10_2.11-2.2.0.jar
spark-streaming-kafka-0-10_2.11-2.1.0.jar
2）与kafka集成代码

val df = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "netcloud03:9092")
.option("subscribe", "weblogs")
.load()

import spark.implicits._
val lines = df.selectExpr("CAST(value AS STRING)").as[String]

val words = lines.flatMap(_.split(" "))

// Generate running word count
val wordCounts = words.groupBy("value").count()
val query = wordCounts.writeStream
.outputMode("complete")
.format("console")
.start()
query.awaitTermination()

3）在netcloud03节点启动kafka生产者输入数据

6. Structured Streaming与MySQL集成

1）mysql创建相应的数据库和数据表，用于接收数据

create database test;
use test;

CREATE TABLE `webCount` (
`titleName` varchar(255) CHARACTER SET utf8 DEFAULT NULL,
`count` int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
2）与mysql集成代码

/**
  * 结构化流从kafka中读取数据存储到关系型数据库mysql
  * 目前结构化流对kafka的要求版本0.10及以上
  */
object StructuredStreamingKafka {

  case class Weblog(datatime:String,
                    userid:String,
                    searchname:String,
                    retorder:String,
                    cliorder:String,
                    cliurl:String)
  def main(args: Array[String]): Unit = {

    val spark  = SparkSession.builder()
      .master("local[2]")
      .appName("streaming").getOrCreate()

    val df = spark
      .readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "netcloud03:9092") //从哪台服务器接收
      .option("subscribe", "weblogs")
      .load()
    import spark.implicits._
    val lines = df.selectExpr("CAST(value AS STRING)").as[String]
    val weblog = lines.map(_.split(","))
                     .map(x => Weblog(x(0), x(1), x(2),x(3),x(4),x(5)))
    val titleCount = weblog
      .groupBy("searchname").count().toDF("titleName","count")

    val url ="jdbc:mysql://netcloud04:3306/test"
    val username="root"
    val password="hadoop"
    val writer = new JDBCSink(url,username,password)
    val query = titleCount.writeStream
      .foreach(writer)      
      .outputMode("update")
      .trigger(ProcessingTime("5 seconds"))
      .start()
    query.awaitTermination()
  }

/**
  * 处理从StructuredStreaming中向mysql中写入数据
  */
class JDBCSink(url: String, username: String, password: String) extends ForeachWriter[Row] {

  var statement: Statement = _
  var resultSet: ResultSet = _
  var connection: Connection = _

  override def open(partitionId: Long, version: Long): Boolean = {
    connection = new MySqlPool(url, username, password).getJdbcConn()
    statement = connection.createStatement()
    return true
  }

  override def process(value: Row): Unit = {

    val titleName = value.getAs[String]("titleName").replaceAll("[\\[\\]]", "")
    val count = value.getAs[Long]("count")

    val querySql = "select 1 from webCount " +
      "where titleName = '" + titleName + "'"

    val updateSql = "update webCount set " +
      "count = " + count + " where titleName = '" + titleName + "'"

    val insertSql = "insert into webCount(titleName,count)" +
      "values('" + titleName + "'," + count + ")"

    try {

      //查看连接是否成功
      var resultSet = statement.executeQuery(querySql)
      if (resultSet.next()) {
        statement.executeUpdate(updateSql)
      } else {
        statement.execute(insertSql)
      }
    } catch {
      case ex: SQLException => {
        println("SQLException")
      }
      case ex: Exception => {
        println("Exception")
      }
      case ex: RuntimeException => {
        println("RuntimeException")
      }
      case ex: Throwable => {
        println("Throwable")
      }
    }
  }

  override def close(errorOrNull: Throwable): Unit = {
    //    if(resultSet.wasNull()){
    //      resultSet.close()
    //    }
    if (statement == null) {
      statement.close()
    }
    if (connection == null) {
      connection.close()
    }
  }

}

7. Structured Streaming向mysql数据库写入中文乱码解决

修改数据库文件my.cnf（linux下）

[client]
socket=/var/lib/mysql/mysql.sock //添加
default-character-set=utf8 //添加
[mysqld]
character-set-server=utf8 //添加
datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock
user=mysql
# Disabling symbolic-links is recommended to prevent assorted security risks
symbolic-links=0
[mysqld_safe]
log-error=/var/log/mysqld.log
pid-file=/var/run/mysqld/mysqld.pid

14. 大数据Web可视化分析系统开发

1. 基于业务需求的WEB系统设计（具体参照代码）

2. 基于Echart框架的页面展示层开发

1）echart、JQuery下载

2）页面效果图选取及代码实现

3. 工程编译并打包发布

参照之前将的idea打包方式，将spark web项目（scala）打包发布提交到spark集群执行。

4. 启动各个服务

1）启动zookeeper： zkServer.sh start

2）启动hadoop： start-all.sh

3）启动hbase： start-hbase

4）启动mysql： service mysqld start

5）netcloud05（netcloud04）启动flume： flume-kfk-start.sh，将数据发送到netcloud03中

6）netcloud03启动flume： flume-kfk-start.sh，将数据分别传到hbase和kafka中

7）启动kafka-0.10(最好三台都启动，不然易出错)：

bin/kafka-server-start.sh config/server.properties > kafka.log 2>&1 &
8）启动netcloud05(netcloud04)中的脚本：weblog-shell.sh

9）启动 StructuredStreamingKafka来从kafka中取得数据，处理后存到mysql中

10）启动web项目（sparkStu），该项目会从mysql数据库中读取数据展示到页面

5. 最终项目运行效果

你可能感兴趣的:(hadoop,spark,分布式)

边缘计算（Edge Computing） Dream Algorithm 边缘计算人工智能
边缘计算（EdgeComputing）是一种分布式计算范式，它将数据处理和存储功能从传统的集中式云端转移到靠近数据源的网络边缘设备（如路由器、网关、本地服务器或终端设备）。边缘计算的目标是减少数据传输延迟、降低带宽压力，并提高系统的实时性和可靠性。边缘计算的核心概念靠近数据源边缘计算将计算资源部署在靠近数据生成的地方，而不是将所有数据发送到远程云端处理。分布式架构边缘计算采用分布式架构，将计算任务
电力行业中实现“电力一张图” 可行方案小赖同学啊人工智能智能硬件能源物联网
在电力行业中实现“电力一张图”，需构建覆盖全业务场景的统一可视化平台，整合电网资源、设备状态、运行数据及地理信息，实现电力系统的数字化、智能化管理。以下是具体的技术实现方案：一、系统架构设计采用分层架构，涵盖数据采集、通信、处理、可视化及应用层：感知层设备部署：在变电站、杆塔、线路、分布式能源等节点部署智能传感器（如温湿度传感器、振动传感器、电流互感器）、智能终端（如FTU/DTU/TTU）、无人
软件架构师--数据库系统一蓑烟雨*任平生软件架构师数据库 1024程序员节
一、分布式数据库1.分片透明性分片透明性：分不分片，用户感受不到（不关心如何分片存储）。位置透明性：数据存放在哪里，用户不用管（用户无需知道数据存放的物理位置）复制透明性：不关心结点的复制情况。局部数据模型透明性（逻辑透明）：用户或应用程序无需知道局部场地使用的是哪种数据模型。2.两阶段提交协议2PC2PC事务提交的两个阶段①表决阶段，目的是形成一个共同的决定②执行阶段，目的是实现这个协调者的决定
Redis 分布式锁 DebugDiver代码深处潜水员三方件 redis 分布式数据库
Redis分布式锁是一种在分布式系统中实现互斥访问共享资源的机制。它利用Redis的高性能和原子性操作来确保在多个节点之间安全地获取和释放锁。下面是对Redis分布式锁的原理讲解和源码剖析。原理讲解1.基本概念锁：在分布式系统中，锁用于确保在同一时间只有一个节点能够访问共享资源。分布式锁：分布式锁是一种在多个节点之间共享的锁，通常通过一个共享的存储系统（如Redis）来实现。2.Redis实现分布
【大模型LLM面试合集】分布式训练_总结 X.AI666 大模型LLM面试合集面试分布式人工智能语言模型
9.总结1.数据并行数据并行，由于其原理相对比较简单，是目前使用最广泛的分布式并行技术。数据并行不仅仅指对训练的数据并行操作，还可以对网络模型梯度、权重参数、优化器状态等数据进行并行。我们首先以PyTorch数据并行的发展（DataParallel、DistributedDataParallel、FullyShardedDataParallel）为主线进行讲述了数据并行的技术原理。同时，也简述了D
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
浅显易懂——连接池、分布式系统、微服务等概念十五春会分布式微服务
文章目录连接池比喻技术层面关键参数实际应用示例分布式系统概念实现方式实际应用场景关键概念分布式会话管理分布式计数器分布式锁分布式事务（DistributedTransaction）分布式追踪集群环境比喻优缺微服务架构比喻优缺实际场景服务间通信负载均衡服务发现连接池比喻想象你是一家餐厅的顾客，你想点餐。每次点餐时，服务员需要去厨房取一个厨师来为你准备食物。如果每次点餐都重新找一个新厨师，不仅浪费时间
python笔记：进程和线程—分布式进程 zyckhuntoria python foundation
一、分布式进程Process可以分布到多台机器上，而Thread最多只能分布到同一台机器的多个CPU上。Python的multiprocessing模块不但支持多进程，其中managers子模块还支持把多进程分布到多台机器上。一个服务进程可以作为调度者，将任务分布到其他多个进程中，依靠网络通信。由于managers模块封装很好，不必了解网络通信的细节，就可以很容易地编写分布式多进程程序。二、举例实
SpringBoot项目集成分布式任务调度平台XXL-JOB 樱花语分布式开发 SpringBoot XXL-JOB
一、概述XXL-JOB是一个轻量级分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线，开箱即用。二、特性1、简单：支持通过Web页面对任务进行CRUD操作，操作简单，一分钟上手；2、动态：支持动态修改任务状态、启动/停止任务，以及终止运行中任务，即时生效；3、调度中心HA（中心式）：调度采用中心式设计，“调度中心”自研调度组件并支持集群部
python任务调度平台界面_分布式任务调度平台XXL-JOB weixin_39572764 python任务调度平台界面
以前带我的人说过，最好的学习就是看官方文档，个人也有4个T的学习视频，但是会发现讲的都是入门，有的也比较浅。官方文档比较官方，也比较权威，打开xxl-job的官网，写的贼详细，有些人喜欢收博客，不喜欢看官网，因此就直接复制过来了，过段时间会参考文档，自己来一遍。一、简介1.1概述XXL-JOB是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司
Python进程与线程：分布式进程梧桐树0429 python 分布式开发语言
在Python中，当我们面临选择使用线程（Thread）还是进程（Process）时，进程往往因其更高的稳定性和可扩展性而被优先考虑。特别是，进程能够跨越多台机器进行分布，而线程则受限于同一台机器的多个CPU核心。Python的multiprocessing模块不仅支持多进程，其managers子模块更是提供了将多进程分布到多台机器上的能力。通过managers模块，我们可以轻松编写分布式多进程程
Python 进程与线程-分布式进程赔罪分布式 python 开发语言
目录分布式进程小结分布式进程在Thread和Process中，应当优选Process，因为Process更稳定，而且，Process可以分布到多台机器上，而Thread最多只能分布到同一台机器的多个CPU上。Python的multiprocessing模块不但支持多进程，其中managers子模块还支持把多进程分布到多台机器上。一个服务进程可以作为调度者，将任务分布到其他多个进程中，依靠网络通信。
RocketMQ中事务消息的实现机制啊sen丶 rocketmq 数据库 java
在分布式系统中，确保消息与本地事务的一致性是一个关键问题。RocketMQ通过事务消息提供了对这种需求的支持，其核心思想是通过两阶段提交来确保消息和本地事务的原子性。本文将深入探讨RocketMQ事务消息的实现机制，包括基本流程、事务回查机制以及消息状态的处理。一、事务消息的基本流程（一）第一阶段：半消息的发送当生产者发送事务消息时，RocketMQ会将消息存储在一个特殊的队列RMQ_SYS_TR
【从零开始学习计算机科学】数据库系统（十一）云数据库、NoSQL 与 NewSQL 贫苦游商数据库学习 nosql newsql 云数据库 CAP sql
【从零开始学习计算机科学】数据库系统（十一）云数据库、NoSQL与NewSQL云数据库云服务器的服务云数据库和传统的分布式数据库的异同NoSQLNoSQL数据库的特点CAP定理NoSQL的特性NoSQL数据库的分类NoSQL的适用场景Nosql数据库实例-RedisRedis的优势MongoDBMongoDB的特点NewSQLNewSQL出现的背景NewSQL（新型分布式数据库）的概念NewSQL
Spring Cloud Alibaba RocketMQ 消息队列 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介RocketMQ是一款开源、高性能、分布式消息中间件，它具备以下主要特征：支持海量消息堆积能力，支持发送10万+TPS，且不受单机容量限制；提供灵活的消息过滤机制，支持按照标签，SQL92标准的过滤语法进行消息过滤；丰富的消息订阅模型，包括广播消费，集群消费，事务消费等多种模式；内置丰富的管理控制台，通过WebUI来方便地对集群进行管理、监控及报警；高吞吐量，单
Redis 部署方式有哪些十五001 基础中间件 redis
以下是Redis主从复制和分布式部署的详细方法和步骤：1.Redis主从复制部署架构主从复制是Redis最基本的分布式机制，通过将数据从主节点（Master）复制到多个从节点（Slave），实现读写分离和数据备份。部署步骤安装Redis•安装编译环境（如make和gcc）。•下载并编译Redis：wgethttp://download.redis.io/releases/redis-7.2.5.t
SpringBoot整合Netty 晚上睡不着！ #SpringBoot spring boot nio websocket tcp/ip http
前言Netty是一个高性能、异步事件驱动的网络应用程序框架，用于快速开发可维护的高并发协议服务器和客户端。Netty主要基于JavaNIO实现，提供了异步和事件驱动的网络编程工具，简化了TCP和UDP服务器的编程。Netty广泛应用于分布式系统、实时通信、游戏开发等领域，例如，知名的Elasticsearch和Dubbo框架内部都采用了Netty。Netty吸收了多种协议的实现经验，经过精心设计，
【Python爬虫(71)】用Python爬虫解锁教育数据的奥秘奔跑吧邓邓子 Python爬虫 python 爬虫开发语言教育数据
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、确定目标网站2.1教育机构官网2.2在线学习平台三、爬
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
Redis- 秒杀场景左灯右行的爱情 redis 数据库缓存
秒杀什么是秒杀场景秒杀场景挑战有哪些高并发与性能挑战数据一致性挑战安全性挑战秒杀系统的架构设计前端策略服务层设计库存控制策略订单处理流程技术实现缓存设计与优化分布式锁与一致性保证消息队列应用安全防护措施什么是秒杀场景秒杀场景的本质是在极短时间内承受大量并发请求，同时保证有限商品的正确售卖。它具有三个核心特征：高并发（短时间内大量用户涌入）、资源有限（商品数量有限）和时效性强（活动在特定时间开始和结
【面试题系列】Redis 常见面试题&答案颜淡慕潇面试题系列 redis 数据库缓存
一、基础概念1.Redis有哪些数据结构？各自的应用场景是什么？答案：Redis支持以下数据结构：String：最基础类型，存储字符串、数字、二进制数据。场景：缓存用户信息、计数器、分布式锁。Hash：键值对集合，类似Java的HashMap。场景：存储对象（如用户属性）。List：双向链表，支持左右插入和弹出。场景：消息队列（LPUSH+RPOP）、微博时间线。Set：无序唯一集合，支持交集、并
11B模型拿下开源视频生成新SOTA！仅用224张GPU训练，训练成本省10倍量子位
关注前沿科技量子位224张GPU，训出开源视频生成新SOTA！Open-Sora2.0正式发布。11B参数规模，性能可直追HunyuanVideo和Step-Video（30B）。要知道，市面上诸多效果相近的闭源视频生成模型，动辄花费数百万美元训练成本。而Open-Sora2.0，将这一数字压缩到了20万美元。同时，此次发布全面开源模型权重、推理代码及分布式训练全流程，开发者们可以看过来！GitH
分布式架构的 CAP 定理、BASE 理论及其应用教程宋发元分布式架构
分布式架构的CAP定理、BASE理论及其应用教程在构建分布式系统时，数据一致性、系统可用性和网络分区容忍性是三个核心关注点。CAP定理和BASE理论为我们提供了指导原则，帮助在系统设计中进行合理权衡。本文将深入解析CAP定理和BASE理论，并结合实际应用案例，帮助你掌握在分布式架构中的应用策略。1.CAP定理：分布式系统的权衡法则1.1CAP定理概述CAP定理由EricBrewer提出，指出在一个
Zookeeper性能优化与调优技巧精讲 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Zookeeper性能优化与调优技巧精讲1.背景介绍1.1什么是Zookeeper?ApacheZooKeeper是一个开源的分布式协调服务,为分布式应用程序提供高可用性和强一致性的协调服务。它主要用于解决分布式环境中的数据管理问题,如统一命名服务、配置管理、分布式锁、集群管理等。ZooKeeper的设计目标是构建一个简单且高效的核心,以确保最大程度的可靠性和可扩展性。1.2Zookeeper的应
分布式数据库OceanBase HBryce24 数据库分布式 oceanbase
三地五中心部署同步示例三地：城市A、城市B、城市C（3个不同的地理位置）。五中心：总共有5个数据中心（Zone），分布如下：城市A：Zone1（R/W）、Zone2（R/W）城市B：Zone3（R/W）、Zone4（R/W）城市C：Zone5（RO）一、读写副本（R/WZone）与只读副本（ROZone）的数量Zone类型数量角色说明R/WZone4参与写入投票，可成为主副本ROZone1仅支持异
重磅推出！Highlight.io：开源全栈监控平台，让开发者轻松掌控应用性能！开源项目精选全栈
Highlight.io是一个开源的全栈监控平台，提供用于错误监控、会话重放、日志记录、分布式跟踪等的综合工具。它旨在为开发人员提供用于监控应用程序的现代、有凝聚力的解决方案。Stars数8,029Forks数398主要特点错误跟踪：借助详细的堆栈跟踪、错误上下文和受影响用户信息，即时捕获并诊断错误。会话回放：通过像素级精确重现会话，可视化用户交互，帮助你快速理解和复现问题。性能监控：通过加载时间
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
CDN防御如何保护我们的网络安全？ cdncdn缓存网络安全
在当今数字化时代，网络安全成为了一个至关重要的议题。随着网络攻击的日益频繁和复杂化，企业和个人都面临着前所未有的安全威胁。内容分发网络（CDN）作为一种分布式网络架构，不仅能够提高网站的访问速度和用户体验，还能够在很大程度上增强网络安全防护能力。本文将探讨CDN防御如何保护我们的网络安全。1、CDN防御的首要本领是分布式抗DDoS攻击DDoS攻击，即分布式拒绝服务攻击，犹如网络中的“洪水猛兽”，攻
HBase学习二：HBase的表结构 hucs420109 HBase HBase
HBase的表结构初次接触HBase，可能看到以下描述会懵：“基于列存储”，“稀疏MAP”，“RowKey”,“ColumnFamily”。其实没那么高深，我们需要分两步来理解HBase,就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。内存结构文件存储结构先介绍几个名称概念行键RowKey：行键，类似mysql中的主键，Table中的记录按照RowKey排序，行键是表结构的
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite