tanglook

大数据项目实战之新闻话题统计分析

前言：本文是一个完整的大数据项目实战，实时|离线统计分析用户的搜索话题，并用JavaEE工程前端界面展示出来。这些指标对网站的精准营销、运营都有极大帮助。架构大致是按照企业标准来的，从日志的采集、转化处理、实时计算、JAVA后台开发、WEB前端展示，一条完整流程线下来，甚至每个节点都用的高可用架构，都考虑了故障转移和容错性。所用到的框架包括：Hadoop(HDFS+MapReduce+Yarn)+Flume+KafKa+Hbase+Hive+Spark（SQL、Streaming ）+Hive+Mysql+SpringMVC+Mybatis+Websocket+AugularJs+Echarts。所涉及到的语言包括：JAVA、Scala、Shell。

项目部署地址:http://120.79.35.74:443/Hot_News_Web/

项目源代码联系邮箱:[email protected]

项目架构图:

一：数据源处理(搜狗实验室获取新闻资源 XML——>TXT:java解析大批量xml文件代码后贴)

处理思路:利用SAXReader获取xml文件内容，并构建News实体类以便写入txt文件，然后编写ReadWebLog类并编写脚本运行在Liunx上模拟新闻搜索日志产生

Liunx运行jar命令：java -jar 你的上传jar包所在目录 args0 args1

或Shell脚本命令：

#/bin/bash

echo "start log"

java -jar 你的上传jar包所在目录 args0 args1

代码：

处理搜狗实验室元数据.xml----->txt

package cn.yusys.hotnews.datasource;

import org.dom4j.Document;

import org.dom4j.Element;

import org.dom4j.io.SAXReader;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import java.text.SimpleDateFormat;

import java.util.ArrayList;

import java.util.Date;

import java.util.Iterator;

import java.util.List;

/**

* 解析搜狗实验室新闻xml文件为txt文件---->项目数据源

* @author Tangzhi mail:[email protected]

* Created on 2018年11月12日

public class MyXMLReader2JDOM {

public static void main(String[] args) {

// 获取xml文件读取流

SAXReader reader = new SAXReader();

// 设置字符集编码方式

reader.setEncoding("utf-8");

Document document;

Element rootElement;

List docList;

Iterator iterator;

// 用于存放节点数据以便后面的写入之news.log

ArrayList list = new ArrayList();

// 开始进行读取

try {

document = reader.read(new File("D:\\Downloads\\大数据数据源\\news_tensite_xml.smarty.dat"));

// 得到根节点元素 ...

rootElement = document.getRootElement();

//...

docList = rootElement.elements("doc");

* 得到xml具体配置文件信息

iterator = docList.iterator();

for (Element e : docList) {

News news = new News();

/**

* 遍历子节点将具体新闻信息写入txt文件

if (e.element("url") != null && !" ".equals(e.element("url"))) {

news.setUrl(e.element("url").getStringValue().trim());

}

if (e.element("docno") != null && !" ".equals(e.element("docno"))) {

news.setDocno(e.element("docno").getStringValue().trim());

}

if (e.element("contenttitle") != null && !" ".equals(e.element("contenttitle"))) {

news.setContenttitle(e.element("contenttitle").getStringValue().trim());

}

if (e.element("content") != null && !" ".equals(e.element("content"))) {

news.setContent(e.element("content").getStringValue().trim());

}

list.add(news);

}

/**

* 进行写入txt文件

writwToFile(list);

} catch (Exception e) {

e.printStackTrace();

}

/**

* 写入txt文件(后期当源数据文件过大时进行分片处理)

* @throws IOException

public static void writwToFile(List list) throws IOException {

File file = new File("D:\\Downloads\\大数据数据源\\news2.log");

BufferedWriter bw = new BufferedWriter(new FileWriter(file));

if (!file.exists()) {

try {

file.createNewFile();

} catch (IOException e) {

e.printStackTrace();

}

} else {

for (News news : list) {

Date date = new Date();

SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

String dateStr = sdf.format(date);

bw.write("datetime"+"="+dateStr+"|");

bw.write("url"+"="+news.getUrl()+"|");

bw.write("docno"+"="+news.getDocno()+"|");

bw.write("contenttitle"+"="+news.getContenttitle()+"|");

bw.write("content"+"="+news.getContent());

bw.write("\n");

bw.flush();

}

----------------------------------------------------------------------------------------------------------------

package cn.yusys.hotnews.datasource;

/**

*xml解析时新闻实体类

public class News implements Serializable{

// 实现序列化接口以便多台机器同时解析

public News () {

}

public News(String url, String docno, String contenttitle, String content) {

super();

this.url = url;

this.docno = docno;

this.contenttitle = contenttitle;

this.content = content;

}

String url;

String docno;

String contenttitle;

String content;

public String getUrl() {

return url;

}

public void setUrl(String url) {

this.url = url;

}

public String getDocno() {

return docno;

}

public void setDocno(String docno) {

this.docno = docno;

}

public String getContenttitle() {

return contenttitle;

}

public void setContenttitle(String contenttitle) {

this.contenttitle = contenttitle;

}

public String getContent() {

return content;

}

public void setContent(String content) {

this.content = content;

}

-----------------------------------------------------------------------------------------

运行在Liunx上模拟日志产生并通过flume采集

package cn.yusys.hotnews.datasource;

import java.io.*;

/**

* 模拟日志服务器产生日(从news.log/news1.log中随机切换文件读取数据然后写入日志文件-----》然后使用进行flume采集)

* @author Tangzhi mail:[email protected]

* @date 2018年11月12日

public class ReadWebLog {

public static String readFileName;

public static String writeFileName;

public static void main (String[] args) {

readFileName = args[0];

writeFileName = args[1];

readFile(readFileName);

}

/**

* 从new.log/news1.log中随机读取日志信息

public static void readFile(String fileName){

try {

FileInputStream fs = new FileInputStream(fileName);

// 转换流

InputStreamReader isr = new InputStreamReader(fs,"utf-8");

BufferedReader br = new BufferedReader(isr);

int count = 0;

while (br.readLine() != null){

String line = br.readLine();

count ++;

// 自定义读取间隔毫秒

Thread.sleep(1000);

System.out.println("row:" + count + ">>>>>>>>" + line);

/**

* 写入到指定文件中(与flume配置文件对应)

writeFile(writeFileName,line);

}

} catch (Exception e) {

e.printStackTrace();

}

/**

* 文件内容的写入

public static void writeFile (String fileName,String line) {

try {

FileOutputStream fs = new FileOutputStream(fileName, true);

OutputStreamWriter osw = new OutputStreamWriter(fs);

BufferedWriter bw = new BufferedWriter(osw);

// 执行文件内容的写入

bw.write(line);

bw.write("\n");

bw.close();

} catch (Exception e) {

e.printStackTrace();

}

Q&A

Q1：

Java异常: "2 字节的 UTF-8 序列的字节 2 无效。"

A1：利用记事本打开另行保存编码格式为UTF-8 再Notepad++(其他编辑器亦可)用打开即可

Q2 :

在Liunx系统上运行jar时出现找不到主类

A1 ：使用IDEA时pom.xml加入以下依赖并在部分写入你类全路径

org.apache.maven.plugins

maven-shade-plugin

2.4.3

package

shade

*:*

META-INF/*.SF

META-INF/*.DSA

META-INF/*.RSA

Liunx效果图:

附 :当数据源文件很大时,可以在ReadWebLog类中进行随机读取多个log文件设置也可是模拟数据更为真实

搜狗实验室：中文信息处理以及部分数据提供 http://www.sogou.com/labs/

注：根据项目需求进行数据前期清洗

到此：数据源获取简单清洗(uid设置时间戳绑定部分数据过滤)已经完成

二：Flume与HBase、Kafka数据对接

处理思路：Flume采集数据源数据与HBase集成----->HBase与Hive对接------>Hadoop MapReduce 完成离线计算分析----->前台Echart

Flume采集数据源数据与Kafka集成----->Kafka与Spark Streaming对接----->Spark + MySql 完成实时计算分析----->前台Echart

1.Flume与HBase

Tips：此时Flume Sink 下沉目标为HBase （前提：Liunx环境安装HBase，理解HBase原理）修改hbase-site.xml 修改hbase数据目录 zookeeper地址

HBase常用Shell命令:

启动HBase： strat-hbase.sh

Shell命令交互模式：./hbase shell

创建表 : create '表名', '列族名1','列族名2','列族名N'.......

HBase配置文件下图：

##hbase-env.sh

export JAVA_HOME=/opt/jdk1.7.0_65 ----自己虚拟机jdk路径(etc/profile)

export JAVA_CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export HBASE_MANAGES_ZK=false ----不使用HBase自带zookeeper使用外部zookeeper集群

##hbase-site.xml

hbase.master

192.168.25.136:60000

hbase.master.maxclockskew

180000

hbase.rootdir

hdfs://192.168.25.136:9000/hbase

hbase.cluster.distributed

true

hbase.zookeeper.quorum

192.168.25.136

hbase.zookeeper.property.dataDir

/tmp/hbase_data

##regionservers

localhost ---填写集群IP地址或主机名

Q&A

Q1：创建HBase表时报错： ERROR：Can not get address from Zookeeper; znode data == null

A1：1、确保zookeeper集群可用 Hadoop集群可用 HBase服务正常启动

2、vi hbase-site.xml 查看HBase数据存放目录权限是否为可读可写

Q2：HBase0.9.4 通过脚本启动后创建表时报错

ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times

A2 :

1.查看hadoop集群 zookeeper集群是否可用

2.HBase 0.9.4 与 Hadoop 2.x 兼容性差版本不一致导致无法进行RPC通信建议搭配:HBase 0.9.9.x + Hadoop 2.x但请注意此时

Flume最好选择1.7.x 原因见下图：

1.Flume与Kafka

Tips：此时Flume Sink 下沉目标为Kafka（前提：Liunx环境安装Kafka，理解Kafka原理）

Kafka常用Shell命令:

启动kafka: bin/kafka-servers-start ../config/server.properties (指定特定文件启动)

创建主题:bin/kafka-topics.sh --create --zookeeper 192.168.25.136:2181 --replication-factor 1 --partitions 1 --topic weblogs

删除主题:bin/kafka-topics.sh --delete --zookeeper 192.168.25.136:2181 --topic weblogs

控制台消费topic的数据:bin/kafka-console-consumer.sh --zookeeper 192.168.25.136:2181 --topic weblogs --from-beginning

控制台生产数据:bin/kafka-console-producer.sh --broker-list 192.168.25.136:9092 --topic weblogs

查看主题具体信息:bin/kafka-topics.sh --zookeeper 192.168.25.136:2181 --describe --topic weblogs

Kafka配置文件 (kafka在大数据项目中大多作为数据缓冲区生产者-消费者模式)

#broker的全局唯一编号，不能重复

broker.id=0

#用来监听链接的端口，producer或consumer将在此端口建立连接

port=9092

#处理网络请求的线程数量

num.network.threads=3

#用来处理磁盘IO的线程数量

num.io.threads=8

#发送套接字的缓冲区大小

socket.send.buffer.bytes=102400

#接受套接字的缓冲区大小

socket.receive.buffer.bytes=102400

#请求套接字的缓冲区大小

socket.request.max.bytes=104857600

#kafka运行日志存放的路径

log.dirs=/export/logs/kafka

#topic在当前broker上的分片个数

num.partitions=2

#用来恢复和清理data下数据的线程数量

num.recovery.threads.per.data.dir=1

#segment文件保留的最长时间，超时将被删除

log.retention.hours=168

#滚动生成新的segment文件的最大时间

log.roll.hours=168

#日志文件中每个segment的大小，默认为1G

log.segment.bytes=1073741824

#周期性检查文件大小的时间

log.retention.check.interval.ms=300000

#日志清理是否打开

log.cleaner.enable=true

#broker需要使用zookeeper保存meta数据

zookeeper.connect=192.168.25.136:2181,192.168.25.136:2182,192.168.25.136:2183

#zookeeper链接超时时间

zookeeper.connection.timeout.ms=6000

#partion buffer中，消息的条数达到阈值，将触发flush到磁盘

log.flush.interval.messages=10000

#消息buffer的时间，达到阈值，将触发flush到磁盘

log.flush.interval.ms=3000

#删除topic需要server.properties中设置delete.topic.enable=true否则只是标记删除

delete.topic.enable=true

#此处的host.name为本机IP(重要),如果不改,则客户端会抛出:Producer connection to localhost:9092 unsuccessful 错误!

host.name=192.168.25.136

当kafka消费的数据与HBase的weblogs表记录总数相等时说明已完成Flume与HBase、Kafka数据对接

Flume启动日志图：

HBase count表中数据：

Kafka消费数据：

附：Flume采集数据按特定列下沉至Hbase、Kafka配置文件(重点)

a1.sources = r1

a1.channels = kafkaC hbaseC

a1.sinks = kafkaS hbaseS

a1.sources.r1.type = exec

a1.sources.r1.command = tail -F /home/hotnews/weblogs.log

a1.sources.r1.channels = kafkaC hbaseC

# flume + hbase

# sink 配置为HBaseSink 和 SimpleHbaseEventSerializer

a1.channels.hbaseC.type = memory

a1.channels.hbaseC.capacity = 10000

a1.channels.hbaseC.transactionCapacity = 10000

#HBase表名

a1.sinks.hbaseS.type = org.apache.flume.sink.hbase.HBaseSink

a1.sinks.hbaseS.table = weblogs

#HBase表的列族名称

a1.sinks.hbaseS.columnFamily = info

a1.sinks.hbaseS.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer

#正则匹配新闻数据去到对应的列族下的对应列(xxxx|xxxx|xxxx|xxxx|xxxx)

a1.sinks.hbaseS.serializer.regex = ^(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)

a1.sinks.hbaseS.serializer.colNames =datatime,url,docno,contenttitle,content

#a1.sinks.hbaseS.serializer.rowKeyIndex = 0

# 组合sink和channel

a1.sinks.hbaseS.channel = hbaseC

# flume + kafka

a1.channels.kafkaC.type = memory

a1.channels.kafkaC.capacity = 10000

a1.channels.kafkaC.transactionCapacity = 10000

a1.sinks.kafkaS.channel = kafkaC

a1.sinks.kafkaS.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.kafkaS.topic = weblogs

a1.sinks.kafkaS.brokerList = 192.168.25.136:9092

a1.sinks.kafkaS.zookeeperConnect = 192.168.25.136:2181

a1.sinks.kafkaS.requiredAcks = 1

a1.sinks.kafkaS.batchSize = 20

a1.sinks.kafkaS.serializer.class = kafka.serializer.StringEncoder

三：Kafka+Spark Streaming +MySql 实时计算分析

1、数据库连接池编写(Java原生版 + Scala c3p0版)

附：MySql部署在Liunx，连接信息配置在db.properties

Java原生版：

package cn.yuysy.hotnews.realtime.db;

import java.io.File;

import java.io.FileInputStream;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.SQLException;

import java.util.LinkedList;

import java.util.Properties;

/**

* 数据库连接池

* Created on 2018-11-15

* @author @author tangzhi mail:[email protected]

public class ConnectionPool {

private static LinkedList connectionQueue;

private static Properties prop ;

/**

* 驱动类

static {

try {

prop = new Properties();

prop.load(new FileInputStream(new File("C:\\Users\\Administrator\\Hot_News\\src\\main\\scala\\cn\\yuysy\\hotnews\\realtime\\db\\db.properties")));

Class.forName(prop.getProperty("driverName").toString());

} catch (Exception e) {

e.printStackTrace();

}

/**

* 获取连接对象

public synchronized Connection getConnection () {

if (connectionQueue == null || connectionQueue.size() == 0) {

connectionQueue = new LinkedList();

for (int i = 0;i < 5;i ++) {

try {

Connection connection = DriverManager.getConnection(prop.getProperty("url").toString(), prop.getProperty("username").toString(), prop.getProperty("password").toString());

connectionQueue.add(connection);

} catch (SQLException e) {

e.printStackTrace();

}

return connectionQueue.poll();

}

/**

* 归还连接至连接池

public void returnConnection(Connection connection) {

connectionQueue.add(connection);

}

Scala c3p0版：

package cn.yuysy.hotnews.realtime.db

import java.io.{File, FileInputStream, InputStream}

import java.sql.Connection

import java.util.Properties

import com.mchange.v2.c3p0.ComboPooledDataSource

import org.apache.spark.SparkFiles

/**

* C3P0数据库连接池

* Created on 2018-11-15

* @author tangzhi mail:[email protected]

class c3p0ConnectionPool(isLocal: Boolean) extends Serializable {

private val cpds: ComboPooledDataSource = new ComboPooledDataSource(true)

private val prop = new Properties()

private var in: InputStream = _

isLocal match {

case true => in = getClass.getResourceAsStream("db.properties") //本地IDEA模式

case false => in = new FileInputStream(new File(SparkFiles.get("db.properties"))) //Liunx spark集群模式

}

/**

* 注册连接

* @return

try {

prop.load(in);

cpds.setJdbcUrl(prop.getProperty("url").toString())

cpds.setDriverClass(prop.getProperty("driverName").toString())

cpds.setUser(prop.getProperty("username").toString())

cpds.setPassword(prop.getProperty("password").toString())

cpds.setMaxPoolSize(Integer.valueOf(prop.getProperty("maxPoolSize").toString()));

cpds.setMinPoolSize(Integer.valueOf(prop.getProperty("minPoolSize").toString()));

cpds.setAcquireIncrement(Integer.valueOf(prop.getProperty("acquireIncrement").toString()))

} catch {

case ex: Exception => ex.printStackTrace()

}

def getConnection: Connection={

try {

cpds.getConnection()

} catch {

case ex: Exception => ex.printStackTrace()

null

}

object c3p0ConnectionPool{

var connectionPool: c3p0ConnectionPool = _

def getc3p0ConnectionPool(isLocal: Boolean): c3p0ConnectionPool = {

synchronized {

if (connectionPool == null) {

connectionPool = new c3p0ConnectionPool(isLocal)

}

connectionPool

}

Q&A

Q1：本地运行spark streaming 程序读取kafka数据报错:

Exception in thread "main" java.lang.AssertionError: assertion failed: No output streams registered, so nothing to execute at scala

A1：spark streaming 算子运行没有触发Action 以下为常见action

Q2：spark streamign 实时计算处理后的数据写入MySqL乱码

A2：在数据库连接配置文件的URL后添加: ?useUnicode=true&characterEncoding=utf8即可

2、实时分析思路 + 部分代码

实时分析思路：

从kafka读取数据后(_._2)----->新闻数据------>先将value映射为Map[String,String]----->切割、根据key分组、聚合----->根据key值写sql------>写入MySql成功

部分代码：

package cn.yuysy.hotnews.realtime

import java.io.{File, FileInputStream}

import java.sql.{Connection, Statement}

import java.util.Properties

import cn.yuysy.hotnews.realtime.db.c3p0ConnectionPool

import org.apache.spark.{HashPartitioner, SparkConf}

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

* spark streaming从kafka获取数据进行实时计算然后下沉至MySql

* Created on 2018-11-15

* @author tangzhi mail:[email protected]

object HotnewsRealTimeStreaming {

val updateFunc = (iter: Iterator[(String, Seq[Int], Option[Int])]) => {

//iter.flatMap(it=>Some(it._2.sum + it._3.getOrElse(0)).map(x=>(it._1,x)))

iter.flatMap { case (x, y, z) => Some(y.sum + z.getOrElse(0)).map(i => (x, i)) }

}

def main(args: Array[String]): Unit = {

// 设置日志打印级别

LoggerLevels.setStreamingLogLevels()

val prop = new Properties()

prop.load(new FileInputStream(new File("C:\\Users\\Administrator\\Hot_News\\src\\main\\scala\\cn\\yuysy\\hotnews\\realtime\\sparkstreaming-kafka.properties")))

val sparkConf = new SparkConf().setAppName("HotnewsRealTimeStreaming").setMaster("local[2]")

val ssc = new StreamingContext(sparkConf,Seconds(3))

//检查点文件存放地址

ssc.checkpoint("d://ck")

// 获取kafka主题(多个kafka主题)

val topicMap = prop.getProperty("topics").split(",").map((_, prop.getProperty("numThreads").toInt)).toMap

// 从kafka定时批量获取新闻数据

val line = KafkaUtils.createStream(ssc,prop.getProperty("zkQuorum"),prop.getProperty("group"),topicMap,StorageLevel.MEMORY_AND_DISK_SER).map(_._2)

/**

* spark 实时从kafka上拉取数据存入MySql数据库

// 构造连接、结果集

var conn: Connection = null

var smt: Statement = null

// 1.将kafka value即新闻数据存入Map[String,String] ---> ["datetime","2018-11-18"]

def valueSplit(value: String): Map[String,String] = {

val x = value.split("\\|")

var valueMap: Map[String,String] = Map()

x.foreach(kvs => {

val kv = kvs.split("=")

if (kv != null && kv.length == 2) {

valueMap += (kv(0) -> kv(1))

}

})

valueMap

}

/**

* spark streaming 实时计算分析写入MySql数据库

line.flatMap(_.split("\\|")).map(valueSplit).map(x => {

(x.getOrElse("contenttitle",null),1)

}).updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true).map(data => {

if (data._1 != null) {

try {

conn = c3p0ConnectionPool.getc3p0ConnectionPool(true).getConnection

conn.setAutoCommit(false)

smt = conn.createStatement()

val updateSql = "UPDATE testweblogs SET count = '"+data._2+"' where contenttitle = '" + data._1 + "'"

// val insertSql = "INSERT INTO testweblogs(contenttitle,count) VALUES ('" + data._1 + "','" + data._2 + "')"

smt.execute(updateSql)

conn.commit()

} catch {

case ex => ex.printStackTrace()

} finally {

if (smt != null) {

smt.close()

}

if (conn != null) {

conn.close()

}

}).print()

ssc.start()

ssc.awaitTermination()

}

object c3p0ConnectionPool{

var connectionPool: c3p0ConnectionPool = _

def getc3p0ConnectionPool(isLocal: Boolean): c3p0ConnectionPool = {

synchronized {

if (connectionPool == null) {

connectionPool = new c3p0ConnectionPool(isLocal)

}

connectionPool

}

四：Kafka+HBase+Hive(Hadoop) 离线计算分析

1、Kafka对接Hbase已经完成

2、HBase对接Hive

处理思路：在Hive创建外部表weblogs连接HBase对应表weblogs

CREATE EXTERNAL TABLE weblogs(`id` string , `datatime` string , `url` string, `docno` string, `contenttitle` string,`content` string)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' //指定存储处理器

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:datatime,info:url,info:docno,info:contenttitle,info:content") //声明列族，列名

TBLPROPERTIES ("hbase.table.name" = "weblogs", "hbase.mapred.output.outputtable" = "weblogs");

//hbase.table.name声明HBase表名，为可选属性默认与Hive的表名相同，hbase.mapred.output.outputtable指定插入数据时写入的表，如果以后需要往表插入数据就需要指定该值

离线分析思路：

数据高速存入HBase---->通过外部表同步至Hive------>书写SQL完成数据离线统计---->选择时间间隔存入MySql----->前台展示

部分代码：

附：IDE远程访问Hive必须开启hiveserver2服务不然会出现连接拒绝错误

启动命令：./hive --service hiveserver2

package cn.yusys.hotnews.offline;

import cn.yusys.hotnews.dataconnection.ConnectionPool;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.sql.*;

import java.util.Properties;

/**

* @ClassName HotnewsOfflineStreaming

* @Description 从Hive读取数据存入MySql

* @Author tangzhi mail:[email protected]

* * Created on 2018-11-20

**/

public class HotnewsOfflineStreaming {

public static void main (String[] args) throws IOException {

Connection connection = null ,connection1 = null;

Statement statement = null ,statement1 = null;

Properties prop = new Properties();

prop.load(new FileInputStream(new File("C:\\Users\\Administrator\\Hot_News\\src\\main\\java\\cn\\yusys\\hotnews\\offline\\db.properties")));

/**

* 1.从Hive读取数据

try {

Class.forName(prop.getProperty("driverName").toString());

connection = DriverManager.getConnection(prop.getProperty("url").toString(), prop.getProperty("user").toString(), prop.getProperty("password").toString());

connection.setAutoCommit(false);

statement = connection.createStatement();

String hiveSql = "select count(1) from weblogs";

ResultSet resultSet = statement.executeQuery(hiveSql);

while (resultSet.next()) {

// 根据项目需求书写Sql

int count = resultSet.getInt(1);

/**

* 统计后的数据

ConnectionPool connPool = new ConnectionPool();

connection1 = connPool.getConnection();

connection1.setAutoCommit(false);

statement1 = connection1.createStatement();

String sql = "INSERT INTO testweblogs2(count) VALUE('"+count+"')";

boolean execute = statement1.execute(sql);

connection1.commit();

if (!execute) {

// excute:false ....>插入或更新成功 true:查询成功

System.out.println("离线分析数据库更新成功");

}else {

System.out.println("离线分析数据库更新失败");

}

} catch (Exception e) {

e.printStackTrace();

} finally {

// 释放资源

if (connection != null && connection1 != null && statement != null && statement1 != null) {

try {

statement.close();

statement1.close();

connection.close();

connection1.close();

} catch (SQLException e) {

e.printStackTrace();

}

至此大数据分析处理部分已经结束接下来即是构建JavaEE工程进行前端WEB展示

五：JavaEE工程前端展示(SSM)

1、SSM工程搭建(略)

2、采用WebSocket全双工通信方式使前段与后端实现实时交换

Q&A

Q1：测试SSM框架搭建时出现数据无法加载问题

A1：1.当配置文件中没有指定mapper.xml具体路径时应把Mapper类与Mapper.xml文件放在同一包下

2.也有可能spring无法加载到mapper.xml文件可在项目pom.xml中添加

src/main/java

**/*.xml

src/main/resources

Q1：通过WebSocke通信时报错：

A1：1.若是在MVC模式下确认类上是否有@ServerEndpoint(value = "/websocket", configurator = SpringConfigurator.class)注解

2.服务器版本要求：

3.配置文件xml应当是如下配置

其中 provided没写则会造成runtime 冲突也会引起404 not found

javax.websocket

javax.websocket-api

1.0

provided

#部分主要代码

package service.impl;

import com.alibaba.fastjson.JSON;

import entity.Weblog;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.web.socket.server.standard.SpringConfigurator;

import service.WeblogService;

import javax.websocket.OnClose;

import javax.websocket.OnMessage;

import javax.websocket.OnOpen;

import javax.websocket.Session;

import javax.websocket.server.ServerEndpoint;

import java.io.IOException;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

/**

* @ClassName WebSocket

* @Description 实现前端与数据库全双工通信

* @Author Administrator

* @Version 1.0

**/

@ServerEndpoint(value = "/websocket", configurator = SpringConfigurator.class)

public class WebSocket {

@Autowired

private WeblogService weblogService;

@OnMessage

public void onMessage(String message, Session session) throws IOException, InterruptedException {

String[] titleNames = new String[10];

Long[] titleCounts = new Long[10];

Long[] titleSum = new Long[1];

while (true) {

Map map = new HashMap();

List weblogList = weblogService.webcount();

System.out.println(weblogList);

for (int i = 0;i

                    titleNames[i] = weblogList.get(i).getContenttitle();

                    titleCounts[i] = weblogList.get(i).getCount();

               }

               titleSum[0] = weblogService.websum();

               map.put("titleName", titleNames);

               map.put("titleCount", titleCounts);

               map.put("titleSum", titleSum);

               System.out.print(map);

               session.getBasicRemote().sendText(JSON.toJSONString(map));

               Thread.sleep(1000);

               map.clear();

           }

    }

    @OnOpen

    public void onOpen() {

        System.out.println("Client connected");

    }

    @OnClose

    public void onClose() {

        System.out.println("Connection closed");

    }

}

至此前端展示工程也已经完成，也就意味着项目一期完成

注：原项目贡献者阿里云云栖社区地址:https://yq.aliyun.com/articles/557454

扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
郎朗大婚娶公主：所有光环的背后，都是十年如一日的自律简小尘
近日，关于郎朗大婚的新闻上了热搜，看了新娘的照片，既有天使般的面容，更有魔鬼般的身材，关键是人家还身世好，又有才华，这真的是让所有男人羡慕嫉妒恨哪。有些人不禁会想，“凭什么郎朗的人生就象开挂了一样，可我却每天都活得这么狼狈！”其实，每个开挂的人生背后，都是苦行僧般的自律。01欲戴王冠，必承其重。练琴不能只靠兴趣，更需要自律！我们先来看一下朗朗在小时候的作息时间表：早晨5:45起床，练琴1小时。中午
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
人怎么才能认识自己？阿尚青子自由写作人
人怎么才能认识自己？（原问题）我从不愿意上纲上线地确定偌大的话题，就直接说吧。纵使你能认识世界上的万事万物，你很难做到真实地认识自己。因为即使就这个世界，基本上每个人也很难做到客观、公正、科学地认识。对你好的人就是好吗？一件事情是否能够保持永远原来的样子？借不到钱的男友，女友想离开他就理直气壮？父母对子女有几分慷慨，又有几分是无私？工作的意义究竟是什么？是工作需要你，还是你需要工作呢？诸如此类的问
如何成为段子手欣雅阅读
我是一个尬聊大师，与朋友聊天经常把话题聊死，留我一个人在群里，望着自己打下的最后一句话无语凝噎。看到风趣幽默的朋友与人聊天，很是艳羡，觉得自己何时才能成为这样的段子手呢？一、段子是什么？“段子”一词在百度百科上的解释：本是相声中的一个艺术术语，指的是相声作品中一节或一段艺术内容。我的理解：段子就是一些搞笑的故事或者笑话。二、为什么要会说段子？不知道大家有没有这样的朋友，本来很无趣的聚会，只要有他参
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
2021-11-15 宙火
我给宋小姐写了首诗，是我在课上因思恋宋小姐而写的。“自古多情是唐宋，从来双飞归巢燕。邻家小女相聘婷，常使春意荡漾我。不知单思可为爱，惟愿一心付之汝。”我拿给宋小姐看了，她说我写得很棒。我很开心，但又不是那么开心。宋小姐是回复我了，但也只是说我写得很棒，对我诗句中蕴藏的真切感情，不知道是真的没发现，还是装作没发现。但我不深究，只是这样，我就很开心了。我答应宋小姐，一天给她写一首诗。
《我的青葱岁月之缘来是你》第二章迎新晚会思源思缘思怨
“怎么你也来了这里？”我愉快的问到，想着这是上天给的缘分吗？我还没去找他竟然就相遇了。那个让我开心的老乡。“你好，我也是舞蹈社的新人啊！”他说，笑起来回答我，眼睛弯弯的。“这么巧，我叫吴倩，你叫啥？”“我叫韩欢，你也是B市人吧，c中毕业的？”“我不是，我是f中的，不然肯定会认识你的”“是吗？以后多多关照了”他还冲我眨了眨眼睛。内心一阵悸动，这是……回到寝室，我兴奋的告诉我的室友这个事情，我再次觉得
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
厦门自由行之第一天: 大苏子在广漂
厦门三人行之杂记出发前一天:12️28日下午15:00从广州粗发，来深圳集合！但是中间发生一个小插曲，验票时候发现车票不见了，或许也是一场恶作剧，对于不排队的人，忍不住说了一下，接下来就发现车票不见了，已经是拿在手上！不过还好，可以凭借购票订单查看到信息，所以有惊无险，顺利进站！晚上三个人一起去吃了柠檬鱼，说实话，那会，感觉美吃饱，啊哈哈！晚上回来，两个人又开始彻夜长谈，发现身边优秀的人，一大把，
厉国刚：新闻学与传播学到底有何区别微观大道
厉国刚：新闻学与传播学到底有何区别头几天，有人在知乎上问我：新闻学与传播学到底有何区别。他是一位想要跨专业考研的学生，对新闻传播学学科可谓了解甚少，甚至一头雾水，想要让我帮他解释解释。在研究生学硕层面，新闻传播学是一级学科，分成新闻学、传播学这两个二级学科。有些高校，还自设了广告学、出版发行学等其他二级学科，但从官方角度，新闻传播学一级学科下，正统的就是那两个二级学科。招生时，一般会按一级学科招，
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

大数据项目实战之新闻话题统计分析

Java异常: "2 字节的 UTF-8 序列的字节 2 无效。"

你可能感兴趣的:(大数据项目实战之新闻话题统计分析)