爱学习的Neehong

大数据实战项目之新闻话题分析学习笔记（十）

文章目录

第21章：Spark SQL 快速离线数据分析

Spark SQL概述及特点
Spark SQL服务架构
Spark SQL与Hive集成（Spark-Shell）
Spark SQL与Hive集成（Spark-sql）
Spark SQL之ThirftServer和Beeline使用
Spark SQL与MySql(类似的关系数据库)集成
Spark Sql与HBase集成分析业务数据（一）
Spark Sql与HBase集成分析业务数据（二）

第22章：Spark Streaming 实时数据分析

Spark Streaming功能介绍
NC服务安装并运行SparkStreaming程序
Spark Streaming服务架构及工作原理
Spark Streaming编程模型与开发
Spark Streaming 读取并处理Socket流数据
Spark Streaming 结果数据保存到数据库
Spark Streaming与Kafka集成进行数据处理（一）
Spark Streaming与Kafka集成进行数据处理（二）

第23章：Structed Streaming 数据实时分析

Structed Streaming概述及架构
Structed Streaming与Socket集成
实时数据处理业务分析
Structed Streaming与Kafka集成（一）
Structed Streaming与Kafka集成（二）
Structed Streaming与MySql（关系数据库）集成
基于结构化流完成业务数据实时分析（一）
基于结构化流完成业务数据实时分析（二）
基于结构化流完成业务数据实时分析（三）

第24章：数据分析WEB系统开发

基于业务需求的WEB系统设计
下载Tomcat并创建web工程
Web系统数据处理服务层开发
基于WebSocket协议的数据推送服务开发
基于Echarts框架的页面展示层开发（一）
工程编译并打包发布
启动各个服务并展示最终项目运行效果
课程总结

问题	解决
spark streaming 和storm的区别？	处理实时流，但是spark streaming是小量的“批处理”。就像水龙头的水过来，spark会先用一个小瓶子接着，对瓶子里的水处理之后再流向桶里；但是storm是直接水龙头来一点水就处理一点水直接流向桶里。相比之下，storm对实时流处理的延迟稍微小一点。但是一般情况下，如果对实时性要求不那么高，一般采用spark，因为spark比storm的对外服务的集成更好。

问题

解决

spark streaming 和storm的区别？

处理实时流，但是spark streaming是小量的“批处理”。就像水龙头的水过来，spark会先用一个小瓶子接着，对瓶子里的水处理之后再流向桶里；但是storm是直接水龙头来一点水就处理一点水直接流向桶里。相比之下，storm对实时流处理的延迟稍微小一点。但是一般情况下，如果对实时性要求不那么高，一般采用spark，因为spark比storm的对外服务的集成更好。

第21章：Spark SQL 快速离线数据分析

Spark SQL概述及特点

spark-sql和hive对比
connect existing BI tools to Spark through JDBC

spark-sql binding in python, scala, java and R.
spark sql is about more than sql.
spark sql可以更快地创建和运行spark程序，通过：
- 写更少的代码
- 读取更少量的数据
- 最困难的工作给优化器做

Spark SQL服务架构

上图备注：

1） BI工具可以通过JDBC连接到spark sql；或者我们创建的应用也可以直接连接到spark sql->底层spark执行的时候支持对多种文件格式操作：Hive表、JSON、parquet格式……

Spark SQL与Hive集成（Spark-Shell）

说明：更多的应用场景是hive与hbase结合之后通过spark-sql进行离线分析：spark sql->(hive+hbase)

步骤：

1.拷贝hive的配置文件hive-site.xml到spark的conf目录，注意检查hive-site.xml中metastore的url配置。

原因：因为spark要支持对hive的查询，需要引入hive的配置到spark的配置目录下；其次，hive的metastore配置是强制性的。

2.拷贝hive中的mysql的jar包到spark的jars目录

原因：因为spark sql要访问存在mysql上的hive的metastore信息以访问hive表。

3.检查spark-env.sh中的hadoop配置项

原因：因为hbase数据其实还是存放在hdfs上的

4.启动服务

sudo service mysqld start //启动mysql服务
bin/hive --service metastore //启动metastore服务

Spark SQL与Hive集成（Spark-sql）

步骤：

1.创建hive中ynh库下的表

CREATE TABLE IF NOT EXISTS test(
userid string,
username string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ’ ’
STORED AS textfile;

2.启动metastore服务：

bin/hive --service metastore

3.打开bin/spark-shell
敲入以下代码，将spark sql读入的hive数据写进mysql中：

结果：
1）在mysql中查询是否成功导入hive的数据

Spark SQL之ThirftServer和Beeline使用

备注：

此处beeline是基于thrift server服务进行操作的。通过jdbc对hive进行操作。
thriftserver和spark-shell/spark sql的区别：
- 每次启动一个spark-shell/spark sql它都是一个spark application，每次都要重新启动申请资源。
- 用thriftserver，无论启动多少个客户端（beeline），只要是连在一个thriftserver上，它都是一个spark application，后面不用在重新申请资源。能数据共享（上一个beeline做了缓存，下一个beeline能用）
- 用thriftserver，在UI中能直接看到sql的执行计划，方便优化。

步骤:(spark安装路径下)

1.启动thriftserver （启动完成后是一个SparkSubmit进程）

sbin/start-thriftserver.sh

2.启动beeline

bin/beeline

3.通过thriftserver连接hive表，可以对hive表进行操作

!connect jdbc:hive2://bigdata-pro03.ynh.com:10000 (此url是thrift server的地址)

Spark SQL与MySql(类似的关系数据库)集成

背景：过去传统企业没有引入hadoop时，多使用类似oracle、mysql这样的数据库存储数据，但是她们的可扩展性和可用性很差。如果要导入hadoop的话，还需要硬编码和程序去写，需要较大的工作量。
- 这种关系型数据库适合于实时交易的数据量不大的情况。因为它的事务做的还不错。
- hadoop适合于数据量大的。多query、insert的操作。
spark能快速无缝衔接多种数据源：hdfs、hadoop数据仓库、hbase、关系型数据库……
步骤：
- 参考官方示例代码：https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/sql/SQLDataSourceExample.scala

Spark Sql与HBase集成分析业务数据（一）

spark sql与hbase的集成，其核心就是spark sql通过Hive外部表来获取Hbase的表数据
步骤：
- 拷贝HBase的和Hive的包spark jars目录下
- 启动hbase
- 启动hive-metastore
- 启动spark-shell
- 在hive中验证：

Spark Sql与HBase集成分析业务数据（二）

上文的异常解决（数据量大）：
在集群模式下跑：standalone或者yarn
- standalone模式：
  
  sbin/start-all.sh //启动master和worker
  
  bin/spark-shell spark://bigdata-pro03.ynh.com:7077
  
  没有这个错误了

第22章：Spark Streaming 实时数据分析

Spark Streaming功能介绍

备注：

DStream 代表的就是一连串的RDDs。

NC服务安装并运行SparkStreaming程序

法1——使用rpm安装：
1.下载netcat

2.安装

sudo rpm -ivh nc-XXX.rpm

3.打开nc输入流: nc -lk 端口号

nc -lk 9999

4.测试wordcount示例程序

bin/run-example --master local[2] streaming.NetworkWordCount localhost 9999

过程：receiver线程-备份-离散化分批-spark处理-result

结果展示：

Spark Streaming服务架构及工作原理

详情请参考spark官网

过程：receiver线程-备份-离散化分批-spark处理-result

故障恢复机制：

Spark Streaming编程模型与开发

1.启动spark-shell（本地至少两个线程:因为至少要保证一个线程用于执行receiver）

bin/spark-shell --master local[2]

备注：

2.代码执行

补充：

Spark Streaming 读取并处理Socket流数据

IDEA测试结果：

Spark Streaming 结果数据保存到数据库

到关系数据库：

到hdfs：

Spark Streaming与Kafka集成进行数据处理（一）

说明：

集成方法一：Receiver-based Approach。但是receiver自身不会分partition读取，而是合并在一起读取。效率就会低下一点。
集成方法二：Direct Approach(No Receivers)
相比receiver方法，此方法是由kafka根据分片进行并行处理的。
结果：
总结：stream流当中kafka和socket比较常用

Spark Streaming与Kafka集成进行数据处理（二）

streaming集成kafka10

第23章：Structed Streaming 数据实时分析

Structed Streaming概述及架构

核心思想：将实时的数据流看成不断累加的无边界的table
编程模型
- 结构化流输出模式：Complete Mode、Append Mode、Update Mode

Structed Streaming与Socket集成

代码：

import org.apache.spark.sql.functions._
import spark.implicits._
import org.apache.spark.sql.SparkSession
val lines = spark.readStream
.format("socket")
.option("host", "bigdata-pro03.ynh.com")
.option("port", 9999)
.load()
val words = lines.as[String].flatMap(_.split(" "))
val wordCounts = words.groupBy("value").count()
val query = wordCounts.writeStream
.outputMode("update")
.format("console")
.start()

结果：
(complete模式输出)

（update模式）

（append模式）：df不作处理，直接append打印出来」

实时数据处理业务分析

Structed Streaming与Kafka集成（一）

Structed Streaming要求kafka0.10以上

Structed Streaming与Kafka集成（二）

上面测试移动到spark-shell上测试，需要导入相关kafka的jar包

Structed Streaming与MySql（关系数据库）集成

参考博客：https://databricks.com/blog/2017/04/04/real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.html

新建JDBCSink

问：这样处理性能会不会不高？
答：因为此案例中数据量不算大，而且streaming的输出模式是update模式，所以输出的数据量也不会大，数据库只是update或者insert，对于mysql来说没有压力。
但如果真的涉及到大量数据，这里就可以直接扔到kafka中，通过消息队列走。

基于结构化流完成业务数据实时分析（一）

捋一下项目需求：

数据源：kafka->业务流数据 [weblogs]
结构化流处理kafka的数据
处理结果写入MySql数据库[test.webCount]
- 创建表：
CREATE TABLE `webCount`(
`titlename` varchar(255) CHARACTER SET utf8 DEFAULT NULL,
`count` int(11) DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8
- 输出：titleName,count
- 过滤：desc count limit 20
web系统

基于结构化流完成业务数据实时分析（二）

基于结构化流完成业务数据实时分析（三）

关于Structed Streaming中文乱码解决方案：

第24章：数据分析WEB系统开发

基于业务需求的WEB系统设计

梳理：

数据库->JAVA数据服务层->webSocket服务层->前端页面（说明，此处是为了简单快速展示数据，如果涉及到一个完整的企业级应用什么的，可能才采用像spring这样的框架）。此案例是数据源很大，但是数据结果并不大。所以现实当中应该尽可能考虑技术、公司规模、迭代周期等因素，合理地选用技术框架。

下载Tomcat并创建web工程

此案例下载的是tomcat 7.07.92
配置web工程的相关服务：

Web系统数据处理服务层开发

package com.spark.service;

import org.apache.commons.collections.iterators.ObjectArrayIterator;
import org.apache.commons.collections.map.HashedMap;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.HashMap;
import java.util.Map;

/**
 * Created by niccoleynh on 2019/2/15.
 */
public class WeblogService {
    static String url ="jdbc:mysql://bigdata-pro01.ynh.com:3306/test";
    static String username="root";
    static String password="123456";

    public  Map<String,Object> queryWeblogs() {
        Connection conn = null;
        PreparedStatement pst = null;
        String[] titleNames = new String[20];
        String[] titleCounts = new String[20];
        Map<String,Object> retMap = new HashMap<String, Object>();
        try{
            Class.forName("com.mysql.jdbc.Driver");
            conn = DriverManager.getConnection(url,username,password);
            String query_sql = "select titleName,count from webCount where 1=1 order by count desc limit 20";
            pst = conn.prepareStatement(query_sql);
            ResultSet rs = pst.executeQuery();
            int i = 0;
            while (rs.next()){
                String titleName = rs.getString("titleName");
                String titleCount = rs.getString("count");
                titleNames[i] = titleName;
                titleCounts[i] = titleCount;
                ++i;
            }
            retMap.put("titleName", titleNames);
            retMap.put("titleCount", titleCounts);
        }catch(Exception e){
            e.printStackTrace();
        }finally{
            try {
                if (pst != null) {
                    pst.close();
                }
                if (conn != null) {
                    conn.close();
                }


            }catch(Exception e){
                e.printStackTrace();
            }
        }
        return retMap;
    }

    public  String[] titleCount() {
        Connection conn = null;
        PreparedStatement pst = null;
        String[] titleSums = new String[1];
        try{
            Class.forName("com.mysql.jdbc.Driver");
            conn = DriverManager.getConnection(url,username,password);
            String query_sql = "select count(1) titleSum from webCount";
            pst = conn.prepareStatement(query_sql);
            ResultSet rs = pst.executeQuery();
            if(rs.next()){
                String titleSum = rs.getString("titleSum");
                titleSums[0] = titleSum;
            }
        }catch(Exception e){
            e.printStackTrace();
        }finally{
            try{
                if (pst != null) {
                    pst.close();
                }
                if (conn != null) {
                    conn.close();
                }
            }catch(Exception e){
                e.printStackTrace();
            }
        }
        return titleSums;
    }

}

基于WebSocket协议的数据推送服务开发

package com.spark.service;

import com.alibaba.fastjson.JSON;

import javax.websocket.OnClose;
import javax.websocket.OnMessage;
import javax.websocket.OnOpen;
import javax.websocket.Session;
import javax.websocket.server.ServerEndpoint;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;
/**
 * Created by niccoleynh on 2019/2/15.
 */
@ServerEndpoint("/websocket")
public class WeblogSocket {

    WeblogService  weblogService = new WeblogService();
    @OnMessage
    public void onMessage(String message, Session session)
            throws IOException, InterruptedException {
        while(true){
            Map<String, Object> map = new HashMap<String, Object>();
            map.put("titleName", weblogService.queryWeblogs().get("titleName"));
            map.put("titleCount",weblogService.queryWeblogs().get("titleCount"));
            map.put("titleSum", weblogService.titleCount());

            session.getBasicRemote().
                    sendText(JSON.toJSONString(map));
            Thread.sleep(2000);
            map.clear();
        }
    }
    @OnOpen
    public void onOpen () {
        System.out.println("Client connected");
    }
    @OnClose
    public void onClose () {
        System.out.println("Connection closed");
    }
}

基于Echarts框架的页面展示层开发（一）

使用框架：Echarts（页面渲染）+JQuery（通信）

1.导入相关js包
echarts.min.js
jquey-3.2.1.js

2.html页面

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>

    <script src="js/echarts.min.js"></script>
    <script src="js/jquery-3.2.1.js"></script>

    <style>
        body{
            text-align:center;
            background-color: #dbdddd;
        }
        .div{ margin:0 auto; width:1000px; height:800px; border:1px solid #F00}
        /* css注释：为了观察效果设置宽度 边框 高度等样式 */
    </style>

</head>
<body>
<h1>新闻网话题用户浏览实时统计分析</h1>
<div>
    <div id="main" style="width:880px;height: 700px;float:left;">第一个</div>
    <div id="sum" style="width:800px;height: 700px;float:left;">第二个</div>
</div>

<div>
    <input type="submit" value="实时分析" onclick="start()" />
</div>


<div id="messages"></div>
<script type="text/javascript">

    var webSocket = new WebSocket('ws://localhost:8080/websocket');
    var myChart = echarts.init(document.getElementById('main'));
    var myChart_sum = echarts.init(document.getElementById('sum'));

    webSocket.onerror = function(event) {
        onError(event)
    };
    webSocket.onopen = function(event) {
        onOpen(event)
    };
    webSocket.onmessage = function(event) {
        onMessage(event)
    };
    function onMessage(event) {
        var sd = JSON.parse(event.data);
        processingData(sd);
        titleSum(sd.titleSum);
    }
    function onOpen(event) {
    }

    function onError(event) {
        alert(event.data);
    }

    function start() {
        webSocket.send('hello');//发送websocket消息，触发onMessage
        return false;
    }


    function processingData(json){

        var option = {
            backgroundColor: '#ffffff',//背景色
            title: {
                text: '新闻话题浏览量【实时】排行',
                subtext: '数据来自搜狗实验室',
                textStyle: {
                    fontWeight: 'normal',              //标题颜色
                    color: '#408829'
                },
            },
            tooltip: {
                trigger: 'axis',
                axisPointer: {
                    type: 'shadow'
                }
            },
            legend: {
                data: ['浏览量']
            },
            grid: {
                left: '3%',
                right: '4%',
                bottom: '3%',
                containLabel: true
            },
            xAxis: {
                type: 'value',
                boundaryGap: [0, 0.01]
            },
            yAxis: {
                type: 'category',
                data:json.titleName
            },
            series: [
                {
                    name: '浏览量',
                    type: 'bar',
                    label: {
                        normal: {
                            show: true,
                            position: 'insideRight'
                        }
                    },
                    itemStyle:{ normal:{color:'#f47209'} },
                    data: json.titleCount
                }

            ]
        };
        myChart.setOption(option);

    }


    function titleSum(data){

        var option = {
            backgroundColor: '#fbfbfb',//背景色
            title: {
                text: '新闻话题曝光量【实时】统计',
                subtext: '数据来自搜狗实验室'
            },


            tooltip : {
                formatter: "{a} 
{b} : {c}%"
            },
            toolbox: {
                feature: {
                    restore: {},
                    saveAsImage: {}
                }
            },
            series: [
                {
                    name: '业务指标',
                    type: 'gauge',
                    max:50000,
                    detail: {formatter:'{value}个话题'},
                    data: [{value: 50, name: '话题曝光量'}]
                }
            ]
        };

        option.series[0].data[0].value = data;
        myChart_sum.setOption(option, true);

    }




</script>
</body>
</html>

工程编译并打包发布

启动各个服务并展示最终项目运行效果

课程总结

1.多读官方文档
2.实践过程举一反三
3.框架服务思想

说明：
此系列文章为网课学习时所记录的笔记，希望给同为小白的学习者贡献一点帮助吧，如有理解错误之处，还请大佬指出。学习不就是不断纠错不断成长的过程嘛~

清华出品DeepSeek教程1-7版：前沿技术学习的黄金资源库你好ITgg pdf
《清华出品DeepSeek教程1-7版：前沿技术学习的黄金资源库》「DeepSeek清华资料」共7册链接：https://pan.quark.cn/s/b8d8760976ca「DeepSeek使用手册大全」链接：https://pan.quark.cn/s/52c234062a2e「DeepSeek资料合集」链接：https://pan.quark.cn/s/71c8604f0e8a「DeepS
Tsfresh + TA-Lib + LightGBM ：A 股市场量化投资策略实战入门船长@Quant Python 金融科技 python tsfresh TA-Lib LightGBM 量化技术策略开发
Tsfresh+TA-Lib+LightGBM：A股市场量化投资策略实战入门本项目以A股市场为研究对象，通过量化技术对市场数据进行分析，构建量化投资策略，并利用历史数据回测验证策略的有效性。项目旨在为量化技术初学者提供一个系统的学习框架，帮助读者掌握从数据获取到策略评估的全流程操作。文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。适合量化新手建立系统认
超全Java入门学习路线指南 Javaaaaaaaaaaa13 java 开发语言前端 spring spring boot eclipse tomcat
Java基础入门Java高级阶段数据库和JDBCHtml&JavascriptJsp&ServletStruts2框架讲解Spring框架讲解Hibernate框架讲解流行技术学习1、Java基础入门1、Java入门基础如果你没有任何的编程基础，那么本栏目的内容对你来说是至关重要的。打好基础，以后学习就会一帆风顺了。我们会先讲解了Java程序的开发环境的搭建、编写流程、工作原理等内容，接着学习有关
大模型学习方法之——大模型技术学习路线 hhaiming_ 学习方法学习语言模型人工智能
“技术学习无非涵盖三个方面，理论，实践和应用**”**大模型技术爆火至今已经有两年的时间了，而且大模型技术的发展潜力也不言而喻。因此，很多人打算学习大模型，但又不知道该怎么入手，因此今天就来了解一下大模型的学习路线。‍‍丁元英说：“透视社会有三个层面，技术，制度与文化”；同样的，技术学习同样有三个层面，理论，实践和应用，三者相辅相成，缺一不可。技术的意义在于解决问题01—大模型技术学习的理论，实践
AI技术学习笔记系列001：FastLanguageModel.get_peft_model 函数各参数的详细解释新说一二人工智能学习笔记
以下是关于代码中FastLanguageModel.get_peft_model函数各参数的详细解释，以及企业实际微调时的选择考量：参数详解及对微调的影响1.r=32（秩）作用：控制LoRA适配器的低秩矩阵的维度（秩），直接影响可训练参数数量。影响：r越大：适配器表达能力更强，能捕捉更复杂的任务特征，但可能导致过拟合（尤其数据量少时），训练时间和显存占用增加。r越小：参数量少，训练更快，显存占用低
基于python+django+vue.js开发的健身房管理系统源码+运行步骤冷琴1996 Python系统设计 python django vue.js
功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。技术学习中的问题可以留言。功能包括：教练管理、会员管理、场地管理、设备管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_fitness演示地址http://fitness.gitapp.cn演示帐号：用户名：admin123
Spring Boot整合参数校验的技术学习小码快撩 spring boot 学习 java
引言在软件开发中，数据校验是一个非常重要的环节，它确保了数据的完整性和安全性。SpringBoot作为一款流行的Java框架，提供了非常方便的参数校验功能。本文将详细介绍如何在SpringBoot中整合参数校验，并通过示例代码演示其使用方法。一、依赖管理在SpringBoot中整合参数校验的依赖管理相对简单，因为SpringBoot默认集成了HibernateValidator作为其参数校验的支持
Linux技术学习分享- 使用 LNMP 架构部署动态网站环境【5.4】 BinaryStarXin Linux技术学习分享【1】linux 学习运维搭建 Discuz论坛选购服务器主机配置 Windows 客户端配置 Linux 客户端
20.3搭建Discuz!论坛为了检验LNMP动态网站环境是否配置妥当，可以使用在上面部署Discuz!系统，然后查看结果。如果能够在LNMP动态网站环境中成功安装使用Discuz!论坛系统，也就意味着这套架构是可用的。Discuz!X3.2是国内最常见的社区论坛系统，在经过十多年的研发后已经成为了全球成熟度最高、覆盖率最广的论坛网站系统之一。Discuz!X3.2软件包的后缀是.zip格式，因此
深入学习Nginx：从入门到实践小码快撩 nginx 学习运维
引言Nginx，全名“EngineX”，是一款高性能的HTTP和反向代理服务器，由俄罗斯程序员IgorSysoev开发。以其轻量级、高并发处理能力和稳定性而闻名于世，广泛应用于负载均衡、动静内容分离、API网关、缓存服务以及静态文件服务等多个场景。本文旨在为读者提供一份详尽的Nginx技术学习指南，助您快速掌握并应用这一强大工具。。一、事件驱动模型在Nginx中，事件驱动模型是其高效处理并发连接的
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
基于Java+Springboot+Vue开发的口腔牙科诊所预约系统源码+课程设计+代码说明西门吹雪1998 java毕业设计 java课程设计 java spring boot vue.js
项目简介该项目是基于Java+Springboot+Vue开发的口腔牙科诊所预约管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Java编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Java的口腔预约管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路在线演示演示地址：https://teeth.
黑客入门手册嗨起飞了网络安全网络攻击模型网络安全
零基础入门网络安全：黑客技术学习路线与实战手册摘要：本文面向网络安全初学者，系统化拆解黑客技术学习路径，涵盖基础理论、实战工具和代码实例。内容遵循合法合规原则，仅用于技术研究。一、黑客技术学习的认知前提1.1什么是真正的"黑客"黑客精神的核心：探索系统原理与漏洞本质白帽/灰帽/黑帽的伦理边界（以《网络安全法》为准则）1.2学习前的法律警示渗透测试授权原则虚拟机实验环境搭建的重要性推荐工具：VMwa
蓝牙技术学习：从基础到进阶路线图 byte轻骑兵嵌入式智慧开发探索蓝牙技术探索与应用人工智能蓝牙
目录一、基础入门阶段1.1.蓝牙技术概述1.1.1.蓝牙技术的起源1.1.2.发展历程1.1.3.基本原理1.1.4.应用场景1.2.蓝牙版本与标准1.2.1.蓝牙版本1.2.2.主要特性概述1.2.3.蓝牙的类型1.2.4.蓝牙低功耗（BLE）与经典蓝牙（BR/EDR）的区别与联系1.3.蓝牙协议栈基础1.3.1.蓝牙协议栈的组成1.3.2.各层协议的作用和相互关系二、进阶学习阶段2.1.蓝牙设
JAVA开发技术学习规划 —— 给未来20年技术领航者的你 _AndyLau 学习
亲爱的大学生朋友们，在这个信息爆炸、技术日新月异的时代，选择成为一名JAVA开发者，意味着你将踏入一个充满挑战与机遇的广阔天地。作为一位在JAVA开发领域深耕20年的老兵，我亲历了JAVA从诞生、成长到壮大的全过程，见证了它如何从一个新兴的语言逐渐发展成为企业级应用开发的首选。今天，我想将这份宝贵的经验凝聚成一份详实的技术学习规划，为即将踏上这条征途的你们，指引方向，助力你们在JAVA开发的道路上
大数据技术学习框架（更新中......）小技工丨大数据技术学习大数据学习
Hadoop相关HDFS分布式文件系统MR(MapReduce)离线数据处理MR-图解YARN集群资源管理ZooKeeperZooKeeper分布式协调框架Hive相关Hive-01之数仓、架构、数据类型、DDL、内外部表Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2Hive-03之传参、常用函数、explode、lateralview、行专列、列转行、UDF
技术学习周刊第 3 期：Linux& 容器网络扫盲艾希逐月技术学习周刊学习 linux 网络
#IntroductiontoLinuxinterfacesforvirtualnetworking介绍了Linux中常用的网络概念，比如bridge网桥、veth对、VLAN&VXLAN、MACVLAN等，可以帮助自己对这些概念做一个快速的了解。#AnintroductiontoLinuxvirtualinterfaces:Tunnels算是上一篇文章的姊妹篇，主要介绍了Linux网络隧道相关的
深入探索Apache ZooKeeper：关键技术学习与实践指南小码快撩 apache zookeeper 学习
导语ApacheZooKeeper，作为一款广受认可的分布式协调服务，为大型分布式系统提供了强大的数据一致性、服务注册与发现、分布式锁、配置管理等基础服务。本文将深入剖析ZooKeeper的技术内核，梳理其关键学习点，并结合实践场景给出学习与应用建议，帮助读者全方位掌握这一重要工具。一、分布式一致性原理ApacheZooKeeper的分布式一致性原理主要基于其专有的ZooKeeperAtomicB
Linux技术学习分享-Vim 编辑器与 Shell 命令脚本【1.5】 BinaryStarXin Linux技术学习分享【1】linux 学习运维安装配置 VM 虚拟机部署虚拟环境安装Linux系统 Vim 文本编辑器 vim
3.3命令行的通配符大家可能都遇到过提笔忘字的尴尬，作为Linux运维人员，我们有时候也会遇到明明一个文件的名称就在嘴边但就是想不起来的情况。如果就记得一个文件的开头几个字母，想遍历查找出所有以这个关键词开头的文件，该怎么操作呢？又比如，假设想要批量查看所有硬盘文件的相关权限属性，一种方式是这样的：[root@linuxprobe~]#ls-l/dev/sdabrw-rw----.1rootdis
Echarts 技术学习指南：从入门到精通小码快撩 echarts 前端 javascript
引言Echarts是一款由百度公司推出的强大且高度可定制化的JavaScript数据可视化库，广泛应用于各种Web开发场景中，它能帮助开发者快速构建出丰富多样、交互性强的图表应用。本文旨在为初学者及进阶开发者提供一份详尽的Echarts学习路径和技术要点，助您全面掌握Echarts的核心功能与高级特性。一、图表初始化与配置1.图表初始化图表的初始化是创建一个ECharts实例并将其绑定到HTML容
Docker技术学习指南：从入门到实践小码快撩 docker 容器运维
引言Docker是一款开源的应用容器引擎，起源于2013年，基于Go语言开发，并遵循Apache2.0协议进行开源发布。它的出现是为了解决软件交付过程中的“环境一致性”问题，通过将应用及其依赖打包成可移植、轻量级的容器（Container），确保应用在任何地方运行都能得到一致的行为和性能。一、Docker基础概念与安装：Docker基础概念1.镜像（Image）镜像是Docker容器的构建块，它是
Google Cloud技术学习总结谭俊杰Jerry 人工智能
GoogleCloudPlatform（GCP）是由Google提供的一套云计算服务，帮助企业和开发者利用Google的基础设施来构建、部署和扩展应用程序。GCP提供了广泛的服务，涵盖计算、存储、数据分析、机器学习和网络等领域。以下是GoogleCloud的技术总结：核心服务计算服务GoogleComputeEngine：提供虚拟机（VM）实例，支持自定义配置，适合各种工作负载。GoogleKub
4.1、十字线 - 趋势中的十字线五十番 K线技术学习笔记金融
K线技术学习笔记------基本知识------1.1、基本知识-蜡烛图的历史1.2、基本知识-蜡烛图的结构1.3、基本知识-合成蜡烛线------反转形态------2.1、反转形态-单线反转形态2.2、反转形态-双线反转形态2.3、反转形态-三线反转形态2.4、反转形态-多线反转形态------持续形态------3.1、持续形态-窗口3.2、持续形态-三法形态3.3、持续形态-分手线形态--
十字路口的抉择：2025届计算机毕业生的突围指南小小程序老猿计算机毕业设计最强指南数据库开发毕业设计毕设 java python spring boot vue.js
博主介绍：作为一位计算机老学长和全栈开发人员，一直专注于Java、小程序/APP、python、大数据等技术领域，致力于大学生毕业程序、实践项目的开发、指导和咨询。凭借丰富的开发经验和深入的技术解析，我在此分享实用的编程资源、源代码，并提供定制化技术咨询。我的目标是让技术学习变得更高效、更有趣。欢迎关注，一起在计算机科学的海洋中乘风破浪⛵️，共创辉煌。✨文末附上源码✨欢迎各位同学在评论区或通过私信
【Python技术学习】- python selenium 库 xiaoli8748_软件开发 python技术学习 python 学习 selenium
安装Selenium和WebDriver安装Selenium要开始使用Selenium，首先需要安装selenium库，并下载适用于你浏览器的WebDriver。使用pip安装Selenium：pipinstallselenium下载WebDriverSelenium需要一个WebDriver来与浏览器进行交互。不同的浏览器需要不同的WebDriver，例如Chrome浏览器需要ChromeDri
Node.js 技术学习指南：从入门到实战应用小码快撩 node.js
引言Node.js®是一个开源的、跨平台的JavaScript运行环境，它允许开发人员使用JavaScript编写服务器端代码。基于GoogleChrome浏览器强大的V8JavaScript引擎构建，Node.js引入了异步I/O模型和事件驱动编程机制，使得JavaScript能够在服务器环境中高效处理高并发网络请求。一、异步I/O和事件驱动Node.js的异步I/O和事件驱动机制是其高性能的核
深度探索：SQL Server 技术学习之旅小码快撩数据库 sqlserver sql
引言在数字化时代，数据库管理系统作为企业信息系统的核心组件，承载着海量数据的存储、管理和分析重任。其中，MicrosoftSQLServer作为一款久经市场考验的企业级关系型数据库平台，凭借其强大的功能、卓越的性能以及与微软生态系统的深度集成，赢得了全球众多企业的青睐。本文旨在引导读者踏上深入学习SQLServer的旅程，全方位领略其核心技术要点，为构建高效、稳定且安全的数据库系统奠定坚实基础。一
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
【Python技术学习】- 如何搭建一个爬虫代理服务？ xiaoli8748_软件开发 python技术学习 python 学习爬虫
由于之前一直在做爬虫采集相关的开发，这个过程那肯定少不了跟「代理IP」打交道，这篇文章就来记录一下，如何实现一个爬虫代理服务，本篇文章主要以讲解思路为主。起因做过爬虫的人应该都知道，抓的网站和数据多了，如果爬虫抓取速度过快，免不了触发网站的防爬机制。而这些网站应对爬虫的办法，几乎用的同一招就是封IP。那么我们还想稳定、持续地抓取这些网站的数据，如何解决呢？一般解决方案有2个：使用同一个服务器IP抓
【区块链 + 人才服务】FISCO BCOS 区块链实训和管理平台 | FISCO BCOS应用案例 FISCO_BCOS 2023FISCO BCOS产业应用发展报告区块链人才服务
中博数科FISCOBCOS区块链实训和管理平台主要应用于区块链领域的教育和实训，目的是为学生、教师等用户提供高效的区块链技术学习和实践体验，同时也为学校提供了一套完整的区块链解决方案。该平台提供了一套完整的区块链课程体系，包括理论知识和实践项目，学生和开发者可以在平台上进行各种实验和模拟，熟练掌握区块链的相关技术和应用，从而提供给企业有能力的区块链人才。同时，平台还提供了一套完整的区块链解决方案，
IT技术学习之开发(六) opcc
上次好像说到了反映zabbix数据，我又打算回到web形式，一劳永逸，比word形式的更好，但web形式的开发又涉及到了很多其他技术，比如前端、中间件，以及如何用它们调用后端数据。之前突击了一阵技术文章，之后就沉寂了几个月，最近又开始搞，稍微学了点皮毛，拿来晒晒。Python有现成的web应用框架，可以快速的搭建网站，我用的是Django框架，介绍性的内容大家可以上网查查，资料很多，都比我说的好，
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

大数据实战项目之新闻话题分析 学习笔记（十）