caxiou

【毕业设计】机器学习恶意流量识别检测（异常检测） - 网络安全信息安全

文章目录

1 简介
1 背景
2 恶意软件加密流量介绍
- 2.1 恶意软件分类
- 2.2 恶意软件加密通信方式
3 加密HTTPS流量解析
- 3.1 Https简介
4 流量解析
- 4.1 流量解析日志生成
- 4.2 流量解析日志中的数据关联
- 4.3 流量解析的证书日志
5 机器学习特征分类
- 5.1 构建4元组
- 5.2 特征提取
- - 5.2.1 连接特征
  - 5.2.2 SSL特征
  - 5.2.3 证书特征
6 分类及预测效果
7 构建实时系统
8 关键代码
9 最后

1 简介

Hi，大家好，这里是丹成学长的毕设系列文章！

对毕设有任何疑问都可以问学长哦!

这两年开始，各个学校对毕设的要求越来越高，难度也越来越大… 毕业设计耗费时间，耗费精力，甚至有些题目即使是专业的老师或者硕士生也需要很长时间，所以一旦发现问题，一定要提前准备，避免到后面措手不及，草草了事。

为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的新项目是

基于机器学习的恶意流量识别检测

学长这里给一个题目综合评分(每项满分5分)

难度系数：4分
工作量：4分
创新点：3分

选题指导, 项目分享：

https://gitee.com/yaa-dc/BJH/blob/master/gg/cc/README.md

1 背景

近年来随着HTTPS的全面普及，为了确保通信安全和隐私，越来越多的网络流量开始采用HTTPS加密，截止今日，超过65%的网络流量已使用https加密。

HTTPS的的推出，主要是为了应对各种窃听和中间人攻击，以在不安全的网络上建立唯一安全的信道，并加入数据包加密和服务器证书验证。但是随着所有互联网中加密网络流量的增加，恶意软件也开始使用HTTPS来保护自己的通信。

这种情况对安全分析人员构成了挑战，因为流量是加密的，而且大多数情况下看起来像正常的流量。检测企业内部HTTPS流量的一种常见的解决方案是安装HTTPS拦截代理。这些硬件服务器可以通过在其计算机中安装特殊证书来打开和检查员工的HTTPS流量。 HTTPS拦截器位于客户端和服务器之间，其中加密流量被解密，扫描恶意软件后，再次加密并发送到目标IP。此方法允许使用经典检测方法来检测未加密的恶意软件流量。使用拦截器的问题在于它昂贵，计算要求高，同时造成网络性能下降，而且它不尊重HTTPS的原始想法，即拥有私密和安全的通信。

学长将为大家介绍一种在不解密流量的情况，可以高精度地检测恶意软件HTTPS流量的技术。

2 恶意软件加密流量介绍

2.1 恶意软件分类

目前使用加密通信的恶意软件家族超过200种，使用加密通信的恶意软件占比超过40%，使用加密通信的恶意软件几乎覆盖了所有常见类型，如：特洛伊木马、勒索软件、感染式、蠕虫病毒、下载器等，其中特洛伊木马和下载器类的恶意软件家族占比较高。

2.2 恶意软件加密通信方式

恶意软件产生的加密流量，根据用途可以分为以下六类：C&C直连、检测主机联网环境、母体正常通信、白站隐蔽中转、蠕虫传播通信、其它。

C&C直连 – 恶意软件在受害主机执行后，通过TLS等加密协议连接C&C（攻击者控制端），这是最常见的直连通讯方式。

检测主机联网环境 – 部分恶意软件在连接C&C服务器之前，会通过直接访问互联网网站的方式来检测主机联网情况，这些操作也会产生TLS加密流量。通过统计发现：使用查询IP类的站点最多，约占39%；使用访问搜索引擎站点约占30%，其它类型站点约占31%。

母体程序正常通信 – 感染式病毒是将恶意代码嵌入在可执行文件中，恶意代码在运行母体程序时被触发。母体被感染后产生的流量有母体应用本身联网流量和恶意软件产生的流量两类。由于可被感染的母体程序类别较多，其加密通信流量与恶意样本本身特性基本无关，本文就不做详细阐述。

白站隐蔽中转 – 白站是指相对于C&C服务器，可信度较高的站点。攻击者将控制命令或攻击载荷隐藏在白站中，恶意软件运行后，通过SSL协议访问白站获取相关恶意代码或信息。通过统计发现，最常利用的白站包括Amazonaws、Github、Twitter等。

蠕虫传播通信 – 蠕虫具有自我复制、自我传播的功能，一般利用漏洞、电子邮件等途径进行传播。监测显示近几年活跃的邮件蠕虫已经开始采用TLS协议发送邮件传播，如Dridex家族就含基于TLS协议的邮件蠕虫模块。

其他通信 – 除以上几类、还有一些如广告软件、漏洞利用等产生的恶意加密流量。

3 加密HTTPS流量解析

3.1 Https简介

HTTPS协议也称为SSL上的HTTP安全或超文本传输协议，是以安全为目标的 HTTP 通道，通过传输加密和身份认证保证了传输过程的安全性。如果没有加密，任何设法查看客户端和服务器之间的数据包的人都可以读取通信。

Http：在通讯的过程中，以明文的形式进行传输，采用wireshark抓包的效果如下:

Https：所有的请求信息都采用了TLS加密，采用wireshark抓包的效果如下:

4 流量解析

4.1 流量解析日志生成

使用流量包深度解析方式提取HTTPS流量中的足够信息日志，包括连接通信日志、SSL协议日志、证书日志三部分。

从3个日志中可以获得以下信息：

（1）连接记录
每一行聚合一组数据包，并描述两个端点之间的连接。连接记录包含IP地址、端口、协议、连接状态、数据包数量、标签等信息。

（2）SSL记录
它们描述了SSL/TLS握手和加密连接建立过程。有SSL/TLS版本、使用的密码、服务器名称、证书路径、主题、证书发行者等等。

（3）证书记录
在日志中的每一行都是一个证书记录，描述证书信息，如证书序列号、常用名称、时间有效性、主题、签名算法、以位为单位的密钥长度等。

4.2 流量解析日志中的数据关联

流量包深度解析后生成日志数据，任何日志中的每一行都有唯一的键，用于链接其他日志中的行。

– 通过连接日志记录中的唯一键，可以和SSL协议日志中的唯一键进行2个记录的关联。

– 通过协议日志中一列使用逗号拼接成的id键值，可以在证书日志中找到每个id对应的证书记录。

4.3 流量解析的证书日志

5 机器学习特征分类

基于构建4元组进行特征提取，通过来自连接日志、SSL协议日志、证书日志中的数据创建连接4元组，并提取特征用于机器学习模型训练。

5.1 构建4元组

根据连接日志中的id、SSL协议日志中的id进行连接，再根据得到的conn_ssl.log中的证书路径，取第一个key，和证书日志中的id进行再次关联，在得到的关联结果中，根据连接4元组(源IP、目标IP、目标端口和协议)相同的数据，进行group聚合操作，然后对于得到的每个连接4元组，根据聚合结果进行特征提取。

5.2 特征提取

对于每个连接4元组，我们提取了37个特征，大部分是基于我们对该领域的专业知识和对我们的恶意软件数据的彻底分析而创建的。对于这些特征，我们将它们分为3组：连接特征、SSL特征、证书特征。
– 连接特征是来自连接记录的特征，描述与证书和加密无关的通信流的常见行为。
– SSL特征是来自SSL记录的特征，描述了SSL握手和加密通信的信息。
– 证书特征是来自证书记录的特性，描述了web服务人员在SSL握手期间提供给我们的证书的信息。每个特性都是某个浮点值，如果由于缺少信息而无法计算该特征，则值为-1。

5.2.1 连接特征

连接特征共包含12个，部分举例如下：
（1）聚合和连接记录的数量。每个连接4元组包含的SSL聚合和连接记录数量和。
（2）持续时间均值。每个连接4元组的连接参数duration的均值。
（3）持续时间标准差。每个连接4元组的连接参数duration的标准差。
（4）超出标准差范围的持续时间占比。每个连接4元组的所有持续时间值中有多少百分比超出了范围。这个范围有两个极限，上限是均值+标准偏差，下限是均值-标准偏差。
（5）总发送包大小。每个连接4元组的所有连接记录发送的有效负载字节数。

5.2.2 SSL特征

SSL特征共包含10个，部分举例如下：
（1）连接记录中ssl连接的占比。连接4元组中非ssl连接和ssl连接的个数比值。
（2）TLS与SSL的比值。连接4元组中tls版本分布占比。
（3）SNI占比。连接4元组中server_name不为空的比例。
（4）SNI is IP。连接4元组中server_name为ip地址的比例。

5.2.3 证书特征

证书特征共包含15个，部分举例如下：
（1）公钥均值。连接4元组中全部证书exponent的均值。
（2）证书有效期的平均值。连接4元组中全部证书的有效天数的均值。
（3）证书有效期的标准差。连接4元组中全部证书的有效天数的标准差。
（4）捕获期间证书周期的有效性。连接4元组的全部证书中没有过期的占比。

6 分类及预测效果

数据集选择，对于负样本，使用https://www.stratosphereips.org/datasets-malware 网站下公开的恶意软件捕获结果集，目前已有349个恶意样本集。同时，使用一批最新的恶意软件10w个，通过沙箱捕获恶意软件产生的流量。对于正样本，一部分使用日常办公网中正常流量，同时使用爬虫爬取alexa中访问最多的top10000网站，采集产生的流量作为另一部分数据集。

经过数据清洗和过滤后，最终得到正样本46949条，负样本45121条。

使用多种机器学习模型，进行训练，选择其中效果较好的模型，随机森林模型和XGBOOST，准确率如下：

最后，为了便于测试模型效果，使用Flask开发了一个web在线检测页面，可以上传pcap进行检测恶意流量，收集20个最新的恶意软件进行测试，最后检出20个。

7 构建实时系统

技术选型选择Spark，因为每日流量数据很大，如果采用使用Spark Streaming在线实时检测会特别消耗机器性能，所以采用离线检测方式，流量深度包解析后的数据存储到Hive中，定时从Hive中读取数据，加载模型，进行检测。

8 关键代码

Deep Log分类识别方法

import torch
import math
import torch.optim as optim
import pandas as pd
from torch import nn
from sklearn.metrics import accuracy_score, f1_score, recall_score, precision_score
from collections import defaultdict

class DeepLog(nn.Module):
    def __init__(self, num_labels, hidden_size=100, num_directions=2, topk=9, device="cpu"):
        super(DeepLog, self).__init__()
        self.hidden_size = hidden_size
        self.num_directions = num_directions
        self.topk = topk
        self.device = self.set_device(device)
        self.rnn = nn.LSTM(input_size=1, hidden_size=self.hidden_size, batch_first=True, bidirectional=(self.num_directions==2))
        self.criterion = nn.CrossEntropyLoss()
        self.prediction_layer = nn.Linear(self.hidden_size * self.num_directions, num_labels + 1)

    def forward(self, input_dict):
        y = input_dict["window_y"].long().view(-1).to(self.device)
        self.batch_size = y.size()[0]
        x = input_dict["x"].view(self.batch_size, -1, 1).to(self.device)
        outputs, hidden = self.rnn(x.float(), self.init_hidden())
        logits = self.prediction_layer(outputs[:,-1,:])
        y_pred = logits.softmax(dim=-1)
        loss = self.criterion(logits, y)
        return_dict = {'loss': loss, 'y_pred': y_pred}
        return return_dict

    def set_device(self, gpu=-1):
        if gpu != -1 and torch.cuda.is_available():
            device = torch.device('cuda: ' + str(gpu))
        else:
            device = torch.device('cpu')   
        return device

    def init_hidden(self):
        h0 = torch.zeros(self.num_directions, self.batch_size, self.hidden_size).to(self.device)
        c0 = torch.zeros(self.num_directions, self.batch_size, self.hidden_size).to(self.device)
        return (h0, c0)

    def fit(self, train_loader, epoches=10):
        self.to(self.device)
        model = self.train()
        optimizer = optim.Adam(model.parameters())
        for epoch in range(epoches):
            batch_cnt = 0
            epoch_loss = 0
            for batch_input in train_loader:
                loss = model.forward(batch_input)["loss"]
                loss.backward()
                optimizer.step()
                optimizer.zero_grad()
                epoch_loss += loss.item()
                batch_cnt += 1
            epoch_loss = epoch_loss / batch_cnt
            print("Epoch {}/{}, training loss: {:.5f}".format(epoch+1, epoches, epoch_loss))
    
    def evaluate(self, test_loader):
        self.eval()  # set to evaluation mode
        with torch.no_grad():
            y_pred = []
            store_dict = defaultdict(list)
            for batch_input in test_loader:
                return_dict = self.forward(batch_input)
                y_pred = return_dict["y_pred"]

                store_dict["SessionId"].extend(batch_input["SessionId"].data.cpu().numpy().reshape(-1))
                store_dict["y"].extend(batch_input["y"].data.cpu().numpy().reshape(-1))
                store_dict["window_y"].extend(batch_input["window_y"].data.cpu().numpy().reshape(-1))
                window_prob, window_pred = torch.max(y_pred, 1)
                store_dict["window_pred"].extend(window_pred.data.cpu().numpy().reshape(-1))
                store_dict["window_prob"].extend(window_prob.data.cpu().numpy().reshape(-1))
                top_indice = torch.topk(y_pred, self.topk)[1] # b x topk
                store_dict["topk_indice"].extend(top_indice.data.cpu().numpy())

            window_pred = store_dict["window_pred"]
            window_y = store_dict["window_y"]
            
            store_df = pd.DataFrame(store_dict)
            store_df["anomaly"] = store_df.apply(lambda x: x["window_y"] not in x["topk_indice"], axis=1).astype(int)

            store_df.drop(["window_pred", "window_y"], axis=1)
            store_df = store_df.groupby('SessionId', as_index=False).sum()
            store_df["anomaly"] = (store_df["anomaly"] > 0).astype(int)
            store_df["y"] = (store_df["y"] > 0).astype(int)
            y_pred = store_df["anomaly"]
            y_true = store_df["y"]

            metrics = {"window_acc" : accuracy_score(window_y, window_pred),
            "session_acc" : accuracy_score(y_true, y_pred),
            "f1" : f1_score(y_true, y_pred),
            "recall" : recall_score(y_true, y_pred),
            "precision" : precision_score(y_true, y_pred)}
            print([(k, round(v, 5))for k,v in metrics.items()])
            return metrics

决策树分类方法

import numpy as np
from sklearn import tree
from ..utils import metrics

class DecisionTree(object):

    def __init__(self, criterion='gini', max_depth=None, max_features=None, class_weight=None):
        """ The Invariants Mining model for anomaly detection
        Arguments
        ---------
        See DecisionTreeClassifier API: https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html

        Attributes
        ----------
            classifier: object, the classifier for anomaly detection

        """
        self.classifier = tree.DecisionTreeClassifier(criterion=criterion, max_depth=max_depth,
                          max_features=max_features, class_weight=class_weight)

    def fit(self, X, y):
        """
        Arguments
        ---------
            X: ndarray, the event count matrix of shape num_instances-by-num_events
        """
        print('====== Model summary ======')
        self.classifier.fit(X, y)

    def predict(self, X):
        """ Predict anomalies with mined invariants

        Arguments
        ---------
            X: the input event count matrix

        Returns
        -------
            y_pred: ndarray, the predicted label vector of shape (num_instances,)
        """
        
        y_pred = self.classifier.predict(X)
        return y_pred

    def evaluate(self, X, y_true):
        print('====== Evaluation summary ======')
        y_pred = self.predict(X)
        precision, recall, f1 = metrics(y_pred, y_true)
        print('Precision: {:.3f}, recall: {:.3f}, F1-measure: {:.3f}\n'.format(precision, recall, f1))
        return precision, recall, f1

9 最后

基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
[开题报告]Springboot高校图书管理系统设计与实现lq627计算机毕业设计卓越计算机毕设课程设计
本项目包含程序+源码+数据库+LW+调试部署环境，文末可获取一份本项目的java源码和数据库参考。开题报告研究背景：随着高校图书馆的规模不断扩大和信息化程度的提高，传统的手工管理方式已经无法满足日益增长的图书馆资源管理需求。图书管理系统的设计与实现成为了解决这一问题的关键。通过引入计算机技术和信息管理系统，可以提高图书馆的管理效率和服务质量，为读者提供更便捷、高效的借阅体验。研究意义：图书管理系统
如何用3个月零基础入门网络安全？_网络安全零基础怎么学习白帽黑客啊一学习 web安全安全 python 网安入门
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言写这篇教程的初衷是很多朋友都想了解如何入门/转行网络安全，实现自己的“黑客梦”。文章的宗旨是：1.指出一些自学的误区2.提供客观可行的学习表3.推荐我认为适合小白学习的资源.大佬绕道哈！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
[ Linux 命令基础 ] Linux 命令大全-命令前置知识-系统管理-文件和目录管理-文本处理命令-网络管理命令-权限和用户管理命令-磁盘管理命令 _PowerShell shell脚本入门到精通 Linux 命令大全 linux命令前置知识 linux系统管理 linux文件和目录管理 linux文本处理命令 linux网络管理命令 linux权限和用户管理命令
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！我们搞网络安全需要经常用到linux命令，比用拿到linux的shell，需要使用linux命令。再比如sh脚本，我们经常
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
Spring Boot 项目 90% 存在这 15 个致命漏洞，你的代码在裸奔吗？风象南原创随笔 java spring boot 后端 web安全系统安全
文章首发公众号【风象南】SpringBoot作为一款广泛使用的Java开发框架，虽然为开发者提供了诸多便利，但也并非无懈可击，其安全漏洞问题不容忽视。本文将深入探讨SpringBoot常见的安全漏洞类型、产生原因以及相应的解决方案，帮助开发者更好地保障应用程序的安全。1.SQL注入漏洞漏洞描述：当应用程序使用用户输入的数据来构建SQL查询时，如果没有进行适当的过滤或转义，攻击者就可以通过构造恶意的
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
《代码拯救世界》可问可问春风重生之我来csdn写小说网络计算机小说网络安全
《代码拯救世界》第一章：神秘的黑客组织“全球多个银行系统遭受黑客攻击，资金被大量转移，损失高达数十亿美元……”新闻播报员的声音在办公室里回荡，小陈的手心已经捏出了汗。作为一名网络安全工程师，他知道这次攻击的严重性远超普通黑客行为。“老李，你看这个。”小陈把一份报告递给同事，“攻击手法非常专业，利用了多个零日漏洞（未被公开的漏洞），而且目标明确，显然是早有预谋。”老李推了推眼镜，眉头紧锁：“这不像普
网络安全威胁与防护措施（下）冬冬小圆帽 web安全网络 php
8.恶意软件（Malware）**恶意软件（Malware，MaliciousSoftware）**是指旨在通过破坏、破坏或未经授权访问计算机系统、网络或设备的程序或代码。恶意软件通常用于窃取敏感信息、破坏系统、窃取资源、干扰正常操作，或者获取非法控制。恶意软件种类繁多，攻击手段不断发展，可能对个人用户、企业和政府构成严重威胁。恶意软件的主要类型：病毒（Virus）：定义：病毒是能够自我复制并将自
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
网络安全爬虫全解析 Hacker_LaoYi 爬虫 web安全网络
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
java毕业设计，网上商城系统爱编程的小哥 java毕设 java 课程设计 spring boot vue
️OnlineMall商城系统全解析|Vue3+SpringBoot全栈实战（附高并发与数据安全方案）一、系统架构全景基于七张效果图分析，该系统是企业级电商综合管理平台，采用SpringBoot3+Vue3+ElementPlus+MyBatisPlus技术栈，覆盖商品管理、订单处理、会员运营等核心场景。通过RBAC权限控制+Elasticsearch搜索+分布式事务三大技术亮点，支持10万级商品
网络管理 Introducing Meraki – Your Complete Network Management S AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Meraki网络管理平台是一款专为企业级网络管理员设计的网络安全解决方案。它帮助用户轻松管理和监控其组织中的所有网络设备、VLANs及其设置。Meraki网络管理平台包括许多内置功能，如集中管理，安全，可视化分析等。此外，Meraki还提供强大的RESTAPI接口，开发者可以利用这些API来定制属于自己的应用。通过将现有工具、流程和工具合成为一体的网络管理解决方
计算机毕业设计指南晴天毕设课程设计毕业设计 java 毕设开发语言
毕业设计是计算机专业学生展示综合能力的重要环节，不仅是对所学知识的总结，也是进入职场或深造前的实战演练。本文将从选题、需求分析、系统设计、编码实现、测试优化、论文撰写、答辩准备等方面，为你提供一份详细的毕业设计指南。如果有其他问题，可以点击文章末尾名片咨询，可免费分享源码1.选题阶段选题是毕业设计的起点，直接影响后续工作的难度和完成质量。选题原则兴趣驱动：选择自己感兴趣的方向，能够激发研究动力。创
Windows 和 MacOS 上安装配置ADB（安卓调试桥）网络安全苏柒 windows macos adb 网络安全 python web安全数据库
一、Android调试桥(ADB)Android调试桥（ADB）是一款多功能命令行工具，它让你能够更便捷地访问和管理Android设备。使用ADB命令，你可以轻松执行以下操作网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！在设备上安装、复制和删除文件；安装应用程序；录制设备屏幕或截图；对设备进行调试，以便排查问题；检查手机上的日志文件；更新应用程序和系统组件的固件；完整地访问有关操作系
AWS WAF实战指南：从入门到精通 ivwdcwso 安全 aws 网络云计算 WAF 安全
1.引言AmazonWebServices(AWS)WebApplicationFirewall(WAF)是一款强大的网络安全工具，用于保护Web应用程序免受常见的Web漏洞攻击。本文将带您从入门到精通，深入探讨AWSWAF的实际应用策略，并提供具体案例，帮助您更好地保护您的Web应用程序。2.AWSWAF基础2.1什么是AWSWAF？AWSWAF是一种Web应用程序防火墙，可以帮助保护您的Web
如何在Spring Boot中设置HttpOnly Cookie以增强安全性遥不可及~~斌 spring boot 后端 java
引言在Web开发中，Cookie是用于在客户端和服务器之间传递信息的重要机制。然而，Cookie的安全性一直是一个备受关注的问题。特别是当Cookie中存储了敏感信息（如会话ID）时，如何防止这些信息被恶意脚本窃取就显得尤为重要。HttpOnly属性是增强Cookie安全性的一种有效手段。本文将详细介绍如何在SpringBoot中设置HttpOnlyCookie，并探讨其背后的安全机制。什么是Ht
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
使用OTP动态令牌认证 yangtom249 Python python
为加强网络安全管理，降低帐号被冒用、盗用等带来的风险，有些系统启用OTP手机令牌双因子认证登录，即在原有用户名+密码认证的基础上，增加OTP动态口令认证。基于OTP算法的动态令牌加强了帐号的安全性，简单易用。1、什么是OTP动态令牌认证？OTP（One-TimePassword）是一种基于共享密钥和时间戳算法的一次性密码。一般每30或60秒产生一个新口令，在客户端的动态口令和服务器的动态口令验证时
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

【毕业设计】机器学习恶意流量识别检测（异常检测） - 网络安全 信息安全