小胡说人工智能

基于Python垃圾短信识别程序(KNN、逻辑回归、随机森林、决策树和多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯等算法进行融合)—含python工程全源码

前言
总体设计
- 系统整体结构图
- 请求流程图
- 系统流程图
运行环境
- Python 环境
- jieba分词库
- Scikit-learn 库
- nginx
- php
模块实现
- 1. 前端模块
- 2. 后端模块
系统测试
- 1. 测试结果
- 2. 结果对比
- 3. 可视化部分
工程源代码下载
其它资料下载

前言

本项目以Python为基础，旨在开发一款垃圾短信识别程序。我们将采用KNN、逻辑回归、随机森林、决策树和朴素贝叶斯等多种算法进行融合，以提高识别准确率，并进行测试和应用。

小伙伴们可以通过二次开发，将它应用来处理实际场景中的短信数据。这项技术可以应用于移动通信网络、社交媒体平台等领域，帮助用户自动过滤和识别垃圾短信，提升通信效率和用户体验。

总体设计

本部分包括系统整体结构图和系统流程图。

系统整体结构图

系统整体结构如图所示。

请求流程图

请求流程如图所示。

系统流程图

系统流程如图所示。

运行环境

本部分包括 Python 环境、jieba 分词库、Scikit-learn 库、nginx 和php。

Python 环境

需要 Python 2.7 环境，在 Windows 环境下载 Anaconda ，完成Python 所需的配置，下载地址：https://www.anaconda.com/，也可以下载虚拟机在 Linux 环境下运行代码。

jieba分词库

使用 pip install jieba 命令进行安装。

Scikit-learn 库

使用 pip install sklearn 命令进行安装。

nginx

nginx下载地址：http://nginx.org/en/download.html。

php

进入 php 安装地址 http://windows.php.net/download 下载最新线程安全版 php.zip 压缩包。

模块实现

本项目包括 2 个模块：前端模块和后端模块，下面分别给出各模块的功能介绍及相关代码。

1. 前端模块

1）短信输入页面
相关代码如下：

index.php

<html>
<?php
#程序简介
#Spam Message Classifiers
?>
<head>
    <title>垃圾短信识别</title>
    <meta http-equiv="Content-Type" content="text/html; charset=gb2312">
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
        body {background:#eee;}
        ul {padding:0; margin:0;}
        li {list-style:none;}
        #container {margin: 0 auto; width: 80%;}
        #title {color:#146fdf;font-size:25px; text-align:center; font-family:"YouYuan"; font-weight:bold;margin-top:40px;}
        a {color:#146fdf; text-decoration: none}
        a:hover {color: black; text-decoration: underline}
        #g_list {margin-top:60px; background:#fff;border-radius:4px}
        #g_u,#g_p {position:relative}
        #g_u {border-bottom:1px solid #eaeaea}
        .inputstyle {text-align:center;-webkit-tap-highlight-color:rgba(255,255,255,0); width:100%; height:144px;color:#000;border:0; background:0; font-size:16px;-webkit-appearance:none;line-height:normal; /* for non-ie */}
        #cjsubmit {margin-top:40px; width:100%; height:44px; color:#146fdf}
        .button {border:0px; width:100%; height:100%;color:white; background:#146fdf; border-radius:4px; font-size:16px;}
        #notice {text-align:center; margin-top:60px; color:#246183; line-height:14px; font-size:14px; padding:15px 10px}
    </style>
</head>
<body>
    <div id="container">
        <div id="title">垃圾短信识别</div>  
            <form method=post name="cf" target="_blank" onSubmit=javascript:chkfs()>
                <ul  id="g_list">
                    <li  id="g_u">
                        <div  id="del_touch"  class="del_touch">
                            <span  id="del_u"  class="del_u"  style="display: none;"></span>
                        </div>
                        <textarea  id="u"  class="inputstyle"  name="pmessage"  autocomplete="off" ></textarea>
                    </li>
                </ul>
            <div id="cjsubmit"><input type=submit value=识别 class="button"></div>
            <script language=javascript>  
                function chkfs(){ 
                var frm = document.forms['cf'];  
                frm.action="result.php";
                return true;  
                }
            </script>
        </form>
        <div id="notice">
            支持多种分类器：KNN, LR, RF, DT, GBDT, SVM, MultinomialNB, BernoulliNB<BR>
        <p align=center>
            Powered by <a href=http://JackieLiu.win>Jackie Liu
        </div>
    </div>
</body>
</html>

2）短信输出页面
相关代码如下：

result.php

<html>
<?php
#程序简介#
#Spam Message Classifiers
$nomessage = "请输入短信内容!";//输入错误时的信息
?>
<head>
    <title>垃圾短信识别</title>
    <meta http-equiv="Content-Type" content="text/html; charset=gb2312">
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    #title {color:#146fdf;font-size:25px; text-align:center; font-family:"YouYuan"; font-weight:bold;margin-top:40px;margin-bottom:30px;}
    body {background:#eee;}
    #container {margin:0 auto; width: 80%;}
    a {color:#146fdf; text-decoration: none}
    a:hover {color: black; text-decoration: underline}
    .button {border:0px;width:100%; height:100%; color:white; background:#146fdf; border-radius:4px; font-size:16px;}
    #closewindos {margin-top:60px; width:30%; height:30px; color:#146fdf}
    #notice {text-align:center; margin-top:60px; color:#246183; line-height:14px; font-size:14px; padding:15px 10px}
    table {border:1px solid #eaeaed;}
    td {font-size:20px;border-bottom:1px solid #eaeaed; color:#246183}
    </style>
</head>
<body>
    <div id="container">
        <center>
        <div id="title">垃圾短信识别</div>
        <?php
        error_reporting(0);  //禁用错误报告
        #var_dump($_POST);
        if($_POST[pmessage]=="") echo $nomessage; 
        else{
            $output = shell_exec('python /Users/liu/Sites/Model/demoAPI.py'.' '.$_POST[pmessage]);
            echo"各分类器检测结果如下 


";
            #返回结果形如：LR:[u'1'],RF:[u'1']
            $array = explode(',', $output);
            echo"";for($i=0;$i<count($array)-1;$i++){$result=explode(':',$array[$i]);echo"";}echo"
              
                   
                $result[0]
                         ----------
                         $result[1]
            
            
";
        }
                ?>
        <div id="closewindos"><input type="button" value="关闭此页" class="button" onClick="javascript:window.close()"></div>
        </center>
        <div id="notice">
            支持多种分类器：KNN, LR, RF, DT, GBDT, SVM, MultinomialNB, BernoulliNB<BR>
        <p align=center>
            Powered by <a href=http://JackieLiu.win>Jackie Liu
        </div>
    </div>
</body>
</html>

2. 后端模块

本部分包括数据预处理、模型训练和 nginx 配置。
1）数据预处理
使用 GitHub 的开源数据集，下载地址 https://github.com/mJackie/SpamMessage，分为标签域与文本域，标签域为 1 或 0，分别代表垃圾短信与正常短信，文本域为短信内容。对数据进行预处理，用 jieba 分词器对文本域进行分词处理，利用数据降维对分词后的文本进行操作，创建词袋。相关代码如下:

DataPreprocess.py

# -*- coding: utf-8 -*-
import json
import jieba
import jieba.posseg as pseg
import sklearn.feature_extraction.text
from sklearn.decomposition import NMF
from sklearn.decomposition import PCA
from scipy import sparse, io
from time import time
#使用TF-IDF产生词向量
class TfidfVectorizer(sklearn.feature_extraction.text.TfidfVectorizer):
    def build_analyzer(self):
        def analyzer(doc):
            words = pseg.cut(doc)
            new_doc = ''.join(w.word for w in words if w.flag != 'x')
            words = jieba.cut(new_doc)
            return words
        return analyzer
#PCA或者NMF降维
def dimensionality_reduction(x, type='pca'):
    if type == 'pca':
        n_components = 500   #降低到n_components
        t0 = time()
        pca = PCA(n_components=n_components)
        print ("pca-----fit begin")
        pca.fit(x)
        print ("pca-----fit ok")
        x_transform = sparse.csr_matrix(pca.transform(x))
        print ("pca-----x ok")
        print("PCA reduction done in %0.3fs" % (time() - t0))
                return x_transform
    if type == 'nmf':
        n_components = 500   
        t1 = time()
        nmf = NMF(n_components=n_components)
        print ("nmf-----fit begin")
        nmf.fit(x)
        print ("nmf-----fit ok")
        x_transform = sparse.csr_matrix(nmf.transform(x))
        print ("nmf-----x ok")
        print("NMF reduction done in %0.3fs" % (time() - t1))
             return x_transform
if '__main__' == __name__:
    print ('******************* data preprocessing ********************')
    t0 = time()
    data_lines = 50000
    data_type = "raw"
    x = []
    y = [] 
    lines =[]
    #加载数据
    with open('message.txt') as fr: 
        for i in range(data_lines):  
            line = fr.readline()
            message = line.split('\t')
            y.append(message[0])
            x.append(message[1])
    #存储y到y.json
    with open('raw50000/y.json', 'w') as f:
        json.dump(y, f)
    print ("save y successfully!")
    vec_tfidf = TfidfVectorizer()   #if df<2 discard it, max_df>0.8 discard as well
    data_tfidf = vec_tfidf.fit_transform(x)
    #写入文件,后续调用
    #pickle.dump(vec_tfidf, open("vec_tfidf", 'wb'))
    if data_type == 'raw':
        io.mmwrite('raw50000/raw', data_tfidf)
    '''
    name_tfidf_feature = vec_tfidf.get_feature_names()#将特征名写入feature.json
    with open('feature.json', 'w') as f:
        json.dump(name_tfidf_feature, f)
    print "save feature successfully!"
    '''
    if data_type == 'nmf' or data_type == 'pca&nmf':
        nmf = dimensionality_reduction(data_tfidf.todense(), type='nmf')
        io.mmwrite('nmf', nmf)	#把nmf写入nmf.mtx
        print ("save nmf successfully!")
    if data_type == 'pca' or data_type == 'pca&nmf':
        pca = dimensionality_reduction(data_tfidf.todense(), type='pca')
        io.mmwrite('pca', pca)	#把pca写入pca.mtx
        print ("save pca successfully!")
    print("******* %s lines data preprocessing done in %0.3fs *******" % (data_lines,(time() - t0)))

2）模型训练

相关代码如下：
Classifiers.py

#!usr/bin/env python  
#-*- coding: utf-8 -*-  
import sys  
import os  
import time  
import json
from sklearn import metrics  
from sklearn.naive_bayes import BernoulliNB
from sklearn.model_selection import train_test_split
import numpy as np
from scipy import sparse, io
import cPickle as pickle
reload(sys)  
sys.setdefaultencoding('utf8')
#KNN分类 
def knn_classifier(train_x, train_y):  
    from sklearn.neighbors import KNeighborsClassifier  
    model = KNeighborsClassifier(n_neighbors = 5, algorithm = 'kd_tree')
    model.fit(train_x, train_y)  
    return model  
#逻辑回归分类
def logistic_regression_classifier(train_x, train_y):  
    from sklearn.linear_model import LogisticRegression  
    model = LogisticRegression(penalty='l2')
    model.fit(train_x, train_y)  
    return model  
#随机森林分类
def random_forest_classifier(train_x, train_y):  
    from sklearn.ensemble import RandomForestClassifier  
    model = RandomForestClassifier(n_estimators=8)  
    model.fit(train_x, train_y)  
    return model  
#决策树分类
def decision_tree_classifier(train_x, train_y):  
    from sklearn import tree  
    model = tree.DecisionTreeClassifier()  
    model.fit(train_x, train_y)  
    return model  
#GBDT(Gradient Boosting Decision Tree)分类 
def gradient_boosting_classifier(train_x, train_y):  
    from sklearn.ensemble import GradientBoostingClassifier  
    model = GradientBoostingClassifier(n_estimators=200)  
    model.fit(train_x, train_y)  
    return model
#SVM分类
def svm_classifier(train_x, train_y):
  from sklearn.svm import SVC
  model = SVC(kernel='rbf', probability=True)
  model.fit(train_x, train_y)
  return model
#分类器用fit()函数训练，用predict()函数预测结果
#使用交叉验证SVM分类
def svm_cross_validation(train_x, train_y):  
    #from sklearn.grid_search import GridSearchCV
    from sklearn.model_selection import GridSearchCV
    from sklearn.svm import SVC  
    model = SVC(kernel='rbf', probability=True)  
    param_grid = {'C': [1e-3, 1e-2, 1e-1, 1, 10, 100, 1000], 'gamma': [0.001, 0.0001]}  
    grid_search = GridSearchCV(model, param_grid, n_jobs = 1, verbose=1)
    grid_search.fit(train_x, train_y)  
    best_parameters = grid_search.best_estimator_.get_params()  
    for para, val in best_parameters.items():  
        print para, val  
    model = SVC(kernel='rbf', C=best_parameters['C'], gamma=best_parameters['gamma'], probability=True)  
    model.fit(train_x, train_y)
    return model
#多项式朴素贝叶斯分类
def multinomial_naive_bayes_classifier(train_x, train_y):  
    from sklearn.naive_bayes import MultinomialNB  
    model = MultinomialNB(alpha=0.01)  
    model.fit(train_x, train_y)  
    return model  
#贝努力朴素贝叶斯分类
def bernoulli_naive_bayes_classifier(train_x, train_y):  
    from sklearn.naive_bayes import MultinomialNB  
    model = BernoulliNB(alpha=0.01)
    model.fit(train_x, train_y)  
    return model  
#确定训练集和测试集
def select_data(x, y, takeup):
    train_x, test_x, train_y, test_y = train_test_split(
        x, y, test_size=takeup, random_state=20)
    return train_x, test_x, train_y, test_y
if '__main__' == __name__:
    #0.1表示测试集占10%
    takeup = 0.02   #KNN要改成0.02才能成功，其他可以是0.1
    x = io.mmread('DataPreprocess/raw50000/raw.mtx')
    with open('DataPreprocess/raw50000/y.json', 'r') as f:
        y = json.load(f)
        train_x, test_x, train_y, test_y = select_data(x, y, takeup)
    #test_classifiers = ['LR', 'RF', 'DT',  'MultinomialNB','BernoulliNB','SVM','GBDT', 'KNN']
    #test_classifiers = [ 'KNN','LR', 'RF', 'DT', 'SVM', 'MultinomialNB','BernoulliNB']
    test_classifiers = ['KNN']
    #test_classifiers = ['MultinomialNB','BernoulliNB',]
    classifiers = { 
                    'KNN':knn_classifier,  
                    'LR':logistic_regression_classifier,  
                    'RF':random_forest_classifier,  
                    'DT':decision_tree_classifier, 
                    'GBDT':gradient_boosting_classifier,
                    'SVM':svm_classifier,
                    'MultinomialNB':multinomial_naive_bayes_classifier,  
                    'BernoulliNB':bernoulli_naive_bayes_classifier
    }  
    model_save = {} 
    for classifier in test_classifiers: 
        print '******************* %s ********************' % classifier
        start_time = time.time()
        print classifiers[classifier]
        model = classifiers[classifier](train_x, train_y)  
        print 'training took %fs!' % (time.time() - start_time)
        pickle.dump(model, open('model/'+classifier, 'wb'))
        #预测test_x
        predict = model.predict(test_x)
        #测量
        precision = metrics.precision_score(test_y, predict, pos_label= u'1') #string u'1'
        recall = metrics.recall_score(test_y, predict, pos_label= u'1')  
        print 'precision: %.2f%%, recall: %.2f%%' % (100 * precision, 100 * recall)  
        accuracy = metrics.accuracy_score(test_y, predict)  
        print 'accuracy: %.2f%%' % (100 * accuracy)
        print('RESULT')
        print(metrics.classification_report(test_y, predict))

3）nginx配置

系统测试

本部分测试结果、结果对比及可视化部分。

1. 测试结果

KNN 临近算法如图1所示，逻辑回归算法如图2所示，随机森林算法如图3所示，决策树算法如图4所示，梯度提升迭代决策树算法如图 5所示，多项式分布朴素贝叶斯算法如图6所示，伯努利分布朴素贝叶斯算法如图 7所示。

图1 KNN 临近算法结果

图2 逻辑回归算法结果

图3 随机森林算法结果

图4 决策树算法结果

图5 梯度提升迭代决策树算法结果

图6 多项式分布朴素贝叶斯算法结果

图7 伯努利分布朴素贝叶斯算法结果

2. 结果对比

KNN 临近、逻辑回归、随机森林、决策树、梯度提升迭代决策树、多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯对比结果如下表所示。

通过对比，可以看出 KNN 邻近算法拥有 100%的正确率，召回率只有 4.59%，即 KNN临近算法只将测试集中 4.59%的垃圾短信标记出来。KNN、逻辑回归、朴素贝叶斯的速度很快、随机森林和决策树运行比较慢，梯度提升迭代决策树由于需要对残差进行不断的迭代，速度非常慢。综合召回率与准确率，两种朴素贝叶斯的结果比较理想。

3. 可视化部分

垃圾短信识别如下图所示。

工程源代码下载

详见本人博客资源下载页

其它资料下载

如果大家想继续了解人工智能相关学习路线和知识体系，欢迎大家翻阅我的另外一篇博客《重磅 | 完备的人工智能AI 学习——基础知识学习路线，所有资料免关注免套路直接网盘下载》
这篇博客参考了Github知名开源平台，AI技术平台以及相关领域专家：Datawhale，ApacheCN，AI有道和黄海广博士等约有近100G相关资料，希望能帮助到所有小伙伴们。

从零打造 Python 爬虫项目：需求分析到部署西攻城狮北 python 爬虫实战案例
一、项目概述二、需求分析三、开发环境搭建四、代码实现1.爬虫基础2.数据解析与存储3.应对反爬虫机制4.多页爬取五、部署与运行1.定时任务2.云服务器部署六、常见问题解决七、总结随着互联网的飞速发展，信息获取成为了人们日常生活和工作中不可或缺的一部分。然而，传统的手动收集信息的方式效率低下、准确性难以保证，无法满足大量数据需求。Python爬虫技术应运而生，它能够自动化地从互联网上获取大量数据，为
Python uiautomtion模块使用 Midway-Z python 开发语言 windows
uiautomation1.引言目的：本指南旨在为想要使用Python进行Windows应用程序自动化的人士提供全面的学习资源。无论你是新手还是有一定经验的开发者，都能从中找到有价值的信息。概述：uiautomation是一个强大的Python库，用于与基于MicrosoftUIAutomation（UIA）框架的应用程序交互。它可以帮助你自动化日常任务、执行软件测试或创建辅助工具。https:/
DeepSeek vs text2vec:谁更适合Python题库向量提取对比黑金IT 向量数据库 python python 开发语言
在Python培训题库提取标题和答案用于学习的应用场景中，选择text2vec-large-chinese和DeepSeek的优劣取决于具体需求和资源限制。以下是对两种模型在该场景下的适用性分析：1.应用场景分析在Python培训题库中，常见的任务可能包括：题目相似度计算：判断题目是否重复或相似。自动分类：将题目按照难度、知识点等分类。智能推荐：根据用户的学习进度推荐相关题目。文本特征提取：用于后
用元数据过滤向量库：区分不同类型数据的简单方法黑金IT AI智能向量数据库 python 知识图谱人工智能
如何在将Python编程题库和花卉分类信息这两种截然不同的知识体系融入同一向量库时，我们如何确保在提问时能够精确区分它们？难道不是通过为每种知识体设置独特的标签，如“教学语言：python，题目难度：简单”与“花的种类：水仙，类型2，重被花”这样的元数据来实现吗？难道不是依靠这种分类机制，我们才能在用户提出问题时，系统根据问题内容与标签进行匹配，从而确保调用正确的知识体吗？第一.在向量库中区分不同
Python Selenium 库学习指南不是二师兄的八戒 python selenium
PythonSelenium库学习指南目录Selenium基础介绍Selenium是什么安装SeleniumSelenium的工作原理Selenium基本用法启动浏览器定位元素常见操作：点击、输入、滚动高级用法切换窗口与标签页模拟鼠标操作与键盘输入动态加载的网页处理等待机制显式等待与隐式等待等待条件与时间限制Selenium与浏览器交互模拟用户行为上传与下载文件Selenium与JavaScrip
python selenium实现网站表格数据爬取--以波兰太阳能电站补贴数据为例文仙草 Python 数据处理 python selenium chrome
需要爬取带下拉框选择的网站表格里的数据：波兰民用太阳能补贴项目的网站https://mojprad.gov.pl/wyniki-naboru开始打算用BeautifulSoup，不过没研究明白怎么实现下拉框选择和确认（如果有大神知道如何实现的话，求私信！！）。后来，发现用selenium这个做网站自动化测试的包，用来做网站数据爬取简直不要太方便。以下为最终实现的对带下拉框的网站表格进行爬取的实例。
【Python】之线程池黏苞米开发语言 python
一、线程池定义线程池（ThreadPool）是一种高效管理多线程任务的机制，通过复用固定数量的线程来处理多个任务，避免频繁创建和销毁线程的开销。线程池在系统启动时即创建大量空闲的线程，程序只要将一个函数提交给线程池，线程池就会启动一个空闲的线程来执行它。当该函数执行结束后，该线程并不会死亡，而是再次返回到线程池中变成空闲状态，等待执行下一个函数。此外，使用线程池可以有效地控制系统中并发线程的数量。
【Python】之raise函数用法口诀黏苞米 python
一、口诀速记主动触发用raise，异常类型别乱选内置异常优先用，自定义类更灵活重抛异常不加参，异常链条要关联传递信息加描述，性能消耗需谨慎断言assert有区别，生产环境更推荐二、‌逐句解析口诀句‌‌对应知识点‌‌代码示例‌‌主动触发用raise‌主动中断程序流，替代返回错误码ifx0→生产环境可能失效‌生产环境更推荐‌关键业务逻辑强制使用raise保证错误必现支付失败必抛PaymentErro‌
Python pyecharts 模块 ONE_PUNCH_Ge python
pyecharts是一个基于ECharts的Python数据可视化库，它允许用户使用Python语言生成各种类型的交互式图表和数据可视化。ECharts是一个使用JavaScript实现的开源可视化库，而Pyecharts则是ECharts的Python封装，使得在Python中使用ECharts变得更加方便。pyecharts提供了一组简单而灵活的API，使用户能够轻松地创建各种图表，包括但不限
如何最简单、通俗地理解Python的迭代器塞大花 Python学习笔记 python 开发语言迭代器迭代器模式 iterator pattern 人工智能 Python编程
编程中，迭代器是一个常见的工具，如果用非编程语言来描述，可以理解成迭代器就像一本书的书签，每次翻页都会记住你读到哪里，下一次继续从这个位置往下读，直到读完为止。在Python编程中，迭代器（Iterator）是一个很常见概念。很多初学者看到“迭代器”这个词，就会觉得它很复杂，其实它的核心思想非常简单，甚至可以用生活中的例子来直观理解：想象一下你在看一本书，但这本书的设计比较特别：你只能通过翻页来读
Python PDF神器PyMuPDF使用指南 (六)——Document类详解塞大花 Python学习笔记 pdf python PDF文件提取 PDF内容提取 PDF数据提取 PDF RAG PDF文件内容提取
系列文章：PythonPDF神器PyMuPDF使用指南(一)——安装和基础功能PythonPDF神器PyMuPDF使用指南(二)——文件和文本功能PythonPDF神器PyMuPDF使用指南(三)——图像和注释功能PythonPDF神器PyMuPDF使用指南(四)——绘图、多线程和OCR功能PythonPDF神器PyMuPDF使用指南(五)——命令行使用PythonPDF神器PyMuPDF使用指南
Python并发编程 06 进程、协程撸码侠 Python网络编程与并发编程 python windows 开发语言
文章目录一、多进程调用二、Process类1、主要参数2、实例方法3、属性4、代码示例三、进程通讯1、进程队列通讯2、管道通讯3、Manager对象四、进程同步五、进程池六、协程1、协程简述2、用greenlet库实现协程3、用gevent库实现协程一、多进程调用与多线程调用相似frommultiprocessingimportProcessimporttimedeff(name):time.sl
selenium之表格的定位 weixin_33755557 python 面试测试
2019独角兽企业重金招聘Python工程师标准>>>真的勇士，敢于直面惨淡的warning、敢于正视淋漓的error目录被测试网页的HTML代码1.遍历表格所有单元格2.定位表格中的某个元素3.定位表格中的子元素总结浏览器网页常常会包含各类表格，自动化测试工程师可能会经常操作表格中的行，列以及某些特定的单元格，因此熟练掌握表格的定位方法是自动化测试实施过程中必要的技能。被测试网页的HTML代码被
【Python爬虫(96)】从0到1：打造爬虫驱动的数据分析平台奔跑吧邓邓子 Python爬虫 python 爬虫数据分析开发语言平台
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、平台搭建基础1.1明确平台目标与定位1.2技术选型依据二、数据
Python接口自动化测试框架（工具篇）-- 接口测试工具JMeter 职说测试 python 自动化测试工具
文章目录一、前言二、JMeter2.1、安装jmeter2.2、JMeter接口测试案例2.3、快速创建JMeter接口测试计划三、扩展3.1、接口自动化测试3.2、性能自动化测试一、前言相比使用postman做接口测试，作为测试人员，熟练使用jmeter做接口测试已经是必备技能，这可以从各大招聘测试岗的JD中得到印证，它不仅仅能做接口测试、还有可以做性能测试、自动化测试都能作为其解决方案之一；其
Python处理PDF——PyMuPDF的安装与使用程序员小六进阶技术 python技术 python 开发语言
1、PyMuPDF简介1.介绍在介绍PyMuPDF之前，先来了解一下MuPDF，从命名形式中就可以看出，PyMuPDF是MuPDF的Python接口形式。MuPDFMuPDF是一个轻量级的PDF、XPS和电子书查看器。MuPDF由软件库、命令行工具和各种平台的查看器组成。MuPDF中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时
Python 用 Selenium & DataFrame 提取网页内表格数据 solosoft python selenium
提取的数据导入DataFrame，方便后期处理frompandas.core.frameimportDataFramefromseleniumimportwebdriverdriver=webdriver.Edge();driver.get("http://data.eastmoney.com/hsgt/index.html")table_content=driver.find_element_b
【数学建模】基于matlab模拟无人车泊车问题仿真 matlab科研助手数学建模 matlab 开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍无人驾驶汽车技术近年来取得了飞速发展，其中自动泊车功能是关键技术之一。本文将重点讨论无
python爬取网页的方法总结,python爬虫获取网页数据阳阳2013哈哈 python
大家好，小编来为大家解答以下问题，python爬取网页信息代码正确爬取不到，利用python爬取简单网页数据步骤，今天让我们一起来看看吧！文章目录1.抓取网页源代码2.抓取一个网页源代码中的某标签内容3.抓取多个网页子标签的内容Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能在我们开始之前，我们需要安装一些
密码狗的使命加密狗定制分析赋值 plotly 人工智能 scikit-learn 密码学运维
密码狗：数字时代的忠诚卫士在数字时代的浪潮中，"密码狗"这个充满科技感的词汇悄然兴起。它不是一个简单的密码管理工具，而是数字时代忠诚卫士的象征。密码狗守护着我们的数字资产，捍卫着我们的隐私安全，在虚拟与现实的边界上筑起一道坚固的防线。一、密码狗的使命在数字世界中，密码是守护个人隐私的第一道防线。密码狗的出现，让这道防线变得更加坚固。它采用先进的加密算法，将复杂的密码存储在安全的硬件设备中，确保即使
Python 开发常见问题汇总公众号/头条号：技术很有趣 flask pip python 1024程序员节
1WARNING:Retrying(Retry(total=3,connect=None,read=None,redirect=None,status=None))afterconnectionbrokenby'ConnectTimeoutError根因：本地代理未配置或者配置不对解决方法：方法一：使用开源的镜像源配置或者公司内部镜像源，举例：[global]index-url=https://X
Python爬虫库Selenium .NET跨平台
Selenium库是一个自动化测试工具，支持多种浏览器。在爬虫中主要解决JavaScript渲染的问题。用法讲解：0.基本用法fromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.common.keysimportKeysfromselenium.webdriver.sup
做污染源监测时，一个特别怪的问题 Steelenwang 技术随笔 c语言单片机驱动开发物联网
我们在做污染源监测时，发现一个特别怪的问题就是接PH计在0点和满量程数据是对的，在中间段数据怎么都对。而用回路校验仪测数据很精确，而且刷新很快。排除了各种问题，而且，产品做了3～4年了，用在各种场合都没有问题，问题到底出在哪里呢。最后查模拟量测量程序代码，发现里面有一段滤波代码，研发工程师当初为了避免数据波动大概算法如下if((x(n)-x(n-1))<限定值){x(n)=x(n-1);}else
8个Python爬虫高效数据抓取技巧程序员小鱼_ python 爬虫 python 爬虫开发语言
在数据驱动的时代，Python爬虫成为了获取网络数据的重要工具。本文将深入浅出地介绍8个高效的Python爬虫技巧，帮助初学者提升数据抓取能力，从简单的网页内容提取到复杂的动态网站抓取，逐步解锁爬虫高级技能。1.使用Requests库优雅地请求网页技巧简介：Requests是Python中处理HTTP请求的明星库，简洁易用。实践示例：importrequestsurl='https://examp
Python selenium 库 ONE_PUNCH_Ge python
Selenium是一个用于自动化Web浏览器操作的强大工具，广泛应用于Web应用程序测试、网页数据抓取和任务自动化等场景。Selenium为各种编程语言提供了API，用作测试。目前的官方API文档有C#、JavaScript、Java、Python、Ruby。安装Selenium和WebDriver安装Selenium要开始使用Selenium，首先需要安装selenium库，并下载适用于你浏览器
数学建模：MATLAB极限学习机解决回归问题 DesolateGIS 数学建模数学建模 matlab 开发语言
一、简述极限学习机是一种用于训练单隐层前馈神经网络的算法，由输入层、隐藏层、输出层组成。基本原理：输入层接受传入的样本数据。在训练过程中随机生成从输入层到隐藏层的所有连接权重以及每个隐藏层神经元的偏置值，这些参数在整个训练过程中不会被修改。前向传播：输入数据通过已设定的权重和偏置传递给隐藏层，经过激活函数处理后产生隐藏层的输出。在得到隐藏层输出后，需找到从隐藏层到输出层的最佳权重。隐藏层到输出层的
Python装饰器居然还能这么用！新手小白必看[附源码] 花小姐的春天跟着花姐学Python python 装饰器模式 0基础学Python Python教程后端脚本
大家好呀！我是花姐。你有没有遇到过这样的情况：你写了一个函数，突然想到要给它增加一些额外功能，或者你希望能在多个地方重复使用这段功能，结果却发现每次都得重新写一遍代码，超级烦！别担心，今天花姐给大家介绍一个神器——装饰器！它可以在不改变原始函数代码的情况下，为函数增加新功能，而且代码更加简洁、高效，关键是让你的代码更“优雅”。好啦，今天我们就来一起看看装饰器的魔力，它怎么帮助我们做出更简洁、可复用
自动驾驶系统工程师的技术图谱与学习路径执于代码开发者职业加速服务自动驾驶人工智能
自动驾驶系统工程师的技术图谱与学习路径自动驾驶系统工程师是一个跨学科的角色，涵盖了硬件、软件、传感器、算法、控制系统等多个领域。为了清晰展示这一职位所需要掌握的技术，我们可以将其分为多个能力层次，并根据工程师在不同阶段的需求设计学习路径。以下是一个详细的自动驾驶系统工程师技术图谱与学习路径，按照“技能树与能力模型”展示，从基础到进阶，分层次列出了所需的核心技能和学习路线。一、基础能力层（数学、编程
Python Cookbook-2.8 更新随机存取文件我不会编程555 #Python学习 python linux 前端
任务给定一个包含很多固定长度记录的大二进制文件，你想读取其中某一条记录，并且修改该条记录的某些字段的值，然后写回到文件中。解决方案读取记录，解包，执行任何需要的数据更新，然后将所有字段重新组合成记录，接着找到正确的位置，最后再写入。见如下代码:importstruct#或者说，一条记录是8个4字节整数format_string='81'thefile=open('somebinfile','r+b
将excel文件各列保存为txt的实战代码爱编程的喵喵 Python基础课程 python excel txt 实战代码
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了将excel文件各列保存为txt的实
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">