laafeer

竞赛选题题目：垃圾邮件(短信)分类算法实现机器学习深度学习开题

文章目录

1 前言
2 垃圾短信/邮件分类算法原理
- 2.1 常用的分类器 - 贝叶斯分类器
3 数据集介绍
4 数据预处理
5 特征提取
6 训练分类器
7 综合测试结果
8 其他模型方法
9 最后

1 前言

优质竞赛项目系列，今天要分享的是

基于机器学习的垃圾邮件分类

该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！

更多资料, 项目分享：

https://gitee.com/dancheng-senior/postgraduate

2 垃圾短信/邮件分类算法原理

垃圾邮件内容往往是广告或者虚假信息，甚至是电脑病毒、情色、反动等不良信息，大量垃圾邮件的存在不仅会给人们带来困扰，还会造成网络资源的浪费；

网络舆情是社会舆情的一种表现形式，网络舆情具有形成迅速、影响力大和组织发动优势强等特点，网络舆情的好坏极大地影响着社会的稳定，通过提高舆情分析能力有效获取发布舆论的性质，避免负面舆论的不良影响是互联网面临的严肃课题。

将邮件分为垃圾邮件(有害信息)和正常邮件，网络舆论分为负面舆论(有害信息)和正面舆论，那么，无论是垃圾邮件过滤还是网络舆情分析，都可看作是短文本的二分类问题。

2.1 常用的分类器 - 贝叶斯分类器

贝叶斯算法解决概率论中的一个典型问题：一号箱子放有红色球和白色球各 20 个，二号箱子放油白色球 10 个，红色球 30
个。现在随机挑选一个箱子，取出来一个球的颜色是红色的，请问这个球来自一号箱子的概率是多少？

利用贝叶斯算法识别垃圾邮件基于同样道理，根据已经分类的基本信息获得一组特征值的概率（如：“茶叶”这个词出现在垃圾邮件中的概率和非垃圾邮件中的概率），就得到分类模型，然后对待处理信息提取特征值，结合分类模型，判断其分类。

贝叶斯公式：

P(B|A)=P(A|B)*P(B)/P(A)

P(B|A)=当条件 A 发生时，B 的概率是多少。代入：当球是红色时，来自一号箱的概率是多少？

P(A|B)=当选择一号箱时,取出红色球的概率。

P(B)=一号箱的概率。

P(A)=取出红球的概率。

代入垃圾邮件识别：

P(B|A)=当包含"茶叶"这个单词时，是垃圾邮件的概率是多少？

P(A|B)=当邮件是垃圾邮件时，包含“茶叶”这个单词的概率是多少？

P(B)=垃圾邮件总概率。

P(A)=“茶叶”在所有特征值中出现的概率。

3 数据集介绍

使用中文邮件数据集：丹成学长自己采集，通过爬虫以及人工筛选。

数据集“data” 文件夹中，包含，“full” 文件夹和 “delay” 文件夹。

“data” 文件夹里面包含多个二级文件夹，二级文件夹里面才是垃圾邮件文本，一个文本代表一份邮件。“full” 文件夹里有一个 index
文件，该文件记录的是各邮件文本的标签。

数据集可视化：

4 数据预处理

这一步将分别提取邮件样本和样本标签到一个单独文件中，顺便去掉邮件的非中文字符，将邮件分好词。

邮件大致内容如下图：

每一个邮件样本，除了邮件文本外，还包含其他信息，如发件人邮箱、收件人邮箱等。因为我是想把垃圾邮件分类简单地作为一个文本分类任务来解决，所以这里就忽略了这些信息。
用递归的方法读取所有目录里的邮件样本，用 jieba 分好词后写入到一个文本中，一行文本代表一个邮件样本：

import re
import jieba
import codecs
import os 
# 去掉非中文字符
def clean_str(string):
    string = re.sub(r"[^\u4e00-\u9fff]", " ", string)
    string = re.sub(r"\s{2,}", " ", string)
    return string.strip()

def get_data_in_a_file(original_path, save_path='all_email.txt'):
    files = os.listdir(original_path)
    for file in files:
        if os.path.isdir(original_path + '/' + file):
                get_data_in_a_file(original_path + '/' + file, save_path=save_path)
        else:
            email = ''
            # 注意要用 'ignore'，不然会报错
            f = codecs.open(original_path + '/' + file, 'r', 'gbk', errors='ignore')
            # lines = f.readlines()
            for line in f:
                line = clean_str(line)
                email += line
            f.close()
            """
            发现在递归过程中使用 'a' 模式一个个写入文件比 在递归完后一次性用 'w' 模式写入文件快很多
            """
            f = open(save_path, 'a', encoding='utf8')
            email = [word for word in jieba.cut(email) if word.strip() != '']
            f.write(' '.join(email) + '\n')

print('Storing emails in a file ...')
get_data_in_a_file('data', save_path='all_email.txt')
print('Store emails finished !')

然后将样本标签写入单独的文件中，0 代表垃圾邮件，1 代表非垃圾邮件。代码如下：

def get_label_in_a_file(original_path, save_path='all_email.txt'):
    f = open(original_path, 'r')
    label_list = []
    for line in f:
        # spam
        if line[0] == 's':
            label_list.append('0')
        # ham
        elif line[0] == 'h':
            label_list.append('1')

    f = open(save_path, 'w', encoding='utf8')
    f.write('\n'.join(label_list))
    f.close()

print('Storing labels in a file ...')
get_label_in_a_file('index', save_path='label.txt')
print('Store labels finished !')

5 特征提取

将文本型数据转化为数值型数据，本文使用的是 TF-IDF 方法。

TF-IDF 是词频-逆向文档频率（Term-Frequency，Inverse Document Frequency）。公式如下：

在所有文档中，一个词的 IDF 是一样的，TF 是不一样的。在一个文档中，一个词的 TF 和 IDF
越高，说明该词在该文档中出现得多，在其他文档中出现得少。因此，该词对这个文档的重要性较高，可以用来区分这个文档。

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

def tokenizer_jieba(line):
    # 结巴分词
    return [li for li in jieba.cut(line) if li.strip() != '']

def tokenizer_space(line):
    # 按空格分词
    return [li for li in line.split() if li.strip() != '']

def get_data_tf_idf(email_file_name):
    # 邮件样本已经分好了词，词之间用空格隔开，所以 tokenizer=tokenizer_space
    vectoring = TfidfVectorizer(input='content', tokenizer=tokenizer_space, analyzer='word')
    content = open(email_file_name, 'r', encoding='utf8').readlines()
    x = vectoring.fit_transform(content)
    return x, vectoring

6 训练分类器

这里学长简单的给一个逻辑回归分类器的例子

from sklearn.linear_model import LogisticRegression
from sklearn import svm, ensemble, naive_bayes
from sklearn.model_selection import train_test_split
from sklearn import metrics
import numpy as np

if __name__ == "__main__":
    np.random.seed(1)
    email_file_name = 'all_email.txt'
    label_file_name = 'label.txt'
    x, vectoring = get_data_tf_idf(email_file_name)
    y = get_label_list(label_file_name)

    # print('x.shape : ', x.shape)
    # print('y.shape : ', y.shape)
    
    # 随机打乱所有样本
    index = np.arange(len(y))  
    np.random.shuffle(index)
    x = x[index]
    y = y[index]

    # 划分训练集和测试集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

    clf = svm.LinearSVC()
    # clf = LogisticRegression()
    # clf = ensemble.RandomForestClassifier()
    clf.fit(x_train, y_train)
    y_pred = clf.predict(x_test)
    print('classification_report\n', metrics.classification_report(y_test, y_pred, digits=4))
    print('Accuracy:', metrics.accuracy_score(y_test, y_pred))

7 综合测试结果

测试了2000条数据，使用如下方法：

支持向量机 SVM
随机数深林
逻辑回归

可以看到，2000条数据训练结果，200条测试结果，精度还算高，不过数据较少很难说明问题。

8 其他模型方法

还可以构建深度学习模型

网络架构第一层是预训练的嵌入层，它将每个单词映射到实数的N维向量（EMBEDDING_SIZE对应于该向量的大小，在这种情况下为100）。具有相似含义的两个单词往往具有非常接近的向量。

第二层是带有LSTM单元的递归神经网络。最后，输出层是2个神经元，每个神经元对应于具有softmax激活功能的“垃圾邮件”或“正常邮件”。



    def get_embedding_vectors(tokenizer, dim=100):
    embedding_index = {}
    with open(f"data/glove.6B.{dim}d.txt", encoding='utf8') as f:
    for line in tqdm.tqdm(f, "Reading GloVe"):
    values = line.split()
    word = values[0]
    vectors = np.asarray(values[1:], dtype='float32')
    embedding_index[word] = vectors
    
    word_index = tokenizer.word_index
    embedding_matrix = np.zeros((len(word_index)+1, dim))
    for word, i in word_index.items():
    embedding_vector = embedding_index.get(word)
    if embedding_vector is not None:
    # words not found will be 0s
    embedding_matrix[i] = embedding_vector
    
    return embedding_matrix


    def get_model(tokenizer, lstm_units):
    """
    Constructs the model,
    Embedding vectors => LSTM => 2 output Fully-Connected neurons with softmax activation
    """
    # get the GloVe embedding vectors
    embedding_matrix = get_embedding_vectors(tokenizer)
    model = Sequential()
    model.add(Embedding(len(tokenizer.word_index)+1,
    EMBEDDING_SIZE,
    weights=[embedding_matrix],
    trainable=False,
    input_length=SEQUENCE_LENGTH))
    
    model.add(LSTM(lstm_units, recurrent_dropout=0.2))
    model.add(Dropout(0.3))
    model.add(Dense(2, activation="softmax"))
    # compile as rmsprop optimizer
    # aswell as with recall metric
    model.compile(optimizer="rmsprop", loss="categorical_crossentropy",
    metrics=["accuracy", keras_metrics.precision(), keras_metrics.recall()])
    model.summary()
    return model

训练结果如下：

_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
embedding_1 (Embedding) (None, 100, 100) 901300
_________________________________________________________________
lstm_1 (LSTM) (None, 128) 117248
_________________________________________________________________
dropout_1 (Dropout) (None, 128) 0
_________________________________________________________________
dense_1 (Dense) (None, 2) 258
=================================================================
Total params: 1,018,806
Trainable params: 117,506
Non-trainable params: 901,300
_________________________________________________________________
X_train.shape: (4180, 100)
X_test.shape: (1394, 100)
y_train.shape: (4180, 2)
y_test.shape: (1394, 2)
Train on 4180 samples, validate on 1394 samples
Epoch 1/20
4180/4180 [==============================] - 9s 2ms/step - loss: 0.1712 - acc: 0.9325 - precision: 0.9524 - recall: 0.9708 - val_loss: 0.1023 - val_acc: 0.9656 - val_precision: 0.9840 - val_recall: 0.9758

Epoch 00001: val_loss improved from inf to 0.10233, saving model to results/spam_classifier_0.10
Epoch 2/20
4180/4180 [==============================] - 8s 2ms/step - loss: 0.0976 - acc: 0.9675 - precision: 0.9765 - recall: 0.9862 - val_loss: 0.0809 - val_acc: 0.9720 - val_precision: 0.9793 - val_recall: 0.9883

9 最后

更多资料, 项目分享：

https://gitee.com/dancheng-senior/postgraduate

你可能感兴趣的:(分类,python)

python笔记：高级特性-迭代 zyckhuntoria python foundation
目录一、判断是否为迭代对象二、对dict进行迭代的三种情况2.1对dict中的key进行迭代2.2对dict中的value进行迭代2.3对dict中的key,value进行迭代三、对字符串进行迭代四、对list进行迭代五、练习迭代iterable（顺便一提..iterature文学）一、判断是否为迭代对象使用collections模块的Ierable类型进行判断，方法如下fromcollectio
godot python_我的godot开发环境调教记录分享水间清亦浅 godot python
由于之前用C++写了大部分游戏代码，现在打算较小改动的移植到新引擎上，感觉godot这个开源引擎比较合适。而且godot完全免费，同时任何个人或组织都可以用VSCommunity开发开源项目，也省了IDE的钱。开发工具上，先准备VisualC++VisualStudioCommunityhttps://www.visualstudio.com/vs/community/有注意事项，似乎初次安装时要
python 高级特性之迭代网罗开发 python集 Python 技术汇总 python 高级特性迭代
python学习笔记，特做记录，分享给大家，希望对大家有所帮助。迭代如果给定一个list或tuple，我们可以通过for循环来遍历这个list或tuple，这种遍历我们称为迭代（Iteration）。在Python中，迭代是通过for…in来完成的，而很多语言比如C语言，迭代list是通过下标完成的，比如Java代码：for(i=0;i
【Python - 虚拟环境】项目的启动，从隔离开发环境开始月落一寸光 python
文章目录前言一、`Python`虚拟环境列举二、不同虚拟环境的简要对比2.1`poetry`、`pipenv`2.2`venv`、`virtualenv`2.3`Anaconda`二、实践检验真理2.1更好的选择：`poetry`（推荐）2.1.1安装`poetry`2.1.2基本使用2.2最简单的操作：`venv`&`virtualenv`2.2.1`venv`基本使用2.2.2`virtual
基于Python开发的海关报表自动识别系统的示例代码 go5463158465 python 深度学习算法 python 开发语言
以下是一个基于Python开发的海关报表自动识别系统的示例代码，该系统包含输入报表、预处理、分类识别、文本检测和生成报表的基本功能。本示例主要使用了pytesseract进行文本识别，opencv-python进行图像预处理，同时简单模拟了报表分类的逻辑。环境准备在运行代码之前，需要安装以下库：pipinstallopencv-pythonpytesseractpandas此外，还需要安装Tess
Godot-Python 项目教程成冠冠Quinby
Godot-Python项目教程godot-pythonPythonsupportforGodot项目地址:https://gitcode.com/gh_mirrors/go/godot-python1.项目目录结构及介绍Godot-Python项目的目录结构如下：godot-python/├──addons/│└──pythonscript_repl/├──build/├──docs/├──ex
使用poetry+conda配置虚拟环境 chinaherolts2008 python基础教程 python基础教程
有关虚拟环境的相关的我之前也介绍过，python高级（4）——虚拟环境安装使用比如pipenv，还有virtualenv之类的，还有本篇文章的主角–poetry到底哪个更好用呢，看你个人吧，我觉得poetry更好一点咯，不过还是看个人喜好了一：conda创建虚拟环境1.安装conda这个就省略了，网上太多教程了2.创建虚拟环境：condacreate-npy37python=3.7二：poetry
Godot引擎开发：UI和用户交互_Godot引擎概述 chenlz2007 游戏开发 godot ui 交互游戏引擎 nginx 服务器前端
Godot引擎概述引擎简介Godot引擎是一个开源的2D和3D游戏引擎，由阿根廷开发者JuanLinietsky和ArielManzur创建。Godot引擎的目标是为游戏开发者提供一个强大、灵活且易于使用的工具，无论他们是否有丰富的编程经验。Godot引擎使用GDScript语言，这是一种类似Python的脚本语言，具有简洁的语法和强大的功能。此外，Godot引擎还支持C#和VisualScrip
Python中的游戏开发库有哪些？玥沐春风 python 开发语言
Python中有许多游戏开发库可供选择。以下是一些常用的游戏开发库：Pygame：Pygame是一个广泛使用的2D游戏开发库，提供了图形和声音方面的功能。Panda3D：Panda3D是一个功能强大的3D游戏引擎，支持Python语言编程，并且提供了许多用于游戏开发的工具和特性。GodotEngine：虽然不是Python专用的，但Godot引擎支持使用Python进行游戏编程。它是一个开源的多平
基于深度学习进行呼吸音检测的详细示例 go5463158465 算法深度学习深度学习人工智能
以下是一个基于深度学习进行呼吸音检测的详细示例，我们将使用Python语言以及一些常见的深度学习库（如TensorFlow、Keras）和数据处理库（如numpy、pandas），同时会用到音频处理库librosa。整个流程包括数据加载、预处理、模型构建、训练和评估。步骤1：安装必要的库在开始之前，确保你已经安装了以下库：pipinstalltensorflowlibrosanumpypandas
大模型可以多大程度上代替人类做软件需求分析 workflower 设计方法 UML建模需求分析设计模式软件工程软件需求 prompt
大模型在软件需求分析中的应用潜力和代码生成能力可划分为不同维度进行解析：一、需求分析替代范畴的三层模型表层需求解析支持自然语言至用例图/用户故事的结构化转换（75-83%准确率，基于IBM2024案例库数据）实现基础的非功能性需求(NFR)分类（如响应时间要求识别准确率达91%，但强度量化仍需人工）深层语境建模领域特定语言(DSL)生成能力达L3级（可自主生成80%银行业务规则DSL）上下文依赖需
Python从入门到精通学习路线 weixin_45689377 python学习 python 机器学习人工智能神经网络大数据
Python从入门到精通学习路线进步源自技术积累1.Python安装方式强烈推荐采用Anaconda集成软件进行安装，Anaconda集成了pyhon软件、jupyter及180多个包；安装方式参考网上教程，Anaconda下载地址：https://www.anaconda.com2.Python开发环境选择推荐jupyter（Anaconda中含有，不需额外安装）和pycharm（需额外安装），
rapidfuzz进阶应用：让模糊匹配更上一层楼，解锁更强大的字符串处理能力！修昔底德 Python费曼学习法数据库大数据 python 全文检索
rapidfuzz进阶应用：让模糊匹配更上一层楼，解锁更强大的字符串处理能力！回顾与升级：从入门到进阶在上一篇文章中，我们一起认识了Python模糊匹配神器rapidfuzz，体验了它闪电般的速度和强大的基本功能。我们了解了fuzz模块的基础用法，例如fuzz.ratio()、fuzz.partial_ratio()等，以及process模块的process.extract()和process.e
sqlalchemy python数据库实战 pdf_SQLALCHEMY PYTHON数据库实战(第2版) weixin_39612817 sqlalchemy python数据库实战 pdf
SQLAlchemy是一个流行的开源代码库，功能强大又相当灵活，能够帮助Python程序员使用各种关系型数据库，许多公司甚至把SQLAlchemy看作在Python中使用关系型数据库的标准方式，使用SQLAlchemy已经成为Python程序员推荐的技能之一。1.本书为O'Reilly系列丛书，众多年来“动物书”成为广大程序员心目中的解决问题的非常不错指南；2.本书通过真实示例，一步步指导读者使用
Python开发工具与附件使用指南一朵小小玫
本文还有配套的精品资源，点击获取简介：Python是一种流行的高级编程语言，支持多种开发工具和附件以优化开发流程。本文介绍如何使用这些工具和附件来提高Python开发的效率和性能。从编译器、说明文档、注册脚本、开发环境、包管理器到模块化编程、测试框架、静态代码分析工具、版本控制和文档生成，本文深入探讨了Python开发过程中所涉及的关键技术和资源。掌握这些工具对于高效Python开发至关重要。1.
python里面的pop的作用_python里pop是什么意思一朵小小玫 python里面的pop的作用
详细内容pop()函数用于移除列表中的一个元素(默认最后一个元素)，并且返回该元素的值。pop()方法语法：list.pop(obj=list[-1])参数obj--可选参数，要移除列表元素的对象。返回值该方法返回从列表中移除的元素对象。相关推荐：《Python视频教程》实例以下实例展示了pop()函数的使用方法：#!/usr/bin/pythonaList=[123,'xyz','zara','
大模型应用开发的框架红豆和绿豆大模型大模型
一、大语言模型的几个框架1、python的版本langchainLangChain英文官方地址：https://www.langchain.com/LangChain中文官网：https://www.langchain.com.cn/Python官方地址：https://python.langchain.com/en/latest/LangChain源代码地址：https://github.com
Selenium+Pytest自动化测试框架实战测试-八戒 selenium pytest 测试工具
前言#selenium自动化+pytest测试框架本章你需要一定的python基础——至少明白类与对象，封装继承一定的selenium基础——本篇不讲selenium，不会的可以自己去看selenium中文翻译网测试框架简介#测试框架有什么优点呢：代码复用率高，如果不使用框架的话，代码会很冗余可以组装日志、报告、邮件等一些高级功能提高元素等数据的可维护性，元素发生变化时，只需要更新一下配置文件使用
selenium用法详解【从入门到实战】【Python爬虫】【4万字 m0_60635609 程序员 selenium python 爬虫
driver.find_element_by_id(‘xxx’).send_keys(Keys.ENTER)使用Backspace来删除一个字符driver.find_element_by_id(‘xxx’).send_keys(Keys.BACK_SPACE)Ctrl+A全选输入框中内容driver.find_element_by_id(‘xxx’).send_keys(Keys.CONTROL
python教程89--matplotlib实例详解颐街 JupyterLab python python
12月份年底了应该做一下公司的数据统计了。Excel表只看数字很难直观的看出情况，今天使用matplotlib以公司电费为实例做一个案例介绍。开发环境：mac、python3.8、开发工具jupyterexcel数据如下：程序代码如下：mito是另外的一个可视化插件，可以生成柱状图和透视表，想了解的可以看前面的教程。通过图形界面的生成，可以很容易的看出，每个月用电量的使用情况。
基于Python的情感分析与情绪识别技术-从基础到前沿应用一键难忘 python 开发语言情感分析
基于Python的情感分析与情绪识别技术-从基础到前沿应用一、情感分析与情绪识别基础概念1.1核心概念区分情感分析（SentimentAnalysis）与情绪识别（EmotionRecognition）是自然语言处理领域的重要分支，二者存在本质差异：情感分析侧重判断文本的极性（正面/负面/中性）情绪识别需识别具体情绪类别（喜悦、愤怒、悲伤等）传统情感分析多采用二值分类，而情绪识别属于多标签分类问题
【Python爬虫系列】_031.Scrapy_模拟登陆&中间件失心疯_2023 Python爬虫系列 python 爬虫 scrapy 中间件面向切面 requests AOP
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集
如何通过 Python 实现一个消息队列，为在线客服系统与海外运营的APP对接
我在业余时间开发了一款自己的独立产品：升讯威在线客服与营销系统。陆陆续续开发了几年，从一开始的偶有用户尝试，到如今线上环境和私有化部署均有了越来越多的稳定用户。而我收到的用户需求也越来越多，产品化的需求，个性化的需求都有。这段时间收到一个海外APP的对接需求，需要我将客服系统的消息以队列的形式转发到对方的业务服务器上。对方有两个核心需求：访客上线的时候，要通知对方的业务系统，业务系统根据访客的身份
220622_preview，知识点10：DWS层搭建--销售主题宽表--step1--字段抽取啊六六六 Python java 开发语言
220622_preview知识点10：DWS层搭建--销售主题宽表--step1--字段抽取表关系一切的前提是，先了解原始数据的结构和关系。对于销售主题宽表来说，其当中的指标和维度字段分别来源于DWB层：订单明细宽表、店铺明细宽表、商品明细宽表。比如商圈、店铺等维度来自于店铺明细宽表；大中小分类来自于商品明细宽表；而成交额等指标需要依赖订单明细宽表。字段抽取关联之后，字段非常多，但是并不意味着每
【圣诞树】用python实现圣诞树效果 johnny_hhh python 开发语言
万圣节过完了，下一个就是圣诞节了，那么我们来用代码实现打印一个圣诞树importrandomimporttimefromcoloramaimportFore,Back,Style,init#初始化coloramainit(autoreset=True)defprint_christmas_tree(height):#打印圣诞树的上部（三角形部分）foriinrange(1,height+1):st
Python中的异步编程与asyncio模块的应用这题有点难度学习人工智能
在现代软件开发中，程序的性能和响应速度是至关重要的。随着互联网技术的飞速发展，越来越多的应用需要处理大量的并发请求。传统的同步编程方式在面对高并发场景时往往显得力不从心。而异步编程作为一种高效的并发处理方式，逐渐成为开发者们的首选。Python中的asyncio模块是实现异步编程的核心工具之一，本文将详细介绍其基本概念、使用方法以及实际应用场景。一、异步编程简介在深入探讨asyncio之前，我们先
python 第三方包自动导入_7行代码，彻底告别python第三方包import导入问题！ weixin_39581716 python 第三方包自动导入
最近有不少小伙伴咨询关于pyton第三方包导入的问题，今天我们就来聊聊第三方包导入那些事。随着对python学习的渐入臻境，越来越多的小伙伴们开始导入自己所需的第三方包，实现各种各样的功能。但是，他(她)们遇到了一个非常烦恼的问题自己用pip已经下载好的第三方包，import总是报错，显示没有该moudle.pip显示scipy模块已安装好但在pycharm里，我们import导入时，编辑器却报错
内网安装python第三方包_内网安装python第三方包 weixin_39530288 内网安装python第三方包
内网快速安装python第三方包内网安装包是一个很麻烦的问题，很多时候，内网的源会出现问题，导致无法安装。这里给出一种快速在内网中安装第三方包，无需使用内网的源。外网操作1.根据开发环境下的所需的包导出内网需要的包列表文件requirements.txtpipfreeze>requirements.txt2.根据包名/包清单文件requirements.txt下载离线包#单个包pipdownloa
python 第三方包管理_实验九 python包管理一级翻译吴杰 python 第三方包管理
安徽工程大学Python程序设计实验报告班级：物流191姓名：陶心雨学号：3190505135成绩日期：2020.6.16指导老师：修宇实验名称：python包管理【实验目的】进一步了解python的计算生态，python第3方包的安装方式掌握采用pip命令搜索、下载、安装卸载python包的方法；【实验条件】PC机或者远程编程环境【实验内容】-查阅资料进一步了解pip安装命令的参数运用相关命令查
深度学习模型的全面解析：技术进展、应用场景与未来趋势阿尔法星球深度学习与神经网络实战机器学习
1.深度学习模型概述1.1深度学习模型的定义与分类深度学习模型是基于人工神经网络的算法，它们通过模仿人脑的处理机制来学习数据中的复杂模式和特征。这些模型可以根据其结构和应用场景被分为不同的类别，包括但不限于卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）、生成对抗网络（GAN）和Transformer模型等。1.2深度学习模型的关键特点深度学习模型的关键特点在于其深度，即
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他