Mr.D学长

垃圾邮件(短信)分类算法实现机器学习深度学习计算机竞赛

文章目录

0 前言
2 垃圾短信/邮件分类算法原理
- 2.1 常用的分类器 - 贝叶斯分类器
3 数据集介绍
4 数据预处理
5 特征提取
6 训练分类器
7 综合测试结果
8 其他模型方法
9 最后

0 前言

优质竞赛项目系列，今天要分享的是

垃圾邮件(短信)分类算法实现机器学习深度学习

该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！

学长这里给一个题目综合评分(每项满分5分)

难度系数：3分
工作量：3分
创新点：4分

更多资料, 项目分享：

https://gitee.com/dancheng-senior/postgraduate

2 垃圾短信/邮件分类算法原理

垃圾邮件内容往往是广告或者虚假信息，甚至是电脑病毒、情色、反动等不良信息，大量垃圾邮件的存在不仅会给人们带来困扰，还会造成网络资源的浪费；

网络舆情是社会舆情的一种表现形式，网络舆情具有形成迅速、影响力大和组织发动优势强等特点，网络舆情的好坏极大地影响着社会的稳定，通过提高舆情分析能力有效获取发布舆论的性质，避免负面舆论的不良影响是互联网面临的严肃课题。

将邮件分为垃圾邮件(有害信息)和正常邮件，网络舆论分为负面舆论(有害信息)和正面舆论，那么，无论是垃圾邮件过滤还是网络舆情分析，都可看作是短文本的二分类问题。

2.1 常用的分类器 - 贝叶斯分类器

贝叶斯算法解决概率论中的一个典型问题：一号箱子放有红色球和白色球各 20 个，二号箱子放油白色球 10 个，红色球 30
个。现在随机挑选一个箱子，取出来一个球的颜色是红色的，请问这个球来自一号箱子的概率是多少？

利用贝叶斯算法识别垃圾邮件基于同样道理，根据已经分类的基本信息获得一组特征值的概率（如：“茶叶”这个词出现在垃圾邮件中的概率和非垃圾邮件中的概率），就得到分类模型，然后对待处理信息提取特征值，结合分类模型，判断其分类。

贝叶斯公式：

P(B|A)=P(A|B)*P(B)/P(A)

P(B|A)=当条件 A 发生时，B 的概率是多少。代入：当球是红色时，来自一号箱的概率是多少？

P(A|B)=当选择一号箱时,取出红色球的概率。

P(B)=一号箱的概率。

P(A)=取出红球的概率。

代入垃圾邮件识别：

P(B|A)=当包含"茶叶"这个单词时，是垃圾邮件的概率是多少？

P(A|B)=当邮件是垃圾邮件时，包含“茶叶”这个单词的概率是多少？

P(B)=垃圾邮件总概率。

P(A)=“茶叶”在所有特征值中出现的概率。

3 数据集介绍

使用中文邮件数据集：丹成学长自己采集，通过爬虫以及人工筛选。

数据集“data” 文件夹中，包含，“full” 文件夹和 “delay” 文件夹。

“data” 文件夹里面包含多个二级文件夹，二级文件夹里面才是垃圾邮件文本，一个文本代表一份邮件。“full” 文件夹里有一个 index
文件，该文件记录的是各邮件文本的标签。

数据集可视化：

4 数据预处理

这一步将分别提取邮件样本和样本标签到一个单独文件中，顺便去掉邮件的非中文字符，将邮件分好词。

邮件大致内容如下图：

每一个邮件样本，除了邮件文本外，还包含其他信息，如发件人邮箱、收件人邮箱等。因为我是想把垃圾邮件分类简单地作为一个文本分类任务来解决，所以这里就忽略了这些信息。
用递归的方法读取所有目录里的邮件样本，用 jieba 分好词后写入到一个文本中，一行文本代表一个邮件样本：

import re
import jieba
import codecs
import os 
# 去掉非中文字符
def clean_str(string):
    string = re.sub(r"[^\u4e00-\u9fff]", " ", string)
    string = re.sub(r"\s{2,}", " ", string)
    return string.strip()

def get_data_in_a_file(original_path, save_path='all_email.txt'):
    files = os.listdir(original_path)
    for file in files:
        if os.path.isdir(original_path + '/' + file):
                get_data_in_a_file(original_path + '/' + file, save_path=save_path)
        else:
            email = ''
            # 注意要用 'ignore'，不然会报错
            f = codecs.open(original_path + '/' + file, 'r', 'gbk', errors='ignore')
            # lines = f.readlines()
            for line in f:
                line = clean_str(line)
                email += line
            f.close()
            """
            发现在递归过程中使用 'a' 模式一个个写入文件比 在递归完后一次性用 'w' 模式写入文件快很多
            """
            f = open(save_path, 'a', encoding='utf8')
            email = [word for word in jieba.cut(email) if word.strip() != '']
            f.write(' '.join(email) + '\n')

print('Storing emails in a file ...')
get_data_in_a_file('data', save_path='all_email.txt')
print('Store emails finished !')

然后将样本标签写入单独的文件中，0 代表垃圾邮件，1 代表非垃圾邮件。代码如下：

def get_label_in_a_file(original_path, save_path='all_email.txt'):
    f = open(original_path, 'r')
    label_list = []
    for line in f:
        # spam
        if line[0] == 's':
            label_list.append('0')
        # ham
        elif line[0] == 'h':
            label_list.append('1')

    f = open(save_path, 'w', encoding='utf8')
    f.write('\n'.join(label_list))
    f.close()

print('Storing labels in a file ...')
get_label_in_a_file('index', save_path='label.txt')
print('Store labels finished !')

5 特征提取

将文本型数据转化为数值型数据，本文使用的是 TF-IDF 方法。

TF-IDF 是词频-逆向文档频率（Term-Frequency，Inverse Document Frequency）。公式如下：

在所有文档中，一个词的 IDF 是一样的，TF 是不一样的。在一个文档中，一个词的 TF 和 IDF
越高，说明该词在该文档中出现得多，在其他文档中出现得少。因此，该词对这个文档的重要性较高，可以用来区分这个文档。

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

def tokenizer_jieba(line):
    # 结巴分词
    return [li for li in jieba.cut(line) if li.strip() != '']

def tokenizer_space(line):
    # 按空格分词
    return [li for li in line.split() if li.strip() != '']

def get_data_tf_idf(email_file_name):
    # 邮件样本已经分好了词，词之间用空格隔开，所以 tokenizer=tokenizer_space
    vectoring = TfidfVectorizer(input='content', tokenizer=tokenizer_space, analyzer='word')
    content = open(email_file_name, 'r', encoding='utf8').readlines()
    x = vectoring.fit_transform(content)
    return x, vectoring

6 训练分类器

这里学长简单的给一个逻辑回归分类器的例子

from sklearn.linear_model import LogisticRegression
from sklearn import svm, ensemble, naive_bayes
from sklearn.model_selection import train_test_split
from sklearn import metrics
import numpy as np

if __name__ == "__main__":
    np.random.seed(1)
    email_file_name = 'all_email.txt'
    label_file_name = 'label.txt'
    x, vectoring = get_data_tf_idf(email_file_name)
    y = get_label_list(label_file_name)

    # print('x.shape : ', x.shape)
    # print('y.shape : ', y.shape)
    
    # 随机打乱所有样本
    index = np.arange(len(y))  
    np.random.shuffle(index)
    x = x[index]
    y = y[index]

    # 划分训练集和测试集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

    clf = svm.LinearSVC()
    # clf = LogisticRegression()
    # clf = ensemble.RandomForestClassifier()
    clf.fit(x_train, y_train)
    y_pred = clf.predict(x_test)
    print('classification_report\n', metrics.classification_report(y_test, y_pred, digits=4))
    print('Accuracy:', metrics.accuracy_score(y_test, y_pred))

7 综合测试结果

测试了2000条数据，使用如下方法：

支持向量机 SVM
随机数深林
逻辑回归

可以看到，2000条数据训练结果，200条测试结果，精度还算高，不过数据较少很难说明问题。

8 其他模型方法

还可以构建深度学习模型

网络架构第一层是预训练的嵌入层，它将每个单词映射到实数的N维向量（EMBEDDING_SIZE对应于该向量的大小，在这种情况下为100）。具有相似含义的两个单词往往具有非常接近的向量。

第二层是带有LSTM单元的递归神经网络。最后，输出层是2个神经元，每个神经元对应于具有softmax激活功能的“垃圾邮件”或“正常邮件”。



    def get_embedding_vectors(tokenizer, dim=100):
    embedding_index = {}
    with open(f"data/glove.6B.{dim}d.txt", encoding='utf8') as f:
    for line in tqdm.tqdm(f, "Reading GloVe"):
    values = line.split()
    word = values[0]
    vectors = np.asarray(values[1:], dtype='float32')
    embedding_index[word] = vectors
    
    word_index = tokenizer.word_index
    embedding_matrix = np.zeros((len(word_index)+1, dim))
    for word, i in word_index.items():
    embedding_vector = embedding_index.get(word)
    if embedding_vector is not None:
    # words not found will be 0s
    embedding_matrix[i] = embedding_vector
    
    return embedding_matrix


    def get_model(tokenizer, lstm_units):
    """
    Constructs the model,
    Embedding vectors => LSTM => 2 output Fully-Connected neurons with softmax activation
    """
    # get the GloVe embedding vectors
    embedding_matrix = get_embedding_vectors(tokenizer)
    model = Sequential()
    model.add(Embedding(len(tokenizer.word_index)+1,
    EMBEDDING_SIZE,
    weights=[embedding_matrix],
    trainable=False,
    input_length=SEQUENCE_LENGTH))
    
    model.add(LSTM(lstm_units, recurrent_dropout=0.2))
    model.add(Dropout(0.3))
    model.add(Dense(2, activation="softmax"))
    # compile as rmsprop optimizer
    # aswell as with recall metric
    model.compile(optimizer="rmsprop", loss="categorical_crossentropy",
    metrics=["accuracy", keras_metrics.precision(), keras_metrics.recall()])
    model.summary()
    return model

训练结果如下：

_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
embedding_1 (Embedding) (None, 100, 100) 901300
_________________________________________________________________
lstm_1 (LSTM) (None, 128) 117248
_________________________________________________________________
dropout_1 (Dropout) (None, 128) 0
_________________________________________________________________
dense_1 (Dense) (None, 2) 258
=================================================================
Total params: 1,018,806
Trainable params: 117,506
Non-trainable params: 901,300
_________________________________________________________________
X_train.shape: (4180, 100)
X_test.shape: (1394, 100)
y_train.shape: (4180, 2)
y_test.shape: (1394, 2)
Train on 4180 samples, validate on 1394 samples
Epoch 1/20
4180/4180 [==============================] - 9s 2ms/step - loss: 0.1712 - acc: 0.9325 - precision: 0.9524 - recall: 0.9708 - val_loss: 0.1023 - val_acc: 0.9656 - val_precision: 0.9840 - val_recall: 0.9758

Epoch 00001: val_loss improved from inf to 0.10233, saving model to results/spam_classifier_0.10
Epoch 2/20
4180/4180 [==============================] - 8s 2ms/step - loss: 0.0976 - acc: 0.9675 - precision: 0.9765 - recall: 0.9862 - val_loss: 0.0809 - val_acc: 0.9720 - val_precision: 0.9793 - val_recall: 0.9883

9 最后

更多资料, 项目分享：

https://gitee.com/dancheng-senior/postgraduate

你可能感兴趣的:(python,java)

springboot整合knife4j，从此告别手写接口文档棋了个怪啊_Rachel Java进阶学习汇总 java 开发语言 knife4j
关于knife4jKnife4j的前身是swagger-bootstrap-ui,前身swagger-bootstrap-ui是一个纯swagger-ui的ui皮肤项目一开始项目初衷是为了写一个增强版本的swagger的前端ui,但是随着项目的发展,面对越来越多的个性化需求,不得不编写后端Java代码以满足新的需求,在swagger-bootstrap-ui的1.8.5~1.9.6版本之间,采用的
【华为OD-E卷 - 连续出牌数量 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-连续出牌数量100分（python、java、c++、js、c）】题目有这么一款单人卡牌游戏，牌面由颜色和数字组成，颜色为红、黄、蓝、绿中的一种，数字为0-9中的一个。游戏开始时玩家从手牌中选取一张卡牌打出，接下来如果玩家手中有和他上一次打出的手牌颜色或者数字相同的手牌，他可以继续将该手牌打出，直至手牌打光或者没有符合条件可以继续打出的手牌。现给定一副手牌，请找到最优的出牌策略，
SSM 构建个性化商铺系统：功能亮点聚焦商业成功 2402_85758349 后端 java
第二章开发技术与环境配置以Java语言为开发工具，利用了当前先进的SSM框架技术，以MyEclipse10为系统开发工具，MySQL为后台数据库，开发的一个个性化商铺系统。2.1微信开发者工具在传统web浏览器中，在加载htm15页面时先加载视图层的html和css，后加载逻辑层的javascript，然后返回数据并在浏览器中展示页面。而微信开发者工具的系统层是基于NativeSystem的，视图
第27篇：Python开发进阶：python多线程与多进程编程猿享天开 python从入门到精通 python 服务器
第27篇：多线程与多进程编程目录并发编程概述什么是并发编程多线程与多进程的区别多线程编程线程的基本概念创建和管理线程线程同步与锁多进程编程进程的基本概念创建和管理进程进程间通信线程与进程的比较全局解释器锁（GIL）GIL的影响绕过GIL的策略异步编程简介异步与并发asyncio模块示例代码常见问题及解决方法总结并发编程概述什么是并发编程并发编程是一种程序设计范式，允许多个任务在同一时间段内交替执行
Learning Vue 读书笔记 Chapter 2 追光少年3322 vue.js javascript 前端 vue3
2.Vue基本工作原理2.1VirtualDOM概念：DOM:DOM以内存中树状数据结构的形式，代表了网页上的HTML（或XML）文档内容。它充当了一个编程接口，将网页与实际的编程代码（如JavaScript）连接起来。VirtualDOM是浏览器中实际DOM的内存虚拟副本，但它更轻量且具有额外的功能。VirtualDOM工作原理：通过用户界面交互，用户向Vue传达了他们希望元素达到的状态；随后，
python 爬取小红书追光少年3322 python 网络爬虫
爬虫实现基本流程一.明确需求明确采集的网站及数据内容目标：根据小红书作者主页链接，采集作者主页所有笔记，并保存为excel表格。采集的字段包括作者、笔记类型、标题、点赞数、笔记链接。网址：https://www.xiaohongshu.com/user/profile/64c38af4000000000e026b43二.分析思路分析爬虫思路，概括如下：打开小红书主页与登录打开小红书作者主页,获取作
Python笔记之 collections.deque双端队列一起种梧桐吧 Python笔记列表队列 python
deque简介deque是一个双端列表,如果要经常从两端操作数据,选择deque就比较好,如果要实现随机访问,还是建议使用列表list.collections.deque官方说明文档操作简介append()append(x)Addxtotherightsideofthedeque.importcollectionsmydeque=collections.deque(range(3),maxlen=
python操作腾讯文档_python通过调用腾讯api实现对图片内文字提取 weixin_39865102 python操作腾讯文档
需求：读取图片内的文字，图片包含url形式的和image形式的实现思路：python调用腾讯api，参考腾讯官方文档:https://cloud.tencent.com/document/product/866/17596步骤：调用api需要配置header请求头，请求头需要鉴权签名，鉴权签名需要api密钥。鉴权签名：https://cloud.tencent.com/document/produ
python实现调用腾讯云翻译API qq_32474521 腾讯云 python 自动翻译
时长两月半程序员练习生为了完成导师的翻译任务，查询了一下腾讯云翻译的API使用方式大佬轻喷，主要以记录为准主要参考：机器翻译文本翻译-API接口-API中心-腾讯云(tencent.com)【玩转腾讯云】【腾讯云机器翻译TMT】机器翻译入门-腾讯云开发者社区-腾讯云(tencent.com)主要实现了文本翻译的部分，代码可以直接使用使用前提：1、注册腾讯云https://cloud.tencent
PyCharm代码格式化快捷键失效？一文教你轻松解决 liuxin33445566 pycharm ide python
标题：PyCharm代码格式化快捷键失效？一文教你轻松解决PyCharm，作为一款功能强大的Python开发IDE，提供了代码格式化的快捷键功能，极大地提升了开发效率。然而，有时我们可能会遇到快捷键失效的问题，导致无法快速格式化代码。本文将详细解释如何解决PyCharm中代码格式化快捷键不工作的问题，并提供一些实用的代码示例。1.快捷键失效的常见原因在PyCharm中，代码格式化的默认快捷键通常是
pythonasm库分析，看看你和自学编程小学生的差距 linhhanpy pythonasm python使用汇编 python 开发语言汇编前端
下面是pythonasm.asm库的源代码fromkeystoneimport*fromcapstoneimport*assembly_instructions=[]#储存汇编指令的列表#汇编指令写入列表defmov(reg1,reg2):assembly_instructions.append(f"mov{reg1},{reg2}")defdb(value):assembly_instructi
Python学习之旅：进阶阶段（七）数据结构-计数器（collections.Counter）喜-喜 Python python 学习数据结构
在Python编程的进阶学习中，数据处理是一项重要的任务。collections.Counter作为Python标准库collections模块中的一员，为我们提供了一种高效且便捷的方式来统计数据出现的次数。接下来，就让我们一起深入了解这个强大的计数器。一、什么是计数器 collections.Counter本质上是一个特殊的字典，它用于统计可迭代对象中元素出现的次数。普通字典是通过键值对来
Android 安卓kts 打包按照年月日生成apk build.gradle.kts 未来之窗软件服务 android
importjava.text.SimpleDateFormatimportjava.util.*plugins{alias(libs.plugins.android.application)}android{namespace="你的软件"compileSdk=34defaultConfig{applicationId="你的id"minSdk=24targetSdk=34versionCode
PYTHON数据结构-双端队列[deque]-具有队列和栈的特性铁松溜达py 数据结构 python 开发语言
双端队列（deque）是一种具有队列和栈的特性的数据结构。它支持在两端进行插入和删除操作，因此可以在队列的两端进行快速的插入和删除操作，而不像列表（list）一样需要移动元素。在Python中，双端队列可以通过`collections`模块的`deque`类来创建和操作。双端队列的主要操作包括：-`append(item)`:在队列的右端（尾部）添加一个元素。-`appendleft(item)`
使用Python和API实现文本翻译功能 FLK_9090 python 开发语言文本翻译谷歌翻译
在日常开发中，我们常常需要将文本从一种语言翻译成另一种语言。本文将介绍如何使用Python和一个简单的翻译API来实现这一功能。我们将使用requests库来发送HTTP请求，并处理API响应。环境准备首先，我们需要确保已经安装了requests库。如果你还没有安装，可以使用以下命令进行安装：pipinstallrequests代码实现下面是一个完整的Python脚本示例，它使用了一个公开的翻译A
自制虚拟机(C/C++)(一、分析语法和easyx运用，完整虚拟机实现) linhhanpy 自制虚拟机自制操作系统 c语言 c++单片机操作系统汇编
网上对虚拟机的解释很多，其实本质就一句话虚拟机就是机器语言解释器我们今天要实现汇编语言解释器，下一次再加上ndisasm反汇编器就是真正虚拟机了注:这里的虚拟机指的是VMware一类的，而不是JVM，python一样的高级语言解释器上代码#include#include#include#include#include#include#include#include#include#include/
Python学习之旅：进阶阶段（五）数据结构-双端队列（collections.deque）喜-喜 Python python 数据结构学习
在Python的进阶学习过程中，数据结构的掌握至关重要。今天要介绍的双端队列（deque，即double-endedqueue），是一种非常实用的数据结构，Python的collections模块中的deque类为我们提供了强大的双端队列操作功能。接下来，就一起深入了解双端队列吧。一、什么是双端队列双端队列，从名字就能看出它的特点，它是一种特殊的队列，允许我们在队列的两端进行插入和删除操作
vdist-1.3.1：Python项目自动化构建与分发工具 46497976464
本文还有配套的精品资源，点击获取简介：vdist-1.3.1.tar.gz是一个Python项目的自动化构建、打包和分发工具的源代码压缩包，采用tar.gz格式，支持在不同环境中快速部署。它集成了分布式系统支持，如Zookeeper，以及云原生技术标准，确保了高效的软件生命周期管理。该工具具备依赖管理、自动化构建流程、环境隔离和多平台支持等功能，并提供了解压后目录结构的详细说明。1.vdist-1
Spring Boot构建mvc项目贾斯汀玛尔斯 Java spring boot mvc 后端
好的，以下是一个简单的JavaMVC（Model-View-Controller）项目示例，使用SpringBoot框架和MySQL数据库。这个项目包括基本的CRUD操作。项目结构src/└──main/├──java/│└──com/│└──example/│└──demo/│├──DemoApplication.java│├──controller/││└──UserController.ja
Kafka的内部通信协议优人ovo kafka 分布式
引言kafka内部用到的常见协议和优缺点可以看看原文Kafka用到的协议本文奖详细探究kafka核心通信协议和高性能的关键网络层通信的实现基于JavaNIO：Kafka的网络通信层主要基于JavaNIO来实现，这使得它能够高效地处理大量的连接和数据传输。在KafkaChannel类中，通过Selector来管理多个连接的读写操作，实现了非阻塞的I/O模型，能同时处理多个客户端连接，提高了系统的并发
[3069]基于JAVA的连锁饭店智慧管理系统的设计与实现阿鑫学长【毕设工场】 java 大数据人工智能课程设计毕业设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的连锁饭店智慧管理系统的设计与实现指导老师（一）选题的背景和意义选题背景和意义：在信息化高速发展的今天，餐饮行业的管理模式也在不断发生变化。传统的手工管理方式已经无法满足现代餐饮业的高效运营需求，连锁饭店智慧管理系统应运而生。基于Java的连锁饭店智慧管理系统的设计与实现，不仅可以提高工作效率，降低运营成本，还可以为顾客提供更加便捷、舒适的
本地部署 DeepSeek 模型并使用 WebUI 调用我喜欢就喜欢技术文档策略模式
概述本文将详细介绍如何在本地部署DeepSeek模型，并通过WebUI调用该模型。我们将使用open-webui作为Web界面工具，展示如何将DeepSeek模型集成到WebUI中，并提供一个用户友好的交互界面。环境准备在开始之前，请确保你的系统满足以下要求：Python3.11或更高版本pip包管理工具DeepSeek模型的本地部署文件GPU支持（可选，用于加速模型推理）步骤1：本地部署Deep
python 加密与解密 mysouil 算法 python 算法
python加密与解密具体介绍python的加密与解密算法例如：RSA算法文章目录python加密与解密前言一、对称加密1、用途和特点：2、AES加密实现2.1加密2.2解密2.3测试二、非对称加密1、用途和特点：2、RSA加密实现2.1密钥生成2.2加密2.3解密2.4输入输出到文件2.5测试三、摘要算法（哈希算法）1、用途和特点：2、实现2.1MD5加密2.2SHA1加密2.3SHA224加密
docx库段落 python_实例14：用Python批量替换多个Word文件中的文字卞显杨 docx库段落 python
我们在实例7中批量生成了采购合同。但是假设现在我方的公司名由“ABC商贸有限公司”变成了“ABC贸易有限公司”，那我们就需要去每份合同中对应位置进行替换。当然也可以修改原始模板，然后重新生成合同。此处介绍一下如何使用Python批量替换多个Word文件中的文字，即将“商贸”替换为“贸易”。我们先去到Word文件中，查找一下“商贸”这个词出现了多少次。下图可见，运气不错，只出现了两次，一次在正文的段
NameError: name ‘opencv‘ is not defined 两京一十三省的希望 opencv 人工智能 pycharm yolo 深度学习
NameError:name'opencv'isnotdefined错误通常意味着你在Python代码中尝试使用opencv但该名称未定义。这种情况通常发生在你尝试调用一个库或模块的功能，但没有正确导入它。如果你想使用OpenCV进行计算机视觉任务，你需要确保正确安装和导入opencv-python库。下面是一些步骤，帮助你解决这个问题。1.安装OpenCV首先，确保你已经安装了OpenCV库。在
Neo4j 单机和集群部署教程闲人编程大数据集群部署教程 neo4j 大数据集群单机部署图形数据库 ACID
目录Neo4j单机和集群部署教程第一部分：Neo4j概述1.1Neo4j的特点1.2Neo4j的应用场景第二部分：Neo4j单机部署教程2.1安装Neo4j2.1.1下载和安装Neo4j2.1.2启动Neo4j2.1.3配置Neo4j2.2单机部署案例代码实现（Python）2.2.1安装Neo4jPython驱动2.2.2Python示例代码2.3常见问题及解决方法2.3.1Neo4j无法启动2
使用Python批量加密和解密PDF文件 NoABug pdf python
使用Python批量加密和解密PDF文件现在，PDF文件已经成为我们日常工作中必不可少的文档格式之一。对于一些重要的PDF文档，我们常常需要加密以保证信息的安全性。但是，手动一个一个加密PDF文件实在是太麻烦了。为了更高效地应对这个问题，我们可以使用Python编写脚本来批量完成PDF文件的加密和解密。首先，我们需要安装PyPDF2库，这个库可以很方便地对PDF文件进行操作，包括加密、解密、合并、
python安装-Download 编程大乐趣
OpenPGPPublicKeysSourceandbinaryexecutablesaresignedbythereleasemanagerorbinarybuilderusingtheirOpenPGPkey.Releasefilesforcurrentlysupportedreleasesaresignedbythefollowing:Releasefilesforolderreleases
机器学习强基计划7-6：图文详解层次聚类AGNES算法(附Python实现)_agnes聚类算法python代码软件开发Java 2024年程序员学习机器学习算法聚类
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
python-docx 设置页眉、页眉字体、页眉对齐方式布啦啦李 python-docx使用教程 python python-docx docx docx设置页眉 python-docx 页眉
本文目录前言一、docx设置页眉1、完整代码2、实际效果图3、常见问题二、docx设置页眉及对齐方式1、完整代码2、实际效果图3、常见问题①、对齐方式讲解②、字体号与Pt的对应关系三、docx设置页眉，两段文本，两端对齐1、完整代码2、实际效果图3、需要注意的问题①、为什么使用表格添加页眉？②、这样的页眉怎样处理字体呢？③、如果页眉有三段文字怎么办？④、表格宽度为什么是14.64呢？四、docx设
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他