阿星先森

基于ASP的反垃圾邮件管理系统的设计与实现

随着Internet的迅速普及，电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一，但是随之而来的垃圾邮件也越来越泛滥。垃圾邮件占用了有限的存储、计算和网络资源，耗费了用户大量的处理时间，影响和干扰了用户的正常工作、生活和学习。如何有效地治理垃圾邮件是全世界共同面临的一道难题，也是互连网上目前有待解决的问题。本文首先介绍了电子邮件对人们日常生活的重要性，然后概要介绍了反垃圾邮件技术的发展历史。研究了三种过滤垃圾邮件的方法，分别是黑白名单技术、主题关键字过滤技术和贝叶斯策略，对这三种技术的设计方法做了说明，重点介绍了贝叶斯过滤技术的设计原理和实现步骤。最后总结了这几种过滤技术的不足之处和设计中遇到的难点问题。

随着Internet的极度膨胀，给人们带来了大量的信息，电子邮件使人们感受到快捷和方便，更已成为一种最快速经济的通信手段，但是互联网又是一个无政府世界，有些人利用电子邮件肆意散发邮件广告，造成很多人的邮箱垃圾成堆，有些人利用电子邮箱制造邮件炸弹，使电子邮件服务器瘫痪；更有甚者利用电子邮件来传播病毒。如此种种给许多用户带来了无尽的困扰。因此对垃圾邮件进行有效的过滤，已经成为了一个有重要意义的现实问题。目前，我国对垃圾邮件过滤研究中语义分析和文本分类方面的技术还比较落后，导致国内很多大型的电子邮件系统无法及时有效地发现和拒绝垃圾邮件，从而给用户造成巨大的伤害。更为严重的是国外很多垃圾邮件制造者利用这一缺陷，通过中国的邮件服务器发送垃圾邮件，致使很多国外ISP服务提供商封锁了中国邮件服务器的IP地址，给中国用户造成很多精神和经济损失。随着中国经济与世界经济的关系日益紧密，中外交流活动的逐渐增多，对外的电子邮件数量也急剧增加，如果中国电子邮件由于垃圾邮件问题遭到全面封杀，必将会对国内企业和组织造成巨大影响，严重组碍中国经济的发展。因此，对新的，可靠的垃圾邮件过滤技术的研究已经成为一项紧迫任务。

1．2 开发概述

1.2.1电子邮件概述

电子邮件表示通过电子通讯系统进行信件的书写、发送和接收。今天使用的最多的通讯系统是互联网，同时电子邮件也是互联网上最受欢迎的功能之一。通过电子邮件系统，您可以用非常低廉的价格，以非常快速的方式（几秒钟之内可以发送到世界上任何你指定的目的地）,与世界上任何一个角落的网络用户联络。同时，您可以得到大量免费的新闻、专题邮件，并实现轻松的信息搜索。这是任何传统的方式也无法相比的。正是由于电子邮件的使用简易、投递迅速、收费低廉，易于保存、全球畅通无阻，使得电子邮件被广泛地应用，它使人们的交流方式得到了极大的改变。每一个申请互联网帐号的用户都会有一个电子邮件地址。它是一个很类似于用户家门牌号码的邮箱地址，或者更准确地说，相当于你在邮局租用了一个信箱。因为传统的信件是由邮递员送到你的家门口，而电子邮件则需要自己去查看信箱，只是您不用跨出家门一步。电子邮件来源于专有电子邮件系统。早在互联网流行以前很久，电子邮件就已经存在了，是在主机-多终端的主从式体系中从一台计算机终端向另一计算机终端传送文本信息的相对简单的方法而发展起来的。

经历了漫长的过程之后，它现在已经演变成为一个更加复杂并丰富得多的系统，可以传送声音、图片、图像、文档等多媒体信息，以至于如数据库或帐目报告等更加专业化的文件都可以以电子邮件附件的形式在网上分发。

1.2.2反垃圾概述

“垃圾邮件”多指未经请求而发送的电子邮件，也可以是发送给与信件主题不相关的新闻组或者列表服务器的同一信件的重复邮件。国内外的技术专家和反垃圾邮件组织对“垃圾邮件”的定义如出一辙：批量发送的未征得收信人同意的电子邮件。这些电子邮件虽然每封的信息量不一定很大，但是邮件内容不是大多数用户需要甚至是令大多数用户讨厌的。铺天盖地的宣传邮件不仅侵犯了用户的私人空间，而且干扰了大多数用户正常使用电子邮件功能，同时给用户带来了上网时间和上网资金上的浪费，因此被称为“垃圾邮件”。国际互联网上的常见名词SPAM、UCE（Unsolicited Commercial Email不请自来的商业电子邮件）和UBE（Unsolicited Bulk Email不请自来的批量电子邮件）与通常所称的垃圾邮件是一样的。反垃圾邮件技术的研究是一项长期而艰巨的任务，经历了以下几个时代：

表1-1 反垃圾邮件的历史

第一代	第二代	第三代	第四代
基础MTA控制	实时黑名单	贝叶斯过滤	多技术整和分层过滤
白名单和黑名单	电子签名	人工智能
简单的关键字搜索		机器语言学习
信件头测试
标题过滤
简单的DNS测试

当前的反垃圾邮件技术可以分为4大类：过滤器（Filter）、反向查询(Reverse lookup)、挑战(challenges)和密码术(cryptography),这些解决办法都可以减少垃圾邮件问题，但是都有它们的局限性。其中过滤又包括关键词过滤、黑白名单、HASH技术、基于规则的过滤、智能和概率系统、贝叶斯算法，验证查询技术分为反向查询技术、DKIM技术、SenderID技术、FairUCE技术，挑战分为挑战-响应、计算性挑战。

电子邮件的工作原理

2．1 电子邮件的结构

电子邮件可视为半结构化的文本文件。RFC822 明确的把邮件划分为两部分：第1 部分称为邮件头，邮件头中包含若干数据字段，其作用是标识邮件的重要部分，例如发送者、接收者、主题和注释。邮件头字段应出现在邮件体之前，两部分间使用一个空行分隔。第2 部分就是邮件体（body），邮件体（body）是发送用户发给接收用户邮件的内容。

2．2 电子邮件的传输

电子邮件与普通信件有类似的地方，发信者注明收件人的姓名与地址（即邮件地址），发送方服务器把邮件传到收件方服务器，收件方服务器再把邮件发到收件人的邮箱中，如下图所示：

电子邮件系统主要由以下3 部分组成：MUA (Mail UserAgent)，邮件用户代理，是帮助用户读和写邮件；MTA (MailTransport Agent)，邮件传输代理，负责将邮件从一个服务器传到另一个服务器；MDA(MailDeliveryAgent)，邮件投递代理，将邮件分发到用户的邮箱里。整个邮件传输过程如下图所示：

需求分析

3．1 数据库需求分析

该系统采用Microsoft SQL Server 2000数据库，数据库的名称mail。对系统功能的分析绘制了系统总体E-R图，如图3-1所示：

为了消除数据的冗于在表中采取了主关键字。根据数据库功能模块的不同，所做需求分析的不同建立了以下表，它们分别是：

用于保存邮件夹内邮件信息的数据表，具体设计如表3-1所示：

表3-1 mail数据表

字段名称	字段说明	字段类型	主关键字
mailitem	邮件编号	int	*
mailfrom	发件人地址	varchar
mailto	收件人地址	varchar
maildate	发件日期	datetime
mailsubject	邮件主题	varchar
mailbody	邮件内容	varchar

用于保存所添加的黑白名单邮件地址的数据表，具体设计如表所示：

表3-2 black_mailadd数据表

字段名称	字段说明	字段类型	主关键字
ID	编号	int	*
Mailadd	黑名单邮件地址	varchar

表3-3 white_mailadd数据表

字段名称	字段说明	字段类型	主关键字
ID	编号	int	*
Mailadd	白名单邮件地址	varchar

用于保存用户添加的主题关键字的信息表，具体设计如表所示：

表3-4 key_word数据表

字段名称	字段说明	字段类型	主关键字
ID	编号	int	*
word	被过滤的关键字	varchar

贝叶斯过滤所要用到的数据表，具体设计如表所示：

表3-5 drop_word数据表

字段名称	字段说明	字段类型	主关键字
ID	编号	int	*
word	不做分析的常用字	varchar

表3-6 bayes_field数据表

字段名称	字段说明	字段类型	主关键字
ID	编号	int	*
value	阈值	int

表3-7 hash_all数据表

字段名称	字段说明	字段类型	主关键字
ID	编号	int	*
token	独立字串	varchar
good_time	出现在合法邮件中次数	int
good_pro	出现在合法邮件中概率	float
bad_time	出现在垃圾邮件中次数	int
bad_pro	出现在垃圾邮件中概率	float

表3-8 hash_pro数据表

字段名称	字段说明	字段类型	主关键字
ID	编号	int	*
token	独立字串	varchar
token_pro	垃圾邮件综合概率	float

3．2 开发环境需求

安装此系统所需的基本软、硬件环境为：

Windows95、 Windows98 或WindowsNT/2000/XP。
Microsoft SQL Server 2000数据库
Pentium100及以上档次的IBM PC及其兼容机。
128M以上内存。
5000M以上可用硬盘空间。
高密软盘驱动器。
VGA显示器。
CD——ROM驱动器。
本程序在Windows2000 Professional操作系统下，以中文Dreamweaver MX 2004为前台开发工具，用中文版Microsoft SQL Server 2000数据库为后台数据库。

系统功能和技术描述

4．1 系统功能模块设计

本系统分为三个大模块，每个大模块下有不同的功能划分，模块结构图如图4-1所示：

日常操作模块

这个模块分为收邮件和写邮件两部分，用户可以通过这个模块收发电子邮件，完成正常邮件和垃圾邮件的接收，本系统是采用从本地数据库读取数据，为反垃圾技术的研究提供测试环境。

邮件夹

此模块建立了两个文件夹，分别是收件夹和垃圾邮件夹，经过过滤的正常邮件显示在收件夹中，过滤后得到的垃圾邮件显示在垃圾邮件夹中。并可以对邮件进行删除和查看操作。

垃圾邮件过滤

此模块是本设计的核心部分，采用了黑名单、白名单、主题关键字、贝叶斯过滤技术来过滤垃圾邮件，用户可以通过过滤设置来启动和停止这些过滤规则。

4．2基本功能

通过黑名单、白名单、主题关键字、贝叶斯过滤技术完成客户端的垃圾邮件过滤，每个过滤规则在对邮件进行处理判断后，若可以确定邮件的属性，即为垃圾邮件或非垃圾邮件就可以直接把邮件显示在垃圾邮件夹和收件夹。客户端垃圾邮件过滤模型如下图所示：

4．3黑白名单技术

黑名单是一个简单有效最常用的过滤方法，它首先检查邮件头，如果发送者在黑名单内，就拒绝接收该邮件。黑名单可以是发送垃圾邮件的服务器、开放的代理、开放的中继以及发送者邮箱地址。现在有很多组织都在做*bl(block list)，将那些经常发送垃圾邮件的IP地址(甚至IP地址范围)收集在一起，做成block list。

白名单过滤的方法是在邮件过滤系统中维持一张白名单表，其中收录了用户认可的邮件地址。当收到的邮件其发送者在用户的白名单中，该邮件就被判定为正常邮件。这种方法能100%的屏蔽垃圾邮件，但是同时也会过滤掉很多第一次与收件人通信的正常邮件，而这些用户不在收件人的白名单中。

目前很多邮件接收端都采用了黑白名单的方式来处理垃圾邮件，包括MUA和MTA，当然在MTA中使用得更广泛，这样可以有效地减少服务器的负担。本文中黑名单和白名单分别是已知的垃圾邮件发送者或可信任的邮件发送者的邮件地址，这种技术手段是最传统的方式，它通过黑名单技术对垃圾邮件进行屏蔽，通过白名单技术对允许的邮件进行放行。

4．4 关键字过滤技术

这种技术是根据在邮件头、邮件主题或者邮件正文中是否含有设定的关键字符来判断邮件是否为垃圾邮件，然后采取处理措施。这种技术非常简单易行，现在的邮件客户端一般都提供这种技术。根据调查显示，采用基于关键字符技术的邮件过滤器能够捕获到60%的垃圾邮件。但是这种当邮件中含有某类的关键字符时就判定邮件为垃圾邮件的技术缺点非常致命，它的误确认率特别高。例如将单词"free"设置为过滤关键字，那么所有包含有这个单词的邮件都会被过滤掉，不管这封邮件来自于你的朋友还是垃圾邮件制造者。本文中是设置要过滤的邮件标题关键字，对标题中含有这些关键字的邮件进行过滤。

4．5 贝叶斯过滤技术

4.5.1贝叶斯过滤算法的基本步骤

第一步：通过收集大量的邮件，按规则分为垃圾邮件和非垃圾邮件，建立垃圾邮件集和非垃圾邮件集，相当于两个数据库；

第二步：提取邮件主题和邮件正文中的独立字串，如商品、易趣等作为TOKEN串，并统计提取出的TOKEN串出现的次数，即字频，按照上述方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件；

第三步：每一个邮件集对应一个哈希表，hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。如下所示:

TOKEN串出现次数

商品 N1

易趣 N2

法轮功 N3

色情 N4

第四步：计算每个哈希表中TOKEN串出现的概率 P={(某TOKEN串的字频)/(对应哈希表的长度)};

第五步：综合考虑hashtable_good和hashtable_bad，推断当新来的邮件中出现某个TOKEN串时，该邮件作为垃圾邮件的概率。存在事件S：该邮件为垃圾邮件，ｔ1 ｔ2 …,ｔn代表TOKEN串，则P{S/ｔi}表示在邮件中出现TOKEN串ｔi时，该邮件为垃圾邮件的概率。

第六步：建立新的哈希表 hashtable_probability存储TOKEN串ｔi到P{S/ｔi}的映射，如下所示:

TOKEN串垃圾邮件的概率

商品 P{S/ｔ1}

易趣 P{S/ｔ2}

法轮功 P{S/ｔ3}

色情 P{S/ｔ4}

重复此步骤直到得到出现某字串的邮件为垃圾邮件的概率，垃圾邮件集和非垃圾邮件集的学习过程就算结束了。根据建立的哈希表hashtable_probability可以估计一封新到的邮件为垃圾邮件的可能性，当新到一封邮件时，按照步骤生成新的TOKEN串，查询hashtable_probability得到该TOKEN串的键值。假设由该邮件共得到N个TOKEN串，ｔ1ｔ2ｔ3…ｔn ，则hashtable_probability中对应的值为P1, P2, P3, …Pn, P{S/ｔ1,ｔ2,ｔ3,…ｔn}表示在邮件同时出现多个TOKEN串ｔ1,ｔ2,ｔ3,…ｔn时,该邮件为垃圾邮件的概率，由复合概率公式可得:

P{S/ｔ1ｔ2ｔ3…ｔn}=（P1 * P2*…* Pn）／[P1 * P2*…* Pn + (１- P1 )*(１- P2)*…*(１- Pn)］,当P{S／ｔ1,ｔ2,ｔ3,…ｔn }超过预定阈值时，就可以判断该邮件为垃圾邮件。

4.5.2贝叶斯过滤算法举例

例如：一封含有“法轮功”字样的垃圾邮件 A和一封含有“法律”字样的非垃圾邮件B。

根据邮件A生成hashtable_ bad，该哈希表中的记录为：

法：1次

轮：1次

功：1次

计算得在本表中：

法出现的概率为0.3

轮出现的概率为0.3

功出现的概率为0.3

根据邮件B生成hashtable_good，该哈希表中的记录为：

法：1

律：1

计算得在本表中：

法出现的概率为0.5

律出现的概率为0.5

综合考虑两个哈希表，共有四个TOKEN串：法轮功律

当邮件中出现“法”时，该邮件为垃圾邮件的概率为：

P=0.3/（0.3+0.5）=0.375

出现“轮”时：

P=0.3/（0.3+0）=1

出现“功“时：

P=0.3/（0.3+0）=1

出现“律”时

P=0/（0+0.5）=0；

由此可得第三个哈希表：hashtable_probability 其数据为：

法：0.375

轮：1

功：1

律：0

当新到一封含有“功律”的邮件时，我们可得到两个TOKEN串，功律

查询哈希表hashtable_probability可得：

P(垃圾邮件|功）=1

P(垃圾邮件|律）=0

此时该邮件为垃圾邮件的可能性为：

P=（0*1）/[0*1+（1-0）*（1-1）]=0

由此可推出该邮件为非垃圾邮件。

4.5.3贝叶斯过滤模块划分

针对贝叶斯过滤的流程以及其所需要的功能，可以把整个过滤从功能上分为邮件预处理、贝叶斯算法实现、数据库访问、过滤主逻辑几个主要模块，系统结构如下图所示：

邮件预处理模块：这个模块主要负责读取邮件，对邮件进行编解码，去html的tag等；

贝叶斯算法模块：这个模块主要的功能是对邮件文本向量化，统计特征向量词出现的次数，分类器的训练、调整、更新，新邮件的过滤等；

数据库访问模块：在文本向量化，统计频率和计算概率时需要访问数据库，这个模块主要对数据库进行访问操作；

过滤主逻辑模块：这个模块负责调用其余各个模块的功能，实现垃圾邮件过滤处理的主逻辑。

系统工作流程和详细设计

5．1 系统工作流程图

系统服务工作流程图如图5-1所示：

5．2邮件统计设计

进入反垃圾邮件管理系统就可直观的显示收件夹和垃圾邮件夹中邮件的数目，并可点击进入浏览邮件，如果各种过滤策略启动，收到的邮件满足黑名单、关键字、贝叶斯过滤的条件，不满足白名单过滤的条件将会被显示在垃圾邮件夹里，正常邮件会被显示在垃圾邮件夹里，邮件统计界面如图5-2所示：

5．3收件夹设计

被过滤后的正常邮件被显示在收件夹内，显示了寄件人、日期和邮件主题，可对邮件进行删除和内容查看操作。如图5-3所示：

5．4反垃圾功能设计

5.4.1黑白名单过滤

此部分完成黑白名单的添加、修改、删除操作，如果收到黑名单中的地址发来的邮件就进行过滤显示在垃圾邮件夹里，如果收到白名单中的地址发来的邮件就直接显示在收件夹内，黑名单界面如下图所示：

黑名单过滤的代码如下：

rem 通过黑名单过滤

function black_leach(add)

sqlb = "select * from black_mailadd where mailadd= '"&add &"'"

set rsb = server.CreateObject("adodb.recordset")

rsb.open sqlb,conn,1

if rsb.eof then

black_leach="true" ' 不在黑名单里，不被过滤

else

black_leach="false" '在黑名单里，被过滤

end if

rsb.close

set rsb=nothing

end function

5.4.2主题关键字过滤

主题关键字添加界面：

完成主题关键字的添加后，如果收到的邮件标题中含有要过滤的关键字就显示在垃圾邮件夹中，方便用户有选择的查看和删除，添加完成后出现以下界面，可以向数据库中添加、修改、删除主题关键字，如图所示：

主题关键字过滤核心代码如下：

rem 对标题进行分词,并查询单词中是否有被过滤的关键字:subjectleach

function sub_leach(strf)

dim strtemp

strf=Trim(strf)

strf=strf&" "

strtemp=""

for i =1 to len(strf)

if mid(strf,i,1)<>" " then

strtemp=strtemp&mid(strf,i,1)

else

sqls="select * from key_word where word= '"& strtemp &"'"

set rss = server.createobject("adodb.recordset")

rss.open sqls,conn,1,1

if not rss.eof then

sub_leach="false" '含有关键字,被过滤

exit function

else strtemp=""

end if

sub_leach="true" '不含有关键字，不被过滤

end function

5.4.3贝叶斯过滤

此部分完成贝叶斯过滤阈值的设定、非垃圾邮件样本集和垃圾邮件样本集的学习，并生成哈希概率表，如果收到一封邮件，计算得到的垃圾邮件概率大于预先设定好的阈值，就把它显示在垃圾邮件夹中，阈值设置和非垃圾邮件样本集学习的界面如下：

对非垃圾邮件集进行分词,并进行词频计算的代码如下：

sqld="select * from drop_word where word= '"& strtemp &"'"

set rs = server.createobject("adodb.recordset")

rs.open sqld,conn,1,1

if rs.eof then '不在drop-word里

rs.close

sqlh="select token,good_time from hash_all where token= '"& strtemp &"'"

rs.open sqlh,conn,1,3

if rs.eof then'添加到hash表里，

conn.execute" insert into hash_all(token,good_time) values('"&strtemp&"','1')"

rs("good_time")=rs("good_time")+1 'rs(good_time)的值加1

计算非垃圾邮件集中各token串出现的概率的代码如下：

set rs = server.createobject("adodb.recordset")

sql="select good_time,good_pro from hash_all where good_time<>0"

rs.open sql,conn,1,3

r_t=rs.recordcount

do until rs.eof

i=rs("good_time")/r_t

i=int(i*1000)/1000

rs("good_pro")=i

rs.update

构造hash_pro表的代码如下：

function make_pro

set rss=server.CreateObject("adodb.recordset")

sqls="select token,good_pro,bad_pro from hash_all "

rss.open sqls,conn,1,3

do until rss.eof

str=rss("token")

i=rss("bad_pro")/(rss("bad_pro")+rss("good_pro"))

i=int(i*1000)/1000

conn.execute "insert into hash_pro values('"&str&"','"&i&"')"

rss.movenext

loop

rss.close

end function

5.4.4过滤参数设置

此模块可以启动和停止过滤策略，对四种过滤规则进行设定，界面如图5-14所示

测试与分析

6．1系统测试

黑白名单功能测试：在黑名单中加入要过滤的邮件地址，在白名单中加入允许放行的邮件地址，启动黑白名单功能，发送两封邮件，前一封邮件地址在黑名单中，后一封邮件地址在白名单中，发信人是前者的邮件被显示在垃圾邮件夹中，发信人是后者的邮件被显示在收件夹中，测试成功。
1. 主题关键字过滤测试：添加要过滤的关键字，启动主题关键字过滤功能，发送一封标题中含有过滤关键字的邮件，该邮件被显示在垃圾邮件夹里，测试成功。
2. 贝叶斯过滤测试：启动贝叶斯过滤功能，在文本1.txt中写入非垃圾邮件样本集，在文本2.txt中写入垃圾邮件样本集，对1.txt和2.txt进行学习，分析计算得到哈希概率表，发送一封含有这两个样本集字串的邮件，设定一个阈值，垃圾邮件概率超过这个阈值邮件被显示在垃圾邮件夹里，小于这个阈值邮件被显示在收件夹里，测试成功。测试中我在1.txt中写入了fa、lv两个字串，在2.txt中写入fa、lun、gong三个字串，经过学习得到下图所示的数据表：

当发送一封邮件内容是fa lun mail的邮件时，计算得到的垃圾邮件概率大于预先设定的阈值95，该邮件被显示在垃圾邮件夹中。点击邮件浏览界面中对邮件进行bayes分析的按钮可以显示bayes分析的各项指标，如下图所示：

6．2设计中的难点问题

1.对系统中需要使用的过滤参数进行集中的管理和配置。主要包括以下两个方面的内容：

(1)提供用户界面给用户修改相关参数，以完成个性化定制。

(2)在系统的使用过程中，考虑到用户的实际情况，应该方便的允许用户随时开启或关闭邮件过滤功能。

针对此问题我设计了一个参数设置模块来根据用户的需要开启关闭不同的过滤规则。

特征串的选取

特征串选取好坏将决定最终的过滤效果。特征串词库不是静态建立的，而是根据垃圾邮件集和非垃圾邮件集动态变化的，这样才能保证其一定的智能性和不断的学习能力。因此需要考虑多种情况，准确的提取垃圾邮件集合和非垃圾邮件集合中的特征信息，从而建立比较完善的特征串词库。对英文邮件，token串的选取不能仅简单的以单词为分解目标。而应该考虑到各种变化的情况，比如字母大小写，字母的异化。

6．3三种过滤技术分析

黑白名单技术占用较少的计算机资源，易于实施，但需要手动维护邮件地址清单，此方案在成熟的垃圾邮件解决方案中只起补充作用。

关键字过滤是一个简单但是有效的阻断绝大多数垃圾邮件的方法，其优点是简单易构造、易实现、可靠性高。而缺点是：必须经常对关键字进行更改和产生较多误报的情况。

贝叶斯算法在实际应用中需注意的方面：

纯粹的贝叶斯算法过滤只考虑了邮件正文的内容，而往往邮件头部的一

些信息是很重要的，因此必须把邮件头部的不同组成部分出现的TOKEN标识出来，且其权重设置为较大值。

在遇到某些特殊邮件时要根据这些网页的具体特征去判断这些邮件的合法性，例如在某个邮件中邮件正文很少，除此之外就只有一个网页的链接，那么这封邮件就很有可能是垃圾邮件。

由于正常邮件被误判断为垃圾邮件很有可能给用户带来极大的损失，因此必须采取方法降低正常邮件的误判。这里可以采取二级过滤规则的策略，即在一封邮件被判断为垃圾邮件以后还可以利用别的过滤规则对其再次进行判断，若符合某些条件则把其判为非垃圾邮件。
1. 由于贝叶斯算法在电子邮件中的应用是由使用英语的人提出来并按照英语的语法习惯处理TOKEN串的，所以，当把他们应用到汉字处理或者其他并不和英语类似的语言时就会产生许多问题。这里也不具备对中文的识别，因为中文的分词算法比较复杂，准确率不高。

6．4通用模块分析

本系统中包括一些通用模块，这些模块以文件的形式保存，可以在其他文件中使用#include语句包含这些模块，使用其中定义的功能。比如：

conn.asp 实现到数据库的连接，代码如下：

set conn=server.CreateObject("adodb.connection")

set rs=server.createobject("adodb.recordset")

set subrs=server.createobject("adodb.recordset")

str="PROVIDER=SQLOLEDB;DATA SOURCE=127.0.0.1;UID=sa;

PWD=123;DATABASE=mail"

conn.open str

结论

在设计过程中，我深刻认识到了反垃圾邮件技术研究的重要性，它对我们的工作和生活都产生着巨大的影响。我也对目前所应用到的各种反垃圾技术做了全面的了解，最后选择了三种常见的技术进行了功能设计，它们分别是黑白名单技术、主题关键字过滤技术、贝叶斯过滤技术，本文就围绕这三种技术做了详细说明并阐述了开发过程，希望通过这三种技术提高垃圾邮件的过滤率。但是由于现在很多垃圾邮件发送者也在利用各种过滤技术的漏洞发送垃圾邮件，要想做到百分之百的过滤垃圾邮件是一件不可能的事，在设计中使用的三种过滤技术也存在着各自的缺陷，还有很多难点问题，比如黑白名单地址的选取，主题关键字的选取，贝叶斯垃圾邮件集和非垃圾邮件集的搜集。当然还有很多更高效的过滤技术有待我们去研究，控制和消除垃圾邮件也不是几个人或几个组织就可以完成的,它需要全社会的共同努力,来建立一个洁净的网络空间。

你可能感兴趣的:(网络,服务器,大数据)

【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet 系列网络发展与高效性分析（附代码）（二）努力毕业的小土博^_^ AI算法题库人工智能算法深度学习卷积神经网络
【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）文章目录【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet系列网络发展与高效性分析（附代码）（二）MobileNet系列网络发展与高效性分析（附代码）4.MobileNetV2（2
小白必看！2025 网络安全保姆级学习路线来啦~ 白帽黑客-晨哥学习 web安全安全数据库 php
关键词：网络安全入门、渗透测试学习、零基础学安全、网络安全学习路首先咱们聊聊，学习网络安全方向通常会有哪些问题1.初学者常见问题1.1如何开始学习网络安全？问题：网络安全领域广泛，初学者往往不知道从哪里入手。解答：从基础知识开始：学习计算机网络、操作系统、编程语言（如Python、Bash）。了解网络安全的基本概念，如加密、认证、漏洞、攻击类型等。使用在线资源（如Cybrary、OWASP）或书籍
基于TableStore的海量气象格点数据解决方案实战阿里云云栖号数据存储与数据库 exception Java核心技术
前言气象数据是一类典型的大数据，具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据，记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量，每天产生的数据量常在几十TB到上百TB的规模，且在爆发性增长。如何存储和高效的查询这些气象数据越来越成为一个难题。传统的方案常常采用关系型数据库加文件系统的方式实现这类气象数据的存储和实时查询，这种方案在可扩展性、可维护性和性能上都
服务器、群晖，飞牛NAS等部署Whisper ASR教程来啦！让我们的Nas轻松实现音频转文字服务！ xiaoqiangclub 群晖助手服务器 whisper 音视频 ASR 语音转文字实用教程
文章目录介绍演示环境服务器/群晖/飞牛NAS部署WhisperASR，语音识别soeasy！准备部署使用Python调用示例注意事项⚓️相关链接⚓️介绍最近有人私信我，有没有什么办法能在NAS上搞个语音识别服务，实现将语音或开会录音自动转成文字？那么今天我们就一起来看看如何在服务器或群晖/飞牛等Nas上部署一个语音转文字的服务，让我们的NAS瞬间变身“听译”大师！演示环境本文演示环境如下：群晖系统
大数据与物联网（IoT）的完美融合：驱动智能新时代 Echo_Wish 大数据高阶实战秘籍大数据物联网 python 人工智能
大数据与物联网（IoT）的完美融合：驱动智能新时代大家好，我是你们的大数据探索者Echo_Wish。今天，我们将深入探讨大数据与物联网（IoT）整合的重要性及其在现代科技中的应用。物联网通过连接大量智能设备，生成海量数据；而大数据技术则赋予我们从这些数据中提取有价值信息的能力。当两者结合在一起时，能够为各行各业带来革命性的变化，推动智能时代的到来。一、大数据与物联网的基本概念1.物联网（IoT）物
使用Python构建去中心化社交网络：打破信息垄断的新思维 Echo_Wish Python！实战！python 去中心化网络
使用Python构建去中心化社交网络：打破信息垄断的新思维大家好，我是你们的技术伙伴Echo_Wish。今天，我们来探讨如何使用Python构建一个去中心化的社交网络。在这个以数据为王的时代，中心化平台掌控着大量用户数据，这不仅对隐私保护带来挑战，也容易形成信息垄断。而去中心化的社交网络，通过分布式技术，将数据的控制权交还用户，打破信息垄断，提升隐私安全性。本文将详细介绍如何使用Python实现这
DeepSeek本地部署教程（Windows操作系统笔记本电脑适用）程序员辣条 AI产品经理产品经理大模型人工智能 DeepSeek Windows AI大模型
最近DeepSeek非常火，你想不想也本地部署，玩转AI呢？一、将DeepSeek部署到自己的电脑有以下好处：1.数据隐私与安全本地存储：所有数据保存在本地，避免第三方服务器存储带来的隐私风险。数据控制：完全掌控数据访问权限，防止未经授权的访问或泄露。2.性能优化低延迟：本地运行减少网络延迟，响应速度更快。资源利用：可根据硬件配置优化性能，充分利用本地计算资源。3.定制化灵活配置：可根据需求调整模
最硬核DNS详解运维开发那些事 linux linux
1、是什么DNS（域名系统）是互联网的一项服务，它作为将域名和IP地址相互映射的一个分布式数据库，能够使人更方便地访问互联网。DNS协议基于UDP协议，使用端口号53。2、域名服务器类型域名服务器在DNS体系中扮演着不同的角色，根据其功能和位置可以分为几种类型。以下是主要的域名服务器类型：根域名服务器：根域名服务器是DNS层次结构的最高层，它们并不直接提供具体的域名解析结果，而是指引查询到正确的顶
K8s 端口转发实战指南(Practical Guide to k8s Port Forwarding) Linux运维老纪天涯海角 k8s伴你同行 kubernetes 容器云原生运维开发分布式
K8s端口转发实战指南1.背景1.1Kubernetes网络隔离性挑战在Kubernetes集群中，所有资源都运行在私有网络空间（通常使用CNI插件构建overlay网络），这带来了以下调试难题：Pod使用动态IP地址（生命周期短暂）Service的ClusterIP仅在集群内部可达生产环境通常禁用NodePort等暴露方式1.2典型使用场景场景类型具体案例传统方案痛点本地开发调试访问未暴露的We
探索数据仓库自动化：ETL流程设计与实践 Echo_Wish 大数据高阶实战秘籍数据仓库自动化 etl
探索数据仓库自动化：ETL流程设计与实践在大数据时代，数据仓库已成为企业数据管理和决策支持的核心工具。如何高效地提取、转换和加载数据（ETL），是数据仓库建设中的重要环节。本文将围绕数据仓库自动化的ETL流程设计展开，结合实际代码示例，探讨如何构建高效、稳定和可扩展的ETL解决方案。什么是ETL？ETL（Extract,Transform,Load）是指数据抽取、转换和加载，是数据仓库建设的重要步
springboot整合rabbitMQ twx95 java-rabbitmq spring boot rabbitmq
安装rabbitMQ虚拟机或者服务器上安装我这里使用的是vm虚拟机做演示第一步：安装docker参考linux安装docker-CSDN博客第二步：拉取rabbitMQ镜像3-management（镜像版本）dockerpullrabbitmq:3-management查看镜像是否拉取成功dockerimages第三步：运行rabbitMQdockerrun\-eRABBITMQ_DEFAULT_
IMT-2020(5G)推进组发布《5G-Advanced 场景需求与关键技术白皮书》优橙教育 5G 面试职场和发展 5g 网络
11月16日，由工业和信息化部、深圳市人民政府主办的2022年中国5G发展大会在深圳举行。本届大会以“5G领航新基建，构筑发展新底座”为主题。会上，IMT-2020(5G)推进组发布《5G-Advanced场景需求与关键技术白皮书》。中国工程院院士邬贺铨表示，5G商用三年来在国际上取得了网络部署与用户数领先的成绩。2022年9月中国建成5G基站数占基站总数的20.6%，占全球5G基站数60%。20
企业信息查询系统的技术实现路径探析——以某大数据平台为例探熵科技大数据
引言在数字化转型加速的背景下，企业信息服务领域正经历着从传统工商查询向智能决策支持的演进。本文将以某企业信息查询系统为研究样本，解析其技术架构与实现路径，探讨大数据技术在企业服务场景中的落地应用。一、行业技术现状分析当前企业信息服务面临三大技术挑战：多源异构数据整合：需聚合工商数据（结构化）、招投标公告（半结构化）、企业新闻（非结构化）等差异化数据源数据实时性要求：企业经营状态变更、联系方式更新等
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
【无标题】四色拓扑模型与宇宙历史重构的猜想框架 2301_81062744 拓扑学
###四色拓扑模型与宇宙历史重构的猜想框架---####**一、理论基础：四色拓扑与时空全息原理的融合**1.**宇宙背景信息的拓扑编码**-**大尺度结构网络**：将星系团映射为四色顶点，纤维状暗物质结构作为边，构建宇宙尺度平面图$\mathcal{G}_{\text{cosmo}}=(V_{\text{galaxy}},E_{\text{filament}})$。-**CMB极化图谱**：
大白话react第十五章React 应用性能优化深度实践 IT木昜大白话react react.js 前端前端框架
大白话react第十五章React应用性能优化深度实践1.React服务端渲染（SSR）的深入运用白话解释：之前咱们做的网页大多是在浏览器里把页面一点点搭建起来，这得花点时间。服务端渲染呢，就是让服务器提前把网页组装好，直接发给浏览器，这样页面打开的速度就快多啦，用户体验也更好。代码示例：用Next.js这个框架来做服务端渲染。Next.js是基于React的，能很方便地实现服务端渲染。//pag
Linux服务器配合Frp实现内网穿透使用windows远程桌面 sangAsang Linux linux
前言：我们在公司时，可以根据内网进行远程桌面连接，但由于公司网络一般都是分配内网ip，当我们在家的时候，想进行连接公司电脑，一般会使用1.teamviewer2.向日葵，但是teamviewer用一段时间会提示商业用途无法使用，向日葵因免费版限制网速使用较差，如果有一台不错的国内服务器，可以试试Frpfrp是什么frp是一个可用于内网穿透的高性能的反向代理应用，支持tcp,udp协议，为http和
什么是蓝牙攻击?常见种类有哪些? 老男孩IT教育网络安全
在现代生活中，蓝牙技术的应用已经非常普及，无论是生活还是工作蓝牙都为我们带来了诸多便利。正因如此，它与其他技术一样，蓝牙通信也经常遭遇网络攻击，那么什么是蓝牙攻击?常见种类有哪些?我们来看看具体内容介绍。蓝牙攻击是指黑客或攻击利用蓝牙技术中的漏洞或弱点，通过各种手段未经授权地获取或干扰目标设备的信息、功能或控制权的行为。蓝牙攻击可以采取多种形式，包括但不限于以下几种：1、蓝牙监听：攻击者通过监听蓝
云服务器ecs购买须知产幻少年服务器阿里云
购买云服务器没有公网ip，基本等于没用，不能挂网站，不能ssh连接，只能通过云服务商提供的控制台访问云服务器，只能访问云服务商的内网。云服务器不一定自带公网ip，购买时可选公网ip，但是要额外付费。如果没有公网ip，ecs配置那会是2核2GiB0Mbps。可以购买弹性公网ip（eip）来使ecs联网。如果以按量付费方式购买eip，需要支付3个费用：流量费、配置费(eip保有费)、绑定费。若eip未
《工业控制系统网络安全防护指南》｜安全运营 VEDA 卫达信息网络安全
《工业控制系统网络安全防护指南》工业控制系统作为工业生产运行的基础核心，其网络安全事关企业运营和生产安全、产业链供应链安全稳定、经济社会运行和国家安全。随着工业企业数字化转型步伐加快，工业控制系统开放互联趋势明显，工业企业面临的网络安全风险与日俱增，工业企业加强网络安全防护需求迫切。2016年，工业和信息化部出台《工业控制系统信息安全防护指南》，对有效指导工业企业开展工控安全防护工作发挥了积极作用
网络编程-day5-sqlite3数据库 Ryan_Gosling 数据库网络 sqlite
思维导图服务器#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#includetypedefstructsock
前端本地储存的方式汇总懒羊羊我小弟前端框架 javascript js 浏览器 web app 小程序
JavaScript本地存储是Web开发中用于在客户端存储数据的重要技术，以下是常见方式及其区别和应用场景：一、WEB浏览器本地存储方式及特点1.1储存方式1.Cookie存储容量：约4KB（每个域名）。生命周期：可设置过期时间；默认随会话结束失效。作用域：同源页面共享。访问方式：通过document.cookie读写，每次HTTP请求自动携带。特点：支持服务器端操作（通过HTTP头），但存储效率
网络安全中解码图片是什么 Hacker_Nightrain fpga开发 web安全网络
huffman解码是JPEG图片解码里面的关键步骤，也是最复杂的一步。在fsm模块中DHT状态下读取的不仅仅是huffman表，还有另外两个表，一个是存放1-16不同码长的最小编码的一个表，另一个是存放最小编码的地址的表。在huffman解码中需要用到这两个表，还有在本模块也集成了反量化模块。huffman解码的步骤：（1）：判断解码数据的类型选择与之对应的表。（2）：进行码长的判断。（3）：计算
鱼哥好书分享活动第32期：筑牢云安全防线：《eBPF云原生安全》实战指南落寞的魚丶赠书福利活动鱼哥好书分享第32期云原生安全网络安全
鱼哥好书分享活动第32期：筑牢云安全防线：《eBPF云原生安全》实战指南内容简介：大概目录：了解更多：赠书抽奖规则:eBPF技术已经成为云原生社区近年来备受关注的技术话题之一。在云原生领域，越来越多的项目和产品开始使用eBPF技术来构建其核心能力，涉及可观测性、网络和安全等关键领域。《eBPF云原生安全：原理与实践》内容涵盖eBPF的工作原理、eBPF在云原生安全领域的应用、知名eBPF云原生安全
Akamai虚拟专用云（VPC）是什么，有什么用？ Akamai中国云计算云原生云计算云服务云平台分布式云 Akamai
最近，AkamaiCloud平台隆重推出了虚拟专用云（VirtualPrivateCloud，VPC）服务。这是AkamaiCloud的一次重要革新，凸显了我们为开发者提供先进、安全、灵活的解决方案的不懈承诺。那么VPC到底是什么？能给用户带来哪些好处？继续阅读下文吧。AkamaiVPC是什么？VPC是AkamaiCloud中隔离出来的网络。借此，云资源能够以私密的方式通信，并能对云资源的公共互联
黑客攻击和入侵的八大常用手段有哪些？～小羊没烦恼～ php 开发语言数据库安全网络 web安全服务器
此文章主要向大家讲述的是黑客攻击与入侵的八个常用手段，现在合格攻击的手段早已不仅仅是早期刚出现如病毒、木马、以及间谍软件与网络监听、口令攻击、漏洞攻击等这些攻击手段。黑客攻击技术近年来的最新动态是什么?来，一起看看黑客攻击和入侵的8枪——八大手段。第一枪：硬件安全利用硬件的黑客技术虽然报道不多，但它的的确确出现了：在BIOS芯片中植入病毒木马，让目前的防火墙、防毒软件都失效;针对主机板上的电磁辐射
Golang 反射不7夜宵基础知识开发语言后端 golang
一、Go反射的应用场景（一）对象序列化和反序列化场景描述在处理网络通信，数据存储等场景中，需要将对象转换为字节流（序列化）以便传输或存储，在接收端再将字节流转换回对象（反序列化）。反射可以在不知道对象具体结构的情况下，遍历对象的字段进行序列化和反序列化操作。优势灵活性高，能够处理各种不同类型的对象，而不需要为每个类型单独编写序列化和反序列化函数（二）框架开发场景描述例如在Web框架中，需要根据用户
TCP/IP 5层协议簇：网络层（ICMP协议）听风吹等浪起计算机网络学习笔记 tcp/ip 网络服务器
1.TCP/IP5层协议簇如下：和ip协议有关的才有ip头2.ICMP协议ICMP协议没有端口号，因为不去上层，上层协议采用端口号
使用conda将python环境打包pack，移植到另一个linux服务器项目中 adczsw conda python环境打包移植环境管理
一：conda-pcak在什么情况下使用：二：conda常见的使用指令：1：查看自己conda管理有几种python环境：2：创建一个新的python环境：3：对已经存在的python环境进行复制：4：切换到对应的python环境：三：打包某个python环境1：进行python环境打包：2：传输这个压缩文件py3666.tar.gz到你所需要的服务器上：3：解压缩py366.tar.gz:4：激
使用conda-pack向内网服务器复制重现一个项目虚拟环境 J_caicaicai Linux Python 服务器 python
thisisthecase，目前有两台服务器，相同操作系统，一台可以连外网，一台不可以。所以可以借助能连外网的机器，去先将跑python程序的环境准备好，然后使用condapack复制到无法连外网的机器上。机器A：连外网机器机器B：内网机器第一步：现在机器A上像往常一样，创建项目的虚拟环境example_env，condainstall各种有的没有第二步：在机器A上切换虚拟环境到base上，在ba
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

基于ASP的反垃圾邮件管理系统的设计与实现

1．2 开发概述

1.2.1电子邮件概述

1.2.2反垃圾概述

2．1 电子邮件的结构

2．2 电子邮件的传输

3．1 数据库需求分析

3．2 开发环境需求

4．1 系统功能模块设计

4．2基本功能

4．3黑白名单技术

4．4 关键字过滤技术

4．5 贝叶斯过滤技术

4.5.1贝叶斯过滤算法的基本步骤

4.5.2贝叶斯过滤算法举例

4.5.3贝叶斯过滤模块划分

5．1 系统工作流程图

5．2邮件统计设计

5．3收件夹设计

5．4反垃圾功能设计

5.4.1黑白名单过滤

5.4.2主题关键字过滤

5.4.3贝叶斯过滤

5.4.4过滤参数设置

6．1系统测试

6．2设计中的难点问题

6．3三种过滤技术分析

6．4通用模块分析

结 论

你可能感兴趣的:(网络,服务器,大数据)

结论