一种新的Web用户行为模式挖掘算法的研究

作者简介:何尧(1979-),女,硕士生,主要从事WEB挖掘方面的研
究"
赵跃龙(1958-),男,博士生导师,主要从事计算机网络,数据库技术
等方向的研究"
何尧,赵跃龙
(中南大学信息科学与工程学院,湖南长沙 410083)
摘要:从Web日志文件中挖掘出用户行为模式,是所有Web站点管理者的迫切需要,但由于web日志数据量大,存有大量
的干扰和不完整的数据,导致无法准确的抽取出用户行为的模式,"小环境无监督聚类算法适合挖掘具有噪音和不完整数据的大量
数据集,但它是基于欧几里德空间的二维模型,数据表示不直观"我们对UNC进行改进,提出了具有层次结构的UNC(简称L
-UNC)"性能测试实验证明,该模型具有较好的整体性能"
关键词:web日志挖掘;聚类;遗传算法;用户行为模式
EvolutionaryApproachtoMiningWebUserProfiles
HeYao,ZhaoYuelong
(CollegeofInformationScienceandEngineering,CentralSouthUniversity,Changsha 410083,China)
Abstract:AtechniqueforminingWebsessionprofilefromthehistoricuseraccessdatastoredinWebserverlogsispresented.Anew
levelclusteringtechniquethatexploitsthesymbiosisbetweenclustersinfeaturespaceandgeneticbiologicalnichesinnature,called
LevelUnsupervisedNicheClustering(L-UNC)ispresented.WeuseL-UNCaspartofacompletesystemofknowledgediscovery
inWebusagedata.OurexperimentsshowthatouralgorithmiscapableofextractingmeaningfuluserprofilesonrealWebsites.
Keywords:webusagemining;clustering;geneticalgorithms;userprofiles
0 引言
随着Internet网的普及,用户访问Web的规律,成了In2
ternet环境下各企业共同关注的一大热点"
Web日志挖掘作为Web挖掘的一个重要组成部分,包含
了大量的用户访问信息,对之进行分析,从中挖掘出用户的行
为模式,有其独特的理论和实践意义"
Web日志挖掘的方法主要有三种:聚类分析,关联分析,
序列分析"它们也是传统数据挖掘的主要方法"我们对用户行
为采用的是聚类分析,即在没有先验知识的情况下,把用户会
话划入到多个簇中,使簇内的相似性和簇间的相异性最大"
由于Web日志数据量大,且用户上网可能出于不同目的,
所以在抽取用户行为模式上有着多种解决方案,如果想找出一
个最优方案的话那么使用遗传算法可以达到更快更好的效
果[1]"最近,Nasraoui和Krishnapuram[2]提出了专门针对于
聚类操作的改进的遗传算法:小环境无监督聚类算法(UNC),
该算法重在挖掘类的特征与其基因的合作关系,适合挖掘具有
噪音和不完整数据的大量数据集"然而,UNC是基于欧几里
德空间的二维模型,数据表示不直观,因此我们对UNC进行
改进,提出了具有层次结构的UNC(L-UNC)"它不同于传
统的数据平面表示,使数据表示更为直观"由于我们解决方案
并没有确定类的数量和分类原型,所以它除了针对数据挖掘和
Web挖掘外,还能适合各种应用"
1 Web应用挖掘的知识发现
111 提取用户会话
大部分Web日志都有用户IP地址,访问时间,所访问网
页的URL"在预定时期内,相同IP地址发出的连续请求,则
可看成一个会话"设网站有N个有效的URL,则用户会话可
用具有N位二进制串来表示"
以下是第i个用户会话位串的表示形式:
S(i)j=1 在第i会话,如果用户访问了第i个URL0 其它情况(1)
112 计算会话相似度
计算两个会话S(k)和S(l)之间的相似度有两种方法[2-3]"
第一种方法,用于不知网站结构的情况,公式如下:
S1,kl=
E
N
i=1
S(k)iS(l)i
E
N
i=1
S(k)iE
N
i=1
S(l)i
(2)
  第二种方法需先计算出URL结构的相似性"整个Web网
站就象一棵树,每个节点代表不同的URL,且具有方向性,一
条边代表一个链接"第i和第j的URL之间的相似度由以下公
式给出:
Su(i,j)=min(1,|piHpj|max(1,max(|pi|,|pj|)-1))(3)
  其中pi从根目录即主页转换到第i个URL的路径,而0
pi0表示该路径的长度"URL相似度取值在0与1之间,表示
两个URL路径之间的交叠率,它应在聚类之前离线计算出来"
在得到URL相似度后,会话相似度由以下公式给出:第6期何尧,等:一种新的Web用户行为模式挖掘算法的研究#601#
S2,kl=
E
N
i=1
E
N
j=1
S(k)iS(l)jSu(i,j)
E
N
i=1
S(k)iE
N
j=1
S(l)j
(4)
  最后比较S1,kl和S2,kl,取其大者为会话相似度Skl=max
(S1,kl,S2,kl)"通过会话相似度可分析出网站的层次结构,与
其相对应的相异性d2s(k,l)=(1-Skl)2,相异性越大,用
户特征越明显"
113 用户会话聚类
首先,把用户会话划入到与该会话最相近的聚类中,计算
公式如下:
Xi={S(k)IS|dik>djk,PjXi},1[i[C(5)
  聚类Xi的会话特征由特征向量Pi=(pi1,,,piN)t表
示,pij表示第i个会话点击第j个URL的概率,其计算公式
为:
Pij=p(S(k)j=1|S(k)jIXi)=|Xij||Xi|
其中,Xij={S(k)IXi|Skj>0}"各个点击率都很低的会话其
会话特征是不明显的"
2 遗传算法和小环境无监督聚类算法
遗传算法是模拟达尔文的自然选择学说和自然界的生物进
化过程的一种计算模型"它采用简单的编码技术来表示各种复
杂的结构,并通过对一组编码表示进行简单的遗传操作和优胜
劣汰的自然选择来指导学习和确定搜索的方向"遗传算法的操
作对象是一群二进制串(称为染色体!个体),即种群"这里
每一个染色体都对应问题的一个解"从初始种群出发,采用基
于适应值比例的选择策略在当前种群中选择个体,使用杂交和
变异来产生下一代种群"如此模仿生命的进化一代代演化下
去,直到满足期望的终止条件为止"
小环境无监督算法是遗传算法在聚类研究中的演进,它的
两个参数,fi表示第i竞争者的中心点的健壮度,ci表示假设
在该点的聚类的密度,wij表示数据xj在第i聚类中的健壮植,
其计算公式为:
fi=
E
N
j=1
Wij
D2i(6)
其中,wij=exp-d2ij2D2,D2表示第I聚类的方差,而d2ij是xj
(某数据)到ci(聚类中心点)的偏差"N表示聚类中数据个
数"在这些聚类的质心适应值密度函数图有几个峰值(多模
式),而它们的确定是多模式优化问题"因此,我们借助小环
境方法在多个模式下确定多个优化方案"就象在自然界中,小
环境指的是大自然环境下的有着多种生命物种(范例数据)的
小生态区"对于聚类问题,我们发现Mahfoud的/determinis2
ticcrowding(DC)0[3]效果最好"DC修改了GA中的选择和复
制(replacement)策略"在两个父个体基因组合后,从子个体
中挑选出与父个体最相似且适应性最好的个体来替换父个体"
作为变化测试"
3 L-UNC极其在Web应用挖掘中的应用
我们保留了UNC的主要结构,会话的原形由染色体位串也
就是111节所定义的会话属性向量si构成,我们没有采用传统
的欧几里德距离算法而用了112节的相异计算法来计算健壮度"
采用了这种层次模型,基因优化的计算时间大大减少,换
句话说,我们可以在更小的人口范围N内做更精确的聚类"
一般Np 聚类,其计算复杂度为:(O(NP,N)),这远远小于相关的
聚类算法如:凝聚层次算法AHC[4],时间复杂度为(O
(N2logN)),最小化旋转树算法(MST)[4],其时间复杂度为
O(N2)"
通过研究我们还发现一个用户会话顶多点击10次链接
(即URL之间的差异将不明显),这样大大减少了差异算法的
复杂度,所以,不管URL有多少都不会增加其计算复杂度"
只要不低于最小可接受聚类大小,Nsplit,和小于最大方
差,D2split,层次聚类算法就从网站拓扑树的根接点直到其叶子
进行的递归聚类,其算法如下:
利用UNC的层次聚类(L-UNC算法):
(1)确定人口大小,后代个数,和最大层次数:L
(2)设置初始层L=1,聚类|C(l-1)|=1
(3)设置初始数据聚类方案:X(l-1)=X(l=1)1=X
(4)设置集合最初形式:C(l-1)=<,设置确定的原型集合P=<
(5)初始集合方差E(l-1)={D*2(l-1)1=1}
(6)调用聚类递归(X(l-1),C(l-1),E(l-1),l)函数
(7)把类X中所有数据都分入原型PiIP
(8)用113所阐述的方法重新计算D*2i和N*i
聚类递归函数(X(l-1),C(l-1),E(l-1),l):
(1)for i=1to|Cl-1|do
(2){if(l=1)or((|X(l-1)|>Nsplit)and(D*2(l-1) (l[L)then
(3){用UNC对数据子集X(l-1)聚类
/*注释:这将抽取出集合原型C(l)i={Pl1,,,Pl|cl|},划分数据集
Xli=Xl1G,GXl|cl|和Eli={D2l1,,,D*2l|cl|}*/
(4)调用聚类递归(Xli,Cli,Eli,l=1);}
(5)else
(6){添加其原型到确定了的原型集合:PwPGP(l-1)}}
}
311 与传统层次聚类的比较
L-UNC与传统分裂的层次聚类算法有明显不同[4]"L-
UNC依靠健壮权值来进行分类,这样有效的避免了簇外围数
据及其它簇数据的影响"传统分裂层次算法则是将所有对象置
于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个
希望的簇数目,而L-UNC可在任一递归层上,无论该层有
多少数据,都能进行尽量多的精确分类,因此,能更好的挖掘
出Web特征出来"
4 Web应用挖掘实验结果
为试验L-UNC的有效性,我们从学校网站12天的访问
日志中抽取出1709个会话和365个URL"由于篇幅有限,在
此只给出数据集的轮廓结果"由于所有会话的相异性都在[0,
1]范围内,则取D2max=0196,D2split=013,Nsplit=30,并认为
势超过20个的簇是健壮的"通过聚类后,会话被归入到与其
最相似的簇中"特征向量中只有那些特征明显的URL(pij>
0115)才被保留,表1给出一些特征向量,其格式为{Pij- #602#计算机测量与控制第13卷
表1 利用L-UNC所发现的原特征举例(L=3,Wmin=016)
iPi
1
{.81-/信息学院班级查询网页}{.90-/课程查询网面}{.98
-/编号为333的课程网页}{.92-/课程索引网页}{.18-/编号
为303的课程网页}{.20-/老师网页}{.17-/老师索引网页}{.
18-/院系简介网页}{.93-/}
2{1.00-/}{.65-/信息学院班级查询网页}
表2 利用L-UNC抽取的用户会话特征(L=1)
i|Xi||X*i|N*i所访问的URLD*2i
1571302360.2主页,课程网页,授课老师网页,查询分数网页0.31
2315160199.0333号课程,303号课程的网页0.52
3187101123.0227号课程网页0.24
41618310612345号课程网页0135
572525810312号课程网页0107
表3 部分利用L-UNC抽取的用户会话特征(L=2,L=3)
i|Xi||X*i|N*i所访问的URLD*2i
1209131142.5主页,班级列表,课程网页,授课老师网页0.14
21177478.0主页,课程网页,所修学分查询网页0.26
31438798.6主页0.12
41267383.7主页,授课老师,院系,科学研究,所修学分0.38
61358387.2333号课程(短会话)0.45
846-29.6333号课程(长会话)0.17
9542636.4303号课程0.18
10183110122.3227号课程0.21
第j个URL}"表2和表3给出了第一层和第二,三层的用户
会话特征抽取结果"其中|Xi|表示簇的势,|X*i|表示原
子势,N*i表示健壮势,D*2i表示均方差"
从表3可看出,L-UNC能有效的抽取出用户特征"
(1)L-UNC能准确的抽取出用户特征:D*2i越低,N*i
越高,用户特征就越明显:特征1和特征3可看出是随意浏览
的用户,特征2!4是想要到我校就读的学生,特征10表明访
问者是本校的学生"
(2)随着层次的加深,L-UNC能把特征分析得更具体
化:在表2中特征2在表3中细分成了特征6,8,9,在表1
中的特征1在第二层聚类时细分成特征1,2,3,4"可看出随
着层次越深,特征将越细化"
(3)可挖掘出不同URL之间的隐含关系:表2的特征2
是访问由不同教授教的两门课程,可看出这两门课必定有所关
联"后来查出这两门课,一个是操作系统,一个是C语言,而
操作系统是C语言的后继课"
参考文献:
[1]HollandJH.Adaptioninnaturalandartificialsystems[M].MIT
Press,1975.
[2]NasraouiO.KrishnapuranR,JoshiA.Miningwebaccesslogsu2
singarelationalclusteringalgorithmbasedonarobustestimator
[A],NAFIPSConf.[C],NewYork,1999:705-709.
[3]MahfoudSW.Crowdingandpreselectionrevisited,ParrallelProblem
SolvingfromNature[A].PPSN'92[C],Brussel,1992.
[4]DudaR,HartP.Patternclassificationandsceneanalysis[M],
Wiley,NewYork,1973.
[5]NasraouiO,KrishnapuranR,FriguiH,etal.Extractingwebus2
erprofilesusingrelationalcompetitivefuzzyclustering[J].Int.J.
Artif.Intell.Tools,2000,9(5):509-526.
(上接第586页)
  图9展示了升温控制效果,为了便于看清楚,进行了放
大"图中直线所示为用户设定的理想升温曲线,可见对于程序
升温,该控制器的效果也很好"
图10 过冲控制
过冲控制一直是温度控制的难点,由实验结果(图10)
可以看出,我们设计的新型PID决策模糊控制器由匀速升温到
恒温的控制比较理想,过冲量在1e内"
4 结束语
本文通过对比PID控制器和模糊控制器的相似性,设计并
实现了一种新型的PID决策模糊控制器"该控制器吸取了PID
控制的优点,使得当系统偏差较小时,可以接近PID控制的效
果,而偏差较大时,又可以通过模糊控制的特点迅速纠正"
  另外,把PID的参数KP提取出来作为决策因子,很好的
解决了温度变化范围大的难题"由实验结果来看,该控制器达
到甚至超过了预期目标"该模糊控制器已经应用于热重仪,并
取得了优秀的效果,其指标超过国家标准"
参考文献:
[1]HangCC,AstromK,HoWKJ.RefinementsoftheZiegler-
Nicholsrunningformula[J].DecisionSupportSystem,1992,25:
225-237.
[2]王承君.自定义串口数据通信协议的分析与设计[J].计算机工
程,2004,30(24):192-194.
[3]任尊茂.基于单层进化的产品客户化设计[J].计算机集成制造
系统,2004,10(11):1321-1322.
[4]姚锡凡,张毅.不确定信息的度量及其在制造中的应用示例[J].
计算机集成制造系统,2004,10(11):1466-1468.
[5]肖位框.模糊数据基础及应用[M].北京:航空工业出版社,
1992.
[6]吴万铎.吴万钊.模糊数学与计算机应用[M].北京:电子出版
社,1988.
[7]陶永华.新型PID控制及其应用[M].北京:机械工业出版社,
2002.

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
「豆包Marscode体验官」 | 云端 IDE 启动 & Rust 体验张风捷特烈 ide rust 开发语言后端
theme:cyanosis我正在参加「豆包MarsCode初体验」征文活动MarsCode可以看作一个运行在服务端的远程VSCode开发环境。对于我这种想要学习体验某些语言，但不想在电脑里装环境的人来说非常友好。本文就来介绍一下在MarsCode里，我的体验rust开发体验。一、MarsCode是什么它的本质是:提供代码助手和云端IDE服务的web网站，可通过下面的链接访问https://www
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
Spring Boot中实现跨域请求 BABA8891 spring boot 后端 java
在SpringBoot中实现跨域请求（CORS，Cross-OriginResourceSharing）可以通过多种方式，以下是几种常见的方法：1.使用@CrossOrigin注解在SpringBoot中，你可以在控制器或者具体的请求处理方法上使用@CrossOrigin注解来允许跨域请求。在控制器上应用：importorg.springframework.web.bind.annotation.
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
uniapp使用内置地图选择插件，实现地址选择并在地图上标点神夜大侠 Uniapp vue.js uniapp
uniapp使用内置地图选择插件，实现地址选择并在地图上标点代码如下：page{background:#F4F5F6;}::-webkit-scrollbar{width:0;height:0;color:transparent;}page{height:100%;width:100%;font-size:24rpx;}image,view,input,textarea,label,text,na
【Golang】实现 Excel 文件下载功能 RumIV Golang golang excel 开发语言
在当今的网络应用开发中，提供数据导出功能是一项常见的需求。Excel作为一种广泛使用的电子表格格式，通常是数据导出的首选格式之一。在本教程中，我们将学习如何使用Go语言和GinWeb框架来创建一个Excel文件，并允许用户通过HTTP请求下载该文件。准备工作在开始之前，请确保您的开发环境中已经安装了Go语言和相关的开发工具。此外，您还需要安装GinWeb框架和excelize包，这两个包都将用于我
VUE3 + xterm + nestjs实现web远程终端或连接开启SSH登录的路由器和交换机。焚木灵 node.js vue
可远程连接系统终端或开启SSH登录的路由器和交换机。相关资料：xtermjs/xterm.js:Aterminalfortheweb(github.com)后端实现(NestJS)：1、安装依赖：npminstallnode-ssh@nestjs/websockets@nestjs/platform-socket.io2、我们将创建一个名为RemoteControlModule的NestJS模块，
metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
metaRTC/webRTC QOS 方案与实践 metaRTC metaRTC 解决方案 webrtc qos
概述质量服务(QOS/QualityofService)是指利用各种技术方案提高网络通信质量的技术，网络通信质量需要解决下面两个问题：网络问题：UDP/不稳定网络/弱网下的丢包/延时/乱序/抖动数据量问题：发送数据量超带宽负载和平滑发送拥塞控制是各种技术方案的数据基础，丢包恢复解决丢包问题，抗乱序抖动解决网络乱序抖动问题，流量控制解决平滑发送数据/数据超带宽负载/延时问题。拥塞控制(Congest
metaRTC5.0 API编程指南(一) metaRTC metaRTC c++c语言 webrtc
概述metaRTC5.0版本API进行了重构，本篇文章将介绍webrtc传输调用流程和例子。metaRTC5.0版本提供了C++和纯C两种接口。纯C接口YangPeerConnection头文件:include/yangrtc/YangPeerConnection.htypedefstruct{void*conn;YangAVInfo*avinfo;YangStreamConfigstreamco
详解“c:/work/src/components/a/b.vue“‘ has no default export报错原因 hw_happy 开发语言前端 vue.js javascript
前情提要在一个vue文件中需要引入定义的b.vue文件，但是提示b文件没有默认导出，对于vue2文件来说有exportdefault，在中，所有定义的变量、函数和组件都会自动被视为默认导出的组件内容。因此，不需要显式地使用exportdefault来导出组件。但是在我引用这个文件的时候还是提示了这个错误，原来是我的项目使用了ts和vite\webpack，因为TypeScript和Vue的默认导出
原力元宇宙：Web3时代下的虚拟现实融合与普通人逆袭的机遇口碑信息传播者
在数字化浪潮席卷全球的今天，一个崭新的概念——原力元宇宙，正以其独特的魅力吸引着越来越多的目光。作为元宇宙国际性的一个项目，原力元宇宙不仅融合了Web3第三代互联网的前沿技术，更将虚拟现实与现实生活紧密相连，为我们描绘出一幅前所未有的数字新世界画卷。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen原力元宇宙，是一个时代的跨越，它代表着互联网技术的又一次革新。Web
html+css网页设计旅游网站首页1个页面 html+css+js网页设计 html css 旅游
html+css网页设计旅游网站首页1个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode、Sublime、Webstorm、Text、Notepad++等任意html编辑软件进行运行及修改编辑等操作）。获取源码1，访问该网站https://download.csdn.net/download/qq_42431718/897527112，点击
bat+ffmpeg批处理图片，图片批量转码张雨zy 音视频 ffmpeg
直接在cmd中输入//批量转码文件for%ain("*.png")doffmpeg-i"%a"-fs1024k"%~na.webp"//删除所有pngdel*.png@echooff表示执行了这条命令后关闭所有命令(包括本身这条命令)的回显。而echooff命令则表示关闭其他所有命令(不包括本身这条命令)的回显，@的作用就是关闭紧跟其后的一条命令的回显脚本完整代码写入脚本中后，需要多加一个%，例如
css设置当字数超过限制后以省略号（...）显示周bro css 前端 vue css3 html 经验分享
1、文字超出一行，省略超出部分，显示’…’用text-overflow:ellipsis属性来，当然还需要加宽度width属来兼容部分浏览。overflow:hidden;text-overflow:ellipsis;white-space:nowrap;2、多行文本溢出显示省略号display:-webkit-box;-webkit-box-orient:vertical;-webkit-lin
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

一种新的Web用户行为模式挖掘算法的研究

你可能感兴趣的:(Web)