日志分析方法概述 & Web日志挖掘分析的方法

日志在计算机系统中是一个非常广泛的概念，任何程序都有可能输出日志：操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同，很难一概而论。

本文讨论的日志处理方法中的日志，仅指Web日志。其实并没有精确的定义，可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志，以及各种Web应用程序自己输出的日志。

在Web日志中，每条日志通常代表着用户的一次访问行为，例如下面就是一条典型的apache日志：

211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 899 “http://www.baidu.com/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)”

从上面这条日志中，我们可以得到很多有用的信息，例如访问者的IP、访问的时间、访问的目标网页、来源的地址以及访问者所使用的客户端的UserAgent信息等。如果需要更多的信息，则要用其它手段去获取：例如想得到用户屏幕的分辨率，一般需要使用js代码单独发送请求；而如果想得到诸如用户访问的具体新闻标题等信息，则可能需要Web应用程序在自己的代码里输出。

為什么要分析日志

毫无疑问，Web日志中包含了大量人们——主要是产品分析人员会感兴趣的信息，最简单的，我们可以从中获取网站每类页面的PV值（PageView，页面访问量）、独立IP数（即去重之后的IP数量）等；稍微复杂一些的，可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等；更复杂的，构建广告点击模型、分析用户行为特征等等。

既然这些数据是如此的有用，那么当然已经有无数现成的工具可以帮助我们来分析它们，例如awstats、Webalizer，都是专门用于统计分析Web服务器日志的免费程序。

另外还有一类产品，它们不分析直接日志，而是通过让用户在页面中嵌入js代码的方式来直接进行数据统计，或者说我们可以认为它是直接让日志输出到了它们的服务器。典型的代表产品——大名鼎鼎的Google Analytics，另外还有国内的cnzz、百度统计等。

很多人可能会说，既然如此，我们为什么还需要自己来分析日志，有必要吗？当然有。我们的用户（产品分析人员）需求是无穷尽的，上面说的这几类工具虽然很好很强大，但显然没办法满足全部的需求。

无论是本地分析的工具，还是在线的分析服务，它们虽然提很丰富的的统计分析功能，可以做一定程度的配置，但是依然很有限的。要进行稍复杂点的分析，或者要做基于日志的数据挖掘，依然需要自己来完成。

另外绝大多数日志分析工具都是只能用于单机的，数据量稍大就没辙了。同时那些提供在线分析的服务对于单个站点通常也都有最大流量的限制——这是很容易理解的，他们也需要考虑服务器的负载。

所以，很多时候还是得靠自己。

怎么进行日志分析

这并不是一个简单的问题。即使我们把“日志”限定为Web日志，依然包含了成千上万种可能的格式和数据，而是“分析”更是难以定义，也许是简单的统计值的计算，也许是复杂的数据挖掘算法。

下面并不打算讨论这些复杂的问题，而只是笼统的讨论如何构建进行日志分析工作的基础。有了这些基础会让基于日志的简单统计分析变得很简单，并让复杂的分析挖掘等变得可行。

少量数据的情况

先考虑最简单的情况，在数据规模比较小的时候，也许是几十MB、几百MB或者几十GB，总之就是在单机处理尚能忍受的时候。一切都很好办，现成的各种Unix/Linux工具——awk、grep、sort、join等都是日志分析的利器，如果仅仅是想知道某个页面的PV，一个wc+grep就能搞定。如果有稍复杂的逻辑，那就使用各种脚本语言，尤其是perl，配合伟大的正则表达式，基本就可以解决所有的问题。

例如，我们想从上面提到的apache日志中得到访问量最高前100个IP，实现很简单：

cat logfile | awk ‘{a[$1]++} END {for(b in a) print b”\t”a[b]}’|sort -k2 -r|head -n 100

不过当我们需要频繁去分析日志的时候，上面的做法在一段时间之后可能就会让我们头疼如何进行各种日志文件、用于分析的脚本文件、crontab文件等等的维护，并且可能会存在大量重复的代码来做数据格式的解析和清洗，这个时候也许就需要更合适的东西，比如——数据库。

当然，要使用数据库来进行日志分析还是需要一些代价的，最主要的就是如何将各种异构的日志文件导入的数据库中——这个过程通常称为ETL（Extraction-Transformation-Loading）。幸好依然有各种现成的开源、免费的工具来帮助我们做这件事情，并且在日志种类不太多的时候，自己写几个简单的脚本来完成这项工作也并不困难。例如可以将上面的日志去掉不必要的字段，然后导入如下的数据库中：

现在需要考虑一下用什么数据库来存储这些数据。MySQL是一个很经典的开源数据库，它的传统引擎（MyISAM或者InnoDB，行存储）也许并不非常的适合日志数据的存储，但是在小数据量的时候还是很够用的。而且，在这方面现在已经有了更好的选择，例如开源且免费的Infobright、Infinidb，都是专门为数据仓库应用而进行了优化的数据引擎，采用列存储，有良好的数据压缩，处理几百GB的数据基本上不是问题。

使用数据库的好处之一就是，伟大的SQL可以帮我们很简单的完成绝大部分的统计分析工作——PV只需要SELECT+COUNT，计算搜索词排行只需要SELECT+COUNT+GROUP+ORDER+LIMIT。此外，数据库本身的结构化存储模式也让日志数据的管理变的更简单，减少运维代价。

同样还是上面的那个例子，简单的一个SQL就可以搞定：

SELECT * FROM (SELECT ip, COUNT(*) AS ip_count FROM apache_log GROUP BY ip) a ORDER BY ip_count DESC LIMIT 100

至于性能问题，数据库的索引和各种优化机制通常会让我们的统计分析工作变得更快，并且上面提到的Infobright和Infinidb都专门为类似SUM、COUNt之类的聚集应用做了优化。当然也不是绝对的会快，例如在数据库中进行LIKE操作，通常会比grep一个文件还要慢很多。

更进一步的，使用基于数据库的存储，可以很容易的进行OLAP（联机分析处理）应用，从日志中挖掘价值会变的更加简单。

怎样变得更简单

在超大规模的数据上做任何事情都不是一件容易的事情，包括日志分析，但也并不是说分布式的日志分析就一定要去写MapReduce代码，总是可以去做进一步的抽象，在特定的应用下让事情变得更简单。

也许有人会很自然的想到如果能用SQL来操作Hadoop上的数据该有多好。事实上，不仅仅只有你一个人会这么想，很多人都这么想，并且他们实现了这个想法，于是就有了Hive。

Hive现在也是Hadoop项目下面的一个子项目，它可以让我们用SQL的接口来执行MapReduce，甚至提供了JDBC和ODBC的接口。有了这个之后，Hadoop基本上被包装成一个数据库。当然实际上Hive的SQL最终还是被翻译成了MapReduce代码来执行，因此即使最简单的SQL可能也要执行好几十秒。幸好在通常的离线日志分析中，这个时间还是可以接受的。更重要的是，对于上面提到的例子，我们又可以用一样的SQL来完成分析任务了。

当然Hive并不是完全的兼容SQL语法，而且也不能做到完全的对用户屏蔽细节。很多时候为了执行性能的优化，依然需要用户去了解一些MapReduce的基本知识，根据自己的应用模式来设置一些参数，否则我们可能会发现一个查询执行很慢，或者压根执行不出来。

另外，很显然Hive也并不能覆盖所有的需求，所以它依然保留插入原始MapReduce代码的接口，以便扩展。

更多的问题

即使有了Hive这样一个类似于数据库的东西，我们依然还有很多事情需要做。例如时间久了，可能会有越来越多的需要例行执行的SQL，而这些SQL中，也许有一些是做了重复的事情；也许有一些的执行效率非常低下，一个复杂的SQL就占满了所有的计算资源。这样的系统会变得越来越难以维护的，直到有一天例行的SQL终于跑不完了。而最终用户往往不会去关心这些事情，他们只关心自己提交的查询是不是能即时得到响应，怎么样才能尽快的拿到结果。

举个简单的例子，如果发现在使用apache_log的所有查询中，几乎没有人用其中的user_agent字段，那么我们完全可以把这个字段去除掉，或者拆分成两张表，以减少多数查询的IO时间，提高执行的效率。

为了系统化的解决这些问题，我们可能需要引入例行任务的调度机制，可能需要去分析所有的SQL来发现哪些是可以合并的、哪些的性能需要优化，使用的数据表是不是需要做水平或者垂直分表等等。根据实际情况的不同，这时事情可能是人工来完成，也可能是写程序来自动分析并调整。

再者随着日志类型、分析需求的不断增长。用户会越来越多的抱怨很难找到想要的数据在哪份日志里，或者跑的好好的查询因为日志格式的变化而突然不能用了。另外上面提到的ETL过程也会变得复杂，简单的转换导入脚本很可能已经解决不了问题。这时候可能需要构建一个数据管理系统，或者干脆考虑建立一个所谓的数据仓库。

总之，随着日志数据量、日志类型、用户数量、分析需求等等的不断增长，越来越多的问题会逐渐浮现出来，日志分析这件事情可能就不再像我们最初想的那么简单，会变得越来越有价值，也越来越有挑战。

Web日志挖掘分析的方法

日志文件的格式及其包含的信息
①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico
⑥Mozilla/5.0+(Windows；+U；+Windows+NT+5.1；+zh-CN；+rv：1.8.0.3)+Gecko/20060426
+Firefox/1.5.0.3。
①访问时间；②用户IP地址；③访问的URL，端口；④请求方法(“GET”、“POST”等)；
⑤访问模式；⑥agent，即用户使用的操作系统类型和浏览器软件。

一、日志的简单分析
1、注意那些被频繁访问的资源
2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等：
3、观察搜索引擎蜘蛛的来访情况
4、观察访客行为
应敌之策：
1、封杀某个IP
2、封杀某个浏览器类型（Agent）
3、封杀某个来源（Referer）
4、防盗链
5、文件重命名
作用：
1.对访问时间进行统计，可以得到服务器在某些时间段的访问情况。
2.对IP进行统计，可以得到用户的分布情况。
3.对请求URL的统计，可以得到网站页面关注情况。
4.对错误请求的统计，可以更正有问题的页面。

二、Web挖掘
根据所挖掘的Web 数据的类型，可以将Web 数据挖掘分为以下三类：Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)（也称为Web日志挖掘）。
①Web内容挖掘。Web内容挖掘是指从文档的内容中提取知识。Web内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。Web文档中的标记,例如和<Heading>等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。 </span><br><span style="color:#ff0000;"> ②Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。Web结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高Web搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。Web结构挖掘还可以用于对Web页进行分类、预测用户的Web链接使用及Web链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。 </span><br><span style="color:#ff0000;"> ③Web使用记录挖掘。Web使用记录挖掘是指从Web的使用记录中提取感兴趣的模式，目前Web使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究Web日志记录中的规律,来识别网站的潜在用户;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问的Web记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面,加快用户获取页面的速度，分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。</span><br><span style="color:#ff0000;"> 通过对Web服务器日志中大量的用户访问记录深入分析，发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识，用于分析站点的使用情况，从而辅助管理和支持决策。当前，web日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及web特征描述等诸多领域。</span></p> <p> </p> <p style="font-family:'宋体';line-height:25px;"><span style="color:#000000;"> 三、Web日志挖掘的方法</span><br><span style="color:#000000;"> （一）首先，进行数据的预处理。</span><br><span style="color:#000000;"> 从学习者的访问日志中得到的原始日志记录并不适于挖掘，必须进行适当的处理才能进行挖掘。因此，需要通过日志清理，去除无用的记录；对于某些记录，我们还需要通过站点结构信息，把URL路径补充成完整的访问序列；然后划分学习者，并把学习者的会话划分成多个事务。</span><br><span style="color:#000000;"> （二）其次，进行模式发现</span><br><span style="color:#000000;"> 一旦学习者会话和事务识别完成，就可以采用下面的技术进行模式发现。模式发现, 是对预处理后的数据用数据挖掘算法来分析数据。分有统计、分类、聚类、关等多种方法。</span><br><span style="color:#000000;"> ① 路径分析。它可以被用于判定在一个站点中最频繁访问的路径，还有一些其它的有关路径的信息通过路径分析可以得出。路径分析可以用来确定网站上的频繁访问路径, 从而调整和优化网站结构, 使得用户访问所需网页更加简单快捷, 还可以根据用户典型的浏览模式用于智能推荐和有针对性的电子商务活动。例如：70% 的学习者在访问/ E-Business /M2时，是从/EB开始，经过/ E-Business /SimpleDescription，/ E-Business /M1；65%的学习者在浏览4个或更少的页面内容后就离开了。利用这些信息就可以改进站点的设计结构。</span><br><span style="color:#000000;"> ② 关联规则。使用关联规则发现方法，可以从Web的访问事务中找到的相关性。关联规则是寻找在同一个事件中出现的不同项的相关性，用数学模型来描述关联规则发现的问题：x=>y的蕴含式，其中x,y为属性——值对集(或称为项目集)，且X∩Y空集。在数据库中若S%的包含属性——值对集X的事务也包含属性——值集Y，则关联规则X=>Y的置信度为C%。</span><br><span style="color:#000000;"> ③ 序列模式。在时间戳有序的事务集中，序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。它能发现数据库中如“在某一段时间内，客户购买商品A，接着会购买商品B，尔后又购买商品C，即序列A→B→C出现的频率高”之类的信息。序列模式描述的问题是：在给定的交易序列数据库中，每个序列按照交易的时间排列的一组交易集，挖掘序列函数作用是返回该数据库中高频率出现有序列。</span><br><span style="color:#000000;"> ④ 分类分析。发现分类规则可以给出识别一个特殊群体的公共属性的描述，这种描述可以用于分类学习者。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法，此外还有神经元网络、Bayesian分类等。例如：在/ E-Business /M4学习过的学习者中有40％是20左右的女大学生。</span><br><span style="color:#000000;"> ⑤聚类分析。可以从Web访问信息数据中聚类出具有相似特性的学习者。在Web事务日志中，聚类学习者信息或数据项能够便于开发和设计未来的教学模式和学习群体。聚类是将数据集划分为多个类，使得在同一类中的数据之间有较高的相似度，而在不同类中的数据差别尽可能大。在聚类技术中，没有预先定义好的类别和训练样本存在，所有记录都根据彼此相似程度来加以归类。主要算法有k—means、DBSCAN等。聚类分析是把具有相似特征的用户或数据项归类,在网站管理中通过聚类具有相似浏览行为的用户。基于模糊理论的Web页面聚类算法与客户群体聚类算法的模糊聚类定义相同，客户访问情况可用URL(Uj)表示。有Suj={(Ci，fSuj(Ci))|Ci∈C}，其中fSuj(Ci)→[0，1]是客户Ci和URL(Uj)间的关联度：式中m为客户的数量，hits(Ci)表示客户Ci访问URL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵，再根据相似类[Xi]R的定义构造相似类，合并相似类中的公共元素得到的等价类即为相关Web页面。</span><br><span style="color:#000000;"> ⑥统计。统计方法是从Web 站点中抽取知识的最常用方法, 它通过分析会话文件, 对浏览时间、浏览路径等进行频度、平均值等统计分析。虽然缺乏深度, 但仍可用于改进网站结构, 增强系统安全性, 提高网站访问的效率等。</span><br><span style="color:#000000;"> ⑦协同过滤。协同过滤技术采用最近邻技术，利用客户的历史、喜好信息计算用户之间的距离，目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。</span><br><span style="color:#000000;"> （三）最后，进行模式分析。</span><br><span style="color:#000000;"> 模式分析。基于以上的所有过程，对原始数据进行进一步分析，找出用户的浏览模式规律，即用户的兴趣爱好及习惯，并使其可视化，为网页的规划及网站建设的决策提供具体理论依据。其主要方法有：采用SQL查询语句进行分析；将数据导入多维数据立方体中，用OLAP工具进行分析并给出可视化的结果输出。（分类模式挖掘、聚类模式挖掘、时间序列模式挖掘、序列模式挖掘、关联规则等）</span></p> <p> </p> <p style="font-family:'宋体';line-height:25px;"><span style="color:#000000;"> 四、关联规则</span><br><span style="color:#000000;"> （一）关联规则</span><br><span style="color:#000000;"> 顾名思义，关联规则（association rule）挖掘技术用于于发现数据库中属性之间的有趣联系。一般使用支持度（support）和置信度（confidence）两个参数来描述关联规则的属性。 </span><br><span style="color:#000000;"> （二）Apriori方法简介</span><br><span style="color:#000000;"> Apriori算法最先是由Agrawal等人于1993年提出的，它的基本思想是：首先找出所有具有超出最小支持度的支持度项集，用频繁的(k—1)-项集生成候选的频繁k-项集；其次利用大项集产生所需的规则；任何频繁项集的所有子集一定是频繁项集是其核心。</span><br><span style="color:#000000;"> Apriori算法需要两个步骤：第一个是生成条目集；第二个是使用生成的条目集创建一组关联规则。当我们把最小置信度设为85%，通过关联规则的形成以及对应置信度的计算，我们可以从中得到以下有用的信息：</span><br><span style="color:#000000;"> 1.置信度大于最小置信度时：我们可以这样认为，用户群体在浏览相关网页时，所呈列的链接之间是有很大关联的，他们是用户群的共同爱好，通过网页布局的调整，从某种意义上，可以带来更高的点击率及潜在客户；</span><br><span style="color:#000000;"> 2.置信度小于最小置信度时：我们可以这样认为，用户群体对所呈列链接之间没太多的关联，亦或关联规则中的链接在争夺用户。</span></p> <p> </p> <p style="font-family:'宋体';line-height:25px;"><span style="color:#000000;"> 五、网站中Web日志挖掘内容</span><br><span style="color:#000000;"> 　　（1）网站的概要统计。网站的概要统计包括分析覆盖的时间、总的页面数、访问数、会话数、惟一访问者、以及平均访问、最高访问、上周访问、昨日访问等结果集。</span><br><span style="color:#000000;"> 　　（2）内容访问分析。内容访问分析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的时间等。</span><br><span style="color:#000000;"> 　　（3）客户信息分析。客户信息分析包括访问者的来源省份统计、访问者使用的浏览器及操作系统分析、访问来自的页面或者网站、来自的IP地址以及访问者使用的搜索引擎。</span><br><span style="color:#000000;"> 　　（4）访问者活动周期行为分析。访问者活动周期行为分析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。</span><br><span style="color:#000000;"> 　　（5）主要访问错误分析。主要访问错误分析包括服务端错误、页面找不到错误等。</span><br><span style="color:#000000;"> 　　（6）网站栏目分析。网站栏目分析包括定制的频道和栏目设定，统计出各个栏目的访问情况，并进行分析。</span><br><span style="color:#000000;"> （7）商务网站扩展分析。商务网站扩展分析是专门针对专题或多媒体文件或下载等内容的访问分析。</span><br><span style="color:#000000;"> （8）有4个方向可以选择:①对用户点击行为的追踪，click stream研究；②对网页之间的关联规则的研究；③对网站中各个频道的浏览模式的研究；④根据用户浏览行为，对用户进行聚类，细分研究；（如果你能够结合现有的互联网产品和应用提出一些自己的建议和意见，那就更有价值了。）</span><br><span style="color:#000000;"> （9）发现用户访问模式。通过分析和探究Web日志记录中的规律，可以识别电子商务的潜在客户，提高对最终用户的服务质量，并改进Web服务器系统的性能。 </span><br><span style="color:#000000;"> (10)反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。</span></p> <p> </p> <p style="font-family:'宋体';line-height:25px;"><span style="color:#000000;"> 六、相关软件及算法</span><br><span style="color:#000000;"> （一）相关软件：</span><br><span style="color:#000000;"> 1.数据挖掘的专用软件wake。</span><br><span style="color:#000000;"> 2.用OLAP工具</span><br><span style="color:#000000;"> 3.已经有部分公司开发出了商用的网站用户访问分析系统，如WebTrends公司的CommerceTrends 3.0,它能够让电子商务网站更好地理解其网站访问者的行为，帮助网站采取一些行动来将这些访问者变为顾客。CommerceTrends主要由3部分组成：Report Generation Server、Campain Analyzer和Webhouse Builder。</span><br><span style="color:#000000;"> 4.Accrue公司的Accrue Insight，它是一个综合性的Web分析工具,它能够对网站的运行状况有个深入、细致和准确的分析，通过分析顾客的行为模式，帮助网站采取措施来提高顾客对于网站的忠诚度，从而建立长期的顾客关系。</span><br><span style="color:#000000;"> （二）相关算法：</span><br><span style="color:#000000;"> 1.运用各种算法进行数据挖掘：GSP算法, Prefixspana算法，</span><br><span style="color:#000000;"> 2.关联规则分析：Apriori、FP-growth算法等。</span><br><span style="color:#000000;"> 3.Apriori算法及其变种算法</span><br><span style="color:#000000;"> 4.基于数据库投影的序列模式生长技术（database project based sequential pattern growth）</span><br><span style="color:#000000;"> 5. Wake算法、MLC++等</span><br><span style="color:#000000;"> 6. PageRank算法和HITS算法利用Web页面间的超链接信息计算“权威型”（Authorities）网页和“目录型”（Hubs）网页的权值。Web结构挖掘通常需要整个Web的全局数据，因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。</span><br><span style="color:#000000;"> 7.参考检索引擎的挖掘算法，比如Apache的lucene等。</span></p> <p><span style="font-size:14px;color:#000000;font-family:Arial, '宋体';"><span style="font-size:14px;font-family:Arial, '宋体';"> 七、日志分析的价值或应用<br> ①在自己的网站上安装了网站统计的代码，如Google analytics、量子统计、百度统计、cnzz、51.la等，这些工具可以统计网站的流量，也就是网站上访客可看到的所有页面的访问量，但是这些统计工具都不能统计你主机上资源的原始访问信息，例如某个图片被谁下载了。<br> ②如果你的网站遭到了攻击、非法盗链和不良请求等，通过分析原始访问日志能大概分析出端倪来，例如：往主机上传了一个mp3，不幸被百度mp3收录，引来大量的盗链，导致我的主机流量猛增！通过分析日志，可以找出问题根源，删除了那个mp3，主机流量也降下来了。<br> ③分析访客来源（Referer）。这一段是告诉我们访客是从哪里来到这一个网页。有可能是网站其他页，有可能是来自搜索引擎的搜索页等。通过这条来源信息，你可以揪出盗链者的网页。<br> ④网站日志分析软件都能提供关于服务器的浏览量、统计网站所有页面和相关文件被显示的次数、访问最多的网页、客户端访问最频繁的文件、访问者的IP分布、每日访问统计、每周每月等的统计结果。1.访问者访问时段分析。结合IP地址和时段之间的关系可以将来访者大致的身份作一个基本的判断。如按上班前、工作期间、下班后、节假日等，可以针对访客的初步性质安排合适的内容，如产品信息和广告；2.访问者地区分布。分析通过将访问者的IP地址转换为地理区间可以分析出来访者的大致地理分布范围。<br> ⑤相关产品推荐。通过以上的关联分析，有了用户频繁访问路径和链接之间的兴趣度，可以构建个性化推荐系统模型。对于实证例子，我们可以在置信度高于最低置信度的相关链接之间，建立某种信息快速互联的桥梁，亦或是在网页规划中，充分考虑链接之间的关联关系，从而为更人性化、合理化的网页设计提供决策依据。如：当客户浏览/newimg/num1.gif时，有0.91的概率会浏览/newimg/num4.gif，那么，在两者之间就存在很高的关联性，从而我们有必要对这两个链接建立某种跟紧密的联系。<br> ⑥个性挖掘：针对单个用户的使用记录对该用户进行建模，结合该用户基本信息分析他的使用习惯、个人喜好，目的是在电子商务环境下为该用户提供与众不同的个性化服务。<br> ⑦系统改进：Web服务（数据库、网络等）的性能和其他服务质量是衡量用户满意度的关键指标，Web 用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈，以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外，可以通过分析网络的非法入侵数据找到系统弱点，提高站点安全性，这在电子商务环境下尤为重要。<br> ⑧站点修改：站点的结构和内容是吸引用户的关键。Web 用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依，比如页面连接情况应如何组织、那些页面应能够直接访问等。<br> ⑨智能商务：用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点，用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤，Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机，以帮助销售商合理安排销售策略。<br> ⑩Web特征描述：这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况，对用户访问情况进行特征描述</span></span></p> </div> <p>转载于:https://www.cnblogs.com/lantingg/p/7798407.html</p> </div> </div> </div> </div> </div>  <div id="SOHUCS" sid="1455402681781760000"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(数据库,人工智能,awk)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1835504218178416640.htm" title="Google earth studio 简介" target="_blank">Google earth studio 简介</a> <span class="text-muted">陟彼高冈yu</span> <a class="tag" taget="_blank" href="/search/%E6%97%85%E6%B8%B8/1.htm">旅游</a> <div>GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G</div> </li> <li><a href="/article/1835501821569888256.htm" title="关于提高复杂业务逻辑代码可读性的思考" target="_blank">关于提高复杂业务逻辑代码可读性的思考</a> <span class="text-muted">编程经验分享</span> <a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E7%BB%8F%E9%AA%8C/1.htm">开发经验</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一</div> </li> <li><a href="/article/1835499681732456448.htm" title="SQL Server_查询某一数据库中的所有表的内容" target="_blank">SQL Server_查询某一数据库中的所有表的内容</a> <span class="text-muted">qq_42772833</span> <a class="tag" taget="_blank" href="/search/SQL/1.htm">SQL</a><a class="tag" taget="_blank" href="/search/Server/1.htm">Server</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/sqlserver/1.htm">sqlserver</a> <div>1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM</div> </li> <li><a href="/article/1835497664381284352.htm" title="探索OpenAI和LangChain的适配器集成：轻松切换模型提供商" target="_blank">探索OpenAI和LangChain的适配器集成：轻松切换模型提供商</a> <span class="text-muted">nseejrukjhad</span> <a class="tag" taget="_blank" href="/search/langchain/1.htm">langchain</a><a class="tag" taget="_blank" href="/search/easyui/1.htm">easyui</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商</div> </li> <li><a href="/article/1835497411179540480.htm" title="深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具" target="_blank">深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具</a> <span class="text-muted">nseejrukjhad</span> <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工</div> </li> <li><a href="/article/1835494131535802368.htm" title="人工智能时代，程序员如何保持核心竞争力？" target="_blank">人工智能时代，程序员如何保持核心竞争力？</a> <span class="text-muted">jmoych</span> <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a> <div>随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员</div> </li> <li><a href="/article/1835493374514262016.htm" title="MongoDB Oplog 窗口" target="_blank">MongoDB Oplog 窗口</a> <span class="text-muted">喝醉酒的小白</span> <a class="tag" taget="_blank" href="/search/MongoDB/1.htm">MongoDB</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a> <div>在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限</div> </li> <li><a href="/article/1835490974911000576.htm" title="python os 环境变量" target="_blank">python os 环境变量</a> <span class="text-muted">CV矿工</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/numpy/1.htm">numpy</a> <div>环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类</div> </li> <li><a href="/article/1835489460372992000.htm" title="【PG】常见数据库、表属性设置" target="_blank">【PG】常见数据库、表属性设置</a> <span class="text-muted">江无羡</span> <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a> <div>PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH</div> </li> <li><a href="/article/1835483730358136832.htm" title="数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首" target="_blank">数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首</a> <span class="text-muted">张三叨</span> <div>你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向</div> </li> <li><a href="/article/1835483159630802944.htm" title="nosql数据库技术与应用知识点" target="_blank">nosql数据库技术与应用知识点</a> <span class="text-muted">皆过客，揽星河</span> <a class="tag" taget="_blank" href="/search/NoSQL/1.htm">NoSQL</a><a class="tag" taget="_blank" href="/search/nosql/1.htm">nosql</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84/1.htm">数据结构</a><a class="tag" taget="_blank" href="/search/%E9%9D%9E%E5%85%B3%E7%B3%BB%E5%9E%8B%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">非关系型数据库</a> <div>Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)</div> </li> <li><a href="/article/1835477614848995328.htm" title="insert into select 主键自增_mybatis拦截器实现主键自动生成" target="_blank">insert into select 主键自增_mybatis拦截器实现主键自动生成</a> <span class="text-muted">weixin_39521651</span> <a class="tag" taget="_blank" href="/search/insert/1.htm">insert</a><a class="tag" taget="_blank" href="/search/into/1.htm">into</a><a class="tag" taget="_blank" href="/search/select/1.htm">select</a><a class="tag" taget="_blank" href="/search/%E4%B8%BB%E9%94%AE%E8%87%AA%E5%A2%9E/1.htm">主键自增</a><a class="tag" taget="_blank" href="/search/mybatis/1.htm">mybatis</a><a class="tag" taget="_blank" href="/search/delete%E8%BF%94%E5%9B%9E%E5%80%BC/1.htm">delete返回值</a><a class="tag" taget="_blank" href="/search/mybatis/1.htm">mybatis</a><a class="tag" taget="_blank" href="/search/insert%E8%BF%94%E5%9B%9E%E4%B8%BB%E9%94%AE/1.htm">insert返回主键</a><a class="tag" taget="_blank" href="/search/mybatis/1.htm">mybatis</a><a class="tag" taget="_blank" href="/search/insert%E8%BF%94%E5%9B%9E%E5%AF%B9%E8%B1%A1/1.htm">insert返回对象</a><a class="tag" taget="_blank" href="/search/mybatis/1.htm">mybatis</a><a class="tag" taget="_blank" href="/search/plus/1.htm">plus</a><a class="tag" taget="_blank" href="/search/insert%E8%BF%94%E5%9B%9E%E4%B8%BB%E9%94%AE/1.htm">insert返回主键</a><a class="tag" taget="_blank" href="/search/mybatis/1.htm">mybatis</a><a class="tag" taget="_blank" href="/search/plus/1.htm">plus</a><a class="tag" taget="_blank" href="/search/%E6%8F%92%E5%85%A5%E7%94%9F%E6%88%90id/1.htm">插入生成id</a> <div>前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat</div> </li> <li><a href="/article/1835471689929027584.htm" title="关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解" target="_blank">关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解</a> <span class="text-muted">秋刀prince</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a> <div>提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据</div> </li> <li><a href="/article/1835454921990828032.htm" title="Java爬虫框架（一）--架构设计" target="_blank">Java爬虫框架（一）--架构设计</a> <span class="text-muted">狼图腾-狼之传说</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E6%A1%86%E6%9E%B6/1.htm">框架</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E4%BB%BB%E5%8A%A1/1.htm">任务</a><a class="tag" taget="_blank" href="/search/html%E8%A7%A3%E6%9E%90%E5%99%A8/1.htm">html解析器</a><a class="tag" taget="_blank" href="/search/%E5%AD%98%E5%82%A8/1.htm">存储</a><a class="tag" taget="_blank" href="/search/%E7%94%B5%E5%AD%90%E5%95%86%E5%8A%A1/1.htm">电子商务</a> <div>一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast</div> </li> <li><a href="/article/1835451016456269824.htm" title="MongoDB知识概括" target="_blank">MongoDB知识概括</a> <span class="text-muted">GeorgeLin98</span> <a class="tag" taget="_blank" href="/search/%E6%8C%81%E4%B9%85%E5%B1%82/1.htm">持久层</a><a class="tag" taget="_blank" href="/search/mongodb/1.htm">mongodb</a> <div>MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数</div> </li> <li><a href="/article/1835447985601867776.htm" title="Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net" target="_blank">Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net</a> <span class="text-muted">佛一脚</span> <a class="tag" taget="_blank" href="/search/error/1.htm">error</a><a class="tag" taget="_blank" href="/search/react/1.htm">react</a><a class="tag" taget="_blank" href="/search/mongodb/1.htm">mongodb</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a> <div>背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不</div> </li> <li><a href="/article/1835443013749403648.htm" title="入门MySQL——查询语法练习" target="_blank">入门MySQL——查询语法练习</a> <span class="text-muted">K_un</span> <div>前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h</div> </li> <li><a href="/article/1835437775344726016.htm" title="博客网站制作教程" target="_blank">博客网站制作教程</a> <span class="text-muted">2401_85194651</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/maven/1.htm">maven</a> <div>首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java</div> </li> <li><a href="/article/1835434126874865664.htm" title="ubuntu安装wordpress" target="_blank">ubuntu安装wordpress</a> <span class="text-muted">lissettecarlr</span> <div>1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy</div> </li> <li><a href="/article/1835432358141063168.htm" title="深入浅出 -- 系统架构之负载均衡Nginx的性能优化" target="_blank">深入浅出 -- 系统架构之负载均衡Nginx的性能优化</a> <span class="text-muted">xiaoli8748_软件开发</span> <a class="tag" taget="_blank" href="/search/%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84/1.htm">系统架构</a><a class="tag" taget="_blank" href="/search/%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84/1.htm">系统架构</a><a class="tag" taget="_blank" href="/search/%E8%B4%9F%E8%BD%BD%E5%9D%87%E8%A1%A1/1.htm">负载均衡</a><a class="tag" taget="_blank" href="/search/nginx/1.htm">nginx</a> <div>一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H</div> </li> <li><a href="/article/1835432106029838336.htm" title="【RabbitMQ 项目】服务端：数据管理模块之绑定管理" target="_blank">【RabbitMQ 项目】服务端：数据管理模块之绑定管理</a> <span class="text-muted">月夜星辉雪</span> <a class="tag" taget="_blank" href="/search/rabbitmq/1.htm">rabbitmq</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a> <div>文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入</div> </li> <li><a href="/article/1835428821877223424.htm" title="计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署）" target="_blank">计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署）</a> <span class="text-muted">java毕设程序源码王哥</span> <a class="tag" taget="_blank" href="/search/php/1.htm">php</a><a class="tag" taget="_blank" href="/search/%E8%AF%BE%E7%A8%8B%E8%AE%BE%E8%AE%A1/1.htm">课程设计</a><a class="tag" taget="_blank" href="/search/vue.js/1.htm">vue.js</a> <div>该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发</div> </li> <li><a href="/article/1835424411205857280.htm" title="人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么" target="_blank">人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么</a> <span class="text-muted">kkai人工智能</span> <a class="tag" taget="_blank" href="/search/chatgpt/1.htm">chatgpt</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a> <div>一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户</div> </li> <li><a href="/article/1835421131713114112.htm" title="AI大模型的架构演进与最新发展" target="_blank">AI大模型的架构演进与最新发展</a> <span class="text-muted">季风泯灭的季节</span> <a class="tag" taget="_blank" href="/search/AI%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8%E6%8A%80%E6%9C%AF%E4%BA%8C/1.htm">AI大模型应用技术二</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84/1.htm">架构</a> <div>随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo</div> </li> <li><a href="/article/1835419492046434304.htm" title="如何利用大数据与AI技术革新相亲交友体验" target="_blank">如何利用大数据与AI技术革新相亲交友体验</a> <span class="text-muted">h17711347205</span> <a class="tag" taget="_blank" href="/search/%E5%9B%9E%E5%BD%92%E7%AE%97%E6%B3%95/1.htm">回归算法</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a><a class="tag" taget="_blank" href="/search/%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84/1.htm">系统架构</a><a class="tag" taget="_blank" href="/search/%E4%BA%A4%E5%8F%8B/1.htm">交友</a><a class="tag" taget="_blank" href="/search/%E5%B0%8F%E7%A8%8B%E5%BA%8F/1.htm">小程序</a> <div>在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更</div> </li> <li><a href="/article/1835410162517635072.htm" title="wandb一直上传解决方案" target="_blank">wandb一直上传解决方案</a> <span class="text-muted">行业边缘的摸鱼怪</span> <a class="tag" taget="_blank" href="/search/bug%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88/1.htm">bug解决方案</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">服务器</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">服务器</a> <div>问题描述运行带有wandb的代码时，虽然可以实现及时同步非常方便，但当设置错参数或其他原因不得不使用ctrl+C停止运行时，总会出现wandb一直上传个不停的现象，给在同一终端重新运行新的代码造成困难。解决方案运行以下代码把wandb的进程直接杀死。psaux|grepwandb|grep-vgrep|awk'{print$2}'|xargskill-9参考链接[CLI]:Ctrl+Ctokill</div> </li> <li><a href="/article/1835403761783238656.htm" title="3.增删改查--连接查询" target="_blank">3.增删改查--连接查询</a> <span class="text-muted">问女何所忆</span> <div>关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中</div> </li> <li><a href="/article/1835399957885054976.htm" title="docker from指令的含义_多个FROM-含义" target="_blank">docker from指令的含义_多个FROM-含义</a> <span class="text-muted">weixin_39722188</span> <a class="tag" taget="_blank" href="/search/docker/1.htm">docker</a><a class="tag" taget="_blank" href="/search/from%E6%8C%87%E4%BB%A4%E7%9A%84%E5%90%AB%E4%B9%89/1.htm">from指令的含义</a> <div>小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像</div> </li> <li><a href="/article/1835397685104963584.htm" title="Redis:缓存击穿" target="_blank">Redis:缓存击穿</a> <span class="text-muted">我的程序快快跑啊</span> <a class="tag" taget="_blank" href="/search/%E7%BC%93%E5%AD%98/1.htm">缓存</a><a class="tag" taget="_blank" href="/search/redis/1.htm">redis</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互</div> </li> <li><a href="/article/1835397055376355328.htm" title="生成式地图制图" target="_blank">生成式地图制图</a> <span class="text-muted">Bwywb_3</span> <a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E7%94%9F%E6%88%90%E5%AF%B9%E6%8A%97%E7%BD%91%E7%BB%9C/1.htm">生成对抗网络</a> <div>生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐</div> </li> <li><a href="/article/50.htm" title="java封装继承多态等" target="_blank">java封装继承多态等</a> <span class="text-muted">麦田的设计者</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/eclipse/1.htm">eclipse</a><a class="tag" taget="_blank" href="/search/jvm/1.htm">jvm</a><a class="tag" taget="_blank" href="/search/c/1.htm">c</a><a class="tag" taget="_blank" href="/search/encapsulatopn/1.htm">encapsulatopn</a> <div> 最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &</div> </li> <li><a href="/article/177.htm" title="F5与集群的区别" target="_blank">F5与集群的区别</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/weblogic/1.htm">weblogic</a><a class="tag" taget="_blank" href="/search/%E9%9B%86%E7%BE%A4/1.htm">集群</a><a class="tag" taget="_blank" href="/search/F5/1.htm">F5</a> <div> http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似</div> </li> <li><a href="/article/304.htm" title="LeetCode[Math] - #7 Reverse Integer" target="_blank">LeetCode[Math] - #7 Reverse Integer</a> <span class="text-muted">Cwind</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E9%A2%98%E8%A7%A3/1.htm">题解</a><a class="tag" taget="_blank" href="/search/Math/1.htm">Math</a><a class="tag" taget="_blank" href="/search/LeetCode/1.htm">LeetCode</a><a class="tag" taget="_blank" href="/search/Algorithm/1.htm">Algorithm</a> <div>原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但</div> </li> <li><a href="/article/431.htm" title="BufferedOutputStream" target="_blank">BufferedOutputStream</a> <span class="text-muted">周凡杨</span> <div> 首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd</div> </li> <li><a href="/article/558.htm" title="linux下模拟按键输入和鼠标" target="_blank">linux下模拟按键输入和鼠标</a> <span class="text-muted">被触发</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a> <div>查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in</div> </li> <li><a href="/article/685.htm" title="ContentProvider初体验" target="_blank">ContentProvider初体验</a> <span class="text-muted">肆无忌惮_</span> <a class="tag" taget="_blank" href="/search/ContentProvider/1.htm">ContentProvider</a> <div>ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte</div> </li> <li><a href="/article/812.htm" title="关于Spring MVC项目（maven）中通过fileupload上传文件" target="_blank">关于Spring MVC项目（maven）中通过fileupload上传文件</a> <span class="text-muted">843977358</span> <a class="tag" taget="_blank" href="/search/mybatis/1.htm">mybatis</a><a class="tag" taget="_blank" href="/search/spring+mvc/1.htm">spring mvc</a><a class="tag" taget="_blank" href="/search/%E4%BF%AE%E6%94%B9%E5%A4%B4%E5%83%8F/1.htm">修改头像</a><a class="tag" taget="_blank" href="/search/%E4%B8%8A%E4%BC%A0%E6%96%87%E4%BB%B6/1.htm">上传文件</a><a class="tag" taget="_blank" href="/search/upload/1.htm">upload</a> <div>Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定）  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>