网站分析度量

　　今天的话题回到度量，因为度量是网站分析的骨骼，所谓皮之不存毛将焉附，没有度量，网站分析就成为不了一门科学。度量也是最多朋友们问起的问题，例如下面这个问题：

宋星老师：
有个困惑已久的问题.在GA里面的跳出率和退出率的问题。
他们的含义都知道：但是当他们同时存在时，主要看哪个数据比较好？
如果是单独出现时还行，但是在GA里面是同时出现的。

　　这是一个好问题，体现了非常棒的探究精神，以及直击问题本质的敏锐观察。类似的问题太多了，所以，重新发一系列帖子是必不可少的。现在开始，我们从最基本的，一些容易让我们混淆的度量概念开始。同时这篇文章不会再重复过去的内容（关于度量的内容，请大家看博客的网站地图），而只是画龙点睛，说一说大家最该了解的东西。

最基本的流量度量也有陷阱

　　Page view，visit和visitor是三个最基本的流量度量，这三个度量按照监测难度来区分是这样的：

Visit > Visitor > Page View

　　原因在于：

　　Page view只是一个简单计数，只是页面中的网站分析监测代码被运行了一次，仅此而已。它最简单。

　　Visitor同样是一个简单计数，是网站分析监测代码识别了一个不同的cookie，或是一个不同的IP（对某些工具，没有cookie的时候，用IP分辨visitor）来到了网站而已。但visitor肯定比page view复杂，因为它包含了对cookie或者IP的记录和判断。

　　Visit代表某一个visitor一系列的网站访问动作，每个动作之间的间隔不超过特定的时间（例如不超过30分钟）。它意味着判断几个事情：（1）要有一个visitor，如果判断不出visitor，visit也就没有意义；（2）要判断page view或者其他网站分析工具能够识别的网站访问动作；（3）要识别动作与动作之间的间隔时间。所以visit的判别最复杂。所以，我们在最早的用log file进行网站分析的时候，是没有非常明确的visit的概念的，只有session的概念。

　　那么，陷阱在哪儿呢？

　　Visitor和page view没有什么陷阱，它们俩是简单的计数度量，触发了就触发了，记录下来即可。可是visit存在陷阱。这个陷阱在于如下几种可能：

我在A网站访问了20分钟，第21分钟的时候从A网站（比如CWA网站：http://www.chinawebanalytics.cn）的链接（这个链接连接到B网站）跑到B网站，然后在25分钟的时候，又从B网站的链接（这个链接指回A网站）回到A网站。这个过程中浏览器窗口并没有关闭，那么这个过程A网站有几个visit？
我在A网站访问了20分钟，第21分钟的时候关闭A网站的页面，然后打开一个新的浏览器窗口，然后在25分钟的时候又打开新窗口输入A的网址回到A网站，这个过程中网站A有几个visit？
我在A网站访问了20分钟，第21分钟的时候关闭A网站的页面，然后打开一个新的浏览器页面，即Tab（注意，浏览器没有关闭），然后在25分钟的时候又打开新Tab输入A的网址回到A网站，这个过程中网站A有几个visit？

　　答案：首先，一定要明确不同的网站分析工具，对于上面三种情况的计数是不一样的。我们先看看GA是怎么做的。

1. 在30分钟内，且没有关闭浏览器——注意是浏览器而不是浏览器Tab，即使从新的外部入口（例如不同的搜索引擎，不同的referring site，例如本例中中的B网站），也不会被记录为新的session。这意味着第一个题目的答案是1个visit。

2. 关闭了浏览器，意味着一个浏览器的session结束了。对于GA而言，这意味着一个新的visit。因此这个情况下visit是2。

3. 关闭了浏览器tab，但浏览器没有关闭，因此浏览器的session没有结束。对于GA而言，这不意味着一个session的结束，因此没有增加新的visit。这个情况下visit是1。

对于Omniture的SiteCatalyst，情况可能有一点不同。

1. 30分钟内，不会被记录为新的visit，因此是1个visit，跟GA情况一样。

2. 这个地方跟GA不同。Omniture的SiteCatalyst不以浏览器session结束作为新的visit的判定条件，因此这个visit还是1。

3. 跟GA一样，仍然是1个visit。

看来很多事情跟我们想的的确不太一样，不是吗？:)

图：Tab，伟大的Tab

　　我不想在这个里跟大家讨论这个三个问题的答案，欢迎大家在留言中讨论，要提醒的一点是不同的网站分析工具对于这些过程的定义都不太一样。所以，如果我们要选择一个网站分析工具，我们最好让供应商告诉我们他们对于这些基本度量的基本定义和监测方法是什么。

　　不过这三个问题直接回答了我们下面的问题：

（1）为什么Omniture SiteCatalyst监测到的visit只有Google Analytics的80%啊！

（2）为什么Google Analytics的数据和我服务器日志的数据相差那么远！

　　如果它们的数据一样我才会觉得奇怪呢！按下这些不同工具的不同区别不表（同类工具有些过大的区别当然可能意味着监测实施的不正确）。我想说的是，我们应该至少明白visit其实是一个非常复杂的度量，它绝对不像我们想象的那样简单。

　　因此，我们走出对这个度量的一般性理解，而进入一个根本性的问题——为什么要设置“visit”这个度量？为什么我们不用page view或者visitor就可以了？

　　如果你能把这个问题想清楚，我想才算真正理解了visit。

图：It’s not as easy as you thought!

　　答案其实很简单——狭义的网站分析（Web Analytics）是分析什么的科学？是分析网站访问者行为的科学，因此落脚点是行为。所以，只有visitor肯定不行，visitor不附加上与之对应的行为，没有意义。但是，如果行为是孤立的，没有来龙去脉，同样意义不大，所以只有page view同样不行。Visit是为此而建立的，是为了衡量一个visitor的一系列体现为page view的行为。它是一个桥梁，让visitor和page view建立关系，也让访问者和行为建立联系，并以数据的方式进行表达。

　　听起来这是多么艺术的一个过程啊。这就是网站分析的美。如果你细细平常一些为什么背后的为什么，你会发现原来一花一世界。

即使是基本度量，也并非都有统一的定义

　　什么是质量，什么是长短，什么是速度，这些现实生活中我们经常用到的度量都有世界统一的标准的定义和单位。可是，在网站分析的世界中，并不是所有的度量都有统一的定义。

　　这是因为网站分析还是一个非常新的学科。网站分析这门学科的名字最初实际上也是不确定的。最早，人们用e-metrics（e度量），之后又有用web metrics（网站度量）的，直到最后越来越多的人开始用web analytics（网站分析），这门学科才有了正式的名字。

　　尽管学科名字被确定下来，但是学科内的很多度量还有这不同的解释。例如bounce rate（蹦失率），这个度量至今仍然存在两种以上的常见解释。除了解释的不同，不同的监测工具对于一些度量的算法也存在差异，例如上面说过的，对于如何辨识visitor，不同的工具就有不同的算法，visit也是如此。

　　为了解决不一致产生的矛盾，部分聪明的网站分析工具提供商会提供一些能够自定义度量的功能，可以让用户更加灵活的根据需要调整度量的定义和尺度，这客观上极大的增加了网站分析的适应性，产生了很好的效果。

　　但是，定义不一致毕竟不是一件好事，尤其是对于一些基本度量。因此业界的一些组织也在致力于建立一些国际标准，这些组织包括：英国发行量审计局（Britain’s Audit Bureau of Circulation，www.abc.org.uk）,网站标准联合产业委员会（the Joint Industry Committee for Web Standards，www.jicwebs.org）以及网站分析协会（the Web Analytics Association，www.webanalyticsassociation.org）。

　　对于不同的定义，最终可能的结果是，某一些被最多人使用的度量定义将成为业界约定俗成的定义，被最终成为实施标准。

　　但，千万别觉得一个网站分析工具的定义就代表了网站分析业界，那也许只是无数种定义和规定中的一种罢了。关键，是要理解这些度量存在的目的是什么，以及它对应的网站在现实世界中的状态是什么。

最基本的度量构成复合度量

　　最基本的度量非常简单，不足以描述更复杂的网站浏览行为，因此人们开始引入复合度量。所谓复合度量，就是多个基本度量应用四则运算组合而成的新度量。比如bounce rate，比如exit rate，比如PV / visit。

　　复合度量给新手朋友们带来了许多困扰。下面的文字希望能够解决你们的困扰。

　　首先看看Bounce Rate。Bounce Rate被称为跳出率（Google Analytics），或者蹦失率（China Web Analytics），你可以选择任何一种叫法，大家应该都能听得懂，我喜欢我发明的后者。

　　Bounce Rate一定要记住以下几点：

Bounce Rate不是衡量所有页面的度量，而是衡量所有页面仅仅作为landing page时候的度量。
它是一个特殊的度量。它可以衡量整个网站的表现，也可以用来衡量某个页面作为landing page时的表现。即，它既是一个网站级的度量，又是一个页面级的度量，关于这个，本文的后面再讲。
不同的网站分析工具对它的定义不同。（如果你想了解这一点，一定要读这个帖子：网站分析的最基本度量（5）——Bounce Rate。）
它的公式不重要，它的目的和含义更重要。

　　现在我来谈谈它的目的是什么。

　　Bounce Rate的目的非常明确，即帮助人们搞清楚访问者进入你的网站的第一印象如何。请注意，是第一印象，是从网站外部进入网站的第一印象。

　　在这个目的之下，人们开始想，该怎样用一个度量来描述它呢？人们最先想到的，是用你进入网站开始到离开网站的时间间隔。比如，你来到腾讯网，你随便看了几眼，然后啐了一口口水说，“草，垄断”，然后就关了窗口，整个过程可能就5秒钟。这说明这个网站给你的印象不佳。所以，用时间来描述真是一个好主意。这是人们最初设想的方法，也是Avinash先生最初在他的博客上提倡的方法。

　　可是这个方法，存在一个很大的问题，那就是时间问题。你可能讨厌腾讯网，但由于网页tab的存在，你可能并不急于关闭它，而是打开一个新的网页，例如打开360杀毒的首页，津津有味的读起周鸿祎先生抨击腾讯网的“檄文”，然后半个小时后才发现怎么“恶心的”腾讯网还开着，这才关掉它。这个时候，时间来判断就存在偏差。另外一个很大的问题是，网站分析工具对于时间的监测和我们真实的在网页上浏览的时间并不可能完全一致。因此，时间方法来衡量网站第一印象，执行起来挺难。

　　但是人脑总是聪明的，虽然站在宇宙尺度上这样的聪明不过是浮云，和凤姐的美貌程度不见得能有多大差异，但我们并不畏惧困难。因此，另一种想法诞生了——如果你进入这个网站的第一页就觉得讨厌，那么你不太可能花费时间继续浏览这个网站的其他页面，这就使bounce rate诞生了。bounce rate衡量的就是——只访问一个页面的访问（visit）占总体访问（visit）的比例，或者是只访问一个页面的访问者（visitor）占总体访问者（visitor）的比例。至于何种数学定义并不重要，关键是，人们总算找到了一个跟时间无关的，而且容易计算的方法来衡量网站的第一印象。

　　这就是bounce rate的故事，所以bounce rate不用来衡量所有页面的所有访问，而只是用来衡量页面作为landing page时候的访问印象，因为landing page才是网站带给访问者的第一印象。所以，你也应该明白：一个网站的每个页面都有可能是landing page（因为搜索引擎能够把流量带到你的网站的任何一个页面上），但相对于不同的visit，每个页面只有一部分可能是landing page——当且仅当这个visit进入网站访问的第一个页面是这个页面时。

　　Exit Rate呢？则是另外一个故事。Exit Rate衡量的是人们离开网站的行为。人总要离开一个网站，虽然我想吉尼斯世界纪录应该统计连续上网时间最长的人，但这个人毕竟也是会死的，所以即使他能100年持续访问一个网站，他也终须离开他心爱的网站。再说，cookie也没有那么长的时限。因此，人们更多的从网站的什么地方离开这个网站成为大家关心的问题。

　　Exit rate就是衡量这个事情的，说白了，exit rate就是一个网页作为网站出口的几率大小。exit rate=87%，就说明，经过这个页面所有的访问中，有87%的可能性从这个页面离开网站。这个网站当然要承担不能“留住”访问者的责任。

　　这样看来，bounce rate和exit rate两个度量被发明的初衷是没有什么关系的，它们各自衡量各自的，虽然很像，但其实逻辑完全不同。我刚刚学习网站分析的时候，我也很疑惑，拼命想搞清楚这两个度量的关系。现在看来，搞清这两者的关系其实没有多大意义，搞清楚什么时候该用它们中的哪一个才更有意义。

网站分析度量

　　所以，我们不要让复合度量在数学上弄糊涂我们。我相信Google Analytics被发明出来的时候没有想到人们最后会那么精确计算这些复合度量，所以我们才会现在发现Google Analytics上有那么多数字对不拢的情况。但是，这根本不妨碍我们分析，因为在什么情况下该用什么我们早已了然于心。

计数度量和复合度量

　　现在，总结一下什么事计数度量，什么事复合度量。计数度量（count）是指不需要计算的，以记录个数、次数、时间长短等为目的的一元度量。page view，visit，visitor都是计数度量，overall time on page，也是计数度量。计数度量不可以再拆分。

　　复合度量(calculate)是指由多个计数度量进行公式运算（一般是四则运算）组合而成的度量。例如，我们常用的衡量访问者访问页面广度的度量——page view/visit，即是用page view除以visit而得来。

　　计数度量和复合度量有涉及到如何通过数据表达的问题。通常，网站分析对于度量具体数值的表达都是用计数的方法展现的，例如，网站在5月份的visit是34,567个，访问者是23,456个云云。计数度量常常都对应其数据报告的计数表达。

　　对于复合度量，同样也用计数报告来表示，例如网站的bounce rate是13.3%。计数报告是最常见的网站分析报告。下面的报告就是典型的计数报告：

　　另一种报告被称为分布报告，记录了不同统计维度的分布情况，例如图D就是一个典型的分布报告，标明了不同路径长度所对应的visit的数量。

　　下图也是一个典型的分布报告，所展示的是不同时间长度的访问的数量分布：

　　计数报告和分布报告都是网站分析工具常用的数据展示形式，在制作网站分析报告的时候，我们也同样经常使用这两种形式。可以说，计数和分布是我们每天都要打交道的最常见模型。

今天继续度量这个话题，对Visitor和Visit进行更深入一点儿的挖掘。这个话题本来是不存在的，但是看到大家对这个系列第一集中关于visitor和visit的一些小疑惑，发现还是值得拿出来再说一说。仍然说它的原因，并不在于让大家死记住这两个度量本身的相关规定，而是这两个度量涉及了原理、方法和工具，这些是更有价值的知识。

为什么Visitor和Visit容易让我们疑惑？

　　Visitor让我们疑惑的，值得澄清的地方在于如下几点：

Visitor的含义是指访问的人数，但visitor并不可能等同于真正的访问你的网站的自然人的数量。
Visitor与visit和page view这两个度量不同的是，visitor跟时间的粒度（granularity）有关：即使相同的时间长度，时间粒度取的不同，visitor的数量也会不同。
相对而言，利用log file（日志法）对visitor的计数有先天不足，因此visitor这个概念对日志法较少使用。（关于什么是日志法，什么是标记法请看我的这个文章：服务器日志法网站分析的原理及优缺点）

　　对于上面三点稍作一点儿解释。第一点，visitor的含义是网站的访问人数，是具体的人。可是，并不可能真正知道到底有多少人访问了你的网站。为什么呢？假如你和你的朋友公用一台电脑，而且都用同一个浏览器访问我的博客（www.chinawebanalytics.cn, www.cwachina.com)，这个时候用技术的方法来精确分辨出是两个访问者非常困难——总不能在你的电脑上装上一个摄像头窥视吧！因此，无论技术发展到何种程度，我认为100%准确记录访问网站的人数都是不太可能的，不仅是网站分析的工具难以做到，其他不同方法和不同工具也做不到（关于网站分析计数准确性的研究，请大家看这篇文章：网站分析——我们的数据准确吗？）。因此，人们采用了一些变通的方法来解决识别visitor数量的问题，我后面会重点讲到。

　　第二点，visitor跟时间的粒度有关。所谓粒度，就是我们所说的截取的时间范围。举个例子，2010年11月14日到11月20日这一周的七天，你在每天都访问了CWA网站一次（感谢这么忠诚的读者。:) ），那么如不同的时间粒度下visitor的计数不同。Weekly visitor是1，而daily visitor则是7。值得注意的是，对于所有的网站分析工具，weekly、monthly或者quarterly、yearly这样的时间粒度都是指日历上的自然周、月或者季度和年。因此，虽然11月24日到11月30日也是七天，而且你分别在这期间的11月25日和11月29日访问了我的CWA网站，weekly visitor仍然会被记录为2。

　　第三点，日志法对于记录visitor的数量是采用分辨IP的方法的。因此，在日志法中，我们常常提到的一个概念是独立IP的数量，并借此指代实际的访问者数量。但是，今天的IP地址已经不可能再跟计算机一一对应了，更不用说跟使用计算机的人一一对应。因此，用这个方法统计visitor的数量存在很大误差，逐渐被人们抛弃掉。

　　相对而言，visit的麻烦其实更多一点：

为什么要存在visit？
Visit和session是什么关系？
关闭浏览器窗口对visit的计数有没有影响？
关闭浏览器标签（Tab）对visit的计数有没有影响？
从不同来源访问网站，一定会使这个网站visit的计数增加吗？
Visit和unique page view是什么关系？

　　这些问题普遍反映了大家对visit和（标记法）网站分析的疑惑，但实际上，如果我们深入领会了visit的本质，解答这些问题其实很容易。

　　首先，为什么要存在visit？我们说过，网站分析不是分析孤立的数据（这是跟过去网站简单的流量统计有本质的区别的地方），而是分析网站访问者的行为。page view本身是一个个的孤立数据，不能解答网站访问过程中，网页之间的相互关系。例如，我说首页的page view是19,807，网站分析工具频道首页的page view是2,303次，这不能说明首页就一定更受欢迎。而visit，是指访问者来到网站的一系列打开页面的访问过程，是行为，是联系page view和visitor的桥梁。Visit这个度量的重要性就在于，它几乎是其他所有网站分析度量的基石，或者直接影响到了其他所有的网站分析度量。

　　其次，visit和session是什么关系呢？session和visit肯定不完全是一回事，但是你可以认为这二者是一样的名词。因为这涉及到一些历史。session是计算机原理课中的一个名词，即一个“会话”，如果你学过网络的七层结构模型，你就一定还记得其中有一个session layer——会话层，就是指它。在日志法网站分析中，人们用session来表示一个连结的建立和解除，以用之描述visit。不过，由于标记法网站分析的出现，visit直接采用了别的更好的方法表述（马上也会重点讲到），这样就使session这个名词实际上弃用了，而直接使用visit来表示一次访问行为。当然，session作为技术上的一个名词，是不会被丢掉的，但在网站分析上，人们采用了更符合自然语言的表达。

　　剩下还有几个问题，关于visit的计数，以及visit和unique page view的关系，我会在下面首先跟朋友们解答visit和visitor的计数原理，然后在这个系列的下一篇中说明visit和unique page view的区别和联系，因为这一点将要引发出来的课题非常重要。为了弄清楚网站分析工具对于visit和visitor的计数，我们先要搞清楚怎样查看网站分析是否记录到了网站访问者的行为数据。

怎样查看网站分析工具是否捕捉到了数据

　　回答这个问题，我们不能靠猜测了，我们要用几种HTTP Sniffer（HTTP数据包嗅探器）工具（其实一般一种就够了，但不妨我们多了解几种）来探测，如同用雷达探测天上的飞机。首先，我推荐一个我最喜欢的工具：

HttpWatch

　　HttpWatch（http://www.httpwatch.com/）肯定不是最强大的，但我觉得是最容易上手的，能够跟IE和火狐很好的整合，并且很稳定。

其他工具

　　然后其他工具大家也可以试试。Charles（www.charlesproxy.com/），是最强大的工具。firebug，主要用来查看cookie，这是个免费工具。另外还有WASP（http://webanalyticssolutionprofiler.com/），专门用来查验各种网站分析工具的软件。还有httpfox，也是免费的，从firefox的插件库中可以找到，功能也基本上齐全了。

　　如果不想付费，建议装上httpfox（或者基本版的HttpWatch），firebug和WASP（试用版）就足够了。

怎样查看网站分析工具是否捕捉到了数据

　　下面我以HTTPWatch为例，介绍如何查看网站分析工具是否捕获到了数据。对这个部分熟知的朋友直接跳过。

　　1. 在Firefox浏览器空白页中，打开（快键Shift+F2）打开HTTPWatch。

　　2. 启动HTTPWatch的记录模式，即点击下图中的红色框中的红button。

　　3. 在地址栏中输入你要检查的网页URL，打开网页。这个步骤可不需要拘泥于在地址栏中输入URL，你一样可以通过点击外部链接来到这个页面，HTTPWatch仍然会忠实的记录页面打开过程中的HTTP数据包。这时，你可以看到一条条的浏览器传输的数据记录产生了。

　　请千万不要把这些记录当做是网站服务器的Log记录，这是两回事。

　　4. 上面的数据很多，怎么能看到网站分析工具捕获的数据呢？利用过滤功能就好了。利用快捷键Ctrl+F9，调出过滤器，然后勾选Enabling Filtering，再勾选URL Contains，其下输入“-analytics”，再点OK之后就过滤出页面中GATC（Google Analytics Tracking Codes）发送的信息，如图所示的两条。如果你的页面上加有多个GA profile ID，那么这个数据也可能是多条。如果过滤之后没有数据了，说明网页没有正常运行GATC，或者没有加入GATC，那当然就是不能完成正常监测啦。

　　对于Omniture SiteCatalyst，在过滤器中输入“2o7”，就能把只是Omniture Tracking Code发出的监测数据过滤出来。

　　现在，你有了这个好武器，它的用途可不只是让你看看监测代码正常工作了没有。我们下面要用它来检查网站分析工具是如何计数visit和visitor的。

Visitor和visit如何计数？

　　你可能会问，上面过滤之后的这两条信息是什么东西？想要搞清楚这个问题，我们得打开另外一个话题，即网站分析工具获取数据的原理。如果大家感兴趣，我会另开一篇帖子，如果没兴趣就算了，反正也不太影响大家直接进行网站分析的实践，在我未来计划（现在还只是计划，实在是忙的对不起大家）的书中会再专门提及。下面我们还是聚焦在网站分析工具如何计数这个问题上。

　　你可以先阅读这个帖子——网站分析工具如何辨别UV，然后再继续往下看，一定会有新的收获。在标记法的网站分析中，除了page view之外，visitor和visit以及一切我们分析报告中显现的度量和计数其实都是通过cookie实现的，只有在没有cookie的情况下，才通过其他的方法实现，因此，如果想要搞清楚visitor或者visit到底是如何被网站分析工具记录的，最好的办法是直接看看cookie是怎么记录的。

　　不同网站分析工具cookie记录的方法有所不同，但核心思想是一致的。因此，这里先说说Google Analytics的cookie设置，未来有机会再聊Omniture SiteCatalyst的，因为后者的架构相对更加复杂。

Google Analytics的cookie设置

　　利用HttpWatch，我们点入第二条信息，然后选择“Query String”标签，在下方的检视窗口中出现了更多的信息。

　　先不管其他信息，我们直接看utmcc，这条记录是GA跟visit和visitor相关的cookie信息。如下：

utmcc __utma=148702437.1696395432.1289879776.1290424992.1290508917.6;+__utmz=148702437.
1289882757.1.6.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90;

　　现在，我们一条条的看这些数据到底是什么意思。

utma

　　记录visitor的信息，utma后面的信息，包括域的hash值，visitor的ID、访问时间相关信息和访问次数。utma对应的信息，除非人为删除，否则它在两年后才失效。为了免去我自己作图的痛苦，我直接利用了Google转化大学中的图，因此下图中的数字信息跟上面的不一样，但相应信息的含义是完全一样的。

本图的来源为http://services.google.com/analytics/breeze/en/ga_cookies/index.html
版权归Google所有

　　第一个蓝色的字段是域名的哈希串，对于一个确定的域名来说，这个值是不会改变的。

　　第二个字段（绿色字段）是识别visitor的ID，就是这个绿色字段，标识了不同的访问者，不同的值就意味着不同的访问者。这就是GA能够辨别不同访问者的原因。这个值如果不发生人为地删除cookie的情况的话，两年后才会被替换为一个新的值。

　　第三个字段（紫色字段）是这个visitor第一次访问网站的时间，如果不删除cookie，两年内这个值也不会变。这个时间是UNIX时间，0000000001代表着1970年1月1日0点0分1秒，之后每过一秒，数字加一。实际上UNIX时间是有点小错误的，但是已经不会再对使用产生影响。这里同学们需要注意了。这里以及cookie中其他的UNIX时间记录，构成了GA的整个时间度量系统。时间是这么创造的！

　　第四个字段（浅蓝色字段）是这个visitor前一个visit开始的时间。

　　第五个字段（浅紫色字段）是这个visitor这一次visit开始的时间。

　　第六个字段（最后那个独立数字）太重要了，是记录这个visitor访问网站的次数。

　　现在，再回头看看前面的我的网站（CWA，China Web Analytics，http://www.chinawebanalytics.cn）的utma，大家会发现这个visitor（就是我）已经有6次访问了。

　　通过第六个字段值的增加与否，就能判断GA是否记录某一次访问行为为一次新的visit。

utmz

　　utmz的功能是用来记录网站访问者的来源（即Traffic Source或者Campaign），如下：

　　这里各个字段的含义除了Campaign Number之外就不多解释了，大家肯定能看懂。Campaign Number是指这个访问者通过不同来源（除了直接来源）访问网站的来源数。如果通过了一个新的来源访问了网站，即使是在一个visit之内，campaign number也会加一，但visit并不会增加。

　　Campaign number的作用我并不是很明确，很希望知道的朋友告诉我。我知道的是，如果在一个visit之内，访问者通过多个来源访问了网站，那么GA默认把最后的那个来源归为这个visit的主人。如果你用utm_nooverride=1配置，那么GA则会把第一个来源记录为这个visit的主人。

utmb和utmc

　　utmb和utmc是另外两个重要的cookie信息，在免费版本的HttpWatch中看不到，不过没关系，大家用firebug就能看到。

　　简单讲，utmb和utmc都是记录visit的cookie。两个cookie的区别是，utmb在30分钟后过期，如果utmb过期刷新，那么visit也被刷新。utmc是浏览器关闭则随浏览器一起关闭（失效），再打开浏览器访问那个网站，visit也被刷新。这就是为什么GA的visit在不活动30分钟后结束，以及关闭浏览器结束的原因。

=====================以上摘自：http://www.chinawebanalytics.cn/

你可能感兴趣的:(网站分析)

爬虫技术：从数据获取到智能分析的进阶之路代码老y 爬虫
一、爬虫技术的数据获取爬虫技术的核心是数据获取。通过模拟人类浏览网页的行为，爬虫可以自动访问网站，获取网页内容。数据获取的过程可以分为以下几个步骤：（一）目标网站分析在开始爬取之前，需要对目标网站进行详细的分析。了解网站的结构、数据加载方式、反爬虫机制等。例如，如果是动态网站，需要了解数据是如何通过JavaScript动态加载的；如果是静态网站，可以直接通过HTML解析获取数据。（二）数据爬取根据
Python 爬虫实战：信用评分数据抓取与深度分析，精准洞察信用平台西攻城狮北 python 爬虫开发语言实战案例
引言本文将带你学习如何使用Python的爬虫技术抓取信用平台的信用评分数据，并进行深度分析，帮助你精准洞察信用平台的用户信用情况。一、目标网站分析假设我们要抓取的信用平台提供了用户信用评分数据，信用评分数据通常包括以下几个字段：用户名用户所在城市信用评分评价数量积分我们需要找到目标网站的URL，并分析其页面结构，以便后续抓取数据。二、爬虫环境搭建1.安装所需库我们使用以下库来完成爬虫任务：requ
MediaWiki 是一个免费开源的维基软件西里网开源
参考资料Matomo（原名Piwik）是一个开源的网站分析平台Composer是PHP的依赖管理工具能否用Docker替代虚拟化？Hello-World是一个最简单的Docker镜像PHP是一种开源的服务器端脚本语言MongoDB是一个开源的NoSQL数据库Monica是一款开源的个人关系管理（PRM）工具Hitch是一个高性能的HTTP代理服务器MediaWiki简介MediaWiki是一个免费
Python 爬虫实战：在爱奇艺抓取热门剧集播放量数据，剖析影视市场走向西攻城狮北 python 爬虫实战案例爱奇艺
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍1.3法律和道德注意事项二、抓取热门剧集播放量数据2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、剖析影视市场走向4.1热门剧集分析4.2市场趋势预测4.3提示与建议五、总结与展望5.1总结5.2展望引言在数字化时代，视频平台成为人们获取娱乐内
Python 爬虫实战：体育赛事数据全方位抓取与深度分析西攻城狮北 python 爬虫开发语言
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取赛事列表(2)爬取赛事详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今信息爆炸的时代，体育赛事数据的获取对于体育爱好者、赛事分析师、俱乐部管理者等都有着极其重要的价值。通过Py
Python 爬虫实战：抓取星巴克官网咖啡新品销量数据，分析咖啡消费趋势西攻城狮北 python 爬虫实战案例星巴克官网
一、引言二、环境搭建1.安装Python2.安装必备库三、目标网站分析1.确定目标数据2.查看网页源码3.分析分页四、编写爬虫代码1.发送HTTP请求2.解析HTML数据3.处理分页4.存储数据五、数据分析与可视化1.数据清洗2.数据分析3.数据可视化六、结果解读与应用1.消费趋势洞察2.商业建议七、注意事项1.遵守法律法规2.控制爬虫速度3.处理异常4.数据存储格式5.模拟浏览器行为八、拓展思考
Python 爬虫实战：在美柚抓取女性健康话题讨论数据，关爱女性健康西攻城狮北 python 爬虫实战案例美柚
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍1.3法律和道德注意事项二、抓取女性健康话题讨论数据2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、总结与展望4.1总结4.2展望引言在互联网时代，女性健康话题在社交平台上的讨论日益增多。美柚作为一个知名的女性社区，汇聚了大量关于女性健康的讨论
网红商品数据抓取：基于Python的高效爬虫实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫数据分析
随着电子商务的快速发展，网红商品逐渐成为消费者关注的焦点。这些商品的销售数据、用户评论和品牌信息对商家制定营销策略和消费者选择商品有重要参考价值。本篇博客将介绍如何使用Python构建一个高效的爬虫程序，抓取网红商品的相关数据。目录一、项目背景与目标1.1背景1.2目标二、技术选型三、爬虫实现过程3.1环境准备3.2目标网站分析3.3核心代码实现3.3.1导入依赖库3.3.2初始化浏览器驱动3.3
Python 爬虫实战：在丁香医生抓取健康科普文章阅读量，普及健康知识西攻城狮北 python 爬虫实战案例丁香医生
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍二、抓取健康科普文章阅读量2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、普及健康知识4.1选择热门文章4.2分享健康知识五、总结与展望5.1总结5.2展望引言在数字化时代，网络成为人们获取健康知识的重要渠道。丁香医生作为一个知名的健康科普平台
Python 爬虫实战：抓取舌尖上的中国官网美食周边销售数据，拓展美食文化西攻城狮北 python 爬虫美食实战案例舌尖上的中国
一、引言二、环境搭建1.安装Python2.安装必备库三、目标网站分析1.确定目标网站2.查看网页源码3.分析分页四、编写爬虫代码1.发送HTTP请求2.解析HTML数据3.处理分页4.存储数据五、数据分析与拓展1.分析数据趋势2.拓展美食文化六、注意事项1.遵守法律法规2.控制爬虫速度3.处理异常七、总结八、拓展思考一、引言美食文化的传播与认知，在当今信息时代中，不仅仅局限于传统的烹饪技巧分享、
Python 爬虫实战：在喜茶官网抓取奶茶口味受欢迎程度数据，研发新品西攻城狮北 python 爬虫开发语言实战案例喜茶
一、引言二、环境搭建1.安装Python2.安装必备库三、目标网站分析1.确定目标数据2.查看网页源码3.分析分页四、编写爬虫代码1.发送HTTP请求2.解析HTML数据3.处理分页4.存储数据五、数据分析与可视化1.数据清洗2.数据分析3.数据可视化六、基于数据的新品研发策略七、注意事项八、总结九、拓展思考一、引言在当今数字化时代，数据驱动的决策变得越来越重要。对于奶茶行业而言，了解不同口味奶茶
Python 爬虫实战：于麦当劳官网抓取套餐销售情况，优化营销策略西攻城狮北 python 爬虫开发语言实战案例麦当劳官网
一、引言二、目标网站分析1.确定目标数据2.查看网页源码3.分析分页三、编写爬虫代码1.发送HTTP请求2.解析HTML数据3.处理分页4.存储数据四、数据分析与可视化1.数据清洗2.数据分析3.数据可视化五、基于数据的营销策略六、注意事项七、总结八、拓展思考一、引言在当今数字化时代，企业越来越依赖数据来进行决策和优化策略。麦当劳作为全球知名的连锁快餐品牌，其套餐销售数据蕴含着丰富的信息，可以帮助
用 Python 爬虫抓取新闻评论数据：从爬取到情感分析的实战案例西攻城狮北 python 爬虫开发语言实战案例
目录一、搭建开发环境1.依赖库安装2.配置虚拟环境（可选）二、目标网站分析1.网页结构分析2.动态内容识别三、编写爬虫代码1.从静态页面抓取数据1.1获取页面内容1.2解析HTML1.3完整示例2.抓取动态加载内容2.1配置Selenium和ChromeDriver2.2模拟浏览器抓取3.处理分页四、数据清洗与存储1.数据清洗2.数据存储五、情感分析1.中文分词2.情感分析3.批量情感分析六、数据
Python 爬虫实战指南：打造专属健身数据爬虫，挖掘健康价值西攻城狮北 python 爬虫开发语言健身
一、引言在当今数字化时代，个人健康与健身数据的收集和分析对于保持良好的生活方式至关重要。通过构建一个个人健康与健身数据跟踪系统，我们可以自动收集、整理和分析各类健康数据，如体重变化、运动记录、睡眠质量等，从而为个人健康管理提供有力支持。本文将详细介绍如何利用Python爬虫技术实现这一系统的构建，涵盖从目标网站分析到数据可视化展示的完整流程。二、目标网站分析选择一个包含个人健康与健身数据的网站作为
Python 爬虫实战：抓取芭比官网娃娃款式受欢迎程度数据，引领儿童时尚西攻城狮北 python 爬虫开发语言实战案例芭比官网
一、项目背景二、环境搭建1.安装Python2.安装必备库三、目标网站分析1.确定目标数据2.查看网页源码3.分析分页四、编写爬虫代码1.发送HTTP请求2.解析HTML数据3.处理分页4.存储数据五、数据分析与可视化1.数据清洗2.数据分析3.数据可视化六、基于数据的儿童时尚引领七、注意事项八、总结九、拓展思考一、项目背景在当今数字化时代，数据已成为企业决策的重要依据。对于儿童时尚行业而言，了解
selenium之cookies 小鑫仔_x Selenium selenium python 测试工具
什么是cookiesCookies是Web服务器存储在用户计算机（通常是浏览器）上的小型文本文件。它们用于记住用户的状态或信息，以便在用户浏览网站的不同页面或稍后再次访问该网站时能够被识别。Cookies的主要用途包括会话管理：保持用户的登录状态、购物车内容等。个性化：存储用户的偏好设置，如语言、主题等。跟踪：记录用户的浏览行为，用于网站分析和广告投放。每一个cookie通常包含以下信息名称(Na
Python 爬虫实战：家装行业数据抓取与多维度分析西攻城狮北 python 爬虫开发语言
一、引言在当今竞争激烈的家装市场中，数据驱动的决策变得越来越重要。通过抓取和分析家装行业的数据，企业可以更好地了解市场趋势、消费者偏好以及竞争对手的动态，从而制定更有效的营销策略和产品规划。本文将详细介绍如何利用Python爬虫技术抓取家装行业的数据，并进行多维度的分析，帮助读者构建自己的数据驱动决策系统。二、目标网站分析选择一个包含家装行业数据的网站作为数据源是关键。以某知名家装平台为例，该网站
深入解析JavaScript混淆加密与Python逆向调用实战-题八木觞清 javascript python 开发语言
一、前言：Web接口加密与逆向挑战在现代Web开发中，前端加密技术被广泛应用于保护API接口安全，防止恶意爬取和数据泄露。本文将通过一个真实案例，详细解析如何分析JavaScript混淆加密算法，并使用Python实现自动化调用。二、目标网站分析我们的目标是stu.tulingpyton.cn网站的API接口，该接口有以下安全特征：请求参数需要动态加密使用时间戳和自定义加密算法采用cookies会
Python 爬虫实战：跨境物流效率分析与物流信息抓取西攻城狮北 python 爬虫开发语言
一、引言在全球化背景下，跨境物流的效率对于电商企业、进出口贸易商以及消费者都至关重要。通过分析跨境物流效率，企业可以优化供应链管理，消费者可以更好地预测商品到货时间。本文将详细介绍如何利用Python爬虫技术抓取物流信息，进而分析跨境物流效率，涵盖从目标网站分析到数据可视化展示的完整流程。二、目标网站分析选择一个包含跨境物流信息的网站作为数据源是关键。以某国际物流信息平台为例，该网站提供了丰富的物
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python 爬虫实战：于好大夫在线抓取医生评价数据，选择优质医疗服务西攻城狮北 python 爬虫实战案例好大夫在线
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍二、抓取医生评价数据2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、选择优质医疗服务4.1选择标准4.2推荐医生4.3分享推荐五、总结与展望5.1总结5.2展望引言在当今医疗信息爆炸的时代，选择一位合适的医生对于患者来说至关重要。好大夫在线是一
Python 爬虫实战：科学知识收集网站构建西攻城狮北 python 爬虫开发语言
一、引言在信息爆炸的时代，科学知识的收集与整理变得尤为重要。通过构建一个科学知识收集网站，我们可以高效地获取、整理和展示各类科学知识，为科研人员、学生以及科学爱好者提供便利。本文将详细介绍如何使用Python爬虫技术构建这样一个网站，涵盖从目标网站分析到数据存储与展示的完整流程。二、目标网站分析选择一个合适的科学知识网站作为数据源是构建收集网站的第一步。以中国科学院（http://www.cas.
python爬虫项目（一百九十八）：电商平台用户行为数据分析与推荐系统、爬取电商平台用户行为数据人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析开发语言信息可视化 okhttp
在现代电商平台中，用户的行为数据对于优化用户体验、提升销量以及个性化推荐至关重要。通过抓取和分析用户的浏览、点击、购买等行为数据，电商平台能够更好地了解用户的偏好，从而推荐相关产品，增加用户的黏性和购买意愿。本篇博客将详细介绍如何通过爬虫技术抓取电商平台的用户行为数据，并结合数据分析和推荐算法，构建一个简单的推荐系统。目录一、电商平台用户行为数据二、爬虫技术实现2.1网站分析2.2使用Seleni
使用Python爬虫抓取并分析电商网站销量数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
目录：前言爬虫基础概念什么是Web爬虫爬虫的工作原理Python爬虫库介绍准备工作安装所需的库选择目标电商网站分析目标电商网站使用浏览器开发者工具分析页面结构识别需要抓取的销量数据构建爬虫程序使用requests获取网页使用BeautifulSoup解析静态网页使用Selenium抓取动态页面防止反爬虫技术模拟浏览器请求使用代理池随机延迟请求抓取电商网站的销量数据抓取商品标题、销量、价格等信息处理
【Python爬虫(67)】Python爬虫实战：探秘旅游网站数据宝藏奔跑吧邓邓子 Python爬虫 python 爬虫开发语言旅游网站
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬虫前期准备2.1目标网站分析2.2技术栈选择2.3环
【Python爬虫(15)】从0到1：Python爬虫实战攻克电商网站动态数据堡垒奔跑吧邓邓子 Python爬虫 python 爬虫开发语言电商网站动态数据
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、准备工作2.1环境搭建2.2目标电商网站分析三、攻克登
汽车行业汽车召回数据爬虫：抓取汽车召回数据，分析产品质量和安全问题西攻城狮北汽车爬虫安全 python 实战案例
目录一、搭建开发环境1.依赖库安装2.配置虚拟环境（可选）二、目标网站分析1.网页结构分析2.动态内容识别三、编写爬虫代码1.从静态页面抓取数据1.1获取页面内容1.2解析HTML1.3完整示例2.抓取动态加载内容2.1配置Selenium和ChromeDriver2.2模拟浏览器抓取3.处理分页四、数据清洗与存储1.数据清洗2.数据存储五、数据分析与可视化1.数据分析2.数据可视化六、项目优化1
64个数据分析常用术语详解【数分必备干货】扫地僧009 数据分析人工智能数据挖掘
目录一、基础统计指标1.绝对数2.相对数3.百分比和百分点百分比百分点4.频数和频率频数频率5.比例与比率比例比率6.倍数和番数倍数番数7.同比和环比同比环比二、变量相关概念1.变量2.连续变量3.离散变量4.定性变量三、数据集中趋势与离散程度指标1.均值2.中位数3.缺失值4.异常值5.方差6.标准差7.皮尔森相关系数四、网站分析指标1.PV（PageView）页面浏览量2.UV（UniqueV
使用 Python 爬虫获取金融市场数据（股市、汇率等） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据分析
目录项目背景与目标技术栈与工具选择目标网站分析爬虫架构设计股市数据爬取汇率数据爬取爬虫优化与反爬虫策略数据存储与管理数据分析与可视化总结与展望1.项目背景与目标1.1金融市场数据的重要性金融市场数据，如股票、债券、汇率、商品期货等，广泛应用于各种分析领域，如投资策略优化、市场预测、风险评估等。在现代金融分析中，获取并处理实时、准确的金融数据至关重要。无论是个人投资者，还是机构投资者，都需要获取市场
python爬虫项目（八十二）：爬取旅游攻略网站的用户评论，构建旅游景点推荐系统人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫旅游开发语言金融信息可视化
构建一个旅游景点推荐系统，可以帮助用户根据他们的偏好和其他用户的评论来选择旅行目的地。在这个项目中，我们将通过爬取旅游攻略网站的用户评论数据，分析这些数据，并使用协同过滤等推荐算法来构建一个基本的推荐系统。本文将详细描述整个过程，包括爬虫部分和推荐系统的构建。目录文章大纲一、项目背景与目标项目的目标：二、目标网站分析与数据需求数据需求：目标网站：三、爬虫技术选型安装所需库四、使用Scrapy爬取用
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =