前言:
-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号(文末扫描二维码或点此加入)
(作者:DeeperMan)
提到流量运营的历史,我们首先需要简单介绍一下互联网的历史。人类最伟大的构想往往都需要几代人不断地尝试和完善,蒸汽机如此,飞行器如此,攻克癌症也将如此。从1876年贝尔发明了电话起,整个20世纪人类都在不断尝试如何远距离传输除语音以外的信息或者数据,从20世纪初特斯拉即已经有了互联网的构想,同时Otlet等一大批先驱在不断探索和完善信息的数字化存储和读写技术,1960年MIT教授Licklider提出了“IntergalacticComputerNetwork”即IGCN理论,为现代互联网概念奠定了基础。直到1990年,现代互联网才真正诞生,英国人TimBerners-Lee提出并成功实现了基于客户端和服务端之间通信的HTTP协议。
流量分析只比互联网诞生晚几年,作为一个生态,互联网需要有人提供服务,同时也需要有人消费服务,而在互联网上经营服务跟在线下经营五金店一样,如果想要成功,需要时刻关注来访问的顾客的情况:今天有多少人来消费?有多少人来了但是没有购买?我的顾客有一些什么特点?为什么今天的销售额比昨天少了很多?
1993年,在互联网诞生3年后,全世界有大约600个网站,如果你有幸成为这600个提供互联网服务的网站主之一,要回答这些问题就没有这么容易了,首先你面对的是你的服务器上的一大堆服务请求日志,大概长成这样:
如果你不是学计算机专业的,基本不大可能从成千上万的日志中获得任何有用的信息。有了痛点自然就有解决痛点的产品诞生。此时,历史的潮流将一家叫WebTrends的公司推向了沙滩,这家公司今天依然存在,当然技术上早就与时俱进了。然而,在1993年,它仅仅为网站主提供了一个简单服务端日志解析和分析的服务,可以认为就是设计了一个grep语句将这些日志的IP地址信息提取出来去重,然后告诉网站主今天有多少人访问了网站。这家公司因为这个idea在2001年卖了11亿美元,同时这个idea催生了一个叫digital analytics(流量分析)的行业的诞生,并且每年产生上千亿美元的revenue。
# 划重点的1995年
1995年是互联网发展的重要一年,Amazon, Craigslist, eBay领头的电子商务开始进入互联网,Match.com也将社交需求带到了网上,Yahoo在之前一年已经上线,随着互联网服务的日益丰富和多样化,Windows 95的火爆登场,个人电脑大卖,网民数量也出现了爆炸式增长,WebTrends已经无法满足大的网站主洞察客户的需求。
此时诞生了Analog,一款免费的流量分析工具,并且提供一定的可视化分析能力。当然,到目前为止,互联网网页还是以静态页面为主,如果一个用户访问了某网页,我们可以认为他访问了整个网页的所有内容,现在我们知道,这个假设很快就变成了不对的。
1996年,专业的互联网市场营销团队开始出现在一些大公司的组织架构中,他们可以熟练使用Analog这款免费工具,然而免费的工具在没有营收的支撑下总是难以满足高阶用户的需求。此时更多的玩家进入了流量分析领域,帮助网站主洞察流量和挖掘客户价值,大的网站主也开始大量投资购买流量分析软件对服务端日志进行分析。此时流量分析的四巨头出现:WebTrends, Web-counter, Accrue, Omniture。其中Web-counter开创了一种广为人知的的hit counter service, 它反向为之,针对中小网站主和在免费host网站host网页的个人网站主(他们没有读取服务端日志的权限),国内的80后互联网使用者可能并不陌生。
它的划时代意义在于让所有的网站主都可以做最直观的流量洞察,真正让流量分析做到了零门槛,网站主不需要懂如何读取服务端日志、不需要懂日志管理、不需要懂日志解析,只需要在网站里面嵌入一段简单的PHP代码即可。当然它没有fancy的分析功能,也没有任何过滤爬虫的能力。
1997年,互联网持续迭代发展,此时的网站开始注重美观,各种精装修技术开始盛行,动态加载的网页技术开始出现,服务端请求的次数跟网页的浏览次数也基本没有任何关联了,服务端日志分析已经不能精确地洞察用户行为。此时一种新的用户行为追踪技术诞生,叫做Javascript Tagging。它可以精确地追踪复杂网页的用户访问行为,tag原来是指网络请求的那张看不见的照片,它被有意嵌入在网页内的某兴趣点,当指定的用户行为被触发时会向服务器请求这张图片资源,顺便将相关的用户信息随着请求带上去。随着网页技术的发展,现在tag是指一段用来追踪用户行为的复杂的Javascript代码。除了能够进行更加细粒度的页面元素追踪外,tag还能收集到更加复杂的内容,比如购物车内的商品信息、屏幕有多大、使用了什么浏览器、视频看了多少 等等。
值得注意的是,google.com在这一年上线,之后十几年互联网技术的重大发展基本跟它有点关系。
这家公司最初在1995年创立,进入前面提到的基于服务端日志解析的流量分析服务,1997年开始发展Javascript tagging技术,到1998年,JS tagging还是将日志发送到业务服务端进行日志分析为主,其主要原因是各大互联网公司都已经投入大量资金购买流量分析软件,成本的压力让这些公司暂时还不考虑转型,此时最大的软件提供商就是Urchin,但是同时一种新的商业模式开始诞生,网站的流量数据不再发到自己的服务器,而是发送给专业的流量分析服务商管理的服务器,流量分析开始SaaS化,这种解决方案在中小企业中非常流行,同时大的host公司(为中小企业或者个人提供网站托管服务)也对此趋之若鹜。新的商业模式结合了流量分析的易用性和功能性,让Urchin成长成为了最大的流量分析服务提供商,并于2005年卖给了Google,成为了Google Analytics。
接下来从2005年到现在,流量分析从主流的Page View过渡到了in-page analytics, 再到Universal Analytics(移动互联网的兴起),再到各种纵深流量分析和运营能力构建(cross-site、machine learning、lifetime value等),流量运营出现了百家争鸣的业态。
1994年4月20日是中国互联网发展史上开天辟地的大日子,通过一根64Kb(注意是bit不是Byte)的国际专线,中关村地区教育与科研示范网络(NCFC)工程完成了与国际互联网的全功能IP连接。这一年5月中国科学院高能物理研究所设立了国内第一台WEB服务器“中国之窗”,服务于科研与教育的互联网用户主要是北京的科研院所和高校的人员。
随后两年多时间里,中国科技网(CSTNET)、中国公用计算机互联网(CHINANET)、中国教育和科研计算机网(CERNET)等相继开工建设,开始了全面铺设中国信息高速公路的历程。1996年中国第一个网吧(电脑室)在上海出现,上网价格达40元/小时,上网冲浪只能是少数人的高科技休闲方式。1997年中国电信面向普通家庭推出价格较为低廉的163网(很容易猜到后来网易选用163.com作为域名的缘由)和169网,全国各地的网吧如雨后春笋般涌现。1998年中国网民开始成几何级数增长,上网从前卫变成一种真正的需求,一场互联网带来的变革很快传遍整个中华大地。
随着上网的普及,提供上网内容的ISP也越来越多,但以复制海外的模式为主,美国出现什么新网站,中国会很快拷贝过来,一开始目标肯定是精英,3年后才会真正开始爆发流行。这个阶段逐步诞生了占据中国互联网黄金十年的三大门户:网易、搜狐、新浪。这里不展开介绍它们的业务发展和上市历程,从流量运营角度我们来看导航站和中国站长的发展,他们成为这个时代中国互联网的特色之一。
在互联网网站鼻祖雅虎刚上线时,以网站分类导航的形式提供内容服务,后来逐渐发展成搜索、门户等产品。同样得入口者得天下,中国互联网也出现了简单到基本不需要技术的导航站,这与中国网吧和网民特点密不可分。1999年还是网吧管理员的李兴平,发现找资料很困难,而且要记住英文网址难度很大,他就把中国排名前5000位的站点进行分门别类,再按用途组合在一起,做成一个“网址大全”式的网站,这就是hao123网址之家的前身。他要逐个检查链接,去除死链和非法链接、调整链接排序,工作耗时逐渐增长到每天需要6-7个小时,这就是中国站长的早期人工流量运营。
2004年hao123成为众多网吧和家用电脑的开机首页,甚至在全球权威的Alexa网络监测中,成为全球流量极大的中文网站之一。根据百度的统计,来自hao123的搜索请求广告占到整个百度的搜索量的1/10,而整个网站流量能占到百度的40%,因此这一年百度斥资1000多万现金加股票收购了hao123。蔡文胜创办的比hao123晚了4年的265.com也在2007年卖给的谷歌中国。
随着这两家被收购,网址导航的盈利模式被认可,进入了群雄争鹿的高速发展期,360依靠海量的安全卫士和浏览器装机量捆绑推广360网址导航,瞬间挤入了网址导航的第二阵营,2345依靠与热门网络应用捆绑以及强大的地推资源迅速崛起,114啦依靠与自身雨林木风盗版系统推广结合也获得大量的用户,随后的搜狗、QQ也都相继推出了自身的导航网站,网址导航逐渐成为各大公司的标配流量入口。
言归正传,在没有云计算和大数据的时代,搭建和运营网站的门槛却是极低的。国内出现了很多提供价格低廉设置免费的个人空间和二级域名服务的网站,催生了一大批站长,提供各式各样的论坛和网站。他们开始学习如何用asp、php、html和css来装修完善自己的网站。比如提供统计服务的就有热讯统计,itsun等,其中在站长服务中最有名的当属网易了,提供了免费域名、主页空间、易数统计整套方案,虽然有广告但做个初级网站还是非常容易。网易这家公司让人佩服的是,每个时代都能低调做出符合用户需求的产品,诸如门户、163邮箱、梦幻西游、网易云音乐、考拉海购都成功收获大批用户。
基础设施有了,如何提升网站访问量成了站长们关心的首要问题。在搜索引擎流量未成为主流时,统计排行榜和换量联盟(太极链、51link等)是站长们关注的重点。甚至在2005年蔡文胜举办的第一届中国站长大会上,站长们交流网站流量运营经验的同时,也在交流在各个平台刷量的葵花宝典,可见中国站长对商业化和盈利的渴望。
这个时期的统计分析工具,已经进入了基于服务器日志解析的流量分析的技术架构,除了统计网页PV、UV的这些基础指标外,做网站运营最关注的就是流量来源。通过用户来源网站统计,可以了解用户来自哪个网站的推荐、哪个网页的链接,如果是通过搜索引擎检索,可以看出是来自哪个搜索引擎、使用什么关键词进行检索,以及你的网站索引出现在搜索结果的第几页第几项。这些分析对于站长去做SEO尤为重要,所以这里展开介绍一下来源和关键词分析的技术原理。
通常有两种技术来实现来源分析,一种方案在来源页面链接加自定义参数来标注用户来源,比如在hao123首页点击百度连接后会打开baidu.com/?,tn参数就是标识来源的字段。
另一种方案通过http header中的referer作为来源,比如你在百度搜索网站hao123(记为链接A:baidu.com/s?),点击跳转后,hao123的首页(记为链接B:hao123.com/)就可以通过document.referer来获取来源为(记为链接C:baidu.com/link?)。
前一种比较适合在网站内部页面跳转中来使用,因为需要所有来源都加上相应参数;第二种更适合分析站外流量来源,往往referer的url参数会比较长,分析来源网站会截取域名段,分析来源页面时通常会取?之前的静态URL。理论上链接A就是B可以获取到的referer,也是说A=C,这样B就可以分析来源于搜索引擎的关键词了(A链接中带了搜索关键词“wd=hao123”),这就是统计分析产品中提供关键词分析的基本原理。但实际上A和C差异很大,这是为什么呢?懂点浏览器知识的观察下就明白,其实在链接A页面上点击时并没有直接跳转到链接B,而是加了跳转中间页链接C,链接C也是百度的网页,可以很灵活地控制URL中携带的参数,屏蔽目标网页C做关键词分析。
Google早在2011年推广搜索https化时开始屏蔽来源关键词分析,国内的百度是在2015年发布公告正式取消referer中关于关键词的显示,宣称此举能够更好的保护站点流量关键词数据信息,使站点数据更加私密化。私密化的结果是你只能在百度统计分析中看到关键词分析,你懂的:)
2005年后谷歌的Google Analytics和雅虎量子统计逐步进入中国,站长们见识了国际一流公司的产品。但技术实力不是占领市场的第一要素,有时体验更重要,由于国际化的产品设计理念,加上糟糕的中文翻译质量,给了国内流量分析产品不少机会。国内的创业者逐渐推出了51la、51yes、cnzz等中国第二代流量分析产品,也提供了实时在线用户统计等差异化的功能。这个时期很多站长会同时集成Google Analytics和国内流量分析工具,使用各平台的特色功能的同时也可以核对各平台数据是否一致。后来51la、51yes由于服务稳定性一直被诟病,广告过多和产品功能规划不明确,逐渐被cnzz拉开差距。cnzz将自己定位为专业、权威、客观的第三方数据统计,这迎合了国内互联网市场的巨大需求,到2008年上线4年的cnzz获得了60多万的站点用户,当时据CNNIC统计国内网站数量在192万,意味着cnzz已经覆盖了国内三分之一的站点。
百度统计测试版在2007年11月发布,2009年8月发布正式版,商业公司提供的统计服务更加稳定、安全、专业,在2010年逐渐成型后一统江湖,成为国内流量分析工具百家争鸣时代的终结者。随着国家工信部加强对域名和内容的备案审查,中小站长开始衰落,cnzz市场份额也逐步降低,网站流量分析工具也跨入被搜索引擎寡头(百度、Google)统治的时代。
移动互联网兴起,移动统计分析迅速崛起,Flurry和友盟在中美各领风骚,TalkingData、神策、阿拉丁等后期之秀异军突起。
参考文献:
a-brief-history-of-web-analytics
the-early-days-of-web-analytics
leadforensics.com/web-a
en.wikipedia.org/wiki/N
en.wikipedia.org/wiki/P
en.wikipedia.org/wiki/T
https://en.wikipedia.org/wiki/IntergalacticComputerNetwork
en.wikipedia.org/wiki/J
en.wikipedia.org/wiki/W
en.wikipedia.org/wiki/A
en.wikipedia.org/wiki/W
leadforensics.com/web-a
en.wikipedia.org/wiki/G
en.wikipedia.org/wiki/U
media.people.com.cn/n/2
old.geekpark.net/topics
http://web.archive.org
pcworld.idg.com.au/arti
iheima.com/article-1481
williamlong.info/archiv
sohu.com/a/32682577_235
meiwen.org/article/7854
数据中台是企业数智化的新基建,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。目前正通过阿里云数据中台解决方案对外输出,包括零售、金融、互联网、政务等领域,其中核心产品有:
官方站点:
数据中台官网 https://dp.alibaba.com
上云就看云栖号:更多云资讯,上云案例,最佳实践,产品入门,访问:https://yqh.aliyun.com/
本文为阿里云原创内容,未经允许不得转载。