网站数据整合的范畴
网站数据整合的范畴指的是整合的数据范围,从数据在企业中不同的支持作用来看,数据整合范畴包括业务数据整合、IT数据整合和职能数据整合;除了企业内部数据外,还包括 企业外部数据,如市场数据、行业数据、竞争对手数据等。
业务数据整合
业务数据整合的目的是将所有围绕公司业务上下游的数据整合到一起,形成完整的业务流数据体系。以销售类电子商务网站运作流程为例,用户从站外推广渠道进入网站,在企业 网站完成在线订单,之后跳转到第三方支付平台付款,企业通过线下物流配送将商品送到用 户手中完成收货,整个流程如图(电子商务基本业务流程图)所示。
站外营销数据 企业网站数据 第三方网站数据 自有/第三方物流数据
站外推广 →线上下单 →线上支付 →线下配送 →线下收货
以上流程图是围绕用户的业务数据整合,涉及网站营销数据、网站流量数据、线上支付 数据、线下物流数据等;除此以外还可能包括网站运营数据、企业销售数据、线下会员数据、 呼叫中心数据、仓储数据等。
1.网站营销数据
网站营销数据是指企业在站外通过各种推广方式投放广告或合作,以实现用户品牌认知、广告宣传或其他转化为目标所形成的数据。网站营销数据的来源是站外各个投放渠道服 务商, 包括广告数据、SEM数据、CPS数据、BD数据、EDM数据、社会化媒体数据、SEO 数据等。
(1)广告数据
广告是大多数企业投人费用最多的推广方式之一,其推广效果也更受人关注。广告数据 是指以图片、视频、动态Flash甚至文字等形式对用户展现的推广方式。不同公司对广告范 围的定义不同,但基本上定义的核心都是以“展示”为主。 广告数据按来源分有两种:第一种是通过代理商获取;第二种是直接从投放终端获取。 □通过代理商获取:国内大多数优质广告资源都被代理商垄断,大型企业通常通过代 理商投放广告。根据服务程度的不同,代理商的职责可能包括全案策划、媒体购买、 媒体执行、媒体效果评估四部分。通过代理商投放广告时都可以从代理商处获得投 放数据。
□通过投放终端获取:部分独立售卖的媒介资源以及有资源的大型企业也会直接跟媒介 谈判进行媒介购买,此时数据可直接从投放媒介的终端获取。
不同的广告系统提供不同的广告数据维度,通用广告系统的数据维度包括渠道信息、媒 介信息和促销信息。
□渠道信息。用来标识渠道来源、细分渠道、付费形式等信息。如果在Sina投放广告, 则渠道来源为Sina; 如果在Sina上有多个媒体资源, 则需要细分跟踪到每个媒体资 源。除渠道信息外, 通常还包括付费方式, 如CPD(包段广告, 如包天、包月等, 门 户的优质资源大多为该形式) 、CPC(按点击付费, 如谷歌网盟中可以按点击付费) 、 CPA(按动作付费, 预先定义动作如注册、下载等) 、CPM(千次展示付费) 等, 展示 类广告大多以CPD、CPM和CPC为主。
□媒介信息。用来标识投放媒介的具体信息,包括媒介位置(首屏、底部等)广告 形式(弹窗、背投、Banner按钮、画中画、贴片等) 、广告尺寸(1000x 90像 120x240像素等)、广告排期(广告投放的起止时间,这些对广告效果评估至关重要 作其他因素不变的条件下,首屏的广告效果通常比二三屏的好,弹窗、背投等异形广 告更引人注意,大尺寸广告比小尺寸广告容易得到关注,广告时间对广告效果的影响 更为明显:工作日比休息日流量更多,上午十点、下午三点、晚上十点是一天中的三
□促销信息。用来记录当前广告的投放内容,如广告可能包括品牌推广类、商品推广 个流量高峰。 类、促销宣传类等,其内容包括广告活动(标识活动名称)、广告主题(标识活动的主 题)、广告商品(广告中是否有爆款和标杆产品)、广告卖点(价格、折扣类信息)。促 销信息在媒介信息的基础上,当广告展现给用户后,直接决定了用户的点击欲望。 除了以上标准信息外,部分系统还可能提供更深人的数据维度,如针对人群定位投放的 某些媒体会提供投放用户的基本属性,如性别、年龄段、爱好、网站域、主题域等;基于竞 价的广告媒介会提供竞价排名、轮播数、展示时长、出价策略、优化策略、广告规则等。 不同的广告系统提供不同的广告数据指标,通用的广告系统数据指标包括费用指标和效 果指标两类。
□费用指标。包括广告费用情况,如总费用、基于细分渠道和位置的费用、基于点击的 费用CPC、基于曝光的费用CPM、基于转化的费用CPA等。 □效果指标。包括两层意义:第一层是站外曝光类指标,包括曝光量、点击量以及 CTR; 第二层是站内转化效果指标, 如每次点击回报、每次转化收益等。 转化类效果指标需要在站内相应的转化页面部署相应的代码才能实现。
(2) SEM数据
SEM即搜索引擎营销, SEM几平是所有企业线上推广的必备方式, SEM的特点是投放 相对精准、投人产出效果直观可控、操作方式灵活。国内的SEM主要集中在百度, 其次龙 .M的数据来源跟广告数据类似,既可以直接从搜索引擎获取,也可以通过代理服务 SEM维度方面, 除了具备广告的基本维度外, 还有一些SEM数据的特殊维度。
□账户结构:普通账户结构分为账户、广告计划、广告组和关键字四级,大型代理商仕 其主账户之下还会增加一个子账户的入□,即可分为五级。
□账户信息:账户地城限制(只针对特定地区)、广告覆盖网络(搜索网络和展示广告网
络)、每日总费用(日费用限制)等。
□广告计划信息:广告计划、状态、高级地理位置(适用于谷歌Adwords搜索网络,包括通过地理位置定位、搜索意图定位或两者结合使用)、广告投放时间(周、天、时 段控制)、广告投放方式(标准、加速)、轮换显示(均匀展示还是更多展示效果好的 广告) 频次上限(仅谷歌Ad wrds支持频次上限设置, 频次上线设置适用于CPM 告)等。
□广告组信息:包含广告组、状态、关键字信息、定位条件(关键字、网站、特定主题、 特定人群等)、投放设备(计算机、手机)、创意展现类型、附加创意等。
□关键字信息:包含关键字、状态、匹配信息(匹配方式和匹配结果)、对应的广告素材 信息、否定关键字、关键字质量等。
SEM指标除了与广告类似的指标外, 还包括:
□出价信息。默认出价、出价浮动规则、最低出价、平均点击价格等。
□效果数据。无效点击次数、平均排名、置左率(左侧展现机率,与关键词质量度有关)等。
另外, Google Adwords还提供相对点击率、通话、致电率、电话费用等特殊指标。
(3) CPS数据
CPS是企业推广方式中转化效果最好的推广方式之一, 通常前期已经确认分成比例, 推 广渠道完成转化(通常定义为销售)后即分得相应的佣金。
CPS按照平台属性可分为自有平台和第三方平台。如京东既有自己的京东销售联盟, 也 有跟第三方一起合作的平台。
CPS类推广渠道非常特殊, 在业务的实际操作中, 所有的分成费用支出都按照企业自身 的销售系统数据结算。网站分析工具提供的数据往往“不准”,原因有以下几个方面:
□跳转导致的监测问题。当用户点击第三方平台下的联盟网站时,会先跳转到第三方平 台,然后再跳转回推广落地页。由于跳转(301或302)的存在,无法保证数据被正 常监测。
□订单监测时间的问题。网站分析工具默认的广告Cookie周期是6个月, 即如果这段 时间内没有任何删除或覆盖规则, 那么该Cookie一直有效, 该用户会一直被标识为 从该CPS渠道进入; 但企业与CPS服务商的订单时间周期却可以通过商务谈判灵活 确定为30天或一周等。不同时间周期内计算的结果通常会有出人。
□渠道覆盖规则问题。在网站分析工具中通常都有渠道覆盖规则定义,比如用户在30 分钟内先后从CPS渠道和SEM渠道进入网站下单, 通常该订单会被认定是SEM贡 献的; 但在销售跟踪系统中是通过API回调的形式跟踪, 该订单属于CPS。这也会造 成数据不一致。
□订单有效性的问题。CPS付费通常都有一定时间(通常是1~2个月) 的延期, 除了 财务流程外, 还有一个重要的因素是CPS只按照有效订单(用户正常收货) 付费, 对 于下单之后又取消的订单记为无效订单而不予支付。在网站分析工具中,线下拒收、 取消等是无法监测到的数据。
既然如此, 还有必要将CPS数据导人网站的分析系统吗?答案是肯定的, 虽然数量上会有差异,但网站分析工具可以基于双方交叉的样本提供基于网站端用户的行为分析。
除通用数据维度和指标外, CPS中的特殊数据还包括联盟平台标识、佣金、佣金率等。
注意:CPS的核心数据如佣金等都位于企业内部, 由特定销售类系统负责监测、收集和提示结算。
(4)BD数据
BD(商务拓展)包括所有以资源互换、免费合作等形式开展的业务推广形式,BD通常更多的见于有一定资源企业的。
BD由于更多具有免费的性质,因此各个公司通常都有相应的需求。关于BD的具体数据与上述介绍类似,在此不做过多介绍。
(5)EDM是以电子邮件为介质进行推广的一种方式, 精准EDM是转化率最高的渠道之一。
除上述通用信息外, EDM数据还包括以下特有数据。
□维度:发送人群(邮件对应的用户ID或手机)、发送时间、发送域。
□指标:发送量(发送的数量)、送达量(未被弹回的数量)、打开量(打开邮件的数量) 点击量(点击邮件内容的数量)、退订数(退订邮箱服务的数量)。
(6)社会化媒体数据
社会化媒体数据是企业数据的重要延伸,更是获得用户社交信息的主要战场。企业中的 社会化媒体通常包括微信、微博、论坛、BBS等。
社会化媒体数据的维度包括:用户账户信息、用户属性信息、用户行为信息、用户标签 信息、人脉信息等。
□用户账户信息:用户ID、关联账户信息(QQ、微博)等。
□用户属性信息:用户名称、年龄、生日、教育、职业、家庭、收人、手机号等。
□用户行为信息:活动、话题、位置、分享、转发、评论、赞、签到、转发路径等
□用运签信息:个人标签(宅男、吃货等)兴趣标签(科技、计算机、数据分析
□人脉信息:关注、粉丝、共同群组或部落、圈子等。
社会化媒体数据也包括很多特色指标:影响力、评论量、转发量、回复量、分享量、关 注数量、粉丝数量、影响力、活跃度、提及率、帖子导向度(正面、负面、普通)等。
(7) SEO数据
SEO属于营销推广中最特殊的一类,它不属于付费推广,但可能是网站自然流量的主要组成部分。
搜索引擎的工作流程非常复杂,这里只列出其中几个关键的节点,如图(搜索引擎工作原理简图)所示。
蜘蛛爬行->数据索引->算法排名->结果展示->用户点击
1)蜘蛛爬行:搜索引擎通过特定程序(通常称为Spider或Robot) 对不同网站进行数据 爬行和抓取,每抓取一条记录都会向网站服务器发送一次请求。
2)数据索引:搜索引擎将抓取到的数据按照一定原则进行索引归类,并形成可供在询 使用的数据仓库,搜索引擎服务商一般不会提供该数据。
3)算法排名:当用户搜索某个词时,搜索引擎根据相关规则对该词进行数据提取、结果 排序等运算,最终得出不同数据的记录排名,这是搜索引擎的核心之一,所以该数据无法获取。
4)结果展示:搜索引擎向用户展示数据结果。
5)用户点击:用户点击感兴趣的结果并到达相应的网站。
整个过程中可获取如下数据。
□蜘蛛爬行数据:该数据在企业内部IT服务器的日志中。
□展示结果数据:关键字、关键字排名、页码数等。
除了以上基于用户点击触发的流程数据外,还包括收录数、页面关键字密度、关键字排 名、网站PR值、Alexa排名、Sogou指数、百度指数、百度快照、反向链接数、404页面数 等数据。
2.网站流量数据
网站流量数据从网站分析工具中获取, 数据平台包括Web、WAP和APP站点。网站流量数据包括来源数据、访客数据、网站数据和转化数据四类。
(1)来源数据
来源数据即所有站外流量来源的信息,包含渠道分组、渠道、媒介、广告活动、搜索引 擎(免费搜索引擎和付费搜索引擎)、关键字(免费关键字和付费关键字)、社交信息(社交媒 体、社交动作,如分享等)、引荐来源、来源路径及其他自定义广告等。
(2)访客数据
访客数据即所有访客属性和特征信息, 包括访客特征(用户ID、年龄、性别等CRM特 征、访客兴趣(购买类别、浏览倾向等)、地理位置(语言、国家、城市等)忠诚度(新老 访客、访问频率、访问时间间隔、购买回访等、访问设备(设备类型、操作系统、浏览器等具体设备信息)、移动设备属性(设备类型、具体设备名、设备运营商、地理位置、访问环 境、手机号码、系统版本等、移动设备行为(用户安装、升级、启动,以及用户留存、活跃 度等数据)。
(3)网站数据
网站数据即所有站内页面数据和非转化行为信息,包括访问页面、进入页面、退出页、站内搜索数据(搜索词、是否有效搜索、搜索返回结果数)、页面事件、AB测试等数
(4)转化数据
转化数据即所有转化类信息,包括目标转化、电子商务转化(产品浏览、加入购物车、结算、提交订单)等。
注意:在网站数据整合过程中,需要提供的数据粒度尽量细,汇总类数据尽量少,原因是网站数据的基本衡量都是以访问为定义基础的,大部分维度之间无法直接进行數据汇总。如一个用户访问了A和B页面,对全站来讲是1次访问,但是对A和B页面来 讲分别是1次访问,全站的访问不能通过A和B页面访问相加得出。
3.网站运营数据
网站运营数据是指网站运营管理者的后台操作数据,该数据是分析站内资源运营效果的重要过程数据。如今大多数网站都通过内容管理系统进行网站管理,针对网站会员或网站内 容进行资源分配、维护和更新等,这些数据直接反映了站内各个数据对象的“前世今生”。网站运营数据主要包括商品管理数据、促销管理数据、订单管理数据、广告管理数据和会员 管理数据。
(1)商品管理数据
商品管理数据即所有线上商品的管理信息,包含时间、商品数据(商品ID、商品属性。 商品类别、品牌、商家等)、折扣数据(价格、促销价、会员优惠价、赠送积分)、促销数据 (促销时间、促销类型、促销位置、运费、排序、展示次数)、库存数据、商品状态(上架、 下架、删除、过期等)、关联促销管理(绑定促销商品、关联促销商品)等。
(2)促销管理数据
促销管理数据即所有站内促销活动的管理信息,包括促销起止时间、促销活动类型(捷 购团购,预售、试用、拍卖、二手等)、优惠券/积分管理(优惠券/积分类型、金额、 条件,有效时间发放数量,限制品类、限制金额、费用、积分兑换比例等、活动专货 理(具体活动、活动主题、参与商品)等。
(3)订单管理数据
订单管理数据即所有订单的管理信息,包括订单号、审核状态(审核中、未通过、 审核、已提交等)、付款状态(未付款、已付款)、支付信息(支付类型、支付银行、分期时 信息等)、连转环节(订单进行步骤、如已出库、已派件)、订单合井(不同的订单合异成1 订订单分拆(一个订单分拆成几个子订单)、人工订单(大客户订单处理操作)订 货登记等。
(4)广告管理数据
广告管理数据即所有站内广告资源的信息,包括广告资源类,广告位置、广告 广告内容、上下架时间、轮播次数、广告描述、广告商家、广告排等内容。
(S)会员管理数据
会员管理数据即所有线上会员管理的信息,包括会员基本信息(会员ID、是否验证、邮 翰、性、年龄、00、手机)会员行为信息(注册时间、登录时间、购买时间、评论、投 、济、收藏、降价通知、分享、留言等)、会员等级、积分信息、优惠券信息等、会员促 銷数据(EDM、短信发送数据) 。
除了以上数据外,部分网站可能还有推荐功能,推荐功能涉及的数据包括:推荐时效性、 找源、推荐规则、推荐场景配置、阀值控制、人工干预规则、冷启动规则等。
4.企业销售数据
销售数据是销售类企业的核心,交易数据涉及订单信息、商品信息、客户信息、交易支 撑环节等。
□订单信息:交易ID、交易日期、订单价格、订单数量、优惠信息(优惠券、积分)、 折扣信息(满减、满返)、订单状态等。
□商品信息:商品ID、商品名称、商品品牌、商品类别、商品数量、商品厂商、商品 销售平台、成本价(原始进货价、预留最低价)、销售价格等。
□客户信息:用户ID、用户姓名、注册日期、登录日期、用户QQ、电子邮箱、联系方式等。
□交易支撑环节的信息:如第三方支付信息(支付平台、支付银行、支付状态、支付金 额、) 、联盟销售信息(CPS联盟、自有平台、第三方平台等) 、配送状态信息等。 除此之外,部分企业还可能包括购物车信息,包括购物车ID、用户ID、购物车商品 ID、商品名称、商品数量、状态步骤等。
5.线下会员数据
对于O2O类型的企业或有线下支持的企业往往拥有大量的线下用户群体,其中很多数据是线上无法获得的宝贵财富,如会员性别、年龄等。线下会员数据比网站运营数据的范畴 更大,包含的数据内容更多。
除了线上会员的所有数据外,线下会员还会包括:退换货数据(退换货金额、订单ID、 商品ID、时间、原因、费用等、订单拒收数据(拒收时间、会员ID、订单ID、订单价值、 运费)等,甚至部分线下店面通过监控视频收集用户线下店内“逛店”行为,或者通过无线Wi-Fi免费开放等方式进行线下用户身份识别等,都可以提供更多的会员数据。
6.呼叫中心数据
大型企业都有呼叫中心业务,通过客服代表完成针对特定客户的特定业务目标,如处理 、推销广告、销售线索跟进、客户维系等。呼叫中心的数据与其他数据略有不同:其中 包含大量的非结构化数据——语音。
呼叫中心的数据除了包含结构化的数据,如话务类型(投诉、咨询、建议、查询等)、工单号、话务时间(起止时间和持续时间、话务员、内部接口人员,排队时间、通话时长、道 话放弃等外,还包括通话语音内容。通话语音内容都是以音频的形式存在的,其数据结构无法直接与传统的结构化数据做对接。
另外,呼叫中心的数据可能包含所有客户、网站运营、销售订单、物流配送等方面的数据。比如用户电话咨询订单被取消的原因,呼叫中心就需要调取网站运营中网站订单管理相 关数据记录进行查询和反馈,再如用户电话投诉产品质量问题,需要呼叫中心通过该用户信息关联到该用户的订单和产品信息进行回复咨询。
7.仓储物流数据
企业仓储和物流作业是紧密相连的,仓库内商品的周转必须通过物流进出实现。因此这 里将仓储和物流放到一起介绍。
仓储物流作业流程,如图6-3所示。
□商品人库。这是所有仓储环节的第一步,企业将商品从生产商或上级经销商、代理商 品运转到企业仓库,形成商品进货人库;当商品(尤其是爆款)销售预期较好时,会 进行商品补货处理以满足订单需要,此时会产生商品补货入库。
□订单处理。订单信息通过订单系统传输到仓储管理系统,仓库内完成订单处理后通过 物流配送到客户手中完成收货,此时完成正向订单作业处理;当企业回收或客户退货 时,商品从客户手中通过物流返回到仓库,形成逆向订单作业处理。
□库存调拨处理。库存在不同仓库(同级仓库)或不同级别仓库(子母仓、一级二级仓 物流中心到仓库等)间进行调拨处理,以满足不同仓库的商品需求。
(1)仓储数据
企业仓储数据主要包括基本数据、入库数据、出库数据和调拨数据。
□基本数据通常是仓库内的静态数据,包括商品信息(商品编码、条形码、商品名称、规格参数、计量单位、有效期、进货价、进货批次、商品类别、商品品牌、商品供应 商和生产商等)、仓库信息(仓库编码、仓库名称、仓库地址、库管员、联系信息等)、供应商信息(供应商编码、供应商名称、供应商地址、联系信息、银行信息等)、商品 库存信息(商品编码、库存类型、库存量、库存金额、库存时间、有效期)等。
□人库数据涵盖了采购人库、退货入库数据,包括时间、人库类型(采购、补货、退货 等)、批次信息、商品信息(进货价、数量、金额、破损情况)、采购商信息(供应商 编号、交货日期、制单日期、经手人、操作员)、关联订单信息、关联配送单信息等。
□出库数据涵盖了订单出库数据,包括时间、仓库信息(仓库编码)、出库信息(出库类 型如订单、报废、退回厂家等,以及出库编码)、商品信息(出货价、数量、金额)、 客户信息(姓名、地址、联系方式等)、关联订单信息、关联配送单信息等。
□调拨数据是一类特殊数据,商品调拨在会计中会计算为商品销售处理,但在公司内部 各部门间计算成本和收入时需要将其剔除。调拨数据包括单据编码、日期、调出仓 库、调入仓库、制单人员、复查人员、审查人员、关联配送信息、调拨商品信息(商 品编码、名称、批次、单价、数量、总金额)等。
除以上信息外,如果企业选择第三方仓储则会有第三方仓储的信息。
(2)物流数据
物流数据主要包括客户数据、订单数据、车辆数据和路线数据四部分。
□客户数据包括客户姓名、联系方式、发货地址等信息。
□订单数据包括订单编码、送货时间、货物重量、收货人姓名、收货人联系方式、收货 人地址、配送方式、配送状态、配送费用等。
□车辆数据包括交通方式、车队编码、配送车辆编码、配送人员、生产日期、购买日 期等。
□路线数据包括配送路线(起始城市、中转城市、终点城市)、路线长度、地理位置、预 计时间、配送区域、配送站点、交接数据(交接编码、交接人、上一级区域、本级区 域、交接状态、时间)等。
IT数据整合
IT数据整合的意义是利用IT数据拓展网站分析工具(尤其是SAAS模式网站的分析工具)所缺乏的数据维度和指标。IT主要整合的数据是网站日志以及基于现有的网站架构数据。
1.日志数据
网站分析工具可以提供用户的访问日志数据, 但主流的工具都采用SAAS模式, 其是通过页面标签来记录用户信息的。很多信息无法通过页面标签法(SAAS模式下的信息采集方法)记录,即使可以实现也相对复杂,如HTTP状态码数据和User-Agent数据。
(1) HTTP状态码数据
HTTP状态码(HTTP StatusCode) 是用以表示网页服务器HTTP响应状态的3位数字代码,所有状态码的第一个数字代表了响应的状态。
□1开头的状态码。这是一类信息状态码,表示请求已被接受,需要继续处理。这类 响应是临时响应,只包含状态行和某些可选的响应头信息并以空行结束,常见的如 100、102等。
□2开头的状态码。这是一类成功状态码,表示请求已成功被服务器接收、理解并接 受,最常见的是200、206。
□3开头的状态码。这是一类重定向状态码,表示需要客户端采取进一步的操作才能完 成请求。通常这类状态码用来重定向后续的请求地址(重定向目标),其在本次响应的 Location域中指明, 常见的是301、302。
□4开头的状态码。这是一类请求错误状态码,表示客户端看起来可能发生了错误,妨 碍了服务器的处理,常见的如404。
□5开头的状态码。这是一类服务器错误状态码,表示错误发生在服务器端,常见的如 503、504等。
这些状态码数据对网站分析有什么作用呢?
通过网站分析工具分析用户行为时,通常只能得到结果数据,如跳出率、退出率、停鼠
时间等,但状态码可以提供“发生了什么”的过程数据,例如:
□发生404错误的页面通常页面退出率和跳出率高且停留时间短。
□针对用户点击下载的监测,如果采用页面标记法只能检测是否有点击下载的行为,即 回答是否下载,但无法监测下载完成情况,在日志文件中通过206状态码可以检测整 个下载过程。
□在某些情况下(比如大型促销活动时)会发现一些特殊情况,如某页面没有数据或两 个特定的页面具有完整的路径流,其中可能存在跳转的问题。无论是301还是302跳 转,大部分情况下都会导致跟踪代码丢失而无法正确跟踪到数据;即使在一小部分情 况下能正常跟踪到数据,也会发现被跳转的页面跳出率和退出率高、页面停留时间 短,并且跳转前后的页面直接形成没有其他路径参与的路径流向。这些数据可以通过 HTTP状态码分析直接获取。
(2) User-Agent数据
大多数蜘蛛不会爬行JS文件,这种工作机制的好处在于页面标签法可以自动过滤掉蜘蛛爬行数据而只保留真正的“用户”数据;但另一方面,排除蜘蛛爬行数据的同时也意味着无法通过分析搜索引擎蜘蛛在网站上的爬行行为而为SEO服务。
什么是蜘蛛?所谓“蜘蛛”,实际上是一种计算机“机器人“,它是以检索信息为目的软件程序。它可通过网页的链接地址来寻找其他网页,从网站某一个面面(通常是首页)开始读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止,这样不断工作形成类似
蝴蛛网一样的工作环境。
蜘蛛爬行的目的是采集网页信息,日志中的蜘蛛主要是搜索引擎蜘蛛,即用来为搜索引 擎服务:其次还会有企业或个人制作的用于特定目的的蜘蛛程序。在正常情况下,所有网页 上的访问记录都有Use-Agent信息, 并通过Use-Agent识别不同的蜘蛛程序。以下是一段百 度蜘蛛的爬行记录:
180.76.5.71 [30/Apr/2014:20:33: 03 +0800] ”GET /website-optimization- rescuad.com/aearch/spi det.html y.Mozi1la/5.0(compatible; Baidu spider/2.0; +http://www.baidu.com/search/spider.html
从以上记录中我们看到该百度蜘蛛名为Baidu spider, 对应的IP为180.76.5.71, 它是在北京时间2014年4月30日20:33:03爬行了一个webite-optimiza tin-resources网页, 网
页爬行返回200成功状态码。通过这段日志信息,可以很容易地分析出搜索引擎到企业网站的爬行习惯,如时间、路线,蜘蛛类型(不同的蜘蛛有不同的爬行目的)、网页返回信息 (大量404页面会被搜索引擎认为网站价值很低,正常应该返回200)等,针对这些信息,可以为站内内链分布、页面错误检索、页面发布更新、服务器压力调整和优化等提供数据 支持。
2.网站架构数据
网站分析工具能跟踪所有的进行标记的页面信息,但这些页面信息都是孤立的信息点,
其中很多可以通过IT拓展出更多的分析维度。
(1) URL结构数据
URL结构中包含了当前页面的重要信息, 以下是某网站平板电脑页面的URL:
http://www.....cn/category/cat10000049-10-0-36-1-0-0-0-1-14VF18EP18wv18 wF-0-0-0-0-0-0-0-0.html
该URL中包含了产品列表名、品牌、价格、屏幕尺寸、产品类型、排序方式、商品库 存类型、送货地域、分辨率、功能、属性等信息并通过URL参数表示, 如cat 10000049代表 平板电脑;14VF代表夏普品牌;18wF代表1000以下的价格区间等。
这些参数可以通过页面自定义变量提取出来整合到系统中,从而得到更多深层次的数据价值点:品牌喜好度、价格敏感特征、屏幕尺寸偏好等;如果用户有登录行为,可以直接通 过用户ID关联到用户的真实信息,对用户的分析不仅局限于页面、商品这些粗粒度的数据上,而是细化到商品的价格、品牌、尺寸、属性等具体参数上。这种数据无论对页面运营、 用户体验还是用户定向营销都有重要的指导意义。
(2)网站结构数据
IT部门在设计网站时,已经根据特定的规则和目标将网站结构和产品功能进行划分,这些不同的结构和功能数据都可以整合到数据系统,如页面结构数据、产品功能数据。
□页面结构数据。IT部门可以将网站结构数据整合到数据系统中,包括页面分类层级、 分类具体信息、子页面等,这些信息可以直接将网站页面层级化、结构化。
□产品功能数据。除了页面级别的数据整合外,页面中具体产品的功能同样可以整合, 如浮层、按钮、标签、表单、图片、文字等。通过整合这些数据,可以对网站功能或 页面对象做出划分,方便日后网站功能优化、用户体验优化等。
除了业务数据、IT数据以外,企业还有一类特殊数据——职能数据。职能数据是独立于业务数据之外的独立体系,反映了整个公司除业务外的运营状态和信息,包括财务数据、HR 数据、办公数据等。职能数据的整合是企业内部流程化、标准化运作的基础,也是优化内部效率和投入产出比的重要途径,更是观测企业风险和发展趋势的风向标。由于本书的主要对 象是业务人员,因此智能数据在此不展开介绍。
除了企业内部数据外,企业外部数据如市场数据、行业数据、竞争对手数据等也是企业数据整合的重要信息,这些信息包含了企业在市场中的地位、作用和竞争信息,能够帮助企 业建立整个行业级的数据视角;同时,关键市场和情报信息还会提供关键市场机会,如竞争 对手的产品动态、价格策略、广告策略等。这些信息是企业数据整合的重要部分。
上述文章来源:
https://e.jd.com/30189936.html
网站数据挖掘与分析:系统方法与商业实践 宋天龙 著
出 版 社机械工业出版社