Web数据挖掘在电子商务中的应用

摘要:在电子商务中,运用数据挖掘技术对服务器上的日志文件等Web数据进行客户访问信息的Web数据挖掘。了解客户的访问行为,从而调整站点结构、市场策略等,使电子商务活动具有针对性。 
  关键词:电子商务;Web数据挖掘;服务器日志文件 
  中图分类号:F713.36 文献标识码:A

               Web Data Mining in Ecommerce  
  Abstract: In e-commerce, we can make web data mining to the information of customers’ visit by using the data mining technology on the server log file. In dong so, we can understand the behavior of customers’ visit, thus to adjust the site structure, marketing strategy, and make the e-commerce activities have more pertinence.
  Key words:ecommerce; Web Data Mining; server log file

  一、引言 
 目前,通过web进行商务活动带来的便利和它所产生的交易速度已成为电子商务迅猛发展的关键推动力。另一方面,涉及客户端的电子商务活动也正在进行着巨大的革新。如果能够跟踪客户在Web上的浏览行为并进行模式分析,这样将会缩短销售商与客户之间的距离让销售商更了解自己客户的需求,有针对性地开展电子商务活动。 
  在Internet上的客户都意识到,只要他们连接到一个在线市场的报务器上,就已经在这个服务器上留下了一个“脚印”,这就是服务器的日志文件,我们就可以对客户访问留下的这些日志文件进行Web的数据挖掘,提取关于客户的知识,对客户的访问行为、频度、内容等的分析,可以得到关于群体客户行为和方式的普遍知识,用以改进Web服务方的设计。通过Web数据挖掘,就可以根据客户的访问兴趣、访问频度、访问时间,动态地调整页面结构,改进服务.客户个性化的界面。开展有针对性的电子商务以更好的满足访问者的需求。 
  二、web数据挖掘技术 
  万维网目前是一个巨大的、分布广泛的、全球性的信息服务中心,涉及新闻、广告、消费者信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源。然而,基于以下观察,Web对有效的资源和知识发现也提出了巨大挑战性。 
  对有效的数据仓库和数据挖掘而言,Web似乎太庞大了。Web的数据量以兆兆字节计算,而且仍然在迅速地增长。许多机构和社团都在把各自的面向公众的信息置于Web。这使得几乎不可能去构造一个数据仓库来复制、存储或集成Web上的所有数据。 
  Web页面的复杂性远比任何传统的文本文档复杂的多。Web页面缺乏统一的结构,它包含了远比任何一组书籍或其它文本文档多得多的风格和内容。Web可以看作一个巨大的数字图书馆;然而,这个图书馆中巨大数量的文档并不根据任何特定的分类次序加以组织。既没有分类索引,也没有按标题、作者、扉页、目次等组织的索引。在这样一个图书馆中搜索希望的信息可能是极具挑战性的。 
  Web是一个高度动态的信息源。Web不仅以极快的速度增长,而且其信息还在不断地更新.Web上的新闻、股市、天气、体育、购物、公司广告和大量其他Web页面都在定期更新.链接信息和访问记录也在频繁地更新。 
  Web面对的是一个广泛的形形色色的用户群。目前,因特网上连接上亿台工作站,其用户群仍在快速膨胀。各个用户可能有不同的背景、兴趣和使用目的。大部分用户并不了解信息网络的结构,不清楚搜索的高昂代价。他们极容易在“黑暗”的网络中迷失方向,也极容易在“跳跃式”访问中烦乱不已,在等待一段信息中失去耐心。 
  Web上的信息只有很小的一部分是相关的或有用的。据说99%的Web信息对于99%的Web用户是无用的。虽然这看起来不是很明显,但一个人只是关心Web上的很小很小一部分信息的确是事实,Web所包含的其余信息对用户来说是不感兴趣的,而且可能淹没希望得到的搜索结果。如何决定与你的兴趣真正相关的那部分Web页面?如何找到关于特定的主题的高质量的Web页面? 
  这些挑战已经推动了有效地发现和利用因特网上资源的研究工作。 
  有许多基于索引的Web搜索引擎。它们搜索Web,索引Web页面,并建立和存储大量基于关键词的索引,用于定位包含某写关键词的Web页面集。借助于这种搜索引擎,有经验的用户通过提供一组严格约束的关键词和短语,可以快速定位文档。然而,简单的基于关键词的搜索引擎存在一些问题。首先,任何宽泛的主题都可能包含成千上万文档。这可能导致搜索引擎返回大量文档条目,其中很多与话题的相关性并不大,或所包含的内容质量不高。其次,很多与主题相关的文档可能并不包含相应的关键词。这被称为多义问题,已在前面关于文本挖掘一节中讨论。例如,关键词Java可能是指Java程序设计语言,或印尼的岛屿,或煮好的咖啡。再举个例子,基于关键词搜索引擎的搜索甚至可能找不出最常见的搜索引擎,如Yahoo!, Alta Vista, 或美国在线,如果这些引擎不在其页面上声明其为搜索引擎。这表明简单的基于关键词的Web搜索引擎对于Web资源的发现还存在缺陷。 
  “如果Web搜索引擎对Web资源的发现都还有问题,何以谈得上Web挖掘?”与基于关键词的Web搜索相比,Web挖掘是一项更具有挑战性任务,它搜索Web结构,依次确定Web内容的重要性,发现Web内容的规律性和动态性,挖掘Web的访问模式。然而,Web挖掘可以用来实质性地加强Web搜索引擎的能力,因为Web挖掘可能识别权威Web页面,分类Web文档,解决基于关键词搜索出现的一些含糊不清。一般地,Web挖掘任务可以分为三类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining),和Web使用挖掘(Web usage mining)。作为选择,Web结构也可以被认为是Web内容一部分,这样Web挖掘可以简单分为两类,即Web内容挖掘和Web使用挖掘。 
  Web内容挖掘主要包括:挖掘Web页面布局结构;挖掘Web的链接结构;挖掘Web上的多媒体数据;Web文档自动分类和Web日志挖掘。 
  Web使用挖掘:“什么是Web使用挖掘?”除了挖掘Web内容和Web链接结构,Web挖掘的另一个重要任务是Web使用挖掘(Web usage mining),它通过挖掘Web日志记录来发现用户访问Web页面的模式。通过分析和探索Web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的因特网信息服务的质量和交付,并改进Web服务器系统性能。由于Web日志数据提供了什么样的用户访问什么样的Web页面的信息,因此Web日志信息可以与Web内容和Web链接结构挖掘集成起来,用于Web页面的定秩,Web文档的分类,和多层Web信息库的构造。一个特别有趣的Web使用挖掘应用是挖掘客户端用户的交互史和搜索内容,为提高对给定用户的秩评定的准确率提取有用信息。例如,如果用户将关键词查询“Java”提交给搜索引擎,然后从返回条目中选择了“Java Programming Language”来查看,那么系统能够推断出用户对此Web页面显示的片段感兴趣。然后,系统可以提高与“Java Programming Language”相似的页面的秩,而避免提“Java岛”这样的转移页面。因此,搜索质量得以提高,因为这种搜索是溶入背景的和个性化的。 
  三、电子商务中进行web数据挖掘的数据源
  
 (一)服务器数据 
  客户访问服务器就会在服务器上产生相应的服务器数据。这些数据可以分为日志文件和查询数据。其中日志文件又可以分为server logs、error logs、cookie logs。 
  1.Server logs
  server logs有两种格式存储,一种是普通日志文件格式,另一种是扩展日志文件格式。普通日志文件格式以“Date,cIient-IP,User-name,BYles,Server,Request,Status,Service name Time,rotecol-version ,User-agent, Cookie,Reffrer”的格式存储关于客户连接的物理信息。扩展日志文件格式主要是支持关于日志文件元信息的指令,如版本号,会话监控开始和结束的是日期,被记录的域等。 
  2.Error logs
  存取请求失败的数据,例如:丢失连接,授权失败,超时。 
  3.Cookie logs
  HTTP协议本身是一种非事务型的,这一种特征对于事务型的电子商务来说是不合适的,给电子商务带来了一些问题。这个问题通过使用cookies得到了克服。Cookies是一种软件构件,它能够在客户端存储客户访问服务器的信息。服务器软件上存储关于cookie的这部分,就叫做cookie logs。Cookie logs的一般格式是:Name,expiry_date, path, domain,security_level。 
  4.查询数据 
  它是电子商务站点在服务器上产生的一种典型数据。例如,对于在线存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或是登记信息连接到服务器的访问日志上,目前还没有一个标准的查询数据格式。 
  (二)客户登记信息 
  客户登记信息是指客户通过Web页在屏幕上输入的,要提交给服务器的相关信息。它在电子商务活动起着非常重要的作用,特别是在安全方面,或者在对客户可访问信息的限制方面。在Web的数据挖掘中,客户登记信息必须和访问日志集成,以提高数据挖掘的准确度,能更进一步的了解客户。 
  四、电子商务中应用的数据挖掘技术 
  针对前文提到的这些客户访问在线市场时所产生的数据,进行Web上的数据挖掘,主要是进行客户访问信息的挖掘。得到客户的浏览行为和访问模式,从而找到有用的市场信息。在电于商务中一般有以下几种数据挖掘技术的使用: 
  (一)路径分析 
  它可以被用于判定在一个 Web站点中最频繁访问的路径。还有一些其他的有关路径的信息通过路径分析可以得出:70%的用户端在访问/company/product2时,是从/company 开始。经过/company/new/company/products/company/product1;80% 的访问这个站点的客户是company/products开始的;65% 的客户在浏览4个或更少的页面后就离开了。第一条规则在/eompany/product2页面上有有用的信息。但因为客户对站点进行的是迂回绕行的访问,所以这个有用信息并不明显。第二条规则说明了客户对站点的访问一般不是从主页开始的,而是从/company/products开始的,如果在这个页面上包含一些产品的目录类型的信息,将是一个不错的主意。第三条规则说明了客户在网站上驻留的时间。既然客户在这个网站上浏览一般不超过4个页面,就可以把重要的商品信息放在这些页面中。通过路径分析,可以改进页面及网站结构的设计。 
  (二)关联规则的发现 
  在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系。倒如,用关联规则发现技术,我们可以找到以下的相关性: 
  40%的客户访问页面company/product1时,也访问了/company/product2;30% 的客户在访问/company/product1时,在/company/product1进行了在线定购。利用这些相关性,可以更好的组织站点,实施有效的市场策略。 
  (三)序列模式的发现 
  序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模式。例如: 
  在访问company/products的顾客中,有30% 的人曾在过去的一星期利用关键字w在yahoo上做过查询。 
在/company/product1上进行过在线定购的顾客,有60% 的人在过去l5天内也在/company/product4处下过订单。发现序列模式能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选取有针对性的页面,以满足访问者的特定要求。 
  (四)分类规则的发现 
  分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。例如:政府机关的顾客一般感兴趣的页面是/company/product1。 
  在/company/product2进行过在线定购的顾客中有50%是20~30岁生活在西部的年轻人。得到分类后,就可以进行适合某一类客户的商务活动。 
  五、在电子商务活动中的几点应用 
  (一)找到潜在的客户 
  在对Web的客户访问信息的挖掘中,利用分类技术可以在Internet上找到未来的潜在客户。获得这些潜在的客户通常的市场策略是先对已经存在的访问者进行分类,一般分为三种: No custome”、“vistor once”和“visitor regular”。对于一个新的访问者,通过在Web上的分类发觋.识别出这个客户与已经分类的老客户的一些公共的描述,从而对这个新客户进行正确的分类,然后从它的分类判断这个新客户是有利可图的客户群还是无利可图的客户群,决定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后,就可以对客户动态地展示Web页面,页面的内容取决于客户与销售商提供的产品和般务之间的关联。
  (二)客户的驻留 
  对客户来说,传统客户与销售商之间的空间距离在电子商务中已经不存在了,在Internet上,每一个销售商对于客户来说都是一样的,那么如何使客户在自己的销售站点上驻留更长的时间,对销售商来说将是一个挑战。为了使客户在自己的网站上驻留更长的时间,就应该了解客户的浏览行为,知道客户的兴趣及需求所在,动态地调整Web页面,以满足客户的需要。通过对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户的兴趣及需求。在Internet上的电子商务中的一个典型的序列,恰好就代表了一个购物者以页面形式在站点上导航的行为,所以可运用数据挖掘中的序列模式发现技术。 
  (三)改进站点的设计 
  站点上页面内容的安排和连接就如超级市场中物品在货架上的摆设一样,把具有一定支持度和信任度的相关联的物品摆放在一起有助于铺售,利用在Web上的关联规则的发现,可以针对客户动态调整站点的结构,使客户访问的有关联的文件间的连接能够比较直接,让客户能够容易的访问到想访问的页面,网站如果具有这样的便利性,能给客户留下较好的印象,增加了下次访问的机率。 
  六、小结 
  本文介绍了在电子商务中可以被用来进行数据挖掘的数据源,以及可用于电子商务中的、基于Web上的几种数据挖掘技术和它们在电子商务中的一些相关运用。但是在电子商务中进行Web的数据挖掘时还有很多问题需要解决。例如,我们需要把服务器上的日志数据转化成适台某种特定数据挖掘技术适用的格式;需要解决不同国家不同地区存储Web数据的语义不一致性;需要解决用户会话期识别的问题;由谁来控制这整个Web上的知识发现过程等。另外,从Web数据挖掘在电子商务中运用的角度来看,从数据挖掘中发掘出来的这些潜在的知识可作为今后市场策略的重要准则,根据发掘出来的知识进行相应的策略调整,可以动态创建满足客户需求的页面。

参考文献: 
[1]Goonatilake S.Genet~Rule Induction for Financial Decision Making[M].IOS Press.2004. 
[2]Mueller J.A and Frank Lemke.Selforganising data mining[M].Herstellung.Berlin:Libri Books on Dem and.2000. 
[3]Elder IVJF.A statistical perspective on knowledge discovery in databases[M].AAA1 Press/The MIT Press.M enlo Park,California,2007. 
[4]Bebaer.A.C .Mttlveana.M.D Discovering Intemet Marketing Inteligence, through online Analytical Web Using Mining [j] ACM? SIGMOD Record.2006.27(4):54-61.
[5]Barron A R.Statistical learning networks: a unifying view[A].Proceedings of the 20th symposium computer science and statistics[c].2008. 
[6]王实,高文.李锦涛Web数据挖掘[J]. 计算机科学 2005.27(4).

你可能感兴趣的:(电子商务)