

[摘要] 随着电子商务的深入发展,了解用户访问模式显得非常重要。从Web使用挖掘应用目标出发,综述了Web使用挖掘的数据源收集与数据预处理技术、模式发现与模式分析技术,最后介绍了Web使用挖掘在电子商务中的应用。
[关键词]电子商务;Web使用挖掘;服务器日志
[中图分类号]F274.6;TP391[文献标识码]A [文章编号]1673-0194(2006)10-0083-03
1引 言
随着Internet的快速发展,越来越多的企业、政府、学校等组织在网上建立了网站,有的通过网站来进行产品和服务的营销,有的通过网站来进行信息的发布、事务的处理,有的进行在线教学等。随着这些网站的运行,用户的访问,网站的管理者非常希望知道用户的访问模式,包括用户的兴趣、用户的习惯、用户的来源等,根据这些信息可以制定企业的经营战略、政府的管理方针、学校的教学方式,可以调整网站的结构,完善网页信息,从而满足用户的需要。
Web使用挖掘使以上希望成为可能,它能从用户访问时留下的服务器日志、注册信息以及其他相关信息中挖掘出用户访问模式,为组织决策提供依据。
本文对Web使用挖掘的理论和方法进行了综述,包括Web使用挖掘的数据收集与预处理技术、模式发现与模式分析技术,介绍了Web使用挖掘在电子商务中的一些主要应用。
2 Web使用挖掘
Web使用挖掘,是Web挖掘的一个方面。Web挖掘是数据挖掘在Web上的应用,一般的定义为:从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。目前国内外对Web挖掘技术的研究分3个方面,即Web内容挖掘(Web content mining)的研究、Web结构挖掘(Web structure mining)的研究和Web使用挖掘(Web usage mining)的研究。
Web使用挖掘,就是对用户访问Web时在服务器留下的访问记录进行挖掘。目前Web使用挖掘应用的目标主要分为3类:(l)以分析Web站点性能为目标;(2)以理解用户意图为目标;(3)以改进Web站点设计为目标。
Web使用挖掘过程分为4个阶段:源数据收集、数据预处理、模式发现和模式分析。Web使用挖掘技术主要分为两大类:基于Web事务的方法和基于数据立方体的方法。
2.1源数据收集与数据预处理
源数据收集在Web使用挖掘中是第一步,数据源主要包括:Web服务器日志(包括服务器日志、引用日志和代理日志)、Web站点的拓扑结构和站点文件、用户的注册信息、用户调查信息、cookies,以及与网站服务相关的数据库数据等。但主要是服务器日志。
基于Web事务方法的数据预处理主要有站点识别、对用户访问日志进行数据清洗、用户识别、用户会话识别、完善访问路径和事务识别等处理。基于数据立方体方法的数据预处理主要有对日志数据进行清洗、过滤和转换,抽取感兴趣的数据。数据预处理的好坏直接影响到挖掘结果,因此是Web使用挖掘中的重要一步,目前国内外学者已提出了不少方法。下面以基于Web事务方法为例。
2.1.1站点识别
站点识别过程主要产生网站结构图,该图对于预处理过程和其后的模式分析过程都具有重要的参考价值。预处理过程需要结合网站结构图来抽取和过滤浏览页面,以助于最终识别会话。同样,模式分析过程也需要参照网站结构图来分析已产生的模式,过滤掉无意义的模式,并将最终结果反馈给用户。该过程的难点在于动态页面的识别、跟踪和站点结构的统一表示。
2.1.2数据清洗
数据清洗是指根据需求,对日志文件进行处理,包括选择所需的字段,删除无关紧要的数据,合并某些记录,对用户请求页面时发生错误的记录进行适当的处理等等。主要有以下处理:(1)选择所需的字段,常用的服务器日志格式有普通日志格式(clf)和扩展日志格式(eclf)两种,可根据需要选择字段。(2)把日志中文件的后缀为gif、jpg、jpeg、GIF、JPG、JPEG等的记录删除,但要注意这些图片应不是用户请求的,另外应记下其字节数以备流量分析等。(3)删除后缀名为cgi、js和JS的脚本文件。(4)删除杂乱、错误的记录。
2.1.3用户识别
用户识别有许多的方法,各有优点和缺点,见表1。
目前常用的方法是用IP地址来识别用户,而对于IP地址不能与用户一一对应的缺点,通过一些假设来识别,从而减少错识率,如:(1)当IP地址相同时,默认不同的操作系统或浏览器代表不同的用户;(2)在IP地址相同,用户使用的操作系统和浏览器也相同的情况下,则根据网站的拓扑结构图对用户进行识别:如果用户请求的某个页面不能从已访问的任何页面到达,则判断这是又一个新的用户。
2.1.4用户会话的识别
用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面,可以获得用户在网站中的访问行为和浏览兴趣。用户会话识别的目的就是要将用户的访问记录分为单个的会话。
根据对用户访问行为的不同假设,有4种识别会话的模型:页面类型模型(page type model)、参引长度模型(reference length model)、最大前向参引模型(maximal forward reference model)和时间窗口模型(time window model)。最常用的是时间窗口模型,即设定一个时间间隔:30分钟或25.5分钟(L.Catledge和J.Pitkow由实验得出),当会话超过这个时间间隔,认为是下一个会话。
2.1.5完善访问路径
完善访问路径的目的在于补全访问日志中没有记录的用户请求,获得用户完整的访问路径,这样才能正确地识别用户的有意义的访问路径。用户在浏览网页时,通过按下浏览器上的“后退”按钮得到的页面是从本地缓冲区中得到的,在日志文件中是没有记录的,从而导致该页与用户上一次请求的页面之间没有超链接信息;在这种情况下,可以根据网站的拓扑结构,把用户的访问路径填充完整。如果用户访问的历史记录中有多个页面都包括与当前页面的连接,则选择请求时间最接近于当前页的页面作为当前请求的来源。
2.1.6事务识别
事务识别是建立在对用户会话识别的基础上,目的是依据数据挖掘任务的需求将事务做分割或合并的处理,以利于知识的发现。由此而产生分割或合并两种实现方法。无论是哪种方法都要求以一组事务列表或一些参数作为输入条件,同时输出一组与输入同格式的事务列表。
相关文章
最新评论共有 0 位网友发表了评论
发表评论