您现在的位置: 主页>IT界>互联网络> 正文
站内搜索:
面向电子商务的Web使用挖掘及其应用研究
[作者:7t5.cn|来源:|时间:2007-09-23| 收藏 推荐 ]【


  然而不同的事务识别方法将会导致不同的结果,从而也会影响最终知识发现的结果。Zhiqiang Zheng等人采用了以下3种方法对一实例数据进行了事务识别,然后用分类模型进行了知识发现,结果有显著不同。(1)会话描述法(Session Characterization):即一个会话转换为一个事务(对应一条记录);(2)滑行窗口法(Sliding Window):预先给定滑行窗口的长度w,则一个长度为n的会话分成n-w 1个长度为w的滑行窗口,一个滑行窗口内包含w个连续的点击,每个窗口转换为一个事务;(3)随机剪辑法(Probabilistic Clipping):确定一个随机数dnum,对每个随机取到的点击剪辑,转换为一个事务。
 2.2模式发现与模式分析
  模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。可用于Web使用挖掘的技术有路径分析、关联规则、序列模式、分类聚类技术和依赖性建模,其中路径分析技术是Web使用挖掘所特有的。模式分析阶段主要是为了从模式发现算法找到的模式集合中筛选出有用的模式。
  路径分析技术进行Web使用模式的数据挖掘时,最常用的是图。图最直接的来源是网站结构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边。因此,一个图既表示了网站上的页面,又代表了页面之间的联系。在Web使用模式挖掘过程中,通过路径分析技术可以确定网站的频繁访问路径。
  关联规则挖掘就是要挖掘出用户在一个访问期间(Session),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference)关系。
  序列模式挖掘技术就是要挖掘出交易集之间的有时间序列的模式。
  分类规则可以挖掘某些共同的特性,这些特性可用来对新添到数据库中的数据项进行分类。聚类分析用于把有相似特性的用户、数据项集合到一起。
  依赖性建模是开发出一种能表达出Web领域中各种变量之间显著依赖性的模型。
  2.2.1基于Web事务方法的模式发现与分析
  基于Web事务的方法侧重于用户序列模式的挖掘和分析,即找出每一个用户的频繁访问序列,从而进行以事务和序列为出发点的知识发现。
  当Web事务分割完成以后,第一步,通过Chen提出的最大向前引用(Maximal Forward Reference,MFR)算法将日志数据中原始序列转换为最大向前引用集,其中的每一个访问子序列都代表一个从用户访问点出发的最大向前引用,其目的是过滤掉为了取消访问而产生的回退引用的影响,从而能专注于挖掘有意义的用户访问序列。第二步,从最大向前引用集中找出“大引用序列”(Large Reference Sequences),也就是频繁出现的引用序列。第三步,从大引用序列中确定“最大引用序列”(Maximal Reference Sequences),即频繁访问序列。
  掌握了用户的访问序列模式,即频繁访问序列,就可以对所获得的知识进一步加以分析和利用,可采用个性化的用户交互和可视化方法。
  2.2.2基于数据立方体方法的模式发现与分析
  基于数据立方体的方法侧重于将Web日志转变为结构化的数据立方体,能从多角度、全面地进行挖掘和分析,并能引进各种成熟的数据挖掘技术。
  当数据进行预处理以后,Han等人提出建立数据立方体,进行联机分析处理(OLAP)。将所访问的URL、访问方法、访问资源的类型和大小、请求和停留的时间、访问者的域名和IP、用户、服务器状态等作为Data Cube的维变量,将对不同页面和文件的请求次数、来自不同Internet域名的请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织等作为Data Cube的度量变量建立数据立方体。然后,运用逐层细化分析(Drill-down)、汇总分析(Drill-up)、切片分析(Slice)和切块分析(Dice)等技术对Data Cube进行联机分析处理。
  还可利用成熟的数据挖掘技术(如特征、性能、分类、关联、预测、时间序列分析、趋势分析等)进行Web流量分析、典型的事件序列和用户行为模式分析、事务分析等。
  
  3 Web使用挖掘在电子商务中的应用
  
  Web使用挖掘在电子商务中应用主要目的是通过对用户的访问模式、兴趣习惯等的挖掘,优化站点的应用和服务,实现站点和用户“双赢”的局面。主要应用有:利用分类技术发现潜在的客户;利用聚类技术了解客户的特征;利用路径分析和关联分析了解客户访问路径和页面关联;利用序列分析了解客户的兴趣。
  
  3.1利用分类技术发现潜在的客户
  对一个电子商务网站来说,了解、关注在册客户群体非常重要,但从众多的访问者中发现潜在客户群体也同样非常关键。如果发现某些客户为潜在客户群体,就可以对这类客户实施一定的策略,使他们尽快成为在册客户群体。具体进行时需先对客户进行分类规则发现,识别出其各类的公共属性,然后对一个新的客户,依据分类规则进行正确分类,并确定是否为潜在的客户。
  
  3.2利用聚类技术了解客户的特征
  通过聚类技术对具有相似浏览行为的客户分组,并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解客户的特征,向客户提供更适合的服务。客户浏览行为可用客户ID、客户访问节点URL和访问次数来描述,以客户访问节点URL为行,客户ID为列,客户访问次数为元素值构成URL-客户ID关联矩阵,其每一列向量表示某客户对该站点中所有URL的访问情况。因为它是客户访问本站点的个性化子图,故具有相似访问子图的客户即为相似客户群体。利用以上方法可进行客户聚类,进而了解其特征。
  
  3.3利用路径分析和关联分析了解客户访问路径和页面关联
  利用路径分析技术可以分析客户访问路径,判定频繁访问路径,也可以发现用户期望位置(目标页面所在的位置),以及其他一些有用的信息,如从哪个页面开始访问、访问几个页面后离开等。
  利用关联分析技术可以获得页面之间的关联关系。设有页面P和P,用weight表示P转到P的可能性,并定义weight等于P到P访问次数之和与P到所有其他页面(包括Pj)访问次数之和的比,则0<weight<1,如果weight大于某确定值(视具体情况而定),访问用户数也大于某确定值,则认为页面P与P相关。
  了解了频繁访问路径、用户期望位置和页面关联等,将大大有助于优化站点结构。
  
  3.4利用序列分析了解客户的兴趣
  利用序列分析,挖掘出客户访问有时间序列的模式。在Web服务器日志里,用户的访问是以时间为单位记载的。经过数据过滤和事件交易确认以后是一个间断的时间序列,这些序列所反映的用户行为,如访问同一页面或有关联页面的时间间隔等,有助于帮助商家了解客户兴趣,确定产品所处的生命周期,从而可以采取不同的营销策略。


Tags:
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
快速注册通道
本站部分内容来源于网络,如果有侵权等事件发生,请及时与我们联系,我们将做妥善处理
管理员 QQ:45018051 MAIL: wangnrg@hotmail.com 爱我售 爱我售网络
Copyright © 2008 i5so.com Inc. All Rights Reserved.