频繁项集挖掘算法之FPGrowth

  • 时间:
  • 浏览:7
  • 来源:uu快3和值_uu快3app_计划师

注意点:

FPGrowth的算法步骤:

        常见的频繁项集挖掘算法有两类,一类是Apriori算法,另一类是FPGrowth。Apriori通过不断的构造候选集、筛选候选集捞出频繁项集,必须多次扫描原始数据,当原始数据较大时,磁盘I/O次数这样来这样多,下行效率 比较低下。FPGrowth算法则只需扫描原始数据两遍,通过FP-tree数据内部结构对原始数据进行压缩,下行效率 较高。

参考文献:

        FPGrowth算法主要分为有另另好几个 步骤:FP-tree构建、递归挖掘FP-tree。FP-tree构建通过两次数据扫描,将原始数据中的事务压缩到一有另另好几个 FP-tree树,该FP-tree同类于前缀树,相同前缀的路径可不还可以 共用,从而达到压缩数据的目的。接着通过FP-tree找出每个item的条件模式基、条件FP-tree,递归的挖掘条件FP-tree得到所有的频繁项集。算法的主要计算瓶颈在FP-tree的递归挖掘上,下面完整介绍FPGrowth算法的主要步骤。

背景:

        频繁项集挖掘算法用于挖掘经常一并冒出的item集合(称为频繁项集),通过捞出哪此频繁项集,当在一有另另好几个 事务中冒出频繁项集的其中一有另另好几个 item,则可不还可以 把该频繁项集的这人 item作为推荐。比如经典的购物篮分析中啤酒、尿布故事,啤酒和尿布经常在用户的购物篮中一并冒出,通过捞出啤酒、尿布这人 啤酒项集,则当一有另另好几个 用户买了啤酒的以以可不还可以 为他推荐尿布,那我用户购买的因为性会比较大,从而达到组合营销的目的。