gjwang1983

R语言 | 关联规则

1.概念

1.1 引论

关联规则（AssociationRules）是无监督的机器学习方法，用于知识发现，而非预测。

关联规则的学习器（learner）无需事先对训练数据进行打标签，因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估，一般都可以通过肉眼观测结果是否合理。

关联规则主要用来发现Pattern，最经典的应用是购物篮分析，当然其他类似于购物篮交易数据的案例也可以应用关联规则进行模式发现，如电影推荐、约会网站或者药物间的相互副作用。

1.2 例子 - 源数据

点击流数据。

不同的Session访问的新闻版块，如下所示：

Session ID	List of media categories accessed
1	{News, Finance}
2	{News, Finance}
3	{Sports, Finance, News}
4	{Arts}
5	{Sports, News, Finance}
6	{News, Arts, Entertainment}

1.3数据格式

关联规则需要把源数据的格式转换为稀疏矩阵。

把上表转化为稀疏矩阵，1表示访问，0表示未访问。

Session ID	News	Finance	Entertainment	Sports
1	1	1	0	0
2	1	1	0	0
3	1	1	0	1
4	0	0	0	0
5	1	1	0	1
6	1	0	1	0

1.4术语和度量

1.4.1项集 ItemSet

这是一条关联规则：

括号内的Item集合称为项集。如上例，{News, Finance}是一个项集，{Sports}也是一个项集。

这个例子就是一条关联规则：基于历史记录，同时看过News和Finance版块的人很有可能会看Sports版块。

{News,Finance} 是这条规则的Left-hand-side (LHS or Antecedent)

{Sports}是这条规则的Right-hand-side (RHS or Consequent)

LHS（Left Hand Side)的项集和RHS（Right Hand Side）的项集不能有交集。

下面介绍衡量关联规则强度的度量。

1.4.2支持度 Support

项集的支持度就是该项集出现的次数除以总的记录数（交易数）。

Support({News}) = 5/6 = 0.83

Support({News, Finance}) = 4/6 =0.67

Support({Sports}) = 2/6 = 0.33

支持度的意义在于度量项集在整个事务集中出现的频次。我们在发现规则的时候，希望关注频次高的项集。

1.4.3置信度 Confidence

关联规则 X -> Y 的置信度计算公式

规则的置信度的意义在于项集{X，Y}同时出现的次数占项集{X}出现次数的比例。发生X的条件下，又发生Y的概率。

表示50%的人访问过{News, Finance}，同时也会访问{Sports}

1.4.4提升度 Lift

当右手边的项集（consequent）的支持度已经很显著时，即时规则的Confidence较高，这条规则也是无效的。

举个例子：

在所分析的10000个事务中,6000个事务包含计算机游戏,7500个包含游戏机游戏,4000个事务同时包含两者。

关联规则（计算机游戏，游戏机游戏）支持度为0.4，看似很高，但其实这个关联规则是一个误导。

在用户购买了计算机游戏后有（4000÷6000）0.667 的概率的去购买游戏机游戏，而在没有任何前提条件时，用户反而有（7500÷10000）0.75的概率去购买游戏机游戏，也就是说设置了购买计算机游戏这样的条件反而会降低用户去购买游戏机游戏的概率，所以计算机游戏和游戏机游戏是相斥的。

所以要引进Lift这个概念，Lift(X->Y)=Confidence(X->Y)/Support(Y)

规则的提升度的意义在于度量项集{X}和项集{Y}的独立性。即，Lift(X->Y)= 1 表面 {X}，{Y}相互独立。[注：P(XY)=P(X)*P(Y),if X is independent of Y]

如果该值=1,说明两个条件没有任何关联,如果<1,说明A条件(或者说A事件的发生)与B事件是相斥的,一般在数据挖掘中当提升度大于3时,我们才承认挖掘出的关联规则是有价值的。

最后，lift(X->Y) = lift(Y->X)

1.4.5出错率 Conviction

Conviction的意义在于度量规则预测错误的概率。

表示X出现而Y不出现的概率。

例子：

表面这条规则的出错率是32%。

1.5生成规则

一般两步：

第一步，找出频繁项集。n个item，可以产生2^n- 1 个项集（itemset）。所以，需要指定最小支持度，用于过滤掉非频繁项集。
第二部，找出第一步的频繁项集中的规则。n个item，总共可以产生3^n - 2^(n+1) + 1条规则。所以，需要指定最小置信度，用于过滤掉弱规则。

第一步的计算量比第二部的计算量大。

2.Apriori算法

Apriori Principle

如果项集A是频繁的，那么它的子集都是频繁的。如果项集A是不频繁的，那么所有包括它的父集都是不频繁的。

例子：{X, Y}是频繁的，那么{X}，{Y}也是频繁的。如果{Z}是不频繁的，那么{X,Z}, {Y, Z}, {X, Y, Z}都是不频繁的。

生成频繁项集

给定最小支持度Sup，计算出所有大于等于Sup的项集。

第一步，计算出单个item的项集，过滤掉那些不满足最小支持度的项集。

第二步，基于第一步，生成两个item的项集，过滤掉那些不满足最小支持度的项集。

第三步，基于第二步，生成三个item的项集，过滤掉那些不满足最小支持度的项集。

如下例子：

One-Item Sets	Support Count	Support
{News}	5	0.83
{Finance}	4	0.67
{Entertainment}	1	0.17
{Sports}	2	0.33
Two-Item Sets	Support Count	Support
{News, Finance}	4	0.67
{News, Sports}	2	0.33
{Finance, Sports}	2	0.33
Three-Item Sets	Support Count	Support
{News, Finance, Sports}	2	0.33

规则生成

给定Confidence、Lift 或者 Conviction，基于上述生成的频繁项集，生成规则，过滤掉那些不满足目标度量的规则。因为规则相关的度量都是通过支持度计算得来，所以这部分过滤的过程很容易完成。

Apriori案例分析（R语言）

1. 关联规则的包

arules是用来进行关联规则分析的R语言包。

library(arules)

2. 加载数据集

源数据：groceries 数据集，每一行代表一笔交易所购买的产品（item）

数据转换：创建稀疏矩阵，每个Item一列，每一行代表一个transaction。1表示该transaction购买了该item，0表示没有购买。当然，data frame是比较直观的一种数据结构，但是一旦item比较多的时候，这个data frame的大多数单元格的值为0，大量浪费内存。所以，R引入了特殊设计的稀疏矩阵，仅存1，节省内存。arules包的函数read.transactions可以读入源数据并创建稀疏矩阵。

groceries <- read.transactions("groceries.csv", format="basket", sep=",")

参数说明：

format=c("basket", "single")用于注明源数据的格式。如果源数据每行内容就是一条交易购买的商品列表（类似于一行就是一个购物篮）那么使用basket；如果每行内容是交易号+单个商品，那么使用single。

cols=c("transId", "ItemId") 对于single格式，需要指定cols，二元向量（数字或字符串）。如果是字符串，那么文件的第一行是表头（即列名）。第一个元素是交易号的字段名，第二个元素是商品编号的字段名。如果是数字，那么无需表头。对于basket，一般设置为NULL，缺省也是NULL，所以不用指定。

signle format的数据格式如下所示，与此同时，需要设定cols=c(1, 2)

1001,Fries

1001,Coffee

1001,Milk

1002,Coffee

1002,Fries

rm.duplicates=FALSE：表示对于同一交易，是否需要删除重复的商品。

接下来，查看数据集相关的统计汇总信息，以及数据集本身。

summary(groceries)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 169 columns (items) and a density of 0.02609146 

most frequent items:
      whole milk other vegetables       rolls/buns             soda 
            2513             1903             1809             1715 
          yogurt          (Other) 
            1372            34055 

element (itemset/transaction) length distribution:
sizes
   1    2    3    4    5    6    7    8    9   10   11   12   13   14   15 
2159 1643 1299 1005  855  645  545  438  350  246  182  117   78   77   55 
  16   17   18   19   20   21   22   23   24   26   27   28   29   32 
  46   29   14   14    9   11    4    6    1    1    1    1    3    1 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   2.000   3.000   4.409   6.000  32.000 

includes extended item information - examples:
            labels
1 abrasive cleaner
2 artif. sweetener
3   baby cosmetics

summary的含义：

第一段：总共有9835条交易记录transaction，169个商品item。density=0.026表示在稀疏矩阵中1的百分比。
第二段：最频繁出现的商品item，以及其出现的次数。可以计算出最大支持度。

第三段：每笔交易包含的商品数目，以及其对应的5个分位数和均值的统计信息。如：2159条交易仅包含了1个商品，1643条交易购买了2件商品，一条交易购买了32件商品。那段统计信息的含义是：第一分位数是2，意味着25%的交易包含不超过2个item。中位数是3表面50%的交易购买的商品不超过3件。均值4.4表示所有的交易平均购买4.4件商品。

第四段：如果数据集包含除了Transaction Id 和 Item之外的其他的列（如，发生交易的时间，用户ID等等），会显示在这里。这个例子，其实没有新的列，labels就是item的名字。

进一步查看数据集的信息

> class(groceries)
[1] "transactions"
attr(,"package")
[1] "arules"
> groceries
transactions in sparse format with
 9835 transactions (rows) and
 169 items (columns)
> dim(groceries)
[1] 9835  169
> colnames(groceries)[1:5]
[1] "abrasive cleaner" "artif. sweetener" "baby cosmetics"   "baby food"        "bags"            
> rownames(groceries)[1:5]
[1] "1" "2" "3" "4" "5"

basketSize表示每个transaction包含item的数目，是row level。而ItemFrequency是这个item的支持度，是column level。

> basketSize<-size(groceries)
> summary(basketSize)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   2.000   3.000   4.409   6.000  32.000 
> sum(basketSize) #count of all 1s in the sparse matrix
[1] 43367
> itemFreq <- itemFrequency(groceries)
> itemFreq[1:5]
abrasive cleaner artif. sweetener   baby cosmetics        baby food             bags 
    0.0035587189     0.0032536858     0.0006100661     0.0001016777     0.0004067107 
> sum(itemFreq) #本质上代表"平均一个transaction购买的item个数"
[1] 4.409456

可以查看basketSize的分布：密度曲线(TO ADD HERE)

itemCount表示每个item出现的次数。Support(X) = Xs / N, N是总的交易数，Xs就是Item X的count。

itemXCount = N * itemXFreq = (ItemXFreq / sum(itemFreq)) * sum(basketSize)

> itemCount <- (itemFreq/sum(itemFreq))*sum(basketSize)
> summary(itemCount)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0    38.0   103.0   256.6   305.0  2513.0 
> orderedItem <- sort(itemCount, decreasing = )
> orderedItem <- sort(itemCount, decreasing = T)
> orderedItem[1:10]
      whole milk other vegetables       rolls/buns             soda           yogurt    bottled water 
            2513             1903             1809             1715             1372             1087 
 root vegetables   tropical fruit    shopping bags          sausage 
            1072             1032              969              924

当然，也可以把支持度itemFrequency排序，查看支持度的最大值

> orderedItemFreq <- sort(itemFrequency(groceries), decreasing=T)
> orderedItemFreq[1:10]
      whole milk other vegetables       rolls/buns             soda           yogurt    bottled water 
      0.25551601       0.19349263       0.18393493       0.17437722       0.13950178       0.11052364 
 root vegetables   tropical fruit    shopping bags          sausage 
      0.10899847       0.10493137       0.09852567       0.09395018

如果要切一块子集出来计算支持度，可以对数据集进行矩阵行列下标操作。

如下例，切除第100行到800行，计算第1列到第3列的支持度。也就是说，数据集通过向量的下标按行切，也可以通过矩阵下标按行列切。

> itemFrequency(groceries[100:800,1:3])
abrasive cleaner artif. sweetener   baby cosmetics 
     0.005706134      0.001426534      0.001426534

可以通过图形更直观观测。

按最小支持度查看。

> itemFrequencyPlot(groceries, support=0.1)

按照排序查看。

> itemFrequencyPlot(groceries, topN=10, horiz=T)

最后，可以根据业务对数据集进行过滤，获得进一步规则挖掘的数据集。如下例，只关心购买两件商品以上的交易。

> groceries_use <- groceries[basketSize > 1]
> dim(groceries_use)
[1] 7676  169

查看数据

inspect(groceries[1:5])
  items                     
1 {citrus fruit,            
   margarine,               
   ready soups,             
   semi-finished bread}     
2 {coffee,                  
   tropical fruit,          
   yogurt}                  
3 {whole milk}              
4 {cream cheese,            
   meat spreads,            
   pip fruit,               
   yogurt}                  
5 {condensed milk,          
   long life bakery product,
   other vegetables,        
   whole milk}

也可以通过图形更直观观测数据的稀疏情况。一个点代表在某个transaction上购买了item。

> image(groceries[1:10])

当数据集很大的时候，这张稀疏矩阵图是很难展现的，一般可以用sample函数进行采样显示。

> image(sample(groceries,100))

这个矩阵图虽然看上去没有包含很多信息，但是它对于直观地发现异常数据或者比较特殊的Pattern很有效。比如，某些item几乎每个transaction都会买。比如，圣诞节都会买糖果礼物。那么在这幅图上会显示一根竖线，在糖果这一列上。

给出一个通用的R函数，用于显示如上所有的指标：

3. 进行规则挖掘

为了进行规则挖掘，第一步是设定一个最小支持度，这个最小支持度可以由具体的业务规则确定。

介绍apriori函数的用法：

这里需要说明下parameter：

默认的support=0.1, confidence=0.8, minlen=1, maxlen=10

对于minlen，maxlen这里指规则的LHS+RHS的并集的元素个数。所以minlen=1，意味着 {} => {beer}是合法的规则。我们往往不需要这种规则，所以需要设定minlen=2。

> groceryrules <- apriori(groceries, parameter = list(support =
+                                                         0.006, confidence = 0.25, minlen = 2))

Parameter specification:
 confidence minval smax arem  aval originalSupport support minlen maxlen target   ext
       0.25    0.1    1 none FALSE            TRUE   0.006      2     10  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

apriori - find association rules with the apriori algorithm
version 4.21 (2004.05.09)        (c) 1996-2004   Christian Borgelt
set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
sorting and recoding items ... [109 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 4 done [0.01s].
writing ... [463 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].

从返回的结果看，总共有463条规则生成。

评估模型

使用summary函数查看规则的汇总信息。

> summary(groceryrules)
set of 463 rules

rule length distribution (lhs + rhs):sizes
  2   3   4 
150 297  16 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  2.000   2.000   3.000   2.711   3.000   4.000 

summary of quality measures:
    support           confidence          lift       
 Min.   :0.006101   Min.   :0.2500   Min.   :0.9932  
 1st Qu.:0.007117   1st Qu.:0.2971   1st Qu.:1.6229  
 Median :0.008744   Median :0.3554   Median :1.9332  
 Mean   :0.011539   Mean   :0.3786   Mean   :2.0351  
 3rd Qu.:0.012303   3rd Qu.:0.4495   3rd Qu.:2.3565  
 Max.   :0.074835   Max.   :0.6600   Max.   :3.9565  

mining info:
      data ntransactions support confidence
 groceries          9835   0.006       0.25

第一部分：规则的长度分布：就是minlen到maxlen之间的分布。如上例，len=2有150条规则，len=3有297，len=4有16。同时，rule length的五数分布+均值。

第二部分：quality measure的统计信息。

第三部分：挖掘的相关信息。

使用inpect查看具体的规则。

> inspect(groceryrules[1:5])
  lhs                rhs                    support confidence     lift
1 {potted plants} => {whole milk}       0.006914082  0.4000000 1.565460
2 {pasta}         => {whole milk}       0.006100661  0.4054054 1.586614
3 {herbs}         => {root vegetables}  0.007015760  0.4312500 3.956477
4 {herbs}         => {other vegetables} 0.007727504  0.4750000 2.454874
5 {herbs}         => {whole milk}       0.007727504  0.4750000 1.858983

4. 评估规则

规则可以划分为3大类：

Actionable
- 这些rule提供了非常清晰、有用的洞察，可以直接应用在业务上。

Trivial
- 这些rule显而易见，很清晰但是没啥用。属于common sense，如 {尿布} => {婴儿食品}。

Inexplicable
- 这些rule是不清晰的，难以解释，需要额外的研究来判定是否是有用的rule。

接下来，我们讨论如何发现有用的rule。

按照某种度量，对规则进行排序。

> ordered_groceryrules <- sort(groceryrules, by="lift")
> inspect(ordered_groceryrules[1:5])
  lhs                   rhs                      support confidence     lift
1 {herbs}            => {root vegetables}    0.007015760  0.4312500 3.956477
2 {berries}          => {whipped/sour cream} 0.009049314  0.2721713 3.796886
3 {other vegetables,                                                        
   tropical fruit,                                                          
   whole milk}       => {root vegetables}    0.007015760  0.4107143 3.768074
4 {beef,                                                                    
   other vegetables} => {root vegetables}    0.007930859  0.4020619 3.688692
5 {other vegetables,                                                        
   tropical fruit}   => {pip fruit}          0.009456024  0.2634561 3.482649

搜索规则

> yogurtrules <- subset(groceryrules, items %in% c("yogurt"))
> inspect(yogurtrules)
    lhs                        rhs                    support confidence     lift
1   {cat food}              => {yogurt}           0.006202339  0.2663755 1.909478
2   {hard cheese}           => {yogurt}           0.006405694  0.2614108 1.873889
3   {butter milk}           => {yogurt}           0.008540925  0.3054545 2.189610
......
18  {cream cheese,                                                               
     yogurt}                => {whole milk}       0.006609049  0.5327869 2.085141
......
121 {other vegetables,                                                           
     whole milk}            => {yogurt}           0.022267412  0.2975543 2.132979

items %in% c("A", "B")表示 lhs+rhs的项集并集中，至少有一个item是在c( "A", "B")。 item = A or item = B

如果仅仅想搜索lhs或者rhs，那么用lhs或rhs替换items即可。如：lhs %in% c("yogurt")

%in%是精确匹配

%pin%是部分匹配，也就是说只要item like '%A%' or item like '%B%'

%ain%是完全匹配，也就是说itemset has ’A' and itemset has ‘B'

同时可以通过条件运算符(&, |, !) 添加 support, confidence, lift的过滤条件。

例子如下：

> fruitrules <- subset(groceryrules, items %pin% c("fruit"))
> inspect(fruitrules)
    lhs                        rhs                    support confidence     lift
1   {grapes}                => {tropical fruit}   0.006100661  0.2727273 2.599101
2   {fruit/vegetable juice} => {soda}             0.018403660  0.2545710 1.459887

> byrules <- subset(groceryrules, items %ain% c("berries", "yogurt"))
> inspect(byrules)
  lhs          rhs         support confidence     lift
1 {berries} => {yogurt} 0.01057448  0.3180428 2.279848

> fruitrules <- subset(groceryrules, items %pin% c("fruit") & lift > 2)
> inspect(fruitrules)
   lhs                        rhs                    support confidence     lift
1  {grapes}                => {tropical fruit}   0.006100661  0.2727273 2.599101
2  {pip fruit}             => {tropical fruit}   0.020437214  0.2701613 2.574648
3  {tropical fruit}        => {yogurt}           0.029283172  0.2790698 2.000475
4  {curd,                                                                       
    tropical fruit}        => {whole milk}       0.006507372  0.6336634 2.479936
5  {butter,                                                                     
    tropical fruit}        => {whole milk}       0.006202339  0.6224490 2.436047

查看其它的quality measure

<span style="font-family: sans-serif; background-color: rgb(255, 255, 255);"></span><pre name="code" class="java">> qualityMeasures <- interestMeasure(groceryrules, method=c("coverage","fishersExactTest","conviction", "chiSquared"), transactions=groceries)
> summary(qualityMeasures)
    coverage        fishersExactTest      conviction       chiSquared      
 Min.   :0.009964   Min.   :0.0000000   Min.   :0.9977   Min.   :  0.0135  
 1st Qu.:0.018709   1st Qu.:0.0000000   1st Qu.:1.1914   1st Qu.: 32.1179  
 Median :0.024809   Median :0.0000000   Median :1.2695   Median : 58.4354  
 Mean   :0.032608   Mean   :0.0057786   Mean   :1.3245   Mean   : 70.4249  
 3rd Qu.:0.035892   3rd Qu.:0.0000001   3rd Qu.:1.4091   3rd Qu.: 97.1387  
 Max.   :0.255516   Max.   :0.5608331   Max.   :2.1897   Max.   :448.5699  
> quality(groceryrules) <- cbind(quality(groceryrules), qualityMeasures)
> inspect(head(sort(groceryrules, by = "conviction", decreasing = F)))
  lhs                      rhs              support confidence      lift conviction chiSquared   coverage fishersExactTest
1 {bottled beer}        => {whole milk} 0.020437214  0.2537879 0.9932367  0.9976841 0.01352288 0.08052872        0.5608331
2 {bottled water,                                                                                                         
   soda}                => {whole milk} 0.007524148  0.2596491 1.0161755  1.0055826 0.02635700 0.02897814        0.4586202
3 {beverages}           => {whole milk} 0.006812405  0.2617188 1.0242753  1.0084016 0.05316028 0.02602949        0.4329533
4 {specialty chocolate} => {whole milk} 0.008032537  0.2642140 1.0340410  1.0118214 0.12264445 0.03040163        0.3850343
5 {candy}               => {whole milk} 0.008235892  0.2755102 1.0782502  1.0275976 0.63688634 0.02989324        0.2311769
6 {sausage,                                                                                                               
   soda}                => {whole milk} 0.006710727  0.2761506 1.0807566  1.0285068 0.54827850 0.02430097        0.2508610

第三个参数transactions：一般情况下都是原来那个数据集，但也有可能是其它数据集，用于检验这些rules在其他数据集上的效果。所以，这也是评估rules的一种方法：在其它数据集上计算这些规则的quality measure用以评估效果。

fishersExactTest 的p值大部分都是很小的（p < 0.05），这就说明这些规则反应出了真实的用户的行为模式。

coverage从0.01 ~ 0.26，相当于覆盖到了多少范围的用户。

ChiSquared: 考察该规则的LHS和RHS是否独立？即LHS与RHS的列联表的ChiSquare Test。p<0.05表示独立，否则表示不独立。

限制挖掘的item

可以控制规则的左手边或者右手边出现的item，即appearance。但尽量要放低支持度和置信度。

> berriesInLHS <- apriori(groceries, parameter = list( support = 0.001, confidence = 0.1 ), appearance = list(lhs = c("berries"), default="rhs"))

Parameter specification:
 confidence minval smax arem  aval originalSupport support minlen maxlen target   ext
        0.1    0.1    1 none FALSE            TRUE   0.001      1     10  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

apriori - find association rules with the apriori algorithm
version 4.21 (2004.05.09)        (c) 1996-2004   Christian Borgelt
set item appearances ...[1 item(s)] done [0.00s].
set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
sorting and recoding items ... [157 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 done [0.00s].
writing ... [26 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].
> summary(berriesInLHS)
set of 26 rules

rule length distribution (lhs + rhs):sizes
 1  2 
 8 18 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   1.000   2.000   1.692   2.000   2.000 

summary of quality measures:
    support           confidence          lift      
 Min.   :0.003660   Min.   :0.1049   Min.   :1.000  
 1st Qu.:0.004601   1st Qu.:0.1177   1st Qu.:1.000  
 Median :0.007016   Median :0.1560   Median :1.470  
 Mean   :0.053209   Mean   :0.1786   Mean   :1.547  
 3rd Qu.:0.107982   3rd Qu.:0.2011   3rd Qu.:1.830  
 Max.   :0.255516   Max.   :0.3547   Max.   :3.797  

mining info:
      data ntransactions support confidence
 groceries          9835   0.001        0.1
> inspect(berriesInLHS)
   lhs          rhs                         support confidence     lift
1  {}        => {bottled water}         0.110523640  0.1105236 1.000000
2  {}        => {tropical fruit}        0.104931368  0.1049314 1.000000
3  {}        => {root vegetables}       0.108998475  0.1089985 1.000000
4  {}        => {soda}                  0.174377224  0.1743772 1.000000
5  {}        => {yogurt}                0.139501779  0.1395018 1.000000
6  {}        => {rolls/buns}            0.183934926  0.1839349 1.000000
7  {}        => {other vegetables}      0.193492628  0.1934926 1.000000
8  {}        => {whole milk}            0.255516014  0.2555160 1.000000
9  {berries} => {beef}                  0.004473818  0.1345566 2.564659
10 {berries} => {butter}                0.003762074  0.1131498 2.041888
11 {berries} => {domestic eggs}         0.003863752  0.1162080 1.831579
12 {berries} => {fruit/vegetable juice} 0.003660397  0.1100917 1.522858
13 {berries} => {whipped/sour cream}    0.009049314  0.2721713 3.796886
14 {berries} => {pip fruit}             0.003762074  0.1131498 1.495738
15 {berries} => {pastry}                0.004270463  0.1284404 1.443670
16 {berries} => {citrus fruit}          0.005388917  0.1620795 1.958295
17 {berries} => {shopping bags}         0.004982206  0.1498471 1.520894
18 {berries} => {sausage}               0.004982206  0.1498471 1.594963
19 {berries} => {bottled water}         0.004067107  0.1223242 1.106769
20 {berries} => {tropical fruit}        0.006710727  0.2018349 1.923494
21 {berries} => {root vegetables}       0.006609049  0.1987768 1.823666
22 {berries} => {soda}                  0.007320793  0.2201835 1.262685
23 {berries} => {yogurt}                0.010574479  0.3180428 2.279848
24 {berries} => {rolls/buns}            0.006609049  0.1987768 1.080691
25 {berries} => {other vegetables}      0.010269446  0.3088685 1.596280
26 {berries} => {whole milk}            0.011794611  0.3547401 1.388328

既然lhs都是一样的，那么只查看rhs的itemset即可，可以如下：

> inspect(head(<strong>rhs(berriesInLHS)</strong>, n=5))
  items            
1 {bottled water}  
2 {tropical fruit} 
3 {root vegetables}
4 {soda}           
5 {yogurt}

当然，还可以使用subset进行进一步的过滤，例如，不希望看到rhs包含"root vegetables" 或 "whole milk"

> berrySub <- subset(berriesInLHS, subset = !(rhs %in% c("root vegetables", "whole milk")))
> inspect(head(rhs(sort(berrySub, by="confidence")), n=5))
  items               
1 {yogurt}            
2 {other vegetables}  
3 {whipped/sour cream}
4 {soda}              
5 {tropical fruit}    
> berrySub
set of 22 rules

保存挖掘的结果

有两种使用场景。

第一，保存到文件。可以与外部程序进行交换。

> write(groceryrules, file="groceryrules.csv", sep=",", quote=TRUE, row.names=FALSE)

第二，转换为data frame，然后再进行进一步的处理。处理完的结果可以保存到外部文件或者数据库。

> groceryrules_df <- as(groceryrules, "data.frame")
> str(groceryrules_df)
'data.frame':	463 obs. of  8 variables:
 $ rules           : Factor w/ 463 levels "{baking powder} => {other vegetables}",..: 340 302 207 206 208 341 402 21 139 140 ...
 $ support         : num  0.00691 0.0061 0.00702 0.00773 0.00773 ...
 $ confidence      : num  0.4 0.405 0.431 0.475 0.475 ...
 $ lift            : num  1.57 1.59 3.96 2.45 1.86 ...
 $ conviction      : num  1.24 1.25 1.57 1.54 1.42 ...
 $ chiSquared      : num  19 17.7 173.9 82.6 41.2 ...
 $ coverage        : num  0.0173 0.015 0.0163 0.0163 0.0163 ...
 $ fishersExactTest: num  2.20e-05 4.13e-05 6.17e-26 4.56e-16 1.36e-09 ...

关于关联规则挖掘的进阶部分

1. 带有Hierarchy的item

这里我们使用arules自带的数据集Groceries。该数据集不仅包含购物篮的item信息，而且还包含每个item对于的类别，总共有两层类别。如下所示：

> data(Groceries)  # grocery transactions object from arules package
> 
> summary(Groceries)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 169 columns (items) and a density of 0.02609146 

most frequent items:
      whole milk other vegetables       rolls/buns             soda           yogurt          (Other) 
            2513             1903             1809             1715             1372            34055 

element (itemset/transaction) length distribution:
sizes
   1    2    3    4    5    6    7    8    9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   26   27   28   29   32 
2159 1643 1299 1005  855  645  545  438  350  246  182  117   78   77   55   46   29   14   14    9   11    4    6    1    1    1    1    3    1 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   2.000   3.000   4.409   6.000  32.000 

includes extended item information - examples:
       labels  <strong><span style="color:#ff0000;">level2           level1</span></strong>
1 frankfurter sausage meet and sausage
2     sausage sausage meet and sausage
3  liver loaf sausage meet and sausage

在summary的最后一部分，我们发现除了labels（即item）之外，还有两个字段，level2和level1。我们可以通过itemInfo进行查看level1和level2的详细信息，如下所示：

> print(levels(itemInfo(Groceries)[["level1"]]))
 [1] "canned food"          "detergent"            "drinks"               "fresh products"       "fruit and vegetables" "meet and sausage"     "non-food"            
 [8] "perfumery"            "processed food"       "snacks and candies"  
> print(levels(itemInfo(Groceries)[["level2"]])) 
 [1] "baby food"                       "bags"                            "bakery improver"                 "bathroom cleaner"               
 [5] "beef"                            "beer"                            "bread and backed goods"          "candy"                          
 [9] "canned fish"                     "canned fruit/vegetables"         "cheese"                          "chewing gum"                    
[13] "chocolate"                       "cleaner"                         "coffee"                          "condiments"                     
[17] "cosmetics"                       "dairy produce"                   "delicatessen"                    "dental care"                    
[21] "detergent/softener"              "eggs"                            "fish"                            "frozen foods"                   
[25] "fruit"                           "games/books/hobby"               "garden"                          "hair care"                      
[29] "hard drinks"                     "health food"                     "jam/sweet spreads"               "long-life bakery products"      
[33] "meat spreads"                    "non-alc. drinks"                 "non-food house keeping products" "non-food kitchen"               
[37] "packaged fruit/vegetables"       "perfumery"                       "personal hygiene"                "pet food/care"                  
[41] "pork"                            "poultry"                         "pudding powder"                  "sausage"                        
[45] "seasonal products"               "shelf-stable dairy"              "snacks"                          "soap"                           
[49] "soups/sauces"                    "staple foods"                    "sweetener"                       "tea/cocoa drinks"               
[53] "vegetables"                      "vinegar/oils"                    "wine"

一般来说，如果商品有类别信息，可以尝试在类别上进行关联规则的挖掘，毕竟成千上百个商品之间的规则挖掘要困难得多。可以先从高粒度上进行挖掘实验，然后再进行细粒度的挖掘实验。本例中，因为Level1包含的类别信息太少，关联规则的挖掘没有意义，而Level2有55个，可以使用Level2。在R中，可以用aggregate函数把item替换为它对应的category，如下所示：（可以把aggregate看成transform的过程）

> inspect(Groceries[1:3])
  items                
1 {citrus fruit,       
   semi-finished bread,
   margarine,          
   ready soups}        
2 {tropical fruit,     
   yogurt,             
   coffee}             
3 {whole milk}      
> <strong>groceries <- aggregate(Groceries, itemInfo(Groceries)[["level2"]])  </strong>
> inspect(groceries[1:3])
  items                   
1 {bread and backed goods,
   fruit,                 
   soups/sauces,          
   vinegar/oils}          
2 {coffee,                
   dairy produce,         
   fruit}                 
3 {dairy produce}

我们可以对比一下在aggregate前后的itemFrequency图。

itemFrequencyPlot(Groceries, support = 0.025, cex.names=0.8, xlim = c(0,0.3),
  type = "relative", horiz = TRUE, col = "dark red", las = 1,
  xlab = paste("Proportion of Market Baskets Containing Item",
    "\n(Item Relative Frequency or Support)"))

horiz=TRUE: 让柱状图水平显示

cex.names=0.8:item的label（这个例子即纵轴）的大小乘以的系数。

las=1: 表示刻度的方向，1表示总是水平方向。

type="relative": 即support的值（百分比）。如果type=absolute表示显示该item的count，而非support。默认就是relative。

2. 规则的图形展现

假设我们有这样一个规则集合：

> second.rules <- apriori(groceries, 
+                         parameter = list(support = 0.025, confidence = 0.05))

Parameter specification:
 confidence minval smax arem  aval originalSupport support minlen maxlen target   ext
       0.05    0.1    1 none FALSE            TRUE   0.025      1     10  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

apriori - find association rules with the apriori algorithm
version 4.21 (2004.05.09)        (c) 1996-2004   Christian Borgelt
set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[55 item(s), 9835 transaction(s)] done [0.02s].
sorting and recoding items ... [32 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 4 done [0.00s].
writing ... [344 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].
> print(summary(second.rules))
set of 344 rules

rule length distribution (lhs + rhs):sizes
  1   2   3   4 
 21 162 129  32 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0     2.0     2.0     2.5     3.0     4.0 

summary of quality measures:
    support          confidence           lift       
 Min.   :0.02542   Min.   :0.05043   Min.   :0.6669  
 1st Qu.:0.03030   1st Qu.:0.18202   1st Qu.:1.2498  
 Median :0.03854   Median :0.39522   Median :1.4770  
 Mean   :0.05276   Mean   :0.37658   Mean   :1.4831  
 3rd Qu.:0.05236   3rd Qu.:0.51271   3rd Qu.:1.7094  
 Max.   :0.44301   Max.   :0.79841   Max.   :2.4073  

mining info:
      data ntransactions support confidence
 groceries          9835   0.025       0.05

2.1 Scatter Plot

> plot(second.rules, 
+      control=list(jitter=2, col = rev(brewer.pal(9, "Greens")[4:9])),
+      shading = "lift")

shading = "lift"：表示在散点图上颜色深浅的度量是lift。当然也可以设置为support 或者Confidence。

jitter=2：增加抖动值

col: 调色板，默认是100个颜色的灰色调色板。

brewer.pal(n, name): 创建调色板：n表示该调色板内总共有多少种颜色；name表示调色板的名字（参考help）。

这里使用Green这块调色板，引入9中颜色。

这幅散点图表示了规则的分布图：大部分规则的support在0.1以内，Confidence在0-0.8内。每个点的颜色深浅代表了lift的值。

2.2 Grouped Matrix

> plot(second.rules, method="grouped",   
+      control=list(col = rev(brewer.pal(9, "Greens")[4:9])))

Grouped matrix-based visualization.

Antecedents (columns) in the matrix are grouped using clustering. Groups are represented as balloons in the matrix.

2.3 Graph

Represents the rules (or itemsets) as a graph

<strong>> plot(top.vegie.rules, measure="confidence", method="graph", 
+      control=list(type="items"), 
+      shading = "lift")</strong>

type=items表示每个圆点的入度的item的集合就是LHS的itemset

measure定义了圈圈大小，默认是support

颜色深浅有shading控制

关联规则挖掘小结

1. 关联规则是发现数据间的关系：可能会共同发生的那些属性co-occurrence

2. 一个好的规则可以用lift或者FishersExact Test进行校验。

3. 当属性（商品）越多的时候，支持度会比较低。

4. 关联规则的发掘是交互式的，需要不断的检查、优化。

FP-Growth

TO ADD Here

eclat

arules包中有一个eclat算法的实现，用于发现频繁项集。

例子如下：

> groceryrules.eclat <- eclat(groceries, parameter = list(support=0.05, minlen=2))

parameter specification:
 tidLists support minlen maxlen            target   ext
    FALSE    0.05      2     10 frequent itemsets FALSE

algorithmic control:
 sparse sort verbose
      7   -2    TRUE

eclat - find frequent item sets with the eclat algorithm
version 2.6 (2004.08.16)         (c) 2002-2004   Christian Borgelt
create itemset ... 
set transactions ...[169 item(s), 9835 transaction(s)] done [0.01s].
sorting and recoding items ... [28 item(s)] done [0.00s].
creating sparse bit matrix ... [28 row(s), 9835 column(s)] done [0.00s].
writing  ... [3 set(s)] done [0.00s].
Creating S4 object  ... done [0.00s].
> summary(groceryrules.eclat)
set of 3 itemsets

most frequent items:
      whole milk other vegetables       rolls/buns           yogurt abrasive cleaner          (Other) 
               3                1                1                1                0                0 

element (itemset/transaction) length distribution:sizes
2 
3 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      2       2       2       2       2       2 

summary of quality measures:
    support       
 Min.   :0.05602  
 1st Qu.:0.05633  
 Median :0.05663  
 Mean   :0.06250  
 3rd Qu.:0.06573  
 Max.   :0.07483  

includes transaction ID lists: FALSE 

mining info:
      data ntransactions support
 groceries          9835    0.05
> inspect(groceryrules.eclat)
  items                 support
1 {whole milk,                 
   yogurt}           0.05602440
2 {rolls/buns,                 
   whole milk}       0.05663447
3 {other vegetables,           
   whole milk}       0.07483477

参考文献

1. Vijay Kotu; Bala Deshpande, Predictive Analytics and Data Mining（理论）

2. Brett Lantz, Machine Learning with R （案例：购物篮）

3. Nina Zumel and John Mount, Practical Data Science with R （案例：其他）

4. Modeling Techniques in Predictive Analytics （案例：购物篮）

5. http://michael.hahsler.net/SMU/EMIS7332/ （理论和案例）

你可能感兴趣的:(R语言 | 关联规则)

Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
R语言绘图 | 环状柱状图+散点柱状组合图绘制小杜的生信筆記 R语言精美图形绘制教程 r语言开发语言科研绘图生物信息学
原文：R语言绘图|环状柱状图+散点柱状组合图绘制(点击访问)小杜的生信筆記，主要发表或收录生物信息学教程，以及基于R分析和可视化（包括数据分析，图形绘制等）；分享感兴趣的文献和学习资料!!
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
edger多组差异性分析_R语言统计分析微生物组数据 weixin_39961636 edger多组差异性分析
我在学习这本书记了一些笔记，如果你有学习，欢迎分享你的笔记或者教程。我的已有笔记汇总如下：宏基因组学习笔记宏基因组学习笔记2宏基因组笔记(第二章)R语言宏基因组学统计分析学习笔记(第三章-1)R语言宏基因组学统计分析学习笔记(第三章-2)https://link.springer.com/book/10.1007/978-981-13-1534-3下载方法，sci-hub大法啦。出版日期：2018
23章12节：抽样的蒙特卡洛方法 DAT｜R科学与人工智能用R探索医药数据科学 r-4.2.1 开发语言数据库人工智能 r
蒙特卡洛方法作为一种基于随机抽样的数值计算技术，在工程、金融、统计、物理等众多领域中得到了广泛应用。该方法通过对大量随机数的模拟，来解决那些难以解析求解的问题。在实际问题中，常常需要从一个复杂分布中抽取样本，而传统的直接抽样方法可能难以实现。为了解决这一问题，接受‐拒绝抽样方法应运而生。本文旨在介绍如何利用R语言实现蒙特卡洛方法，特别是如何通过接受‐拒绝抽样从已知分布中抽取样本。文章以参数为(3,
R语言使用table1包绘制（生成）三线表实战：单变量分列构建三线表、编写自定义函数在三线表中添加p值 statistics.insight R语言入门课 r语言数据挖掘机器学习
R语言使用table1包绘制（生成）三线表实战：单变量分列构建三线表、编写自定义函数在三线表中添加p值目录R语言使用table1包绘制（生成）三线表、使用单变量分列构建三线表、编写自定义函数在三线表中添加p值#三线表是什么？#导入包并构建仿真数据#R语言使用table1包绘制（生成）三线表、使用单变量分列构建三线表、编写自定义函数在三线表中添加p值#三线表是什么？三线表本来是微软公司的word编辑
R语言的移动应用开发滕若岚包罗万象 golang 开发语言后端
R语言的移动应用开发在数据科学和统计分析的大潮中，R语言因其强大的数据处理和可视化能力而备受青睐。然而，R语言对移动应用开发的适用性并未得到广泛关注。本文将探讨R语言在移动应用开发中的潜力及其工具，并提供一些实践示例，希望能为读者在这一新兴领域的探索提供帮助。一、R语言概述R语言是一种用于统计计算和图形绘制的编程语言，因其简洁的语法和丰富的包生态系统受到数据科学家的广泛使用。R语言的强大之处在于其
R语言：初始环境配置一头大学牲程序--编程记录 r语言开发语言
文章目录R语言的配置URL和种子R语言的配置在R中安装languageserver包：（直接在R.exe中运行即可）install.packages("languageserver")关于jupyternotebook如何编写R语言：（好像每种jupyternotebook支持的编程语言，解释器都有对应的jupyternotebook）install.packages('IRkernel')IRk
【科研绘图系列】R语言绘制网络相关图（cor network plot）生信学习者1 SCI科研绘图系列 r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图1画图2组合图形输出图片系统信息介绍【科研绘图系列】R语言绘制网络相关图（cornetworkplot）加载R包library(tidyverse)library(ggraph)library(igraph)library(patchwork)conflicted::
ggplot2设置坐标轴范围_作图技巧018篇第二坐标轴在ggplot2中的实现 weixin_39618597 ggplot2设置坐标轴范围 R语言ggplot2移除图例按键精灵定位坐标循环
“ggplot2中的次级坐标轴”生活科学哥-R语言科学2020-06-128：35在平时作图中，我们有时希望在一个坐标中进行二个坐标轴的设定，也是为了方便数据的显示。这个过程在EXCEL等当中比较容易实现，但是，如何在R中实现呢？今天我们就来讲一讲操作的过程。数据准备先准备如下数据：library(ggplot2)library(scales)library(magrittr)dfdata.fra
23章9节：分层随机抽样及其在R语言中的实现与验证 DAT｜R科学与人工智能用R探索医药数据科学 r语言开发语言 r-4.2.1 机器学习人工智能算法
在统计学和数据科学的实际工作中，抽样方法始终扮演着至关重要的角色。如何从庞大的总体中获取具有代表性的样本，一直是数据分析过程中需要面对的核心问题之一。分层随机抽样作为一种常用的抽样方法，因其能够针对总体中的不同亚群体（层）进行有针对性的抽样，从而提高样本代表性、降低抽样误差，被广泛应用于社会调查、市场研究、医学试验等各个领域。本文旨在系统地阐述分层随机抽样的理论基础、抽样方法及其在R语言中的实现，
R语言高效数据处理-自定义EXCEL数据排版 LEEBELOVED r语言 R语言高效处理数据 excel批处理
注：以下代码均为实际数据处理中的笔记摘录，所以很零散1、自定义excel表数据输出格式、布局在实际数据处理中为了提升效率，将Excel报表交付给需求方时减少手动调整的环节很有必要#1.1设置表头格式header_style=0', style=sheet_style)#数据写入writeData(data_deal_main01,'data_deal_test1',data_de
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
R 语言科研绘图第 31 期 --- 韦恩图-基础 TigerZ 生信宝库 r语言贴图程序人生开发语言
在发表科研论文的过程中，科研绘图是必不可少的，一张好看的图形会是文章很大的加分项。为了便于使用，本系列文章介绍的所有绘图都已收录到了sciRplot项目中，获取方式：R语言科研绘图模板---sciRplothttps://mp.weixin.qq.com/s/QA_8LVqjkdg4A16zLonw4w?payreadticket=HElUE5WWmBflodEFw10g0l2NrRotj8kbU
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
23章11节：自助抽样及其在R语言中的实现与验证 DAT｜R科学与人工智能用R探索医药数据科学 r语言开发语言 r-4.2.1 microsoft 信息可视化
在统计学中，数据分析的核心任务之一是如何在样本数据的基础上推断总体的性质。传统方法往往依赖于已知的概率分布假设和解析推导，但在现实问题中，我们往往无法准确得知总体分布，或者数据样本量较小，难以满足经典统计推断方法的要求。自助抽样作为一种非参数的计算方法，为我们提供了基于样本数据“自我重复”构建抽样分布的途径。1977年，斯坦福大学的B.Efron在著名论文《BootstrapMethods:Ano
R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE） sdgfbhgfj R语言初见机器学习数据挖掘人工智能数据分析 r语言
R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）目录R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）R语言是解决什么问题的？R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）安利一个R语言的优秀博主及其CSDN专栏：R语言是解决什么问题的？R是一个有着统计分析功能及强大作图功能的软件系统，是由奥克兰大学统计学系的RossIhak
数据挖掘|关联分析与Apriori算法详解皖山文武数据挖掘商务智能数据挖掘关联分析 Apriori算法机器学习
数据挖掘|关联分析与Apriori算法1.关联分析2.关联规则相关概念2.1项目2.2事务2.3项目集2.4频繁项目集2.5支持度2.6置信度2.7提升度2.8强关联规则2.9关联规则的分类3.Apriori算法3.1Apriori算法的Python实现3.2基于mlxtend库的Apriori算法的Python实现1.关联分析关联规则分析（Association-rulesAnalysis）是数
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
R语言学习实例：使用R进行数据可视化 PixelCoder 信息可视化 r语言学习 R语言
R语言学习实例：使用R进行数据可视化R语言是一种功能强大且广泛使用的统计分析和数据可视化工具。在本实例中，我们将使用R语言来创建一些常见的数据可视化图表，包括散点图、柱状图和折线图。我们将展示如何使用R的基本绘图功能和一些常用的绘图库来生成这些图表。散点图是一种用于显示两个变量之间关系的图表。我们可以使用R的基本绘图功能来创建散点图。下面是一个示例代码，展示如何使用R创建散点图：#创建示例数据x<
探索R语言：经典案例解析与源代码翠绿探寻 r语言信息可视化开发语言 R语言
探索R语言：经典案例解析与源代码引言：R语言是一种流行的数据分析和统计建模工具，具有丰富的功能和广泛的应用领域。在本文中，我们将通过经典案例来探索R语言的一些重要功能和技术。我们将提供相应的源代码，以便读者能够实际运行并理解这些示例。案例一：数据导入与处理在数据分析中，数据导入和处理是首要任务。R语言提供了丰富的函数和包，用于处理各种数据格式。下面是一个简单的示例，演示了如何导入和处理CSV格式的
R语言dataframe数据索引、访问: 使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据 omhdxgb R语言123 r语言数据挖掘人工智能机器学习数据分析
R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据目录R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据R语言特点R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列
R语言向量vector数据类型元素索引、访问：使用中括号[]和:符号以及乘法符号获取向量中指定范围内的偶数索引元素 omhdxgb R语言123 r语言机器学习数据挖掘人工智能数据分析
R语言向量vector数据类型元素索引、访问：使用中括号[]和:符号以及乘法符号获取向量中指定范围内的偶数索引元素目录R语言向量vector数据类型元素索引、访问：使用中括号[]和:符号以及乘法符号获取向量中指定范围内的偶数索引元素R语言特点R语言向量vector数据类型元素索引、访问：使用中括号[]和:符号以及乘法符号获取向量中指定范围内的偶数索引元素R可以在CRAN（Comprehensive
R语言安装github包出现的错误，object "XXX" is not exported by "namespace:viridisLite" momo酱豆是沃 anaconda各种问题
自己遇上了类似的问题，当时是把所有导致这个问题出现时安装的所有包我都卸载了，再次重装的。弄了很久，我发现都是在安装各种包让我更新我不更新导致的后果R，告诉我一个道理，一定要听话，让你更新就更新，不然我的bug出到让你崩溃。下图借用以为博主的图（https://blog.csdn.net/yw_vine/article/details/79631042）原连接R语言安装github包出现的错误，ob
R语言 ggplot2 可视化生成高分辨率图片实战 PixelEnigma r语言开发语言 R语言
R语言ggplot2可视化生成高分辨率图片实战在数据分析和可视化领域，R语言一直是研究人员和数据科学家们的首选工具。其中，ggplot2包是R语言中最受欢迎和强大的可视化工具之一。它提供了许多灵活且精美的图形选项，使用户能够轻松创建具有吸引力和信息丰富的图表。本文将介绍如何使用ggplot2包在R语言中生成高分辨率的图片。我们将探索不同的保存选项，以确保我们获得清晰、适应各种输出需求的图像。首先，
Java 中操作 R：深度整合与高效应用 froginwe11 开发语言
Java中操作R：深度整合与高效应用引言随着大数据和机器学习的快速发展，R语言在数据分析和可视化方面扮演着越来越重要的角色。而Java作为一种广泛应用于企业级应用开发的语言，其强大的功能和稳定性使其成为构建高性能应用的首选。本文将探讨Java如何操作R语言，实现高效的数据分析应用。一、Java操作R的背景R语言优势：R语言拥有丰富的统计分析、数据可视化工具和机器学习算法库，是数据分析领域的首选语言
R语言对高频交易订单流进行建模分析 4 oxuzhenyi 实验楼课程机器学习 R
一、实验介绍--订单流模型拟合1.1实验知识点指数核hawkes过程拟合正反馈强度分析订单量影响分析1.2实验环境R3.4.1Rstudio二、订单流模型拟合在上节中我们对订单流数据做了一些统计分析，对交易的一些特征有了一些粗浅的理解，在本节中我们要做的是利用实际数据来拟合hawkes过程，看一看真实数据的订单流动力学中有什么特征。首先我们仍是选出交易时间内的数据：library(tidyvers
R语言对高频交易订单流进行建模分析 3 oxuzhenyi 实验楼课程机器学习 R
一、实验介绍--订单流数据描述分析1.1实验知识点订单流数据表示订单间隔分析订单信息率平稳性研究订单流动性研究限价单相对价格分析1.2实验环境R3.4.1Rstudio二、订单流数据描述分析2.1订单流数据表示当我们在金融市场上做交易时，可以看到一个委托单簿，上面陈列着买价和卖价以及它们对应的量，举个例子，比特币市场的订单簿：可以看到红色代表的是卖价，或者说是ask,而绿色代表的是买价，或者说是b
【自学笔记】R语言基础知识点总览-持续更新 Long_poem 笔记 r语言开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录R语言基础知识点总览1.R语言简介2.R语言安装与环境配置3.R语言基础语法3.1数据类型3.2向量与矩阵3.3数据框与列表4.控制结构4.1条件语句4.2循环结构5.函数6.数据可视化总结R语言基础知识点总览1.R语言简介R是一种用于统计计算和图形的编程语言和软件环境。R语言由RossIhaka和RobertGentlema
R语言决策树、svm支持向量机、随机森林别叫我名字20 R语言决策树支持向量机 r语言
本人正在学习R语言，想利用这个平台记录自己一些自己的学习情况，方便以后查找，也想分享出来提供一些资料给同样学习R语言的同学们。（如果内容有错误，欢迎大家批评指正）1.决策树我们使用的还是RStudio自带的数据集iris。#######################决策树模型install.packages("rpart")#安装库library("rpart")dt<-function(dat
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要