gjwang1983

R语言 | 关联规则

1.概念

1.1 引论

关联规则（AssociationRules）是无监督的机器学习方法，用于知识发现，而非预测。

关联规则的学习器（learner）无需事先对训练数据进行打标签，因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估，一般都可以通过肉眼观测结果是否合理。

关联规则主要用来发现Pattern，最经典的应用是购物篮分析，当然其他类似于购物篮交易数据的案例也可以应用关联规则进行模式发现，如电影推荐、约会网站或者药物间的相互副作用。

1.2 例子 - 源数据

点击流数据。

不同的Session访问的新闻版块，如下所示：

Session ID	List of media categories accessed
1	{News, Finance}
2	{News, Finance}
3	{Sports, Finance, News}
4	{Arts}
5	{Sports, News, Finance}
6	{News, Arts, Entertainment}

1.3数据格式

关联规则需要把源数据的格式转换为稀疏矩阵。

把上表转化为稀疏矩阵，1表示访问，0表示未访问。

Session ID	News	Finance	Entertainment	Sports
1	1	1	0	0
2	1	1	0	0
3	1	1	0	1
4	0	0	0	0
5	1	1	0	1
6	1	0	1	0

1.4术语和度量

1.4.1项集 ItemSet

这是一条关联规则：

括号内的Item集合称为项集。如上例，{News, Finance}是一个项集，{Sports}也是一个项集。

这个例子就是一条关联规则：基于历史记录，同时看过News和Finance版块的人很有可能会看Sports版块。

{News,Finance} 是这条规则的Left-hand-side (LHS or Antecedent)

{Sports}是这条规则的Right-hand-side (RHS or Consequent)

LHS（Left Hand Side)的项集和RHS（Right Hand Side）的项集不能有交集。

下面介绍衡量关联规则强度的度量。

1.4.2支持度 Support

项集的支持度就是该项集出现的次数除以总的记录数（交易数）。

Support({News}) = 5/6 = 0.83

Support({News, Finance}) = 4/6 =0.67

Support({Sports}) = 2/6 = 0.33

支持度的意义在于度量项集在整个事务集中出现的频次。我们在发现规则的时候，希望关注频次高的项集。

1.4.3置信度 Confidence

关联规则 X -> Y 的置信度计算公式

规则的置信度的意义在于项集{X，Y}同时出现的次数占项集{X}出现次数的比例。发生X的条件下，又发生Y的概率。

表示50%的人访问过{News, Finance}，同时也会访问{Sports}

1.4.4提升度 Lift

当右手边的项集（consequent）的支持度已经很显著时，即时规则的Confidence较高，这条规则也是无效的。

举个例子：

在所分析的10000个事务中,6000个事务包含计算机游戏,7500个包含游戏机游戏,4000个事务同时包含两者。

关联规则（计算机游戏，游戏机游戏）支持度为0.4，看似很高，但其实这个关联规则是一个误导。

在用户购买了计算机游戏后有（4000÷6000）0.667 的概率的去购买游戏机游戏，而在没有任何前提条件时，用户反而有（7500÷10000）0.75的概率去购买游戏机游戏，也就是说设置了购买计算机游戏这样的条件反而会降低用户去购买游戏机游戏的概率，所以计算机游戏和游戏机游戏是相斥的。

所以要引进Lift这个概念，Lift(X->Y)=Confidence(X->Y)/Support(Y)

规则的提升度的意义在于度量项集{X}和项集{Y}的独立性。即，Lift(X->Y)= 1 表面 {X}，{Y}相互独立。[注：P(XY)=P(X)*P(Y),if X is independent of Y]

如果该值=1,说明两个条件没有任何关联,如果<1,说明A条件(或者说A事件的发生)与B事件是相斥的,一般在数据挖掘中当提升度大于3时,我们才承认挖掘出的关联规则是有价值的。

最后，lift(X->Y) = lift(Y->X)

1.4.5出错率 Conviction

Conviction的意义在于度量规则预测错误的概率。

表示X出现而Y不出现的概率。

例子：

表面这条规则的出错率是32%。

1.5生成规则

一般两步：

第一步，找出频繁项集。n个item，可以产生2^n- 1 个项集（itemset）。所以，需要指定最小支持度，用于过滤掉非频繁项集。
第二部，找出第一步的频繁项集中的规则。n个item，总共可以产生3^n - 2^(n+1) + 1条规则。所以，需要指定最小置信度，用于过滤掉弱规则。

第一步的计算量比第二部的计算量大。

2.Apriori算法

Apriori Principle

如果项集A是频繁的，那么它的子集都是频繁的。如果项集A是不频繁的，那么所有包括它的父集都是不频繁的。

例子：{X, Y}是频繁的，那么{X}，{Y}也是频繁的。如果{Z}是不频繁的，那么{X,Z}, {Y, Z}, {X, Y, Z}都是不频繁的。

生成频繁项集

给定最小支持度Sup，计算出所有大于等于Sup的项集。

第一步，计算出单个item的项集，过滤掉那些不满足最小支持度的项集。

第二步，基于第一步，生成两个item的项集，过滤掉那些不满足最小支持度的项集。

第三步，基于第二步，生成三个item的项集，过滤掉那些不满足最小支持度的项集。

如下例子：

One-Item Sets	Support Count	Support
{News}	5	0.83
{Finance}	4	0.67
{Entertainment}	1	0.17
{Sports}	2	0.33
Two-Item Sets	Support Count	Support
{News, Finance}	4	0.67
{News, Sports}	2	0.33
{Finance, Sports}	2	0.33
Three-Item Sets	Support Count	Support
{News, Finance, Sports}	2	0.33

规则生成

给定Confidence、Lift 或者 Conviction，基于上述生成的频繁项集，生成规则，过滤掉那些不满足目标度量的规则。因为规则相关的度量都是通过支持度计算得来，所以这部分过滤的过程很容易完成。

Apriori案例分析（R语言）

1. 关联规则的包

arules是用来进行关联规则分析的R语言包。

library(arules)

2. 加载数据集

源数据：groceries 数据集，每一行代表一笔交易所购买的产品（item）

数据转换：创建稀疏矩阵，每个Item一列，每一行代表一个transaction。1表示该transaction购买了该item，0表示没有购买。当然，data frame是比较直观的一种数据结构，但是一旦item比较多的时候，这个data frame的大多数单元格的值为0，大量浪费内存。所以，R引入了特殊设计的稀疏矩阵，仅存1，节省内存。arules包的函数read.transactions可以读入源数据并创建稀疏矩阵。

groceries <- read.transactions("groceries.csv", format="basket", sep=",")

参数说明：

format=c("basket", "single")用于注明源数据的格式。如果源数据每行内容就是一条交易购买的商品列表（类似于一行就是一个购物篮）那么使用basket；如果每行内容是交易号+单个商品，那么使用single。

cols=c("transId", "ItemId") 对于single格式，需要指定cols，二元向量（数字或字符串）。如果是字符串，那么文件的第一行是表头（即列名）。第一个元素是交易号的字段名，第二个元素是商品编号的字段名。如果是数字，那么无需表头。对于basket，一般设置为NULL，缺省也是NULL，所以不用指定。

signle format的数据格式如下所示，与此同时，需要设定cols=c(1, 2)

1001,Fries

1001,Coffee

1001,Milk

1002,Coffee

1002,Fries

rm.duplicates=FALSE：表示对于同一交易，是否需要删除重复的商品。

接下来，查看数据集相关的统计汇总信息，以及数据集本身。

summary(groceries)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 169 columns (items) and a density of 0.02609146 

most frequent items:
      whole milk other vegetables       rolls/buns             soda 
            2513             1903             1809             1715 
          yogurt          (Other) 
            1372            34055 

element (itemset/transaction) length distribution:
sizes
   1    2    3    4    5    6    7    8    9   10   11   12   13   14   15 
2159 1643 1299 1005  855  645  545  438  350  246  182  117   78   77   55 
  16   17   18   19   20   21   22   23   24   26   27   28   29   32 
  46   29   14   14    9   11    4    6    1    1    1    1    3    1 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   2.000   3.000   4.409   6.000  32.000 

includes extended item information - examples:
            labels
1 abrasive cleaner
2 artif. sweetener
3   baby cosmetics

summary的含义：

第一段：总共有9835条交易记录transaction，169个商品item。density=0.026表示在稀疏矩阵中1的百分比。
第二段：最频繁出现的商品item，以及其出现的次数。可以计算出最大支持度。

第三段：每笔交易包含的商品数目，以及其对应的5个分位数和均值的统计信息。如：2159条交易仅包含了1个商品，1643条交易购买了2件商品，一条交易购买了32件商品。那段统计信息的含义是：第一分位数是2，意味着25%的交易包含不超过2个item。中位数是3表面50%的交易购买的商品不超过3件。均值4.4表示所有的交易平均购买4.4件商品。

第四段：如果数据集包含除了Transaction Id 和 Item之外的其他的列（如，发生交易的时间，用户ID等等），会显示在这里。这个例子，其实没有新的列，labels就是item的名字。

进一步查看数据集的信息

> class(groceries)
[1] "transactions"
attr(,"package")
[1] "arules"
> groceries
transactions in sparse format with
 9835 transactions (rows) and
 169 items (columns)
> dim(groceries)
[1] 9835  169
> colnames(groceries)[1:5]
[1] "abrasive cleaner" "artif. sweetener" "baby cosmetics"   "baby food"        "bags"            
> rownames(groceries)[1:5]
[1] "1" "2" "3" "4" "5"

basketSize表示每个transaction包含item的数目，是row level。而ItemFrequency是这个item的支持度，是column level。

> basketSize<-size(groceries)
> summary(basketSize)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   2.000   3.000   4.409   6.000  32.000 
> sum(basketSize) #count of all 1s in the sparse matrix
[1] 43367
> itemFreq <- itemFrequency(groceries)
> itemFreq[1:5]
abrasive cleaner artif. sweetener   baby cosmetics        baby food             bags 
    0.0035587189     0.0032536858     0.0006100661     0.0001016777     0.0004067107 
> sum(itemFreq) #本质上代表"平均一个transaction购买的item个数"
[1] 4.409456

可以查看basketSize的分布：密度曲线(TO ADD HERE)

itemCount表示每个item出现的次数。Support(X) = Xs / N, N是总的交易数，Xs就是Item X的count。

itemXCount = N * itemXFreq = (ItemXFreq / sum(itemFreq)) * sum(basketSize)

> itemCount <- (itemFreq/sum(itemFreq))*sum(basketSize)
> summary(itemCount)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0    38.0   103.0   256.6   305.0  2513.0 
> orderedItem <- sort(itemCount, decreasing = )
> orderedItem <- sort(itemCount, decreasing = T)
> orderedItem[1:10]
      whole milk other vegetables       rolls/buns             soda           yogurt    bottled water 
            2513             1903             1809             1715             1372             1087 
 root vegetables   tropical fruit    shopping bags          sausage 
            1072             1032              969              924

当然，也可以把支持度itemFrequency排序，查看支持度的最大值

> orderedItemFreq <- sort(itemFrequency(groceries), decreasing=T)
> orderedItemFreq[1:10]
      whole milk other vegetables       rolls/buns             soda           yogurt    bottled water 
      0.25551601       0.19349263       0.18393493       0.17437722       0.13950178       0.11052364 
 root vegetables   tropical fruit    shopping bags          sausage 
      0.10899847       0.10493137       0.09852567       0.09395018

如果要切一块子集出来计算支持度，可以对数据集进行矩阵行列下标操作。

如下例，切除第100行到800行，计算第1列到第3列的支持度。也就是说，数据集通过向量的下标按行切，也可以通过矩阵下标按行列切。

> itemFrequency(groceries[100:800,1:3])
abrasive cleaner artif. sweetener   baby cosmetics 
     0.005706134      0.001426534      0.001426534

可以通过图形更直观观测。

按最小支持度查看。

> itemFrequencyPlot(groceries, support=0.1)

按照排序查看。

> itemFrequencyPlot(groceries, topN=10, horiz=T)

最后，可以根据业务对数据集进行过滤，获得进一步规则挖掘的数据集。如下例，只关心购买两件商品以上的交易。

> groceries_use <- groceries[basketSize > 1]
> dim(groceries_use)
[1] 7676  169

查看数据

inspect(groceries[1:5])
  items                     
1 {citrus fruit,            
   margarine,               
   ready soups,             
   semi-finished bread}     
2 {coffee,                  
   tropical fruit,          
   yogurt}                  
3 {whole milk}              
4 {cream cheese,            
   meat spreads,            
   pip fruit,               
   yogurt}                  
5 {condensed milk,          
   long life bakery product,
   other vegetables,        
   whole milk}

也可以通过图形更直观观测数据的稀疏情况。一个点代表在某个transaction上购买了item。

> image(groceries[1:10])

当数据集很大的时候，这张稀疏矩阵图是很难展现的，一般可以用sample函数进行采样显示。

> image(sample(groceries,100))

这个矩阵图虽然看上去没有包含很多信息，但是它对于直观地发现异常数据或者比较特殊的Pattern很有效。比如，某些item几乎每个transaction都会买。比如，圣诞节都会买糖果礼物。那么在这幅图上会显示一根竖线，在糖果这一列上。

给出一个通用的R函数，用于显示如上所有的指标：

library(arules)  # association rules
library(arulesViz)  # data visualization of association rules
library(RColorBrewer)  # color palettes for plots

3. 进行规则挖掘

为了进行规则挖掘，第一步是设定一个最小支持度，这个最小支持度可以由具体的业务规则确定。

介绍apriori函数的用法：

这里需要说明下parameter：

默认的support=0.1, confidence=0.8, minlen=1, maxlen=10

对于minlen，maxlen这里指规则的LHS+RHS的并集的元素个数。所以minlen=1，意味着 {} => {beer}是合法的规则。我们往往不需要这种规则，所以需要设定minlen=2。

> groceryrules <- apriori(groceries, parameter = list(support =
+                                                         0.006, confidence = 0.25, minlen = 2))

Parameter specification:
 confidence minval smax arem  aval originalSupport support minlen maxlen target   ext
       0.25    0.1    1 none FALSE            TRUE   0.006      2     10  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

apriori - find association rules with the apriori algorithm
version 4.21 (2004.05.09)        (c) 1996-2004   Christian Borgelt
set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
sorting and recoding items ... [109 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 4 done [0.01s].
writing ... [463 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].

从返回的结果看，总共有463条规则生成。

评估模型

使用summary函数查看规则的汇总信息。

> summary(groceryrules)
set of 463 rules

rule length distribution (lhs + rhs):sizes
  2   3   4 
150 297  16 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  2.000   2.000   3.000   2.711   3.000   4.000 

summary of quality measures:
    support           confidence          lift       
 Min.   :0.006101   Min.   :0.2500   Min.   :0.9932  
 1st Qu.:0.007117   1st Qu.:0.2971   1st Qu.:1.6229  
 Median :0.008744   Median :0.3554   Median :1.9332  
 Mean   :0.011539   Mean   :0.3786   Mean   :2.0351  
 3rd Qu.:0.012303   3rd Qu.:0.4495   3rd Qu.:2.3565  
 Max.   :0.074835   Max.   :0.6600   Max.   :3.9565  

mining info:
      data ntransactions support confidence
 groceries          9835   0.006       0.25

第一部分：规则的长度分布：就是minlen到maxlen之间的分布。如上例，len=2有150条规则，len=3有297，len=4有16。同时，rule length的五数分布+均值。

第二部分：quality measure的统计信息。

第三部分：挖掘的相关信息。

使用inpect查看具体的规则。

> inspect(groceryrules[1:5])
  lhs                rhs                    support confidence     lift
1 {potted plants} => {whole milk}       0.006914082  0.4000000 1.565460
2 {pasta}         => {whole milk}       0.006100661  0.4054054 1.586614
3 {herbs}         => {root vegetables}  0.007015760  0.4312500 3.956477
4 {herbs}         => {other vegetables} 0.007727504  0.4750000 2.454874
5 {herbs}         => {whole milk}       0.007727504  0.4750000 1.858983

4. 评估规则

规则可以划分为3大类：

Actionable
- 这些rule提供了非常清晰、有用的洞察，可以直接应用在业务上。

Trivial
- 这些rule显而易见，很清晰但是没啥用。属于common sense，如 {尿布} => {婴儿食品}。

Inexplicable
- 这些rule是不清晰的，难以解释，需要额外的研究来判定是否是有用的rule。

接下来，我们讨论如何发现有用的rule。

按照某种度量，对规则进行排序。

> ordered_groceryrules <- sort(groceryrules, by="lift")
> inspect(ordered_groceryrules[1:5])
  lhs                   rhs                      support confidence     lift
1 {herbs}            => {root vegetables}    0.007015760  0.4312500 3.956477
2 {berries}          => {whipped/sour cream} 0.009049314  0.2721713 3.796886
3 {other vegetables,                                                        
   tropical fruit,                                                          
   whole milk}       => {root vegetables}    0.007015760  0.4107143 3.768074
4 {beef,                                                                    
   other vegetables} => {root vegetables}    0.007930859  0.4020619 3.688692
5 {other vegetables,                                                        
   tropical fruit}   => {pip fruit}          0.009456024  0.2634561 3.482649

搜索规则

> yogurtrules <- subset(groceryrules, items %in% c("yogurt"))
> inspect(yogurtrules)
    lhs                        rhs                    support confidence     lift
1   {cat food}              => {yogurt}           0.006202339  0.2663755 1.909478
2   {hard cheese}           => {yogurt}           0.006405694  0.2614108 1.873889
3   {butter milk}           => {yogurt}           0.008540925  0.3054545 2.189610
......
18  {cream cheese,                                                               
     yogurt}                => {whole milk}       0.006609049  0.5327869 2.085141
......
121 {other vegetables,                                                           
     whole milk}            => {yogurt}           0.022267412  0.2975543 2.132979

items %in% c("A", "B")表示 lhs+rhs的项集并集中，至少有一个item是在c( "A", "B")。 item = A or item = B

如果仅仅想搜索lhs或者rhs，那么用lhs或rhs替换items即可。如：lhs %in% c("yogurt")

%in%是精确匹配

%pin%是部分匹配，也就是说只要item like '%A%' or item like '%B%'

%ain%是完全匹配，也就是说itemset has ’A' and itemset has ‘B'

同时可以通过条件运算符(&, |, !) 添加 support, confidence, lift的过滤条件。

例子如下：

> fruitrules <- subset(groceryrules, items %pin% c("fruit"))
> inspect(fruitrules)
    lhs                        rhs                    support confidence     lift
1   {grapes}                => {tropical fruit}   0.006100661  0.2727273 2.599101
2   {fruit/vegetable juice} => {soda}             0.018403660  0.2545710 1.459887

> byrules <- subset(groceryrules, items %ain% c("berries", "yogurt"))
> inspect(byrules)
  lhs          rhs         support confidence     lift
1 {berries} => {yogurt} 0.01057448  0.3180428 2.279848

> fruitrules <- subset(groceryrules, items %pin% c("fruit") & lift > 2)
> inspect(fruitrules)
   lhs                        rhs                    support confidence     lift
1  {grapes}                => {tropical fruit}   0.006100661  0.2727273 2.599101
2  {pip fruit}             => {tropical fruit}   0.020437214  0.2701613 2.574648
3  {tropical fruit}        => {yogurt}           0.029283172  0.2790698 2.000475
4  {curd,                                                                       
    tropical fruit}        => {whole milk}       0.006507372  0.6336634 2.479936
5  {butter,                                                                     
    tropical fruit}        => {whole milk}       0.006202339  0.6224490 2.436047

查看其它的quality measure

> qualityMeasures <- interestMeasure(groceryrules, method=c("coverage","fishersExactTest","conviction", "chiSquared"), transactions=groceries)
> summary(qualityMeasures)
    coverage        fishersExactTest      conviction       chiSquared      
 Min.   :0.009964   Min.   :0.0000000   Min.   :0.9977   Min.   :  0.0135  
 1st Qu.:0.018709   1st Qu.:0.0000000   1st Qu.:1.1914   1st Qu.: 32.1179  
 Median :0.024809   Median :0.0000000   Median :1.2695   Median : 58.4354  
 Mean   :0.032608   Mean   :0.0057786   Mean   :1.3245   Mean   : 70.4249  
 3rd Qu.:0.035892   3rd Qu.:0.0000001   3rd Qu.:1.4091   3rd Qu.: 97.1387  
 Max.   :0.255516   Max.   :0.5608331   Max.   :2.1897   Max.   :448.5699  
> quality(groceryrules) <- cbind(quality(groceryrules), qualityMeasures)
> inspect(head(sort(groceryrules, by = "conviction", decreasing = F)))
  lhs                      rhs              support confidence      lift conviction chiSquared   coverage fishersExactTest
1 {bottled beer}        => {whole milk} 0.020437214  0.2537879 0.9932367  0.9976841 0.01352288 0.08052872        0.5608331
2 {bottled water,                                                                                                         
   soda}                => {whole milk} 0.007524148  0.2596491 1.0161755  1.0055826 0.02635700 0.02897814        0.4586202
3 {beverages}           => {whole milk} 0.006812405  0.2617188 1.0242753  1.0084016 0.05316028 0.02602949        0.4329533
4 {specialty chocolate} => {whole milk} 0.008032537  0.2642140 1.0340410  1.0118214 0.12264445 0.03040163        0.3850343
5 {candy}               => {whole milk} 0.008235892  0.2755102 1.0782502  1.0275976 0.63688634 0.02989324        0.2311769
6 {sausage,                                                                                                               
   soda}                => {whole milk} 0.006710727  0.2761506 1.0807566  1.0285068 0.54827850 0.02430097        0.2508610
 
   
   
   
  第三个参数transactions：一般情况下都是原来那个数据集，但也有可能是其它数据集，用于检验这些rules在其他数据集上的效果。所以，这也是评估rules的一种方法：在其它数据集上计算这些规则的quality measure用以评估效果。 
  fishersExactTest 的p值大部分都是很小的（p < 0.05），这就说明这些规则反应出了真实的用户的行为模式。 
  coverage从0.01 ~ 0.26，相当于覆盖到了多少范围的用户。 
  ChiSquared: 考察该规则的LHS和RHS是否独立？即LHS与RHS的列联表的ChiSquare Test。p<0.05表示独立，否则表示不独立。 
   
  限制挖掘的item 
  可以控制规则的左手边或者右手边出现的item，即appearance。但尽量要放低支持度和置信度。 
   
  > berriesInLHS <- apriori(groceries, parameter = list( support = 0.001, confidence = 0.1 ), appearance = list(lhs = c("berries"), default="rhs"))

Parameter specification:
 confidence minval smax arem  aval originalSupport support minlen maxlen target   ext
        0.1    0.1    1 none FALSE            TRUE   0.001      1     10  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

apriori - find association rules with the apriori algorithm
version 4.21 (2004.05.09)        (c) 1996-2004   Christian Borgelt
set item appearances ...[1 item(s)] done [0.00s].
set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
sorting and recoding items ... [157 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 done [0.00s].
writing ... [26 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].
> summary(berriesInLHS)
set of 26 rules

rule length distribution (lhs + rhs):sizes
 1  2 
 8 18 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   1.000   2.000   1.692   2.000   2.000 

summary of quality measures:
    support           confidence          lift      
 Min.   :0.003660   Min.   :0.1049   Min.   :1.000  
 1st Qu.:0.004601   1st Qu.:0.1177   1st Qu.:1.000  
 Median :0.007016   Median :0.1560   Median :1.470  
 Mean   :0.053209   Mean   :0.1786   Mean   :1.547  
 3rd Qu.:0.107982   3rd Qu.:0.2011   3rd Qu.:1.830  
 Max.   :0.255516   Max.   :0.3547   Max.   :3.797  

mining info:
      data ntransactions support confidence
 groceries          9835   0.001        0.1
> inspect(berriesInLHS)
   lhs          rhs                         support confidence     lift
1  {}        => {bottled water}         0.110523640  0.1105236 1.000000
2  {}        => {tropical fruit}        0.104931368  0.1049314 1.000000
3  {}        => {root vegetables}       0.108998475  0.1089985 1.000000
4  {}        => {soda}                  0.174377224  0.1743772 1.000000
5  {}        => {yogurt}                0.139501779  0.1395018 1.000000
6  {}        => {rolls/buns}            0.183934926  0.1839349 1.000000
7  {}        => {other vegetables}      0.193492628  0.1934926 1.000000
8  {}        => {whole milk}            0.255516014  0.2555160 1.000000
9  {berries} => {beef}                  0.004473818  0.1345566 2.564659
10 {berries} => {butter}                0.003762074  0.1131498 2.041888
11 {berries} => {domestic eggs}         0.003863752  0.1162080 1.831579
12 {berries} => {fruit/vegetable juice} 0.003660397  0.1100917 1.522858
13 {berries} => {whipped/sour cream}    0.009049314  0.2721713 3.796886
14 {berries} => {pip fruit}             0.003762074  0.1131498 1.495738
15 {berries} => {pastry}                0.004270463  0.1284404 1.443670
16 {berries} => {citrus fruit}          0.005388917  0.1620795 1.958295
17 {berries} => {shopping bags}         0.004982206  0.1498471 1.520894
18 {berries} => {sausage}               0.004982206  0.1498471 1.594963
19 {berries} => {bottled water}         0.004067107  0.1223242 1.106769
20 {berries} => {tropical fruit}        0.006710727  0.2018349 1.923494
21 {berries} => {root vegetables}       0.006609049  0.1987768 1.823666
22 {berries} => {soda}                  0.007320793  0.2201835 1.262685
23 {berries} => {yogurt}                0.010574479  0.3180428 2.279848
24 {berries} => {rolls/buns}            0.006609049  0.1987768 1.080691
25 {berries} => {other vegetables}      0.010269446  0.3088685 1.596280
26 {berries} => {whole milk}            0.011794611  0.3547401 1.388328 
  
 
  既然lhs都是一样的，那么只查看rhs的itemset即可，可以如下： 
   
  > inspect(head(rhs(berriesInLHS), n=5))
  items            
1 {bottled water}  
2 {tropical fruit} 
3 {root vegetables}
4 {soda}           
5 {yogurt}      
   
  
 当然，还可以使用subset进行进一步的过滤，例如，不希望看到rhs包含"root vegetables" 或 "whole milk" 
   
  > berrySub <- subset(berriesInLHS, subset = !(rhs %in% c("root vegetables", "whole milk")))
> inspect(head(rhs(sort(berrySub, by="confidence")), n=5))
  items               
1 {yogurt}            
2 {other vegetables}  
3 {whipped/sour cream}
4 {soda}              
5 {tropical fruit}    
> berrySub
set of 22 rules  
   
  保存挖掘的结果 
  有两种使用场景。 
  第一，保存到文件。可以与外部程序进行交换。 
   
  > write(groceryrules, file="groceryrules.csv", sep=",", quote=TRUE, row.names=FALSE) 
  
 第二，转换为data frame，然后再进行进一步的处理。处理完的结果可以保存到外部文件或者数据库。 
   
   
  > groceryrules_df <- as(groceryrules, "data.frame")
> str(groceryrules_df)
'data.frame':	463 obs. of  8 variables:
 $ rules           : Factor w/ 463 levels "{baking powder} => {other vegetables}",..: 340 302 207 206 208 341 402 21 139 140 ...
 $ support         : num  0.00691 0.0061 0.00702 0.00773 0.00773 ...
 $ confidence      : num  0.4 0.405 0.431 0.475 0.475 ...
 $ lift            : num  1.57 1.59 3.96 2.45 1.86 ...
 $ conviction      : num  1.24 1.25 1.57 1.54 1.42 ...
 $ chiSquared      : num  19 17.7 173.9 82.6 41.2 ...
 $ coverage        : num  0.0173 0.015 0.0163 0.0163 0.0163 ...
 $ fishersExactTest: num  2.20e-05 4.13e-05 6.17e-26 4.56e-16 1.36e-09 ... 
   
  关于关联规则挖掘的进阶部分 
  1. 带有Hierarchy的item 
  这里我们使用arules自带的数据集Groceries。该数据集不仅包含购物篮的item信息，而且还包含每个item对于的类别，总共有两层类别。如下所示： 
   
  > data(Groceries)  # grocery transactions object from arules package
> 
> summary(Groceries)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 169 columns (items) and a density of 0.02609146 

most frequent items:
      whole milk other vegetables       rolls/buns             soda           yogurt          (Other) 
            2513             1903             1809             1715             1372            34055 

element (itemset/transaction) length distribution:
sizes
   1    2    3    4    5    6    7    8    9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   26   27   28   29   32 
2159 1643 1299 1005  855  645  545  438  350  246  182  117   78   77   55   46   29   14   14    9   11    4    6    1    1    1    1    3    1 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   2.000   3.000   4.409   6.000  32.000 

includes extended item information - examples:
       labels  level2           level1
1 frankfurter sausage meet and sausage
2     sausage sausage meet and sausage
3  liver loaf sausage meet and sausage在summary的最后一部分，我们发现除了labels（即item）之外，还有两个字段，level2和level1。我们可以通过itemInfo进行查看level1和level2的详细信息，如下所示： 
   
   
  > print(levels(itemInfo(Groceries)[["level1"]]))
 [1] "canned food"          "detergent"            "drinks"               "fresh products"       "fruit and vegetables" "meet and sausage"     "non-food"            
 [8] "perfumery"            "processed food"       "snacks and candies"  
> print(levels(itemInfo(Groceries)[["level2"]])) 
 [1] "baby food"                       "bags"                            "bakery improver"                 "bathroom cleaner"               
 [5] "beef"                            "beer"                            "bread and backed goods"          "candy"                          
 [9] "canned fish"                     "canned fruit/vegetables"         "cheese"                          "chewing gum"                    
[13] "chocolate"                       "cleaner"                         "coffee"                          "condiments"                     
[17] "cosmetics"                       "dairy produce"                   "delicatessen"                    "dental care"                    
[21] "detergent/softener"              "eggs"                            "fish"                            "frozen foods"                   
[25] "fruit"                           "games/books/hobby"               "garden"                          "hair care"                      
[29] "hard drinks"                     "health food"                     "jam/sweet spreads"               "long-life bakery products"      
[33] "meat spreads"                    "non-alc. drinks"                 "non-food house keeping products" "non-food kitchen"               
[37] "packaged fruit/vegetables"       "perfumery"                       "personal hygiene"                "pet food/care"                  
[41] "pork"                            "poultry"                         "pudding powder"                  "sausage"                        
[45] "seasonal products"               "shelf-stable dairy"              "snacks"                          "soap"                           
[49] "soups/sauces"                    "staple foods"                    "sweetener"                       "tea/cocoa drinks"               
[53] "vegetables"                      "vinegar/oils"                    "wine"    
   
  
 一般来说，如果商品有类别信息，可以尝试在类别上进行关联规则的挖掘，毕竟成千上百个商品之间的规则挖掘要困难得多。可以先从高粒度上进行挖掘实验，然后再进行细粒度的挖掘实验。本例中，因为Level1包含的类别信息太少，关联规则的挖掘没有意义，而Level2有55个，可以使用Level2。在R中，可以用aggregate函数把item替换为它对应的category，如下所示：（可以把aggregate看成transform的过程） 
   
  > inspect(Groceries[1:3])
  items                
1 {citrus fruit,       
   semi-finished bread,
   margarine,          
   ready soups}        
2 {tropical fruit,     
   yogurt,             
   coffee}             
3 {whole milk}      
> groceries <- aggregate(Groceries, itemInfo(Groceries)[["level2"]])  
> inspect(groceries[1:3])
  items                   
1 {bread and backed goods,
   fruit,                 
   soups/sauces,          
   vinegar/oils}          
2 {coffee,                
   dairy produce,         
   fruit}                 
3 {dairy produce}   
  我们可以对比一下在aggregate前后的itemFrequency图。 
   
  itemFrequencyPlot(Groceries, support = 0.025, cex.names=0.8, xlim = c(0,0.3),
  type = "relative", horiz = TRUE, col = "dark red", las = 1,
  xlab = paste("Proportion of Market Baskets Containing Item",
    "\n(Item Relative Frequency or Support)")) 
  horiz=TRUE: 让柱状图水平显示 
  cex.names=0.8:item的label（这个例子即纵轴）的大小乘以的系数。 
  las=1: 表示刻度的方向，1表示总是水平方向。 
  type="relative": 即support的值（百分比）。如果type=absolute表示显示该item的count，而非support。默认就是relative。 
   
   
   
  

 
  2. 规则的图形展现 
  假设我们有这样一个规则集合： 
   
  > second.rules <- apriori(groceries, 
+                         parameter = list(support = 0.025, confidence = 0.05))

Parameter specification:
 confidence minval smax arem  aval originalSupport support minlen maxlen target   ext
       0.05    0.1    1 none FALSE            TRUE   0.025      1     10  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

apriori - find association rules with the apriori algorithm
version 4.21 (2004.05.09)        (c) 1996-2004   Christian Borgelt
set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[55 item(s), 9835 transaction(s)] done [0.02s].
sorting and recoding items ... [32 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 4 done [0.00s].
writing ... [344 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].
> print(summary(second.rules))
set of 344 rules

rule length distribution (lhs + rhs):sizes
  1   2   3   4 
 21 162 129  32 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0     2.0     2.0     2.5     3.0     4.0 

summary of quality measures:
    support          confidence           lift       
 Min.   :0.02542   Min.   :0.05043   Min.   :0.6669  
 1st Qu.:0.03030   1st Qu.:0.18202   1st Qu.:1.2498  
 Median :0.03854   Median :0.39522   Median :1.4770  
 Mean   :0.05276   Mean   :0.37658   Mean   :1.4831  
 3rd Qu.:0.05236   3rd Qu.:0.51271   3rd Qu.:1.7094  
 Max.   :0.44301   Max.   :0.79841   Max.   :2.4073  

mining info:
      data ntransactions support confidence
 groceries          9835   0.025       0.05 
   
  2.1 Scatter Plot 
   
  > plot(second.rules, 
+      control=list(jitter=2, col = rev(brewer.pal(9, "Greens")[4:9])),
+      shading = "lift")    
  
 shading = "lift"： 表示在散点图上颜色深浅的度量是lift。当然也可以设置为support 或者Confidence。 
   
  jitter=2：增加抖动值 
  col: 调色板，默认是100个颜色的灰色调色板。 
  brewer.pal(n, name): 创建调色板：n表示该调色板内总共有多少种颜色；name表示调色板的名字（参考help）。 
  这里使用Green这块调色板，引入9中颜色。 
  
 
  这幅散点图表示了规则的分布图：大部分规则的support在0.1以内，Confidence在0-0.8内。每个点的颜色深浅代表了lift的值。 
   
  2.2 Grouped Matrix 
   
  > plot(second.rules, method="grouped",   
+      control=list(col = rev(brewer.pal(9, "Greens")[4:9]))) 
  
 Grouped matrix-based visualization.  
   
  Antecedents (columns) in the matrix are grouped using clustering. Groups are represented as balloons in the matrix.
 
  
 
  2.3 Graph 
  Represents the rules (or itemsets) as a graph
 
   
  > plot(top.vegie.rules, measure="confidence", method="graph", 
+      control=list(type="items"), 
+      shading = "lift") 
  type=items表示每个圆点的入度的item的集合就是LHS的itemset 
   
  measure定义了圈圈大小，默认是support 
  颜色深浅有shading控制

 
   
   
 
   
  关联规则挖掘小结 
  1. 关联规则是发现数据间的关系：可能会共同发生的那些属性co-occurrence 
  2. 一个好的规则可以用lift或者FishersExact Test进行校验。 
  3. 当属性（商品）越多的时候，支持度会比较低。 
  4. 关联规则的发掘是交互式的，需要不断的检查、优化。 
   
   
  FP-Growth 
  TO ADD Here 
  eclat 
  arules包中有一个eclat算法的实现，用于发现频繁项集。 
  例子如下： 
   
  > groceryrules.eclat <- eclat(groceries, parameter = list(support=0.05, minlen=2))

parameter specification:
 tidLists support minlen maxlen            target   ext
    FALSE    0.05      2     10 frequent itemsets FALSE

algorithmic control:
 sparse sort verbose
      7   -2    TRUE

eclat - find frequent item sets with the eclat algorithm
version 2.6 (2004.08.16)         (c) 2002-2004   Christian Borgelt
create itemset ... 
set transactions ...[169 item(s), 9835 transaction(s)] done [0.01s].
sorting and recoding items ... [28 item(s)] done [0.00s].
creating sparse bit matrix ... [28 row(s), 9835 column(s)] done [0.00s].
writing  ... [3 set(s)] done [0.00s].
Creating S4 object  ... done [0.00s].
> summary(groceryrules.eclat)
set of 3 itemsets

most frequent items:
      whole milk other vegetables       rolls/buns           yogurt abrasive cleaner          (Other) 
               3                1                1                1                0                0 

element (itemset/transaction) length distribution:sizes
2 
3 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      2       2       2       2       2       2 

summary of quality measures:
    support       
 Min.   :0.05602  
 1st Qu.:0.05633  
 Median :0.05663  
 Mean   :0.06250  
 3rd Qu.:0.06573  
 Max.   :0.07483  

includes transaction ID lists: FALSE 

mining info:
      data ntransactions support
 groceries          9835    0.05
> inspect(groceryrules.eclat)
  items                 support
1 {whole milk,                 
   yogurt}           0.05602440
2 {rolls/buns,                 
   whole milk}       0.05663447
3 {other vegetables,           
   whole milk}       0.07483477 
  参考文献 
  1. Vijay Kotu; Bala Deshpande, Predictive Analytics and Data Mining（理论） 
  2. Brett Lantz, Machine Learning with R （案例：购物篮） 
   
    
  
   
  3. Nina Zumel and John Mount, Practical Data Science with R （案例：其他） 
   
    
  
   
   
  4. Modeling Techniques in Predictive Analytics （案例：购物篮） 
  5. http://michael.hahsler.net/SMU/EMIS7332/ （理论和案例）

你可能感兴趣的:(大数据,数据挖掘,R语言,大数据,数据挖掘,理论)

读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
坚持“三步走”，推动我国人权事业发展 Ariel_Yogurt
6月16日出版的第12期《求是》杂志将发表中共中央总书记、国家主席、中央军委主席习近平的重要文章《坚定不移走中国人权发展道路，更好推动我国人权事业发展》。尊重和保障人权，是中国共产党人的不懈追求。努力夯实理论基础。推动人权事业发展的第一步是理解人权。作为青年干部，要想在人权事业全民发展的新浪潮中站稳脚步，就应该积极接受人权理论学习，坚持以人民为中心的人权思想，深刻认识党的领导是中国特色社会主义人权
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
2022-05-22光印随思60学习要与现实打通无名之米8
20220522光印随思60学习要与现实打通今天在匆忙中完成了新网师课程的第七次预习作业。每次完成预习作业的过程都是一次艰难的学习，先要学习相关的文本和文件，了解作业需要的理论知识，之后需要把理论知识运用于实际工作和生活中。这也是学习的真正价值所在。在很多时候，会有这样的感觉，读了很多书为什么没有啥长进？现在回想应该就是，当只有阅读和感受，没有把阅读心得转化为文字，没有把阅读的知识运用到实际的场景
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
内经简介（上）骆长珊
哈喽大家好我是骆长珊今天是2017年1月9日，今天是我每天一篇文章的第四十八篇。最近在重温《黄帝内经》，我在不断记颂原文的过程也不断的找相关资料来看。最终目的，以教为学，写出自己知道的，提神自己的觉悟。黄帝内经》是我国传统医学四大经典著作之一（《黄帝内经》、《伤寒论》、《金匮要略》、《温病条辨》），也是第一部冠以中华民族先祖“黄帝”之名的传世巨著，是我国医学宝库中现存成书最早的一部医学典籍。在理论
这样共读一本书 eggplant
2021年10月6日星期三本期学校阳光管理轮训共读刘铁芳教授的《以教学打开生命——个体成人的教学哲学阐释》，这是继共读刘教授《什么是好的教育》之后的第二本书籍，这两本书籍都是有关教育的哲学书籍，应该说，《以教学打开生命——个体成人的教学哲学阐释》是《什么是好的教育》的延伸、丰富与升华，理论性更强，哲学意味更浓，对于一线教师来说，接触哲学类的书籍较少，在阅读上有些内容的理解有难度，但是，有难度才更值
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
python可以制作大型游戏_python能做游戏吗-python能开发游戏吗靖dede python可以制作大型游戏
python可以写游戏，但不适合。下面我们来分析一下具体原因。用锤子能造汽车吗？谁也没法说不能吧？历史上也确实曾经有些汽车，是用锤子造出来的。但一般来说，还是用工业机器人更合适对吗？比较大型的，使用Python的游戏有两个，一个是《EVE》，还有一个是《文明》。但这仅仅是个例，没有广泛意义。一般来说，用来做游戏的语言，有两种。一是C++。。一是C#。。Python理论上，不仅不适合做游戏，而是只要
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
前端CSS面试常见题剑亦未配妥前端面试前端 css 面试
边界塌陷盒模型有两种：W3C盒模型和IE盒模型，区别在于宽度是否包含边框定义：同时给兄弟/父子盒模型设置上下边距，理论上边距值是两者之和，实际上不是注意：浮动和定位不会产生边界塌陷；只有块级元素垂直方向才会产生margin合并margin计算方案margin同为正负：取绝对值大的值一正一负：求和父子元素边界塌陷解决父元素可以通过调整padding处理；设置overflowhidden，触发BFC子
教师资格考试中学《教育知识与能力》知识点｜高频考点汇总小山丘
温馨提示：更多汇总详情留言小编哦！！！认知过程之易混知识点剖析社会中心课程论情绪——重要考点皮亚杰教你带孩子斯金纳强化规律你的心理足够强大吗?教育心理学的效应德育有规律常考人物思想之夸美纽斯中学常考教学原则孔子及《论语》中的重要教育思想教育学创立阶段人物之赫尔巴特学习策略分类知识点梳理教师资格证辨析题作答思路综合课程的类型班杜拉的学习理论马斯洛需要层次理论记忆类型的四大分类柏拉图和他的《理想国》感
变频器：原理、应用及其在现代工业与生活中的节能与智能控制作用智能科技前沿人工智能科技生活单片机嵌入式硬件
创作不易，您的打赏、关注、点赞、收藏和转发是我坚持下去的动力！1.变频器的原理变频器（Inverter），是一种将固定频率的交流电（通常是50Hz或60Hz）转换为可变频率和电压的交流电的电气设备。其工作原理是基于电力电子技术和控制理论的应用，能够通过改变供给电机的电源频率来控制电动机的速度和扭矩。变频器的基本工作原理可以分为以下几个阶段：整流：首先，将输入的交流电（AC）通过整流器（通常是二极管
基于TRIZ的救援机器人轻量化设计天行健王春城老师 TRIZ 机器人
在救援机器人设计中，轻量化是一个至关重要的目标，它直接关系到机器人的便携性、运输效率以及在复杂环境中的作业能力。TRIZ理论为我们提供了一套系统化的工具和方法，用于解决设计过程中遇到的各种挑战，特别是在实现轻量化目标时，TRIZ能够帮助我们识别并消除设计中的冗余与低效部分，同时保留或增强其关键功能。具体如深圳天行健企业管理咨询公司下文所述：1.功能分析与矛盾识别TRIZ理论强调对系统功能的深入分析
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
2020.5.20【第三十八天打卡】 CY的好运很哇塞呦
2020.5.20【第三十八天打卡】：一、今日进度：1.会计直播课程：《经济法基础》两个小时，主要内容：经济法基础相关理论知识～纯理论的课程，加上心里的烦躁，完整地听完一节课，真的是太难为自己了，需要明天重新看一遍回放。2.读其他书7章。二、今日待进步：1.练字0%2.表格学习0%3.TED0%三、明日安排：（一）每日常规三件事：1.读书半小时2.练字半小时3.学习半小时（二）每日新增一事（兴趣工
读书：《精神病学的人际关系理论》-引言-人格理论家妤
1.基本观点：人际关系。沙利文认为，人的本质是人的社会性，这种社会性表现为人际关系。也就是说，人是人际关系的存在，人只有在人际情境中才能生存和发展。2.人格含义：人际情境的持久模式。沙利文将人格定义为：使人类生活具有特征的周期性人际情境的相对持久的模式。他说“每个人有多少种人际关系，它就有多少种人格。”3.人格动态过程：紧张与能量转化。沙利文认为人类具有趋于心理健康的动力，同时每个人都有减少内心紧
Matlab在工业机器人中的运用,基于MATLAB的工业机器人建模与仿真.docx weixin_34518801
摘要：机器人运动系统作为机器人系统中最重要的组成部分之一，其重要性不言而喻，因为它影响着机器人的主要性能，因此为了提高机器人的质量，对机器人进行运动学分析和仿真是不可或缺的。本次毕业设计主要对KUKA机器人的三维仿真进行了一系列的分析，主要是以下几个内容：(1)研究了机器人运动学仿真的背景意义及发展趋势。(2)通过对齐次坐标变换理论的研究,说明了KUKA机器人结构及参数,并且建立了相应的D-H参数
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache