绝对是谨慎提交的昵称

机器学习1：关联分析及频繁模式挖掘Association rule mining（基于R language）

关联分析是一种无监督的机器学习方法，常用于知识发现而非预测。本文从以下几个方面进行叙述：

频繁项 Frequent Patterns
关联挖掘方法 Association Mining Methods
- apriori
- ECLAT
关联规则 Association Rules
评价方法 Correlations-Pattern Evaluation Methods

关联分析

举例
应用
原理

一、频繁项及几个必知必会的定义
二、关联挖掘方法

算法1:Apriori算法
算法2:ECLAT算法 Equivalence Class Transformation

三、关联规则

1.名词定义
2.关联规则生成步骤

四、关联项评价方法：规则是否interesting？

相关关系评价指标1:卡方 $X^2$
相关关系评价指标2:提升值Lift

五、代码

Apriori算法找频繁项集
算法1:Apriori算法找频繁项集&关联规则
算法2:ECLAT算法找频繁项集
interesting检验
可视化操作
利用关联规则做分类

说明&致谢
参考资料

举例

关联分析的动机：寻找数据的固有规律
1.消费者通常一起购买什么产品？— 啤酒和尿布经典例子？！
2.顾客购买电脑后，以后会购买什么？哪种DNA对这种新药敏感？
3.我们可以自动对Web文档进行分类吗？

应用

1.市场篮子分析 Basket data analysis
2.交叉营销 Cross-marketing
3.目录设计 Catalog design
4.促销活动分析 Sale campaign analysis
5.网路日志分析 Web log analysis
6.DNA序列分析 DNA sequence analysis
…

原理

一、频繁项及几个必知必会的定义

（1）项集 Itemset：一个或多个项组成的集合；
（2）k-项集 k-itemset：包含k个事物的集合， $X=\{x_1,x_2,\cdots,x_k\}$ ；
（3）(绝对)支持/支持计数 (absolute) support：一个项集出现在几个观测当中，它的支持度计数就是几；
（4）(相对)支持/支持度 (relative) support：支持度计数除于总的观测数；
（5）频繁项集：当该项集的支持度/支持度计数大于一个阈值minsup（一般来说，minsup<0.1），该项集就称为频繁项。

例
1.计算{Beer},{Diaper},{Coffee}和{Beer,Diaper}的支持度计数/支持度。
TID为观测号，一共有5个观测；Items bought为每个观测中包含的物品；我们用{物品1}/{物品1，物品2}/{物品1，物品2，物品3}/…这样的集合来表示包含1/2/3…个物品的项集，其中物品i就称为一个项。

{Beer}，Beer在10、20和30观测中出现，故支持度计数为3，支持度为 $\frac{3}{5}*100\%=60\%$

{Diaper}，Diaper在10、20、30和50观测中出现，故支持度计数为4，支持度为 $\frac{4}{5}*100\%=80\%$

{Coffee}，Coffee在20和50观测中出现，故支持度计数为2，支持度为 $\frac{2}{5}*100\%=40\%$

{Beer,Diaper}，Beer,Diaper同时出现在10、20和30观测中出现，故支持度计数为3，支持度为 $\frac{3}{5}*100\%=60\%$

2.当minsup=50%，{Beer},{Diaper},{Coffee}和{Beer,Diaper}哪些项集是频繁的？哪些不频繁？
题干所述4个项集，支持度大于50%的有{Beer},{Diaper}和{Beer,Diaper}，故这3个项集是频繁的。

二、关联挖掘方法

算法1:Apriori算法

Apriori¹²采用“自下而上”的方法（称为“向下闭关属性”），其中频繁的子集一次扩展一项（称为“候选生成”），然后针对数据测试候选组是否频繁，即通过1项频繁集可以得到所有可能的2项频繁集候选者，然后通过测试来确定这些候选者中的真正频繁的二项集。

原理：如果某个项集是频繁项集，那么它所有的子集也是频繁的。那么k项集为频繁项集，那所有的k+1项集必须包含k项集。因此，若k项集为非频繁项集，那所有的k+1项集必然是非频繁项集。

Apriori采用的是横向优先的搜索方法。

具体步骤如下：
1.首先，扫描数据库以获得频繁的1项集；
2.在k项频繁集上增加一项，得到所有可能频繁的k+1项候选集；
3.根据minsup选取k+1项频繁集；
4.当无法生成频繁集/候选集时停止。

接下来介绍一个Apriori算法的例子：
例
设定支持度计数阈值minsup=2：
1.列出所有1项集及其支持度计数，由上图可知所有一项集中仅有{D}的支持度计数=1，不频繁，故删去；
2.列举所有频繁1项集{A}、{B}、{C}和{E}可以构成的2项集，即{A,B}、{A,C}、{A,E}、{B,C}、{B,E}和{C,E}，由上图可知{A,B}和{A,E}的支持度计数分别=1和1，小于minsup，故删去；
3.继续通过频繁2项集{A,C}、{B,C}、{B,E}和{C,E}产生所有3项集，即{A,B,C}、{A,C,E}和{B,C,E}，它们的支持度计数分别=0，0和2，仅有{B,C,E}；
4.无法再生成4项集，故停止算法。

Apriori算法的优缺点如下：

优点	缺点
适用于大量交易数据	不适用于小型数据库
规则易懂	很难脱离常识
对数据挖掘十分有用，可以探索性研究一个数据库	容易从随机项集得出虚假结论

算法2:ECLAT算法 Equivalence Class Transformation

与Apriori算法不同，采用的是深度优先的搜索方法。这是一种自然优雅的算法，适用于顺序执行和并行执行，并具有局部性增强特性。

ECLAT算法的步骤不是一个个找频繁项集，而是找每个项属于哪些观测，再找项 X,Y 观测的交集，就找到了{X,Y} 所属的观测。ECLAT算法的步骤可以通过以下两张图来解释：

三、关联规则

1.名词定义

（1）规则 rule： $X\Longrightarrow Y$ ，意味着“X会影响Y”；

X 左项集lhs；
Y 右项集rhs。

（2）置信度 confidence：含有X的交易观测也含有Y的条件概率；

$confidence(X\Longrightarrow Y)=P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{support(X\Longrightarrow Y)}{support(X)}$

其中， $support(X\Longrightarrow Y)$ 为同时包含 X,Y 的观测数，即包含 X,Y 并集的观测数； $s u p p o r t (X)$ 为包含X的观测数。

置信度 $P (Y ∣ X)$ 大，说明X对Y有促进作用；
置信度 $P (Y ∣ X)$ 小，说明X对Y有抑制作用。

（3）强关联规则 strong association rule：满足 $support(X\Longrightarrow Y)\geq minsup,\ confidence(X\Longrightarrow Y)\geq minconf$ 的规则成为强关联规则（通常minsup<0.1，0.6<minconf<0.8）。

2.关联规则生成步骤

（1）对每个频繁项集l，生成其非空子集u；
（2）对每个非空子集u，输出一个规则 $u\Longrightarrow (l-u)$ ；
（3）选择强关联规则。

例
设minsup=50%，minconf=50%，考虑频繁项集{Beer,Diaper}产生的规则：
$\Longrightarrow Diaper$ : $support(Beer,Diaper)=60\%$ , $\Longrightarrow Diaper)=\frac{60\%}{60\%}=100\%$

$\Longrightarrow Beer$ : $support(Diaper,Beer)=60\%$ , $\Longrightarrow Beer)=\frac{60\%}{80\%}=75\%$

因此 $\Longrightarrow Diaper$ 和 $\Longrightarrow Beer$ 都是强关联规则。

四、关联项评价方法：规则是否interesting？

强关联规则可能是具有误导性的！因此我们要通过显著性检验来判断一个规则是否是interesting。

例
假如设定minconf=0.6，那么 $\ play basketball \Longrightarrow eat cereal$ 毋庸置疑是一个强关联规则，但事实上调查显示，所有学生（无论打不打篮球）“吃谷物”的比例为75%，这个比例比该关联规则的置信度66.7%要高，暗示了“打篮球”的人可能更加会选择“不吃谷物”。
相比而言，虽然支持度和置信度都很低，但 $\ play basketball \Longrightarrow not eat cereal$ 这个规则描述两者关系更为准确。
鉴于支持度和置信度用来评价相关关系的效果不大好，可以选择以下两种指标来作为评价指标：

五、代码

例采用Groceries（transactions类型）作为例子

data("Groceries")  
Groceries
inspect(Groceries[1:10])

用inspect函数可以看到10个购物篮所含商品（项）分别如下：

##      items                     
## [1]  {citrus fruit,            
##       semi-finished bread,     
##       margarine,               
##       ready soups}             
## [2]  {tropical fruit,          
##       yogurt,                  
##       coffee}                  
## [3]  {whole milk}              
## [4]  {pip fruit,               
##       yogurt,                  
##       cream cheese ,           
##       meat spreads}            
## [5]  {other vegetables,        
##       whole milk,              
##       condensed milk,          
##       long life bakery product}
## [6]  {whole milk,              
##       butter,                  
##       yogurt,                  
##       rice,                    
##       abrasive cleaner}        
## [7]  {rolls/buns}              
## [8]  {other vegetables,        
##       UHT-milk,                
##       rolls/buns,              
##       bottled beer,            
##       liquor (appetizer)}      
## [9]  {pot plants}              
## [10] {whole milk,              
##       cereals}

summary(Groceries)

通过summary可以得到的信息为：

1.总共有9835条交易记录（交易观测），其中涉及169个商品（项）。density=0.026表示在稀疏矩阵中1的百分比；

2.在这些交易观测中，最频繁出现的商品分别为whole milk（2513次），other vegetables（1903次），rolls/buns（1809次），soda（1715次），yogurt（1372次），剩余商品出现次数总和为34055次。可以计算出最大支持度（whole milk的支持度）；

3.每笔交易包含的商品数目，即k项集（ $k=1,2,\cdots$ ）的个数。如：2159条交易仅包含了1个商品（1项集2159个），1643条交易购买了2件商品（2项集1643个），1条交易购买了32件商品（32项集1个）；

4.5⃣️个分位数和均值的统计信息。含义是：下四分位数为2，意味着25%的交易包含不超过2个商品；中位数为3，意味着50%的交易购买的商品不超过3件；均值为4.4，表示所有的交易平均购买4.4件商品。

5.如果数据集包含除了Transaction Id 和 Item之外的其他的列（如，发生交易的时间，用户ID等等），会显示在这里。这个例子，其实没有新的列，labels就是item的名字。³

## transactions as itemMatrix in sparse format with
##  9835 rows (elements/itemsets/transactions) and
##  169 columns (items) and a density of 0.02609146 
## 
## most frequent items:
##       whole milk other vegetables       rolls/buns             soda 
##             2513             1903             1809             1715 
##           yogurt          (Other) 
##             1372            34055 
## 
## element (itemset/transaction) length distribution:
## sizes
##    1    2    3    4    5    6    7    8    9   10   11   12   13   14   15 
## 2159 1643 1299 1005  855  645  545  438  350  246  182  117   78   77   55 
##   16   17   18   19   20   21   22   23   24   26   27   28   29   32 
##   46   29   14   14    9   11    4    6    1    1    1    1    3    1 
## 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   3.000   4.409   6.000  32.000 
## 
## includes extended item information - examples:
##        labels  level2           level1
## 1 frankfurter sausage meat and sausage
## 2     sausage sausage meat and sausage
## 3  liver loaf sausage meat and sausage

arules包里有关联分析所需函数，其中包含了apriori函数（apriori算法）和eclat函数（eclat算法）。

library(arules) # 安装arules包

对Groceries数据进行探索性研究：

class(Groceries) # 查看数据类型
## [1] "transactions"
## attr(,"package")
## [1] "arules"

head(colnames(Groceries)) # 展示前6个商品名称
## [1] "frankfurter"       "sausage"           "liver loaf"        "ham"              
## [5] "meat"              "finished products"

size(Groceries) # 展示每笔交易包含商品个数
min(size(Groceries)) # 最小个数
max(size(Groceries)) # 最大个数

itemFrequency(Groceries) # 每个商品的支持度计数
sum(itemFrequency(Groceries)) # 平均每笔交易包含商品个数
> 4.409456

itemFrequencyPlot(Groceries, support=0.1) # 画出支持度为0.1情况下，频繁的项集的支持度

itemFrequencyPlot(Groceries, topN=10, horiz=T) # 排名前10频繁的项集的相对支持度

Apriori算法找频繁项集

itemsets_apr = apriori (Groceries, 
						parameter = list (supp = 0.001,target = "frequent itemsets"),
						control = list(sort = -1)) 
# apriori函数参数默认值为：support=0.1,confidence=0.8,maxlen=10,minlen=1,target="rules"
# target = "frequent itemsets"：找频繁项
# control中的参数控制：1.项的排序，sort = -1，是按照算法中某一指标（比如，此处根据结果看，项集是按support/项集频繁度排）从大到小排；2.报告进度，待研究

对于minlen，maxlen这里指规则的LHS和RHS的并集的元素个数。所以minlen=1，意味着 {} => {beer}是合法的规则。我们往往不需要这种规则，所以一般需要设定minlen=2。

## Apriori
## 
## Parameter specification:
##  confidence minval smax arem  aval originalSupport maxtime support minlen
##          NA    0.1    1 none FALSE            TRUE       5   0.001      1
##  maxlen            target   ext
##      10 frequent itemsets FALSE
## 
## Algorithmic control:
##  filter tree heap memopt load sort verbose
##     0.1 TRUE TRUE  FALSE TRUE   -1    TRUE
## 
## Absolute minimum support count: 9 
## 
## set item appearances ...[0 item(s)] done [0.00s].
## set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
## sorting and recoding items ... [157 item(s)] done [0.00s].
## creating transaction tree ... done [0.00s].
## checking subsets of size 1 2 3 4 5 6 done [0.01s].
## writing ... [13492 set(s)] done [0.00s].
## creating S4 object  ... done [0.00s].

利用apriori算法发现Groceries中有13492个频繁项集。

inspect(itemsets_apr[1:5]) # 查看前5个频繁项集

##     items              support   count
## [1] {whole milk}       0.2555160 2513 
## [2] {other vegetables} 0.1934926 1903 
## [3] {rolls/buns}       0.1839349 1809 
## [4] {soda}             0.1743772 1715 
## [5] {yogurt}           0.1395018 1372

support是相对支持度，count是支持度计数。

算法1:Apriori算法找频繁项集&关联规则

只有Apriori算法才能输出关联规则，eclat算法不能！

rules0 = apriori(Groceries,
                 parameter = list(support = 0.001,confidence = 0.5,maxlen = 3),
                 control = list(sort = -1))
# target的默认参数为"rules"，故不用在parameter中特意写出，apriori函数就可以找关联规则
# maxlen规定了一条规则中，左项集和右项集包含项的总数不超过maxlen

## Apriori
## 
## Parameter specification:
##  confidence minval smax arem  aval originalSupport maxtime support minlen
##         0.5    0.1    1 none FALSE            TRUE       5   0.001      1
##  maxlen target   ext
##       3  rules FALSE
## 
## Algorithmic control:
##  filter tree heap memopt load sort verbose
##     0.1 TRUE TRUE  FALSE TRUE   -1    TRUE
## 
## Absolute minimum support count: 9 
## 
## set item appearances ...[0 item(s)] done [0.00s].
## set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
## sorting and recoding items ... [157 item(s)] done [0.00s].
## creating transaction tree ... done [0.00s].
## checking subsets of size 1 2 3 done [0.00s].
## writing ... [1472 rule(s)] done [0.00s].
## creating S4 object  ... done [0.00s].

minsup=0.001，minconf=0.5的情况下，apriori函数找到了1472条强相关规则。

rules0

## set of 1472 rules

inspect(rules0[1:10]) # 查看前10条强相关规则

##      lhs                    rhs                support     confidence
## [1]  {baking powder}     => {whole milk}       0.009252669 0.5229885 
## [2]  {rice}              => {whole milk}       0.004677173 0.6133333 
## [3]  {cereals}           => {whole milk}       0.003660397 0.6428571 
## [4]  {jam}               => {whole milk}       0.002948653 0.5471698 
## [5]  {cooking chocolate} => {whole milk}       0.001321810 0.5200000 
## [6]  {pudding powder}    => {whole milk}       0.001321810 0.5652174 
## [7]  {cocoa drinks}      => {whole milk}       0.001321810 0.5909091 
## [8]  {honey}             => {whole milk}       0.001118454 0.7333333 
## [9]  {specialty cheese}  => {other vegetables} 0.004270463 0.5000000 
## [10] {rice}              => {other vegetables} 0.003965430 0.5200000 
##      lift     count
## [1]  2.046793 91   
## [2]  2.400371 46   
## [3]  2.515917 36   
## [4]  2.141431 29   
## [5]  2.035097 13   
## [6]  2.212062 13   
## [7]  2.312611 13   
## [8]  2.870009 11   
## [9]  2.584078 42   
## [10] 2.687441 39

lhs：左项集，rhs：右项集。

rules2 = apriori(Groceries,
                 parameter = list(support = 0.005,confidence = 0.64),
                 control = list(sort = -1))
rules2
inspect(rules2)

##     lhs                     rhs              support confidence     lift count
## [1] {pip fruit,                                                               
##      whipped/sour cream} => {whole milk} 0.005998983  0.6483516 2.537421    59
## [2] {butter,                                                                  
##      whipped/sour cream} => {whole milk} 0.006710727  0.6600000 2.583008    66
## [3] {pip fruit,                                                               
##      root vegetables,                                                         
##      other vegetables}   => {whole milk} 0.005490595  0.6750000 2.641713    54
## [4] {tropical fruit,                                                          
##      root vegetables,                                                         
##      yogurt}             => {whole milk} 0.005693950  0.7000000 2.739554    56

上面的sort是按照频繁度排序，下面可以按照其他指标（比如support）排序：

rules.sorted_sup = sort (rules2, by = "support")   
inspect (rules.sorted_sup)

##     lhs                     rhs              support confidence     lift count
## [1] {butter,                                                                  
##      whipped/sour cream} => {whole milk} 0.006710727  0.6600000 2.583008    66
## [2] {pip fruit,                                                               
##      whipped/sour cream} => {whole milk} 0.005998983  0.6483516 2.537421    59
## [3] {tropical fruit,                                                          
##      root vegetables,                                                         
##      yogurt}             => {whole milk} 0.005693950  0.7000000 2.739554    56
## [4] {pip fruit,                                                               
##      root vegetables,                                                         
##      other vegetables}   => {whole milk} 0.005490595  0.6750000 2.641713    54

比如按confidence：

rules.sorted_con = sort (rules2, by = "confidence" )   
inspect (rules.sorted_con)

##     lhs                     rhs              support confidence     lift count
## [1] {tropical fruit,                                                          
##      root vegetables,                                                         
##      yogurt}             => {whole milk} 0.005693950  0.7000000 2.739554    56
## [2] {pip fruit,                                                               
##      root vegetables,                                                         
##      other vegetables}   => {whole milk} 0.005490595  0.6750000 2.641713    54
## [3] {butter,                                                                  
##      whipped/sour cream} => {whole milk} 0.006710727  0.6600000 2.583008    66
## [4] {pip fruit,                                                               
##      whipped/sour cream} => {whole milk} 0.005998983  0.6483516 2.537421    59

比如按lift：

rules.sorted_lift = sort (rules2, by = "lift")   
inspect (rules.sorted_lift)

##     lhs                     rhs              support confidence     lift count
## [1] {tropical fruit,                                                          
##      root vegetables,                                                         
##      yogurt}             => {whole milk} 0.005693950  0.7000000 2.739554    56
## [2] {pip fruit,                                                               
##      root vegetables,                                                         
##      other vegetables}   => {whole milk} 0.005490595  0.6750000 2.641713    54
## [3] {butter,                                                                  
##      whipped/sour cream} => {whole milk} 0.006710727  0.6600000 2.583008    66
## [4] {pip fruit,                                                               
##      whipped/sour cream} => {whole milk} 0.005998983  0.6483516 2.537421    59

找出某种特定商品的关联规则，利用apriori函数中的参数appearance来控制：

rules3 = apriori(Groceries,
                 parameter = list(maxlen = 2,supp = 0.001,conf = 0.1),
                 appearance = list(rhs = "mustard",default = "lhs"))
# supp是support的简写，conf是confidence的简写
# rhs = "mustard"，右项集设定为芥末{mustard}，如果商家想通过两件商品捆绑销售的方式来促销冷门商品芥末，我们需要发现rhs仅包含芥末的关联规则，从而找到与芥末强关联的商品

inspect(rules3)

##     lhs             rhs       support     confidence lift     count
## [1] {mayonnaise} => {mustard} 0.001423488 0.1555556  12.96516 14

发现购买蛋黄酱的顾客更有可能购买芥末。

算法2:ECLAT算法找频繁项集

ECLAT算法只能用来找频繁项，不能用来找规则。

itemsets_ecl = eclat(Groceries, 
                     parameter = list (minlen = 1, maxlen = 3,supp = 0.001, target = "frequent itemsets"),
                     control = list(sort = 1))

## Eclat
## 
## parameter specification:
##  tidLists support minlen maxlen            target   ext
##     FALSE   0.001      1      3 frequent itemsets FALSE
## 
## algorithmic control:
##  sparse sort verbose
##       7    1    TRUE
## 
## Absolute minimum support count: 9 
## 
## create itemset ... 
## set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
## sorting and recoding items ... [157 item(s)] done [0.00s].
## creating sparse bit matrix ... [157 row(s), 9835 column(s)] done [0.00s].
## writing  ... [9969 set(s)] done [0.04s].
## Creating S4 object  ... done [0.00s].

itemsets_ecl

## set of 9969 itemsets

inspect(itemsets_ecl[1:5])

有人发现ECLAT函数是自动滤去了频繁的一项集的，学有余力的朋友可以研究一下。

##     items                                        support     count
## [1] {other vegetables,whole milk,cleaner}        0.001016777 10   
## [2] {other vegetables,whole milk,curd cheese}    0.001220132 12   
## [3] {other vegetables,whole milk,jam}            0.001321810 13   
## [4] {other vegetables,whole milk,cereals}        0.001321810 13   
## [5] {other vegetables,whole milk,kitchen towels} 0.001016777 10

interesting检验

通过interestMeasure函数实现

列联表检验/卡方检验

interestMeasure(rules2,measure = "chiSquared",transactions = Groceries,significance = T)

检验结果是4个强关联规则的列联表检验的p值。p值越小，越拒绝原假设，越说明关系是显著的。

## [1] 6.026803e-18 1.147537e-20 5.736532e-18 5.565073e-20

费希尔精确检验 Fishers Exact Test
是用于分析列联表（contingency tables）统计显著性检验方法，它用于检验两个分类关联（association)。虽然实际中常常使用于小数据情况，但同样适用于大样本的情况。费希尔精确检验是基于超几何分布计算的
原假设：没有显著相关关系。

例⁴
想知道颜值高（颜值评分仅为题目用假设，现实中不以长相论英雄，各有各的魅力）的人是不是数学成绩也好（单边检验），原假设：颜值跟成绩无显著相关性。

为了知道能否拒绝原假设，我们下面做个Fisher精确检验（单边检验）
第一步：想知道原假设是否成立，就要看这组数据是不是随机偶然一抽就能抽到，因此计算原假设成立时，即颜值高与颜值低的人，高分低分的数量相同时，得到这样一组数据的超几何概率：
$p_1=\frac{\binom {12}{9} \binom {8}{1}}{\binom {20}{10}}$
第二步：做完上面这一步还不够。如果行总数与列总数（又叫边际总数）不变，原假设不成立时的极端情况应该是，颜值高的学习都好！那么我们可以得到新的列联表：

这时，可以计算这个表格的超几何概率，

$p_2=\frac{\binom {12}{10} \binom {8}{0}}{\binom {20}{10}}$
那么费希尔精确检验的p值就是两者加之和，即
$p=p_1+p_2=0.0099$

p值越小，我们越有信心拒绝零假设。如果以0.05为显著性水平判断值的话，可以认为，颜值高的人，数学学得好。

interestMeasure(rules2,measure = "fishersExactTest",transactions = Groceries)

## [1] 2.784179e-15 1.545268e-17 3.167091e-15 7.433712e-17

可视化操作

arulesViz包中有arulesViz函数（可视化）。

rules4 = apriori (Groceries, parameter = list(support=0.002, confidence=0.5))

## Apriori
## 
## Parameter specification:
##  confidence minval smax arem  aval originalSupport maxtime support minlen
##         0.5    0.1    1 none FALSE            TRUE       5   0.002      1
##  maxlen target   ext
##      10  rules FALSE
## 
## Algorithmic control:
##  filter tree heap memopt load sort verbose
##     0.1 TRUE TRUE  FALSE TRUE    2    TRUE
## 
## Absolute minimum support count: 19 
## 
## set item appearances ...[0 item(s)] done [0.00s].
## set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s].
## sorting and recoding items ... [147 item(s)] done [0.00s].
## creating transaction tree ... done [0.00s].
## checking subsets of size 1 2 3 4 5 done [0.00s].
## writing ... [1098 rule(s)] done [0.00s].
## creating S4 object  ... done [0.00s].

可视化

plot(rules4) 
# 所有1098条关联规则的三维信息：支持度、置信度、lift值

plot(rules4, shading = "order", 
     control = list(main = "Two‐key plot"))
# 颜色深度代表关联规则中含有商品数量的多少

互动散点图，在R中运行才能看见，要点击图中右下角“End”才能停止图片运行，然后接着运行下面的代码。plot函数参数 engine=‘interactive’。

plot(rules4, engine='interactive')

基于图形的可视化，plot函数中参数method = “graph”

rules4.sorted <- sort(rules4,by="lift")
inspect(rules4.sorted[1:10])

##      lhs                    rhs                      support confidence     lift count
## [1]  {butter,                                                                         
##       hard cheese}       => {whipped/sour cream} 0.002033554  0.5128205 7.154028    20
## [2]  {beef,                                                                           
##       citrus fruit,                                                                   
##       other vegetables}  => {root vegetables}    0.002135231  0.6363636 5.838280    21
## [3]  {citrus fruit,                                                                   
##       tropical fruit,                                                                 
##       other vegetables,                                                               
##       whole milk}        => {root vegetables}    0.003152008  0.6326531 5.804238    31
## [4]  {citrus fruit,                                                                   
##       other vegetables,                                                               
##       frozen vegetables} => {root vegetables}    0.002033554  0.6250000 5.734025    20
## [5]  {beef,                                                                           
##       tropical fruit,                                                                 
##       other vegetables}  => {root vegetables}    0.002745297  0.6136364 5.629770    27
## [6]  {root vegetables,                                                                
##       yogurt,                                                                         
##       bottled water}     => {tropical fruit}     0.002236909  0.5789474 5.517391    22
## [7]  {herbs,                                                                          
##       other vegetables,                                                               
##       whole milk}        => {root vegetables}    0.002440264  0.6000000 5.504664    24
## [8]  {pip fruit,                                                                      
##       grapes}            => {tropical fruit}     0.002135231  0.5675676 5.408941    21
## [9]  {herbs,                                                                          
##       yogurt}            => {root vegetables}    0.002033554  0.5714286 5.242537    20
## [10] {beef,                                                                           
##       other vegetables,                                                               
##       soda}              => {root vegetables}    0.002033554  0.5714286 5.242537    20

plot(rules4.sorted[1:10], method="graph")

互动关系图（在R中可以看到）

plot(rules4.sorted[1:10], method="graph",engine='interactive')

利用关联规则做分类

采用computer数据做一个关联规则做分类的例子，computer数据如下：

computer
##            age income student credit_rating buys_computer
## 1        youth   high      no          fair            no
## 2        youth   high      no     excellent            no
## 3  middle-aged   high      no          fair           yes
## 4       senior medium      no          fair           yes
## 5       senior    low     yes          fair           yes
## 6       senior    low     yes     excellent            no
## 7  middle-aged    low     yes     excellent           yes
## 8        youth medium      no          fair            no
## 9        youth    low     yes          fair           yes
## 10      senior medium     yes          fair           yes
## 11       youth medium     yes     excellent           yes
## 12 middle-aged medium      no     excellent           yes
## 13 middle-aged   high     yes          fair           yes
## 14      senior medium      no     excellent            no
# buys_computer是因变量

apriori算法找规则：

itemsets_apr = apriori (computer, 
                        parameter = list (supp = 0.001,minlen = 1,maxlen = 3),
                        appearance = list(rhs = "buys_computer=yes",default = "lhs"),
                        control = list(sort = -1))

## Apriori
## 
## Parameter specification:
##  confidence minval smax arem  aval originalSupport maxtime support minlen
##         0.8    0.1    1 none FALSE            TRUE       5   0.001      1
##  maxlen target   ext
##       3  rules FALSE
## 
## Algorithmic control:
##  filter tree heap memopt load sort verbose
##     0.1 TRUE TRUE  FALSE TRUE   -1    TRUE
## 
## Absolute minimum support count: 0 
## 
## set item appearances ...[1 item(s)] done [0.00s].
## set transactions ...[12 item(s), 14 transaction(s)] done [0.00s].
## sorting and recoding items ... [12 item(s)] done [0.00s].
## creating transaction tree ... done [0.00s].
## checking subsets of size 1 2 3 done [0.00s].
## writing ... [16 rule(s)] done [0.00s].
## creating S4 object  ... done [0.00s].

看什么样的人倾向于买电脑。

itemsets_apr.sorted <- sort(itemsets_apr,by="lift")
inspect(itemsets_apr.sorted)

##      lhs                          rhs                    support confidence     lift count
## [1]  {age=middle-aged}         => {buys_computer=yes} 0.28571429  1.0000000 1.555556     4
## [2]  {student=yes,                                                                        
##       credit_rating=fair}      => {buys_computer=yes} 0.28571429  1.0000000 1.555556     4
## [3]  {age=senior,                                                                         
##       credit_rating=fair}      => {buys_computer=yes} 0.21428571  1.0000000 1.555556     3
## [4]  {age=middle-aged,                                                                    
##       credit_rating=fair}      => {buys_computer=yes} 0.14285714  1.0000000 1.555556     2
## [5]  {income=low,                                                                         
##       credit_rating=fair}      => {buys_computer=yes} 0.14285714  1.0000000 1.555556     2
## [6]  {age=middle-aged,                                                                    
##       student=no}              => {buys_computer=yes} 0.14285714  1.0000000 1.555556     2
## [7]  {income=medium,                                                                      
##       student=yes}             => {buys_computer=yes} 0.14285714  1.0000000 1.555556     2
## [8]  {age=youth,                                                                          
##       student=yes}             => {buys_computer=yes} 0.14285714  1.0000000 1.555556     2
## [9]  {income=high,                                                                        
##       student=yes}             => {buys_computer=yes} 0.07142857  1.0000000 1.555556     1
## [10] {age=middle-aged,                                                                    
##       student=yes}             => {buys_computer=yes} 0.14285714  1.0000000 1.555556     2
## [11] {age=middle-aged,                                                                    
##       credit_rating=excellent} => {buys_computer=yes} 0.14285714  1.0000000 1.555556     2
## [12] {age=middle-aged,                                                                    
##       income=medium}           => {buys_computer=yes} 0.07142857  1.0000000 1.555556     1
## [13] {age=youth,                                                                          
##       income=low}              => {buys_computer=yes} 0.07142857  1.0000000 1.555556     1
## [14] {age=middle-aged,                                                                    
##       income=high}             => {buys_computer=yes} 0.14285714  1.0000000 1.555556     2
## [15] {age=middle-aged,                                                                    
##       income=low}              => {buys_computer=yes} 0.07142857  1.0000000 1.555556     1
## [16] {student=yes}             => {buys_computer=yes} 0.42857143  0.8571429 1.333333     6

增加confidence=0.2条件

itemsets_apr2 = apriori (computer, 
                         parameter = list(supp = 0.001,confidence = 0.2,minlen = 1,maxlen = 3),
                         appearance = list(rhs = "buys_computer=no",default = "lhs"),
                         control = list(sort = -1))

## Apriori
## 
## Parameter specification:
##  confidence minval smax arem  aval originalSupport maxtime support minlen
##         0.2    0.1    1 none FALSE            TRUE       5   0.001      1
##  maxlen target   ext
##       3  rules FALSE
## 
## Algorithmic control:
##  filter tree heap memopt load sort verbose
##     0.1 TRUE TRUE  FALSE TRUE   -1    TRUE
## 
## Absolute minimum support count: 0 
## 
## set item appearances ...[1 item(s)] done [0.00s].
## set transactions ...[12 item(s), 14 transaction(s)] done [0.00s].
## sorting and recoding items ... [12 item(s)] done [0.00s].
## creating transaction tree ... done [0.00s].
## checking subsets of size 1 2 3 done [0.00s].
## writing ... [30 rule(s)] done [0.00s].
## creating S4 object  ... done [0.00s].

看什么样的人倾向于不买电脑。

itemsets_apr2.sorted <- sort(itemsets_apr2,by="lift")
inspect(itemsets_apr2.sorted)

##      lhs                          rhs                   support confidence      lift count
## [1]  {age=youth,                                                                          
##       student=no}              => {buys_computer=no} 0.21428571  1.0000000 2.8000000     3
## [2]  {age=senior,                                                                         
##       credit_rating=excellent} => {buys_computer=no} 0.14285714  1.0000000 2.8000000     2
## [3]  {income=high,                                                                        
##       credit_rating=excellent} => {buys_computer=no} 0.07142857  1.0000000 2.8000000     1
## [4]  {age=youth,                                                                          
##       income=high}             => {buys_computer=no} 0.14285714  1.0000000 2.8000000     2
## [5]  {age=youth,                                                                          
##       credit_rating=fair}      => {buys_computer=no} 0.14285714  0.6666667 1.8666667     2
## [6]  {student=no,                                                                         
##       credit_rating=excellent} => {buys_computer=no} 0.14285714  0.6666667 1.8666667     2
## [7]  {income=high,                                                                        
##       student=no}              => {buys_computer=no} 0.14285714  0.6666667 1.8666667     2
## [8]  {age=youth}               => {buys_computer=no} 0.21428571  0.6000000 1.6800000     3
## [9]  {student=no}              => {buys_computer=no} 0.28571429  0.5714286 1.6000000     4
## [10] {credit_rating=excellent} => {buys_computer=no} 0.21428571  0.5000000 1.4000000     3
## [11] {income=high}             => {buys_computer=no} 0.14285714  0.5000000 1.4000000     2
## [12] {student=no,                                                                         
##       credit_rating=fair}      => {buys_computer=no} 0.14285714  0.5000000 1.4000000     2
## [13] {income=medium,                                                                      
##       student=no}              => {buys_computer=no} 0.14285714  0.5000000 1.4000000     2
## [14] {age=senior,                                                                         
##       student=no}              => {buys_computer=no} 0.07142857  0.5000000 1.4000000     1
## [15] {age=youth,                                                                          
##       credit_rating=excellent} => {buys_computer=no} 0.07142857  0.5000000 1.4000000     1
## [16] {income=low,                                                                         
##       credit_rating=excellent} => {buys_computer=no} 0.07142857  0.5000000 1.4000000     1
## [17] {age=youth,                                                                          
##       income=medium}           => {buys_computer=no} 0.07142857  0.5000000 1.4000000     1
## [18] {age=senior,                                                                         
##       income=low}              => {buys_computer=no} 0.07142857  0.5000000 1.4000000     1
## [19] {age=senior}              => {buys_computer=no} 0.14285714  0.4000000 1.1200000     2
## [20] {}                        => {buys_computer=no} 0.35714286  0.3571429 1.0000000     5
## [21] {income=medium}           => {buys_computer=no} 0.14285714  0.3333333 0.9333333     2
## [22] {income=medium,                                                                      
##       credit_rating=fair}      => {buys_computer=no} 0.07142857  0.3333333 0.9333333     1
## [23] {income=high,                                                                        
##       credit_rating=fair}      => {buys_computer=no} 0.07142857  0.3333333 0.9333333     1
## [24] {student=yes,                                                                        
##       credit_rating=excellent} => {buys_computer=no} 0.07142857  0.3333333 0.9333333     1
## [25] {age=senior,                                                                         
##       student=yes}             => {buys_computer=no} 0.07142857  0.3333333 0.9333333     1
## [26] {income=medium,                                                                      
##       credit_rating=excellent} => {buys_computer=no} 0.07142857  0.3333333 0.9333333     1
## [27] {age=senior,                                                                         
##       income=medium}           => {buys_computer=no} 0.07142857  0.3333333 0.9333333     1
## [28] {credit_rating=fair}      => {buys_computer=no} 0.14285714  0.2500000 0.7000000     2
## [29] {income=low}              => {buys_computer=no} 0.07142857  0.2500000 0.7000000     1
## [30] {income=low,                                                                         
##       student=yes}             => {buys_computer=no} 0.07142857  0.2500000 0.7000000     1

说明&致谢

本人第一次书写机器学习笔记，仓促草率，其中多有不妥，欢迎也感谢各位学习者到评论区指出文中问题。在此，特要感谢本人机器学习的授课老师Ms.L提供的资料和教学。Come and Join Us Machine Learning！
接下来计划基于python/SAS语言学习关联分析，并书写读书笔记。

参考资料

Jiawei Han, Micheline Kamber, Jian Pei(2012). Data Mining Concepts and Techniques.
https://doi.org/10.1016/C2009-0-61819-5. ↩︎
Xindong Wu, Vipin Kumar(2009). The Top Ten Algorithms in Data Mining. ↩︎
版权声明：本文为CSDN博主「gjwang1983」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/gjwang1983/article/details/45015203. ↩︎
https://www.jianshu.com/p/f0e1b0100e59. ↩︎

你可能感兴趣的:(机器学习·所思所得)

【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
机器学习-期末测试难以触及的高度机器学习 python 人工智能
机器学习-期末测试线性回归1.代码展示#coding=UTF-8#拆分训练集和测试集importmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_split#是线性回归类是sklearn写好的根据梯度下降法fromsklearn.linear_modelimportLinearRegressionimportpand
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
一文读懂：无监督学习与有监督学习的区别与应用码上飞扬学习
在机器学习的世界里，无监督学习和有监督学习是两个最为常见且重要的概念。理解这两者的区别和应用场景，不仅有助于我们选择合适的算法和模型，还能帮助我们更好地解决实际问题。那么，什么是无监督学习和有监督学习呢？本文将带你详细了解这两种学习方式的定义、区别以及典型应用。目录无监督学习是什么？有监督学习是什么？无监督学习与有监督学习的主要区别无监督学习的典型应用有监督学习的典型应用如何选择合适的学习方法？1
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
深入探索Python编程技术：从入门到精通的全方位学习指南小码快撩 python 开发语言
引言在当今信息技术飞速发展的时代，Python以其简洁优雅、功能强大、易于上手的特点，成为了众多开发者和初学者首选的编程语言。无论是数据科学、机器学习、Web开发、自动化脚本编写，还是桌面应用开发，Python都能发挥其独特优势，帮助开发者高效完成任务。本文旨在为Python学习者提供一个全面的学习路径与关键知识点概述，助您快速掌握这门强大的编程语言。一、基础语法1.变量定义与数据类型示例代码：#
从零开始的 AI Infra 学习之路 SSS不知-道 MLSys 人工智能深度学习 pytorch
从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU一、概述AIInfra（AI
python 特征选择方法_【来点干货】机器学习中常用的特征选择方法及非常详细的Python实例... Blair Long python 特征选择方法
花费了很长时间整理编辑，转载请联系作者授权，违者必究。特征选择(Featureselection)是在构建预测模型的过程中减少输入变量的一个过程。它是机器学习中非常重要的一步并在很大程度上可以提高模型预测精度。这里我总结了一些机器学习中常见的比较有用的特征选择方法并附上相关python实现code。希望可以给大家一些启发。首先，我们为什么要进行特征选择呢？它有以下几个优点：减少过拟合：冗余数据常常
chatgpt赋能python：Python群发微信消息：解决方案 suimodina ChatGpt python chatgpt 微信计算机
Python群发微信消息：解决方案肆无忌惮的群发微信消息，是否是你目前所需的解决方案？如果是，那么你来对地方了。Python是一门十分强大的编程语言，广泛用于各种人工智能、计算机视觉、机器学习等领域。Python可以用于开发各种应用程序，它也可以用于批量处理和发送微信消息。本文将概述如何用Python发送微信消息。我们将介绍用Python实现微信消息的流程和步骤，并提供一些有关如何使用Python
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
ASPICE 4.0引领自动驾驶未来：机器学习模型的特点与实践亚远景aspice 机器学习自动驾驶人工智能
ASPICE4.0-ML机器学习模型是针对汽车行业，特别是在汽车软件开发中，针对机器学习（MachineLearning,ML）应用的特定标准和过程。ASPICE（AutomotiveSPICE）是一种基于软件控制的系统开发过程的国际标准，旨在提升软件开发过程的质量、效率和可靠性。ASPICE4.0中的ML模型部分则进一步细化了机器学习在汽车软件开发中的具体要求和流程。以下是对ASPICE4.0-
python中tensorflow_python机器学习TensorFlow框架弦歌缓缓
TensorFlow框架关注公众号“轻松学编程”了解更多。一、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端的计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统
【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格精通代码大仙数据挖掘深度学习 python 机器学习分类自动化人工智能数据挖掘深度学习
音乐流派分类–自动化分类不同音乐风格在本教程中，我们将开发一个深度学习项目，用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。对于这个项目，我们需要一个具有相似大小和相似频率范围的音频曲目数据集。GTZAN流派分类数据集是音乐流派分类项目中最推荐的数据集，并且它是为了这个任务而收集的。音乐流派分类器模型音乐流派分类关于数据集：GTZAN流派收
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
AI歌手会成为主流吗？网络安全我来了 IT技术人工智能
AI歌手会成为主流吗？在如今这个科技迅猛发展的时代，AI歌手渐渐走入我们的视野。或许你会想，AI真的能够唱歌，它的歌声能与真实歌手相媲美吗？让我们一起探索这个引人入胜的主题，看看AI歌手的发展现状、优缺点，以及它在音乐行业的未来前景。1.AI歌手的发展现状1.1技术背景我们处于一个机器学习和深度学习技术飞速发展的时代，AI歌手的诞生并非偶然。通过收集和分析大量的音乐数据，AI能够学习并模仿特定歌手
【机器学习：三十二、强化学习：理论与应用】 KeyPan 机器学习机器学习机器人人工智能深度学习数据挖掘
1.强化学习概述**强化学习（ReinforcementLearning,RL）**是一种机器学习方法，旨在通过试验与反馈的交互，使智能体（Agent）在动态环境中学习决策策略，以最大化累积奖励（CumulativeReward）。相比监督学习和无监督学习，强化学习更关注长期目标，而非简单地从标签中学习。核心概念智能体（Agent）：进行学习和决策的主体。环境（Environment）：智能体所在
【机器学习：二十七、决策树集合】 KeyPan 机器学习机器学习决策树人工智能数据挖掘深度学习算法分类
1.决策树集合的概述决策树集合是一种基于多个决策树模型集成的机器学习方法，通过组合多个弱学习器（决策树）形成一个强学习器，显著提升预测性能和泛化能力。核心思想集成学习的核心是通过结合多个模型的优点，降低单个模型的偏差与方差，提高整体的准确性和鲁棒性。决策树集合利用多棵树的组合，减少了单棵树可能出现的过拟合或对噪声的敏感性。主要优势性能提升：在分类和回归任务中通常表现优于单独的决策树。稳定性更强：对
学习AI大模型的小白入门建议和具体的学习方法推荐 aFakeProgramer 机器学习人工智能人工智能
深度思考我是一名在汽车行业工作的嵌入式系统工程师，现在我想进入人工智能领域，特别是大型语言模型。说到人工智能，我是一个完全的新手，所以我需要弄清楚从哪里开始。让我们把它分解一下。首先，我知道嵌入式系统涉及许多低级编程、微控制器、实时操作系统等。人工智能，特别是像GPT这样的大型模型，似乎处于另一端，处理高级计算、海量数据集和复杂算法。这里肯定有一个学习曲线。我可能应该从了解机器学习的基础知识开始。
机器学习——认识有监督学习与无监督学习伊一大数据&人工智能学习日志机器学习机器学习学习人工智能
目录有监督学习与无监督学习有监督学习无监督学习监督学习与无监督学习的区别有监督学习与无监督学习有监督学习和无监督学习是机器学习中的两种主要学习方式，它们的主要区别在于数据的标注情况和学习的目标。有监督学习有监督学习中，数据集中的每个样本都有明确的标签或目标输出。学习的目标是通过对有标签数据的学习，建立输入特征和输出标签之间的映射关系，以便能够对新的、未见过的输入数据预测其相应的输出标签。常见的有监
机器学习笔记——Boosting中常用算法（GBDT、XGBoost、LightGBM）迭代路径好评笔记机器学习笔记机器学习 boosting 人工智能深度学习 AI 算法工程师
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文主要阐述Boosting中常用算法（GBDT、XGBoost、LightGBM）的迭代路径。文章目录XGBoost相对GBDT的改进引入正则化项，防止过拟合损失函数L(yi,y^i)L(y_i,\hat{y}_i)L(yi,y^i)正则化项Ω(fm)\Omega(f_m)Ω(fm)使用二阶导数信息，加速收敛一阶导数与二
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23