张丹

RHadoop实践系列之三 R实现MapReduce的协同过滤算法

Author：张丹(Conan)
Date: 2013-04-07

Weibo: @Conan_Z
Email: [email protected]
Blog: http://www.fens.me/blog

APPs:
@晒粉丝 http://www.fens.me
@每日中国天气 http://apps.weibo.com/chinaweatherapp

RHadoop实践系列文章

RHadoop实践系列文章，包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据，R语言完成MapReduce 算法，用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者，有更强大的工具处理大数据。1G, 10G, 100G, TB,PB 由于大数据所带来的单机性能问题，可能会一去联复返了。

RHadoop实践是一套系列文章，主要包括”Hadoop环境搭建”，”RHadoop安装与使用”，”R实现MapReduce的算法案例”，”HBase和rhbase的安装与使用”。对于单独的R语言爱好者，Java爱好者，或者Hadoop爱好者来说，同时具备三种语言知识并不容易。

由于rmr2的对hadoop操作有一些特殊性，代码实现有一定难度。需要深入学习的同学，请多尝试并思考key/value值的设计。

本文难度为中高级。

第三篇 R实现MapReduce的协同过滤算法，分为3个章节。

  1.基于物品推荐的协同过滤算法介绍
2.R本地程序实现
3.R基于Hadoop分步式程序实现

每一章节，都会分为”文字说明部分”和”代码部分”，保持文字说明与代码的连贯性。

注：Hadoop环境及RHadoop的环境，请查看同系列前二篇文章，此文将不再介绍。

1. 基于物品推荐的协同过滤算法介绍

文字说明部分：

越来越多的互联网应用，都开始使用推荐算法(协同过滤算法)。根据用户活跃度和物品流行度，可以分为”基于用户的协同过滤算法”和”基于物品的协同过滤算法”。

基于用户的协同过滤算法，是给用户推荐和他兴趣相似的其他用户喜欢的物品。
基于物品的协同过滤算法，是给用户推荐和他之前喜欢的物品相似的物品。
基于物品的协同过滤算法，是目前广泛使用的一种推荐算法，像Netflix, YouTube, Amazon等。

算法主要分为两步：
1. 计算物品之间的相似度
2. 根据物品的相似度和用户的历史行为给用户生成推荐列表

有关算法的细节请参考：”Mahout In Action”和”推荐系统实践”两本书。

为开发方便，我们选择一组很小的测试数据集。

测试数据，来自于”Mahout In Action” P49
原第8行，3,101,2.5 改为 3,101,2.0
每行3个字段，依次是用户ID,物品ID,对物品的评分

代码部分：

在服务上创建测试数据文件small.csv

  ~ pwd

/root/R

~ vi small.csv

1,101,5.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.0
3,104,4.0
3,105,4.5
3,107,5.0
4,101,5.0
4,103,3.0
4,104,4.5
4,106,4.0
5,101,4.0
5,102,3.0
5,103,2.0
5,104,4.0
5,105,3.5
5,106,4.0

~ ls

small.csv

2. R本地程序实现

首先，通过R语言实现基于物品的协同过滤算法，为和RHadoop实现进行对比。这里我使用”Mahout In Action”书里，第一章第六节介绍的分步式基于物品的协同过滤算法进行实现。Chapter 6: Distributing recommendation computations

算法的思想：
1. 建立物品的同现矩阵
2. 建立用户对物品的评分矩阵
3. 矩阵计算推荐结果

文字说明部分：

1. 建立物品的同现矩阵

按用户分组，找到每个用户所选的物品，单独出现计数，及两两一组计数。

例如：用户ID为3的用户，分别给101,104,105,107，这4个物品打分。
1) (101,101),(104,104),(105,105),(107,107)，单独出现计算各加1。
2) (101,104),(101,105),(101,107),(104,105),(104,107),(105,107)，两个一组计数各加1。
3) 把所有用户的计算结果求和，生成一个三角矩阵，再补全三角矩阵，就建立了物品的同现矩阵。

如下面矩阵所示：

  
      [101] [102] [103] [104] [105] [106] [107]
[101]   5     3     4     4     2     2     1
[102]   3     3     3     2     1     1     0
[103]   4     3     4     3     1     2     0
[104]   4     2     3     4     2     2     1
[105]   2     1     1     2     2     1     1
[106]   2     1     2     2     1     2     0
[107]   1     0     0     1     1     0     1

2. 建立用户对物品的评分矩阵

按用户分组，找到每个用户所选的物品及评分

例如：用户ID为3的用户，分别给(3,101,2.0),(3,104,4.0),(3,105,4.5),(3,107,5.0)，这4个物品打分。
1) 找到物品评分(3,101,2.0),(3,104,4.0),(3,105,4.5),(3,107,5.0)
2) 建立用户对物品的评分矩阵

  
       U3
[101] 2.0
[102] 0.0
[103] 0.0
[104] 4.0
[105] 4.5
[106] 0.0
[107] 5.0

3. 矩阵计算推荐结果

同现矩阵*评分矩阵=推荐结果

图片摘自”Mahout In Action”

推荐给用户ID为3的用户的结果是(103,24.5),(102,18.5),(106,16.5)

代码部分：

  
#引用plyr包
library(plyr)

#读取数据集
train<-read.csv(file="small.csv",header=FALSE)
names(train)<-c("user","item","pref") 

> train
  user item pref
1 1 101 5.0
2 1 102 3.0
3 1 103 2.5
4 2 101 2.0
5 2 102 2.5
6 2 103 5.0
7 2 104 2.0
8 3 101 2.0
9 3 104 4.0
10 3 105 4.5
11 3 107 5.0
12 4 101 5.0
13 4 103 3.0
14 4 104 4.5
15 4 106 4.0
16 5 101 4.0
17 5 102 3.0
18 5 103 2.0
19 5 104 4.0
20 5 105 3.5
21 5 106 4.0

#计算用户列表
usersUnique<-function(){
  users<-unique(train$user)
  users[order(users)]
}

#计算商品列表方法
itemsUnique<-function(){
  items<-unique(train$item)
  items[order(items)]
}

# 用户列表
users<-usersUnique() 
> users
[1] 1 2 3 4 5

# 商品列表
items<-itemsUnique() 
> items
[1] 101 102 103 104 105 106 107

#建立商品列表索引
index<-function(x) which(items %in% x)
data<-ddply(train,.(user,item,pref),summarize,idx=index(item)) 

> data
 user item pref idx
1 1 101 5.0 1
2 1 102 3.0 2
3 1 103 2.5 3
4 2 101 2.0 1
5 2 102 2.5 2
6 2 103 5.0 3
7 2 104 2.0 4
8 3 101 2.0 1
9 3 104 4.0 4
10 3 105 4.5 5
11 3 107 5.0 7
12 4 101 5.0 1
13 4 103 3.0 3
14 4 104 4.5 4
15 4 106 4.0 6
16 5 101 4.0 1
17 5 102 3.0 2
18 5 103 2.0 3
19 5 104 4.0 4
20 5 105 3.5 5
21 5 106 4.0 6

#同现矩阵
cooccurrence<-function(data){
  n<-length(items)
  co<-matrix(rep(0,n*n),nrow=n)
  for(u in users){
    idx<-index(data$item[which(data$user==u)])
    m<-merge(idx,idx)
    for(i in 1:nrow(m)){
      co[m$x[i],m$y[i]]=co[m$x[i],m$y[i]]+1
    }
  }
  return(co)
}

#推荐算法
recommend<-function(udata=udata,co=coMatrix,num=0){
  n<-length(items)

  # all of pref
  pref<-rep(0,n)
  pref[udata$idx]<-udata$pref

  # 用户评分矩阵
  userx<-matrix(pref,nrow=n)

  # 同现矩阵*评分矩阵
  r<-co %*% userx

  # 推荐结果取前num个
  if(num>0){
    topn<-head(topn,num)
  }

  #返回结果
  return(topn)
}

#生成同现矩阵
co<-cooccurrence(data) 
> co
    [,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,]  5    3    4    4    2    2    1
[2,]  3    3    3    2    1    1    0
[3,]  4    3    4    3    1    2    0
[4,]  4    2    3    4    2    2    1
[5,]  2    1    1    2    2    1    1
[6,]  2    1    2    2    1    2    0
[7,]  1    0    0    1    1    0    1

#计算推荐结果
recommendation<-data.frame()
for(i in 1:length(users)){
  udata<-data[which(data$user==users[i]),]
  recommendation<-rbind(recommendation,recommend(udata,co,0)) 
} 

> recommendation
  user item val
1 1 104 33.5
2 1 106 18.0
3 1 105 15.5
4 1 107 5.0
5 2 106 20.5
6 2 105 15.5
7 2 107 4.0
8 3 103 24.5
9 3 102 18.5
10 3 106 16.5
11 4 102 37.0
12 4 105 26.0
13 4 107 9.5
14 5 107 11.5

3. R基于Hadoop分步式程序实现

R语言实现的MapReduce算法，可以基于R的数据对象实现，不必如JAVA一样使用文本存储。

算法思想同上面R语言实现思想，略有复杂。

算法的思想：
1. 建立物品的同现矩阵
1) 按用户分组，得到所有物品出现的组合列表。
2) 对物品组合列表进行计数，建立物品的同现矩阵
2. 建立用户对物品的评分矩阵
3. 合并同现矩阵和评分矩阵
4. 计算推荐结果列表
5. 按输入格式得到推荐评分列表

通过MapReduce实现时，所有操作都要使用Map和Reduce的任务完成，程序实现过程略有变化。

图片摘自”Mahout In Action”

文字说明部分：

1. 建立物品的同现矩阵

1) 按用户分组，得到所有物品出现的组合列表。

key:物品列表向量
val:物品组合向量

  
$key
[1] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 102 102 102 102
[20] 102 102 102 103 103 103 103 103 103 103 103 103 103 103 104 104 104 104 104
[39] 104 104 104 104 104 104 104 105 105 105 105 106 106 106 106 107 107 107 107
[58] 101 101 101 101 101 101 102 102 102 102 102 102 103 103 103 103 103 103 104
[77] 104 104 104 104 104 105 105 105 105 105 105 106 106 106 106 106 106

$val
[1] 101 102 103 101 102 103 104 101 104 105 107 101 103 104 106 101 102 103 101
[20] 102 103 104 101 102 103 101 102 103 104 101 103 104 106 101 102 103 104 101
[39] 104 105 107 101 103 104 106 101 104 105 107 101 103 104 106 101 104 105 107
[58] 101 102 103 104 105 106 101 102 103 104 105 106 101 102 103 104 105 106 101
[77] 102 103 104 105 106 101 102 103 104 105 106 101 102 103 104 105 106

2) 对物品组合列表进行计数，建立物品的同现矩阵

key:物品列表向量
val:同现矩阵的数据框值(item,item,Freq)
矩阵格式，要与”2. 建立用户对物品的评分矩阵”的格式一致，把异构的两种数据源，合并为同一种数据格式，为”3. 合并同现矩阵和评分矩阵”做数据基础。

  
$key
[1] 101 101 101 101 101 101 101 102 102 102 102 102 102 103 103 103 103 103 103
[20] 104 104 104 104 104 104 104 105 105 105 105 105 105 105 106 106 106 106 106
[39] 106 107 107 107 107

$val
k v freq
1 101 101 5
2 101 102 3
3 101 103 4
4 101 104 4
5 101 105 2
6 101 106 2
7 101 107 1
8 102 101 3
9 102 102 3
10 102 103 3
11 102 104 2
12 102 105 1
13 102 106 1
14 103 101 4
15 103 102 3
16 103 103 4
17 103 104 3
18 103 105 1
19 103 106 2
20 104 101 4
21 104 102 2
22 104 103 3
23 104 104 4
24 104 105 2
25 104 106 2
26 104 107 1
27 105 101 2
28 105 102 1
29 105 103 1
30 105 104 2
31 105 105 2
32 105 106 1
33 105 107 1
34 106 101 2
35 106 102 1
36 106 103 2
37 106 104 2
38 106 105 1
39 106 106 2
40 107 101 1
41 107 104 1
42 107 105 1
43 107 107 1

2. 建立用户对物品的评分矩阵

key:物品列表
val:用户对物品打分矩阵
矩阵格式，要与”2) 对物品组合列表进行计数，建立物品的同现矩阵”的格式一致，把异构的两种数据源，合并为同一种数据格式，为”3. 合并同现矩阵和评分矩阵”做数据基础

  
$key
[1] 101 101 101 101 101 102 102 102 103 103 103 103 104 104 104 104 105 105 106
[20] 106 107

$val
item user pref
1 101 1 5.0
2 101 2 2.0
3 101 3 2.0
4 101 4 5.0
5 101 5 4.0
6 102 1 3.0
7 102 2 2.5
8 102 5 3.0
9 103 1 2.5
10 103 2 5.0
11 103 4 3.0
12 103 5 2.0
13 104 2 2.0
14 104 3 4.0
15 104 4 4.5
16 104 5 4.0
17 105 3 4.5
18 105 5 3.5
19 106 4 4.0
20 106 5 4.0
21 107 3 5.0

3. 合并同现矩阵和评分矩阵

这一步操作是MapReduce比较特殊的，因为数据源是两个异构数据源，进行MapReduce的操作。
在之前，我们已经把两种格式合并为一样的。使用equijoin这个rmr2包的函数，进行矩阵合并。
key:NULL
val:合并的数据框

  
$key
NULL

$val
k.l v.l freq.l item.r user.r pref.r
1 103 101 4 103 1 2.5
2 103 102 3 103 1 2.5
3 103 103 4 103 1 2.5
4 103 104 3 103 1 2.5
5 103 105 1 103 1 2.5
6 103 106 2 103 1 2.5
7 103 101 4 103 2 5.0
8 103 102 3 103 2 5.0
9 103 103 4 103 2 5.0
10 103 104 3 103 2 5.0
11 103 105 1 103 2 5.0
12 103 106 2 103 2 5.0
13 103 101 4 103 4 3.0
....

4. 计算推荐结果列表

把第三步中的矩阵，进行合并计算，得到推荐结果列表
key:物品列表
val:推荐结果数据框

  
$key
[1] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101
[19] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 102
[37] 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 103
[55] 103 103 103 103 103 103 103 103 103 103 103 103 103 103 103 103 103 103
[73] 103 103 103 103 103 104 104 104 104 104 104 104 104 104 104 104 104 104
[91] 104 104 104 104 104 104 104 104 104 104 104 104 104 104 104 105 105 105
[109] 105 105 105 105 105 105 105 105 105 105 105 106 106 106 106 106 106 106
[127] 106 106 106 106 106 107 107 107 107

$val
k.l v.l user.r v
1 101 101 1 25.0
2 101 101 2 10.0
3 101 101 3 10.0
4 101 101 4 25.0
5 101 101 5 20.0
6 101 102 1 15.0
7 101 102 2 6.0
8 101 102 3 6.0
9 101 102 4 15.0
10 101 102 5 12.0
11 101 103 1 20.0
12 101 103 2 8.0
13 101 103 3 8.0
14 101 103 4 20.0
15 101 103 5 16.0
16 101 104 1 20.0
17 101 104 2 8.0
18 101 104 3 8.0
....

5. 按输入格式得到推荐评分列表

对推荐结果列表，进行排序处理，输出排序后的推荐结果。
key:用户ID
val:推荐结果数据框

  
$key
[1] 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5

$val
user item pref
1 1 101 44.0
2 1 103 39.0
3 1 104 33.5
4 1 102 31.5
5 1 106 18.0
6 1 105 15.5
7 1 107 5.0
8 2 101 45.5
9 2 103 41.5
10 2 104 36.0
11 2 102 32.5
12 2 106 20.5
13 2 105 15.5
14 2 107 4.0
15 3 101 40.0
16 3 104 38.0
17 3 105 26.0
18 3 103 24.5
19 3 102 18.5
20 3 106 16.5
21 3 107 15.5
22 4 101 63.0
23 4 104 55.0
24 4 103 53.5
25 4 102 37.0
26 4 106 33.0
27 4 105 26.0
28 4 107 9.5
29 5 101 68.0
30 5 104 59.0
31 5 103 56.5
32 5 102 42.5
33 5 106 34.5
34 5 105 32.0
35 5 107 11.5

rmr2使用提示：

1) rmr.options(backend = ‘hadoop’)

这里backend有两个值，hadoop,local。hadoop是默认值，使用hadoop环境运行程序。local是一个本地测试的设置，已经不建议再使用。我在开发时，试过local设置，运行速度非常快，模拟了hadoop的运行环境。但是，local模式下的代码，不能和hadoop模式下完全兼容，变动也比较大，因此不建议大家使用。

2) equijoin(…,outer=c(‘left’))

这里outer包括了4个值，c(“”, “left”, “right”, “full”)，非常像数据库中两个表的join操作

3) keyval(k,v)

mapReduce的操作，需要key和valve保存数据。如果直接输出，或者输出的未加key，会有一个警告Converting to.dfs argument to keyval with a NULL key。再上一篇文章中，rmr2的例子中就有类似的情况，请大家注意修改代码。

  
> to.dfs(1:10)

Warning message:
In to.dfs(1:10) : Converting to.dfs argument to keyval with a NULL key

代码部分：

  
#加载rmr2包
library(rmr2)

#输入数据文件
train<-read.csv(file="small.csv",header=FALSE)
names(train)<-c("user","item","pref") 

#使用rmr的hadoop格式，hadoop是默认设置。 
rmr.options(backend = 'hadoop') 

#把数据集存入HDFS 
train.hdfs = to.dfs(keyval(train$user,train)) 
from.dfs(train.hdfs) 

> from.dfs(train.hdfs)

13/04/07 14:35:44 INFO util.NativeCodeLoader: Loaded the native-hadoop library
13/04/07 14:35:44 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
13/04/07 14:35:44 INFO compress.CodecPool: Got brand-new decompressor
$key
[1] 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5

$val
 user item pref
1 1 101 5.0
2 1 102 3.0
3 1 103 2.5
4 2 101 2.0
5 2 102 2.5
6 2 103 5.0
7 2 104 2.0
8 3 101 2.0
9 3 104 4.0
10 3 105 4.5
11 3 107 5.0
12 4 101 5.0
13 4 103 3.0
14 4 104 4.5
15 4 106 4.0
16 5 101 4.0
17 5 102 3.0
18 5 103 2.0
19 5 104 4.0
20 5 105 3.5
21 5 106 4.0

#STEP 1, 建立物品的同现矩阵
# 1) 按用户分组，得到所有物品出现的组合列表。
train.mr<-mapreduce(
  train.hdfs,
  map = function(k, v) {
    keyval(k,v$item)
  }
  ,reduce=function(k,v){
    m<-merge(v,v)
    keyval(m$x,m$y)
  }
)

from.dfs(train.mr)

$key
[1] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 102 102 102 102
[20] 102 102 102 103 103 103 103 103 103 103 103 103 103 103 104 104 104 104 104
[39] 104 104 104 104 104 104 104 105 105 105 105 106 106 106 106 107 107 107 107
[58] 101 101 101 101 101 101 102 102 102 102 102 102 103 103 103 103 103 103 104
[77] 104 104 104 104 104 105 105 105 105 105 105 106 106 106 106 106 106

$val
[1] 101 102 103 101 102 103 104 101 104 105 107 101 103 104 106 101 102 103 101
[20] 102 103 104 101 102 103 101 102 103 104 101 103 104 106 101 102 103 104 101
[39] 104 105 107 101 103 104 106 101 104 105 107 101 103 104 106 101 104 105 107
[58] 101 102 103 104 105 106 101 102 103 104 105 106 101 102 103 104 105 106 101
[77] 102 103 104 105 106 101 102 103 104 105 106 101 102 103 104 105 106

# 2) 对物品组合列表进行计数，建立物品的同现矩阵
train2.mr<-mapreduce( 
  train.hdfs, 
  map = function(k, v) { 
    df<-v 
    key<-df$item 
    val<-data.frame(item=df$item,user=df$user,pref=df$pref) 
    keyval(key,val) 
  } 
) 
from.dfs(train2.mr)

$key 
[1] 101 101 101 101 101 102 102 102 103 103 103 103 104 104 104 104 105 105 106 
[20] 106 107 

$val 
item user pref 
1 101 1 5.0 
2 101 2 2.0 
3 101 3 2.0 
4 101 4 5.0 
5 101 5 4.0 
6 102 1 3.0 
7 102 2 2.5 
8 102 5 3.0 
9 103 1 2.5 
10 103 2 5.0 
11 103 4 3.0 
12 103 5 2.0 
13 104 2 2.0 
14 104 3 4.0 
15 104 4 4.5 
16 104 5 4.0 
17 105 3 4.5 
18 105 5 3.5 
19 106 4 4.0 
20 106 5 4.0 
21 107 3 5.0

#3. 合并同现矩阵 和 评分矩阵 
eq.hdfs<-equijoin( 
  left.input=step2.mr, 
  right.input=train2.mr, 
  map.left=function(k,v){ 
    keyval(k,v) 
  }, 
  map.right=function(k,v){ 
    keyval(k,v) 
  }, 
  outer = c("left") 
) 
from.dfs(eq.hdfs)

$key 
NULL 

$val 
k.l v.l freq.l item.r user.r pref.r 
1 103 101 4 103 1 2.5 
2 103 102 3 103 1 2.5 
3 103 103 4 103 1 2.5 
4 103 104 3 103 1 2.5 
5 103 105 1 103 1 2.5 
6 103 106 2 103 1 2.5 
7 103 101 4 103 2 5.0 
8 103 102 3 103 2 5.0 
9 103 103 4 103 2 5.0 
10 103 104 3 103 2 5.0 
11 103 105 1 103 2 5.0 
12 103 106 2 103 2 5.0 
13 103 101 4 103 4 3.0 
14 103 102 3 103 4 3.0 
15 103 103 4 103 4 3.0 
16 103 104 3 103 4 3.0 
17 103 105 1 103 4 3.0 
18 103 106 2 103 4 3.0 
19 103 101 4 103 5 2.0 
20 103 102 3 103 5 2.0 
21 103 103 4 103 5 2.0 
22 103 104 3 103 5 2.0 
23 103 105 1 103 5 2.0 
24 103 106 2 103 5 2.0 
25 101 101 5 101 1 5.0 
26 101 102 3 101 1 5.0 
27 101 103 4 101 1 5.0 
28 101 104 4 101 1 5.0 
29 101 105 2 101 1 5.0 
30 101 106 2 101 1 5.0 
31 101 107 1 101 1 5.0 
32 101 101 5 101 2 2.0 
33 101 102 3 101 2 2.0 
34 101 103 4 101 2 2.0 
35 101 104 4 101 2 2.0 
36 101 105 2 101 2 2.0 
37 101 106 2 101 2 2.0 
38 101 107 1 101 2 2.0 
39 101 101 5 101 3 2.0 
40 101 102 3 101 3 2.0 
41 101 103 4 101 3 2.0 
42 101 104 4 101 3 2.0 
43 101 105 2 101 3 2.0 
44 101 106 2 101 3 2.0 
45 101 107 1 101 3 2.0 
46 101 101 5 101 4 5.0 
47 101 102 3 101 4 5.0 
48 101 103 4 101 4 5.0 
49 101 104 4 101 4 5.0 
50 101 105 2 101 4 5.0 
51 101 106 2 101 4 5.0 
52 101 107 1 101 4 5.0 
53 101 101 5 101 5 4.0 
54 101 102 3 101 5 4.0 
55 101 103 4 101 5 4.0 
56 101 104 4 101 5 4.0 
57 101 105 2 101 5 4.0 
58 101 106 2 101 5 4.0 
59 101 107 1 101 5 4.0 
60 105 101 2 105 3 4.5 
61 105 102 1 105 3 4.5 
62 105 103 1 105 3 4.5 
63 105 104 2 105 3 4.5 
64 105 105 2 105 3 4.5 
65 105 106 1 105 3 4.5 
66 105 107 1 105 3 4.5 
67 105 101 2 105 5 3.5 
68 105 102 1 105 5 3.5 
69 105 103 1 105 5 3.5 
70 105 104 2 105 5 3.5 
71 105 105 2 105 5 3.5 
72 105 106 1 105 5 3.5 
73 105 107 1 105 5 3.5 
74 106 101 2 106 4 4.0 
75 106 102 1 106 4 4.0 
76 106 103 2 106 4 4.0 
77 106 104 2 106 4 4.0 
78 106 105 1 106 4 4.0 
79 106 106 2 106 4 4.0 
80 106 101 2 106 5 4.0 
81 106 102 1 106 5 4.0 
82 106 103 2 106 5 4.0 
83 106 104 2 106 5 4.0 
84 106 105 1 106 5 4.0 
85 106 106 2 106 5 4.0 
86 104 101 4 104 2 2.0 
87 104 102 2 104 2 2.0 
88 104 103 3 104 2 2.0 
89 104 104 4 104 2 2.0 
90 104 105 2 104 2 2.0 
91 104 106 2 104 2 2.0 
92 104 107 1 104 2 2.0 
93 104 101 4 104 3 4.0 
94 104 102 2 104 3 4.0 
95 104 103 3 104 3 4.0 
96 104 104 4 104 3 4.0 
97 104 105 2 104 3 4.0 
98 104 106 2 104 3 4.0 
99 104 107 1 104 3 4.0 
100 104 101 4 104 4 4.5 
101 104 102 2 104 4 4.5 
102 104 103 3 104 4 4.5 
103 104 104 4 104 4 4.5 
104 104 105 2 104 4 4.5 
105 104 106 2 104 4 4.5 
106 104 107 1 104 4 4.5 
107 104 101 4 104 5 4.0 
108 104 102 2 104 5 4.0 
109 104 103 3 104 5 4.0 
110 104 104 4 104 5 4.0 
111 104 105 2 104 5 4.0 
112 104 106 2 104 5 4.0 
113 104 107 1 104 5 4.0 
114 102 101 3 102 1 3.0 
115 102 102 3 102 1 3.0 
116 102 103 3 102 1 3.0 
117 102 104 2 102 1 3.0 
118 102 105 1 102 1 3.0 
119 102 106 1 102 1 3.0 
120 102 101 3 102 2 2.5 
121 102 102 3 102 2 2.5 
122 102 103 3 102 2 2.5 
123 102 104 2 102 2 2.5 
124 102 105 1 102 2 2.5 
125 102 106 1 102 2 2.5 
126 102 101 3 102 5 3.0 
127 102 102 3 102 5 3.0 
128 102 103 3 102 5 3.0 
129 102 104 2 102 5 3.0 
130 102 105 1 102 5 3.0 
131 102 106 1 102 5 3.0 
132 107 101 1 107 3 5.0 
133 107 104 1 107 3 5.0 
134 107 105 1 107 3 5.0 
135 107 107 1 107 3 5.0

#4. 计算推荐结果列表 
cal.mr<-mapreduce( 
  input=eq.hdfs, 
  map=function(k,v){ 
    val<-v 
    na<-is.na(v$user.r) 
    if(length(which(na))>0) val<-v[-which(is.na(v$user.r)),] 
    keyval(val$k.l,val) 
  } ,
  reduce=function(k,v){ 
    val<-ddply(v,.(k.l,v.l,user.r),summarize,v=freq.l*pref.r) 
    keyval(val$k.l,val) 
  } 
) 

from.dfs(cal.mr)

$key
[1] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101
[19] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 102
[37] 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 103
[55] 103 103 103 103 103 103 103 103 103 103 103 103 103 103 103 103 103 103
[73] 103 103 103 103 103 104 104 104 104 104 104 104 104 104 104 104 104 104
[91] 104 104 104 104 104 104 104 104 104 104 104 104 104 104 104 105 105 105
[109] 105 105 105 105 105 105 105 105 105 105 105 106 106 106 106 106 106 106
[127] 106 106 106 106 106 107 107 107 107

$val
k.l v.l user.r v
1 101 101 1 25.0
2 101 101 2 10.0
3 101 101 3 10.0
4 101 101 4 25.0
5 101 101 5 20.0
6 101 102 1 15.0
7 101 102 2 6.0
8 101 102 3 6.0
9 101 102 4 15.0
10 101 102 5 12.0
11 101 103 1 20.0
12 101 103 2 8.0
13 101 103 3 8.0
14 101 103 4 20.0
15 101 103 5 16.0
16 101 104 1 20.0
17 101 104 2 8.0
18 101 104 3 8.0
19 101 104 4 20.0
20 101 104 5 16.0
21 101 105 1 10.0
22 101 105 2 4.0
23 101 105 3 4.0
24 101 105 4 10.0
25 101 105 5 8.0
26 101 106 1 10.0
27 101 106 2 4.0
28 101 106 3 4.0
29 101 106 4 10.0
30 101 106 5 8.0
31 101 107 1 5.0
32 101 107 2 2.0
33 101 107 3 2.0
34 101 107 4 5.0
35 101 107 5 4.0
36 102 101 1 9.0
37 102 101 2 7.5
38 102 101 5 9.0
39 102 102 1 9.0
40 102 102 2 7.5
41 102 102 5 9.0
42 102 103 1 9.0
43 102 103 2 7.5
44 102 103 5 9.0
45 102 104 1 6.0
46 102 104 2 5.0
47 102 104 5 6.0
48 102 105 1 3.0
49 102 105 2 2.5
50 102 105 5 3.0
51 102 106 1 3.0
52 102 106 2 2.5
53 102 106 5 3.0
54 103 101 1 10.0
55 103 101 2 20.0
56 103 101 4 12.0
57 103 101 5 8.0
58 103 102 1 7.5
59 103 102 2 15.0
60 103 102 4 9.0
61 103 102 5 6.0
62 103 103 1 10.0
63 103 103 2 20.0
64 103 103 4 12.0
65 103 103 5 8.0
66 103 104 1 7.5
67 103 104 2 15.0
68 103 104 4 9.0
69 103 104 5 6.0
70 103 105 1 2.5
71 103 105 2 5.0
72 103 105 4 3.0
73 103 105 5 2.0
74 103 106 1 5.0
75 103 106 2 10.0
76 103 106 4 6.0
77 103 106 5 4.0
78 104 101 2 8.0
79 104 101 3 16.0
80 104 101 4 18.0
81 104 101 5 16.0
82 104 102 2 4.0
83 104 102 3 8.0
84 104 102 4 9.0
85 104 102 5 8.0
86 104 103 2 6.0
87 104 103 3 12.0
88 104 103 4 13.5
89 104 103 5 12.0
90 104 104 2 8.0
91 104 104 3 16.0
92 104 104 4 18.0
93 104 104 5 16.0
94 104 105 2 4.0
95 104 105 3 8.0
96 104 105 4 9.0
97 104 105 5 8.0
98 104 106 2 4.0
99 104 106 3 8.0
100 104 106 4 9.0
101 104 106 5 8.0
102 104 107 2 2.0
103 104 107 3 4.0
104 104 107 4 4.5
105 104 107 5 4.0
106 105 101 3 9.0
107 105 101 5 7.0
108 105 102 3 4.5
109 105 102 5 3.5
110 105 103 3 4.5
111 105 103 5 3.5
112 105 104 3 9.0
113 105 104 5 7.0
114 105 105 3 9.0
115 105 105 5 7.0
116 105 106 3 4.5
117 105 106 5 3.5
118 105 107 3 4.5
119 105 107 5 3.5
120 106 101 4 8.0
121 106 101 5 8.0
122 106 102 4 4.0
123 106 102 5 4.0
124 106 103 4 8.0
125 106 103 5 8.0
126 106 104 4 8.0
127 106 104 5 8.0
128 106 105 4 4.0
129 106 105 5 4.0
130 106 106 4 8.0
131 106 106 5 8.0
132 107 101 3 5.0
133 107 104 3 5.0
134 107 105 3 5.0
135 107 107 3 5.0

#5. 按输入格式得到推荐评分列表
result.mr<-mapreduce(
  input=cal.mr,
  map=function(k,v){
    keyval(v$user.r,v)
  }
  ,reduce=function(k,v){
    val<-ddply(v,.(user.r,v.l),summarize,v=sum(v))
    val2<-val[order(val$v,decreasing=TRUE),]
    names(val2)<-c("user","item","pref")
    keyval(val2$user,val2)
  }
)
from.dfs(result.mr)

$key
[1] 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5

$val
user item pref
1 1 101 44.0
2 1 103 39.0
3 1 104 33.5
4 1 102 31.5
5 1 106 18.0
6 1 105 15.5
7 1 107 5.0
8 2 101 45.5
9 2 103 41.5
10 2 104 36.0
11 2 102 32.5
12 2 106 20.5
13 2 105 15.5
14 2 107 4.0
15 3 101 40.0
16 3 104 38.0
17 3 105 26.0
18 3 103 24.5
19 3 102 18.5
20 3 106 16.5
21 3 107 15.5
22 4 101 63.0
23 4 104 55.0
24 4 103 53.5
25 4 102 37.0
26 4 106 33.0
27 4 105 26.0
28 4 107 9.5
29 5 101 68.0
30 5 104 59.0
31 5 103 56.5
32 5 102 42.5
33 5 106 34.5
34 5 105 32.0
35 5 107 11.5

文章中提供了R用MapReduce方法，实现协同过滤算法的一种思路。

算法可能不是最优的，希望大家有时间写出更好的算法来！随着R语言及Hadoop的发展，相信会有越来越多的算法应用会使用这种方式！
如有问题请给我留言，我很高兴与大家讨论。

掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
matplotlib 绘制热力图扶子 python matplotlib绘图代码 matplotlib python 经验分享热力图
1、功能介绍：使用了matplotlib和seaborn两个python库来创建并显示一个热力图。热力图是一种通过颜色变化来表示二维表格数据集中值分布的图形，适合用于展示矩阵数据或数据分析结果中的模式和趋势。2、代码部分：importmatplotlib.pyplotaspltimportseabornassnsimportnumpyasnp#设置中文字体plt.rcParams['font.sa
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
构建智能对话式BI的关键：ChatBI场景下的Agent框架选型深
写在前面在数据驱动决策的时代，商业智能（BI）工具扮演着至关重要的角色。然而，传统BI工具往往需要用户具备一定的SQL知识或熟悉复杂的操作界面。对话式BI（ChatBI）的出现，旨在通过自然语言交互，让任何人都能轻松获取数据洞察，极大降低了数据分析的门槛。构建一个强大、灵活且可扩展的ChatBI应用，其核心离不开一个合适的Agent框架。Agent框架如同应用的“龙骨”，为LLM赋予了感知、思考、
DeepSeek在性能测试中的应用：AI驱动的性能优化之旅程序员小雷性能优化功能测试测试工具单元测试测试用例 postman selenium
上次我们讨论了DeepSeek在自动化测试中的应用，今天我们继续深入探讨如何使用DeepSeek来进行性能测试。性能测试往往涉及大量数据分析和性能瓶颈诊断，这正是AI的强项。让我们看看如何借助DeepSeek的强大能力，让性能测试变得更智能、更高效。1.性能测试场景生成器首先，我们需要一个智能的性能测试场景生成器：classPerformanceScenarioGenerator:def__ini
对话式数据分析与Text2SQL Agent产品可行性分析思考
Text2SQLAgent产品可行性分析报告版本BG：基于一些手撸Text2SQL的产品MVP，进一步进行商业化思考。目标输出包含市场、技术、开发、商业模式及护城河策略的完整可行性分析报告，支撑产品决策。✅市场调研与竞品分析研究内容：市场现状与趋势全球Text2SQL技术应用场景（金融、零售、医疗等）2023-2028年复合增长率（CAGR）及驱动因素（如低代码、AI民主化）竞品分析矩阵竞品类型代
Delta视觉定位系统东城十三 vuca 数码相机计算机视觉目标跟踪算法人工智能机器学习
Delta视觉定位系统软件应用背景Delta机器人以并联构型实现“轻量、高速、高精度”三位一体，成为高速分拣、精密装配、食品包装等领域的佼佼者。然而，其卓越的物理性能要转化为实际作业中的高精度定位取放能力，视觉定位系统是不可或缺的“眼睛”和“导航员”。尤其在面对高速运动目标或随机摆放（无序）物体的复杂场景时，视觉系统是实现高效、精准作业的核心技术保障。通过机器视觉实时识别目标物体的位置与姿态，引导
从Python到数据结构：为什么这是每个自学者必经的进阶之路流水煮香茗 python 数据结构 mooc
当你熟练掌握Python语法后，下一步应该学什么？答案是数据结构。本文将深入分析为什么数据结构是编程进阶的关键，以及如何选择合适的学习资源。一、Python学会了，然后呢？如果你正在读这篇文章，很可能你已经：用Python写过小工具，能解决工作和生活中的一些小需求做过数据分析，会用pandas处理Excel表格但是，当你想要进一步提升时，却发现了一些困惑：困惑1：代码能跑，但总觉得"不够优雅"你的
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
【头歌】MapReduce基础实战答案 Seven_Two2 头歌大数据实验答案 c#开发语言
本专栏已收集大数据所有答案第1关：成绩统计编程要求使用MapReduce计算班级每个学生的最好成绩，输入文件路径为/user/test/input，请将计算后的结果输出到/user/test/output/目录下。答案：需要先在命令行启动HDFS#命令行start-dfs.sh再在代码文件中写入以下代码#代码文件importjava.io.IOException;importjava.util.S
2025学年湖北省职业院校技能大赛 “信息安全管理与评估”赛项样题卷（二）落寞的魚丶网络空间安全（职业技能大赛）#信息安全管理与评估赛项 2025湖北职业技能大赛高职组信息安全评估赛项样题赛题网络加固
2025学年湖北省职业院校技能大赛“信息安全管理与评估”赛项样题卷（二）第一部分：第二部分：网络安全事件响应、数字取证调查、应用程序安全任务书任务1：应急响应（可以培训有答案）任务2：通信数据分析取证（40分）任务3：基于Windows计算机单机取证（120分）第三部分应用程序安全任务4：HP代码审计（40分）第三部分：网络安全渗透、理论技能与职业素养任务一：人力资源管理系统（60分）可以培训任务
2025学年湖北省职业院校技能大赛 “信息安全管理与评估”赛项样题卷（四）落寞的魚丶网络空间安全（职业技能大赛）#信息安全管理与评估赛项 2025职业湖北职业技能大赛职业技能大赛省赛高职组信息安全评估与管理赛项
2025学年湖北省职业院校技能大赛“信息安全管理与评估”赛项样题卷（四）第二部分：网络安全事件响应、数字取证调查、应用程序安全任务书任务1：应急响应（可以培训有答案）任务2：通信数据分析取证（40分）任务3：基于Windows计算机单机取证（120分）任务4：PHP代码审计（40分）第三部分：网络安全渗透、理论技能与职业素养任务一：商城购物系统（60分）可以培训任务二：办公系统（60分）任务三：F
AI表格数据分析
简单发一篇文章，最近看到AI数据分析是越来越火了哈，把简单的流程进行一次简要的分享。AI数据分析的本质，是“结构化数据→模式识别→可视化表达+洞察输出”。1、分析流程详解：（1）数据预处理什么是数据预处理呢？其实它可以理解成你给的是什么。步骤1：识别数据结构表头，字段的含义等。步骤2：清洗数据去除空值、格式错误、重复数据。步骤3：类型识别判断哪些是时间字段？哪些是数值型？哪些是分类字段？总结：类似
《网络攻防技术》《数据分析与挖掘》《网络体系结构与安全防护》这三个研究领域就业如何？扣棣编程其他网络数据分析安全
这几个研究领域都是当前信息技术领域的热点方向，就业前景总体来说都非常不错，但各有侧重和特点。我来帮你详细分析一下：1.网络攻防技术就业前景：非常火热且持续增长。核心方向：渗透测试、漏洞挖掘与分析、恶意软件分析、入侵检测/防御、应急响应、威胁情报、安全审计、红蓝对抗等。市场需求：极高。数字化转型深入、网络攻击日益频繁和复杂（勒索软件、APT攻击、供应链攻击等）、数据安全与隐私保护法规（如GDPR、中
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
中国双非高校经费TOP榜数据分析归零鸟高考考研高校大学
当我们习惯性仰望985、211这些“国家队”时，一批地方重点支持的高校正悄悄发力，手握重金，展现出不逊于名校的“钞能力”。特别是“双非”大学中的佼佼者，它们的年度经费预算，足以让许多普通院校望尘莫及。今天就带大家揭开2024年全国高校经费预算的神秘面纱，尤其关注那些没有985/211光环，却获得财政“真金白银”大力支持的双非实力派们！（数据综合整理自各高校2024年公开预算报告及相关教育资讯平台，
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
为什么90%企业的AI数据分析都失败了？奥威BI给出破局方案 qq_43696218 人工智能数据分析数据挖掘
一、引言：AI数据分析在数字化转型中的核心地位在当今企业全面数字化转型的背景下，‌AI数据分析已成为解锁业务增长潜力的关键钥匙。然而，市场上众多AI数据分析产品常陷入“伪需求场景”，看似前沿却难以真正落地。本文将深入探讨奥威BI如何通过其AI数据分析能力，突破伪需求，实现数据价值的最大化。二、AI数据分析：伪需求场景的挑战伪需求场景的定义与表现AI数据分析领域的伪需求场景，指的是那些表面创新实则难
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

RHadoop实践系列之三 R实现MapReduce的协同过滤算法

RHadoop实践系列文章

第三篇 R实现MapReduce的协同过滤算法，分为3个章节。

1. 基于物品推荐的协同过滤算法介绍

文字说明部分：

代码部分：

2. R本地程序实现

文字说明部分：

3. R基于Hadoop分步式程序实现

文字说明部分：

你可能感兴趣的:(mapreduce,数据分析,hadoop,Mahout,软件应用)