Miracle8070

个性化广告推荐系统实战系列（二）：根据用户行为数据创建ALS模型并召回商品

1. 写在前面

这几天打算整理一个模拟真实情景进行广告推荐的一个小Demon，这个项目使用的阿里巴巴提供的一个淘宝广告点击率预估的数据集，采用lambda架构，实现一个离线和在线相结合的实时推荐系统，对非搜索类型的广告进行点击率预测和推荐(没有搜索词，没有广告的内容特征信息)。这个感觉挺接近于工业上的那种推荐系统了，通过这个推荐系统，希望能从工程的角度了解推荐系统的流程，也顺便学习一下大数据的相关技术，这次会涉及到大数据平台上的数据处理，离线处理业务和在线处理业务，涉及到的技术包括大数据的各种技术，包括Hadoop，Spark(Spark SQL, Spqrk ML, Spark-Streaming)， Redis，Hive，HBase，Kafka和Flume等，机器学习的相关技术（数据预处理，模型的离线训练和在线更新等。所以这几天的时间借机会走一遍这个流程，这里也详细记录一下，方便以后回看和回练，这次的课程是跟着B站上的一个课程走的，讲的挺详细的，就是没有课件和资料，得需要自己搞，并且在实战这次的推荐系统之前，最好是有一整套的大数据环境(我已经搭建好了），然后就可以来玩这个系统了哈哈，现在开始

今天是第二篇基于用户的行为数据进行商品的召回模块，上一篇文章中梳理完了任务和简单的流程，我们这里开始第一步，根据用户行为数据实现商品的召回，并且要把召回的结果缓存到数据库中供后面的排序使用。内容如下：

数据集的采样
数据集的预处理
训练ALS模型并进行召回商品
总结

Ok， let’s go!

2. 数据集采样

这个步骤是因为设备限制才不得不采取的一种方式，由于下载下来的数据集太大了， 22个G的行为数据，我电脑没法跑，所以我先对数据进行了采样，采样的过程是这样，首先基于骨架的那个数据从100万个用户的点击中选择了1万用户的20多万次点击数据。然后再读取behavior_log.csv文件，从里面选择出采样的这1万个用户的行为数据组成新的DataFrame保存作为用户行为日志记录。这里学到了pandas的大数据的分批读取操作，即如果数据非常大(22G)，我内存才16G，没法一下子读取进来处理，这时候就可以用pandas分块读取数据，边处理边写到文件的方式。代码如下：

import pandas as pd
# chunksize参数指定之后， 每次读入一百条数据，构成也给迭代器
reader = pd.read_csv('behavior_log.csv',chunksize=100,iterator=True)
count = 0;

# 这里每次读100条， 然后去处理，处理完了写入文件即可
for chunk in reader:
    count += 1
    if count ==1:
        chunk.to_csv('test4.csv',index = False)
    elif count>1 and count<1000:
        chunk.to_csv('test4.csv',index = False, mode = 'a',header = False)
    else:
        break
pd.read_csv('test4.csv')

这是一个类似框架的东西，由于我这里需要进行采样，然后重新整合数据，所以把上面代码改了一下：

# 从raw_sample数据集里面选择出5万用户来
user_sample_id = np.random.choice(raw_sample['user'].unique(), size=10000, replace=False)
sample_raw = raw_sample[raw_sample['user'].isin(user_sample_id)]

# 采样behavior_log， 这个22个G，需要分开读入数据
users = set(user_sample_id)

reader = pd.read_csv(path + 'behavior_log.csv', chunksize=1000, iterator=True)
behavior_log = []
count = 0
for chunk in reader:
    behavior_log.append(chunk[chunk['user'].isin(users)].values) 
    count += 1
    if count % 1000 == 0:
        print(count, end=",")
        
    if count > 20000:
        break

# 把数据拼起来， 然后转成DataFrame并保存到文件
behavior_logs = np.concatenate(behavior_log)
behavior_logs = pd.DataFrame(behavior_logs, columns=['user', 'timestamp', 'btag', 'cate_id', 'brand_id'])

behavior_logs.to_csv('./dataset/behavior_logs.csv', index=False)
sample_raw.to_csv('./dataset/raw_sample.csv', index=False)

这样，最后得到了个100M左右的dataset文件夹，里面有四个数据文件，两个是采样的数据，另外两个是用户和广告特征，不用变。然后上传到搭建好的服务器中(master)。

4. 数据集预处理

数据传到了master，算是存在了本地上，下面我们打开三台虚拟机，然后开启Hadoop和Spark，

start-all.sh     # 开启Hadoop
cd /opt/bigdata/spark/spark2.2/sbin/
start-all.sh    # 开启spark

# 查看进程
xcall.sh jps

正常开启:

下面进行数据的预处理相关操作。首先，先把本地的数据放到HDFS上，方便后续的分布式的数据读取。命令如下：

hadoop fs -put dataset /user/icss/RecommendSystem

这样就把数据传到了HDFS上：

然后开启远程jupyter notebook

conda activate bigdata_env
jupyter notebook --allow-root

这样在回到Windows上输入http:192.168.56.101:8890，即可进入远程jupyter。

新建一个jupyter notebook处理数据用，由于要使用SparkSQL，所以需要pyspark的相关配置如下：

import os

# 配置spark driver和pyspark运行时，所使用的python解释器路径
import sys   # sys.path是python的搜索模块的路径集，是一个list
os.environ['JAVA_HOME'] = '/opt/bigdata/java/jdk1.8'
os.environ['SPARK_HOME'] = '/opt/bigdata/spark/spark2.2'
os.environ['PYSPARK_PYTHON'] = '/opt/bigdata/anaconda3/envs/bigdata_env/bin/python3.7'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/opt/bigdata/anaconda3/envs/bigdata_env/bin/python3.7'
sys.path.append('/opt/bigdata/spark/spark2.2/python')
sys.path.append('/opt/bigdata/spark/spark2.2/python/lib/py4j-0.10.4-src.zip')
sys.path.append('/opt/bigdata/anaconda3/envs/bigdata_env/bin/python3.7')


# spark 配置信息
from pyspark import SparkConf
from pyspark.sql import SparkSession

SPARK_APP_NAME = "ALSRecommend"
SPARK_URL = "spark://192.168.56.101:7077"    # 这个不要写错

conf = SparkConf()    # 创建spark config对象
config = (
    ("spark.app.name", SPARK_APP_NAME),    # 设置启动的spark的app名称，没有提供，将随机产生一个名称
    ("spark.executor.memory", "6g"),    # 设置该app启动时占用的内存用量，默认1g
    ("spark.master", SPARK_URL),    # spark master的地址
    ("spark.executor.cores", "4"),    # 设置spark executor使用的CPU核心数
    # 以下三项配置，可以控制执行器数量
#     ("spark.dynamicAllocation.enabled", True),
#     ("spark.dynamicAllocation.initialExecutors", 1),    # 1个执行器
#     ("spark.shuffle.service.enabled", True)
#     ('spark.sql.pivotMaxValues', '99999'),  # 当需要pivot DF，且值很多时，需要修改，默认是10000
)

# 查看更详细配置及说明：https://spark.apache.org/docs/latest/configuration.html
conf.setAll(config)

# 利用config对象，创建spark session
spark = SparkSession.builder.config(conf=conf).getOrCreate()

这里面的SPAR_URL不要写错，一开始把前面的spark写成了master，结果报了："Java gateway process exited before sending the driver its port number"，这个又在让我花时间查了一会，结果他们的提供JAVA_HOME啥的在我这里都没有用，偶然间看到了我当时大环境的这里，才恍然大悟了一下，哈哈太巧了这次，当然又为解决这个问题提供了一种新思路：

这里就是Spark Master的地址，我把前面的master改成了spark，结果搞定了这个错误。一场虚惊，下面继续往下走：

# 从hdfs加载csv文件为DataFrame
behaviors_log_df = spark.read.csv("hdfs://master:9000/user/icss/RecommendSystem/dataset/behavior_logs.csv", header=True)

发现执行这个代码之后一直在执行状态，一个原因是数据太大，读入的速度太慢，然后我重新采样了一下数据，再次缩小数据的规模，发现还是超级慢，然后我查了下日志，提示：

反复出现这个东西，百度了一下，说是资源不足，建议关掉spark的其他程序，而我通过spark UI看了一下，我的只有这个东西在跑

所以我猜测是内存不足的问题，于是我改了重启了一下jupyter，改了一下上面代码里面的spark 配置，把APP启动时占用的内存改成2g，spark executor核心数改成了2，很快就读出来了。这次又长见识了，要是放在以前，估计又傻傻的等下去了。而现在慢慢的学乖了，一出现异常就去看日志，真的可以解决很多隐性问题。下面就可以看一下数据：

# 查看一下数据， 默认显示前20条
behaviors_log_df.show()
behaviors_log_df.count()       # 437288

# 大致看一下数据类型  打印当前的DataFrame结构
behaviors_log_df.printSchema()  

## 结果：
root
 |-- user: string (nullable = true)
 |-- timestamp: string (nullable = true)
 |-- btag: string (nullable = true)
 |-- cate_id: string (nullable = true)
 |-- brand_id: string (nullable = true)

这里会发现默认读取的DataFrame会有问题，字段的数据类型都是string类型，所以我们一般不用这种默认的方式，而是在读取的时候，设置一下数据类型和结构，代码如下：

from pyspark.sql.types import StructType, StructField, StringType, IntegerType, LongType

# 构建结构对象
schema = StructType([
    StructField("userId", IntegerType()),
    StructField("timestamp", LongType()),
    StructField("btag", StringType()),
    StructField("cateId", IntegerType()),
    StructField("brandId", IntegerType())
])
behaviors_log_df = spark.read.csv("hdfs://master:9000/user/icss/RecommendSystem/dataset/behavior_logs.csv", header=True, schema=schema)

这样再来查看就符合要求了。

4.1 数据分析

这里我们查看一下数据集的字段类型和格式

print("查看userId的数据情况：", behavior_log_df.groupBy("userId").count().count())
# 约113w用户
#注意：behavior_log_df.groupBy("userId").count()  返回的是一个dataframe，这里的count计算的是每一个分组的个数，但当前还没有进行计算， transformation操作，还没有action
# 当调用df.count()时才开始进行计算，这里的count计算的是dataframe的条目数，也就是共有多少个分组

# 结果： 9143   
# 采样完了之后还有这些用户了， 当时虽然采了10000个用户的， 但是采样的是raw_sample表，且当时采的时候并没有完全把log表采完，所以这个数也是合理的

下面查看btag的数据情况，这个类似于pandas的value_counts()的功能

# 查看btag的数据情况
print("查看btag的数据情况：", behaviors_log_df.groupBy("btag").count().collect())    
# collect会把计算结果全部加载到内存，谨慎使用
# 只有四种类型数据：pv、fav、cart、buy
# 这里由于类型只有四个，所以直接使用collect，把数据全部加载出来

# 结果
查看btag的数据情况： [Row(btag='buy', count=5577), Row(btag='fav', count=5726), Row(btag='cart', count=9648), Row(btag='pv', count=416337)]

下面看商品类别，商品品牌，是否有空值情况：

由于之前已经清洗好，所以没有空值了。基本情况已经看完了。

4.2 透视转换

接下来需要把表转换一下，因为我们后面需要进行召回的操作，所以我们需要统计出用户对于广告的各种行为次数，比如用户A，对于广告b，有几次收藏，几次浏览，几次购买等。而目前我们的数据是下面这样：

把某列里的字段值转换成行并进行聚合统计运算，这正是pivot透视的操作，所以我们用pyspark.sql.GroupedData.pivot函数对日志表进行透视显示，如果透视的字段中的不同属性值超过10000个，则需要设置spark.sql.pivotMaxValues，否则计算过程中会出现错误。文档介绍。

# 统计每个用户对各类商品的PV，fav， cart， buy的数量
cate_count_df = behaviors_log_df.groupBy(behaviors_log_df.userId, behaviors_log_df.cateId).pivot("btag", ["pv", "fav", "cart", "buy"]).count()

# 统计各个用户各个品牌的pv,fav,cart,buy的数量
brand_count_df = behaviors_log_df.groupBy(behaviors_log_df.userId, behaviors_log_df.brandId).pivot("btag",["pv","fav","cart","buy"]).count()

# 由于运算时间比较长，所以这里先将结果存储起来，供后续其他操作使用
# 写入数据时才开始计算
cate_count_df.write.csv("hdfs://master:9000/user/icss/RecommendSystem/preprocessing_dataset/cate_count.csv", header=True)
brand_count_df.write.csv("hdfs://master:9000/user/icss/RecommendSystem/preprocessing_dataset/brand_count.csv", header=True)

这里内存差点爆掉，上面代码写入的时候还要注意一点就是给preprocessing_dataset目录授权可写，因为jupyter我是root用户弄的，而建立preprocessing_dataset目录的时候是icss用户，这里一开始报了一个权限不够。

这样就完成了透视操作，接下来就基于这两个透视表操作了，此时为了节省内存，重启jupyter，然后读入上面保存的两个表，进行ALS模型的训练，这个ALS模型就是矩阵分解的原理，只不过训练的时候不是用的梯度下降方式求参数，而是交替最小二乘的方法求用户和类别或者品牌的隐变量。关于原理，这里不过多介绍，这个ALS模型是spark的ml库里自带的，我们可以直接调用。

5. 根据用户的打分情况训练ALS模型并进行召回

5.1 对类别的打分召回

这里我们基于用户对类别的行为(打分）情况对广告的类别进行召回操作，先读入上面保存的cate_count.csv

# spark ml的模型训练是基于内存的，如果数据过大，内存空间小，迭代次数过多的化，可能会造成内存溢出，报错
# 设置Checkpoint的话，会把所有数据落盘，这样如果异常退出，下次重启后，可以接着上次的训练节点继续运行
# 但该方法其实指标不治本，因为无法防止内存溢出，所以还是会报错
# 如果数据量大，应考虑的是增加内存、或限制迭代次数和训练数据量级等
spark.sparkContext.setCheckpointDir("hdfs://master:9000/user/icss/RecommendSystem/checkPoint/")
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, LongType, FloatType

# 构建结构对象
schema = StructType([
    StructField("userId", IntegerType()),
    StructField("cateId", IntegerType()),
    StructField("pv", IntegerType()),
    StructField("fav", IntegerType()),
    StructField("cart", IntegerType()),
    StructField("buy", IntegerType())
])

# 从hdfs加载CSV文件
cate_count_df = spark.read.csv("hdfs://master:9000/user/icss/RecommendSystem/preprocessing_dataset/cate_count.csv", header=True, schema=schema)

简单的看下这个表：

这个表只是记录了用户对于类别的各种行为次数，我们得指定打分规则，把这些次数转换成最终的一个评分情况，这样我们才能训练后面的ALS模型，也就是用户的评分矩阵，这个的形式就是user, cate_id, rate的格式。我们要把数据处理成这样，所以这里我们设计一个评分规则，对每一行处理，这样正好对应map的操作，处理的逻辑如下，比较简单：

# 下面处理每一行数据： r表示row对象
def process_row(r):
    """
    这里我们设置一个打分规则， 假设m: 用户对应的行为次数，偏好权重比例， 次数上限仅供参考， 具体数值根据产品的业务场景权衡
        pv: if m<=20: score=0.2*m; else score=4
        fav: if m<=20: score=0.4*m; else score=8
        fav: if m<=20: score=0.4*m; else score=8
        buy: if m<=20: score=1*m; else score=20
    
    这里是针对每一行进行的数据， 进行处理
    """
    
    # 注意这里要全部设为浮点数，spark运算时对类型比较敏感，要保持数据类型都一致
    pv_count = r.pv if r.pv else 0.0
    fav_count = r.fav if r.fav else 0.0
    cart_count = r.cart if r.cart else 0.0
    buy_count = r.buy if r.buy else 0.0
    
    # 打分规则
    pv_score = 0.2*pv_count if pv_count<=20 else 4.0
    fav_score = 0.4*fav_count if fav_count<=20 else 8.0
    cart_score = 0.6*cart_count if cart_count<=20 else 12.0
    buy_score = 1.0*buy_count if buy_count<=20 else 20.0
    
    # 最终得分返回
    rating = pv_score + fav_score + cart_score + buy_score
    
    return r.userId, r.cateId, rating

这样，我们对于每一样的结果传进去，就会算出一个评分，并且按照我们期望的形式返回来

# 用户对商品类别的打分数据
# map返回的结果是rdd类型，需要调用toDF方法转换为Dataframe
cate_rating_df = cate_count_df.rdd.map(process_row).toDF(["userId", "cateId", "rating"])
# 注意：toDF不是每个rdd都有的方法，仅局限于此处的rdd，这里的cate_rating_df是从DF过来的， 需要有schema结构的数据才能转成DF
# 可通过该方法获得 user-cate-matrix
# 但由于cateId字段过多，这里运算量比很大，机器内存要求很高才能执行，否则无法完成任务
# 请谨慎使用

# 但好在我们训练ALS模型时，不需要转换为user-cate-matrix，所以这里可以不用运行
# cate_rating_df.groupBy("userId").povit("cateId").min("rating")
# 用户对类别的偏好打分数据

我这里竟然报了个错误 Py4JJavaErrorAn error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID 4, 192.168.56.102, executor 3): java.io.IOException: Cannot run program "/opt/bigdata/spark/spark2.2/python": error=13, 权限不够
这个报错显然又涉及到了权限问题，但是尝试修改权限为777，发现也报这个错误。这里耗费了整整几个小时的时间，最后终于探索到了，这里是python解释器有问题，所以需要在一开始的时候加入：

os.environ['PYSPARK_PYTHON'] = '/opt/bigdata/anaconda3/envs/bigdata_env/bin/python3.7'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/opt/bigdata/anaconda3/envs/bigdata_env/bin/python3.7'

这里一定要注意：这里虽然加入了，但是之前配置anaconda3的时候只在master中安装的，所以再执行上面的代码之后，会提示slave01和slave02找不到python解释器的位置。这里一开始没有看清是slave01，所以一直找master上面，明明有却报错，然后一顿瞎找。最后才意识到了这个问题所在。于是乎就在相同的路径下，把bigdata_env复制到了slave01和slave02的同样位置(和master一样的位置)，本来想直接复制anaconda3的，但是这个太大了，报硬盘不足。

总算，解决了这个问题，结果如下；

这样就到了我们想要的格式了，下面就可以建立ALS模型了。

基于Spark的ALS隐因子模型进行CF评分预测

ALS的意思是交替最小二乘法（Alternating Least Squares），是Spark2.*中加入的进行基于模型的协同过滤（model-based CF）的推荐系统算法。

同SVD，它也是一种矩阵分解技术，对数据进行降维处理。
详细使用方法：pyspark.ml.recommendation.ALS
注意：由于数据量巨大，因此这里也不考虑基于内存的CF算法

参考：为什么Spark中只有ALS

建立模型的代码如下：

from pyspark.ml.recommendation import ALS   # ml: dataframe, mllib: rdd

# 利用打分数据， 训练ALS模型  checkpointInterval 是每训练几步缓存一次
als = ALS(userCol='userId', itemCol='cateId', ratingCol='rating', checkpointInterval=5)

# 此处训练时间较长
model = als.fit(cate_rating_df)

这个过程需要安装numpy，我上面目前没有numpy，所以用pip安装了一下，发现一晚上还没装上，总是中途连接失败，用conda同样也是如此，原来是源出现了问题，所以找到了一种快速安装包的方式，就是在后面加上源，也记录一下子：

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

加上清华源之后，安装numpy可谓秒安装了。然后就是模型的训练了。这里使用的spark ml, 这个基于的DataFrame，也就是spark SQL那一块，而spark mllib是基于的rdd，运算速度上会有些差别，前者在一些地方进行了优化，所以现在spark ml用的多一些了。下面简单的看一下两者的不同：

spark MLlib

最早开发的

基于RDD的API

目前已经停止维护了（从2.3）

还可以使用

spark ML

目前在更新的是这个库

基于DataFrame

Spark ML的库中封装了协同过滤的ALS模型，训练的时候传入的是一个DataFrame，包含用户id，物品id，用户-物品评分这三列，利用这三列就可以使用Spark ALS模块训练ALS模型。模型训练好后，调用方法进行使用，具体API查看

# model.recommendForAllUsers(N) 给所有用户推荐TOP-N个物品
ret = model.recommendForAllUsers(3)
# 由于是给所有用户进行推荐，此处运算时间也较长
ret.show(truncate=False)   # 后面的truncate是都显示出来

# 推荐结果存放在recommendations列中，
ret.select("recommendations").show()

下面看下效果吧：

注意，后面的id是商品类别的id，还不是直接广告的id。与之类似的一个函数是recommendForAllItems(N)，对于某个类别的商品找到相关的N个用户。上面两个都是针对于所有用户或者所有物品的，那么我要是给某个指定用户推荐呢？

下面的函数是给部分用户推荐商品，这时候需要把用户放到一个DataFrame中进行传入。

model.recommendForUserSubset 给部分用户推荐TOP-N个物品

# 注意：recommendForUserSubset API，2.2.2版本中无法使用
dataset = spark.createDataFrame([[1],[2],[3]])
dataset = dataset.withColumnRenamed("_1", "userId")
ret = model.recommendForUserSubset(dataset, 3)

# 只给部分用推荐，运算时间短
ret.show()
ret.collect()    # 注意： collect会将所有数据加载到内存，慎用

这个在spark2.3.x后面才有，由于我的spark版本正好是2.2的，所以告诉我没有这个函数。所以对于我这中情况，只能是先基于所有用户推荐出商品来，再采用过滤的方式选择出我想要的用户即可。

下面介绍一个模型保存的操作方式，transform中提供userId和cateId可以对打分进行预测，利用打分结果排序后

# transform中提供userId和cateId可以对打分进行预测，利用打分结果排序后，同样可以实现TOP-N的推荐
model.transform
# 将模型进行存储
model.save("hdfs://localhost:8020/models/userCateRatingALSModel.obj")
# 测试存储的模型
from pyspark.ml.recommendation import ALSModel
# 从hdfs加载之前存储的模型
als_model = ALSModel.load("hdfs://localhost:8020/models/userCateRatingALSModel.obj")
# model.recommendForAllUsers(N) 给用户推荐TOP-N个物品
result = als_model.recommendForAllUsers(3)
result.show()

这个就不演示了，这里是对模型进行了一波保存，但是model.save之前用了一下model.transform的操作。下面就是把召回的结果可以保存到Redis中，在后面的使用提供使用了。

5.2 保存召回结果到Redis

这里用到了Redis，这个我之前安装好了，安装过程看这里，先开启Redis服务器端。

cd /opt/bigdata/redis/redis3.0/
src/redis-server redis.conf

# 看一下 我这边已经开起来了
ps -ef | grep redis

由于我们目前还是召回的商品类别，而我们排序模型中是广告的点击率预测，两者之间还需要那么一点映射，这里先测试一下Redis是否好用，之前搭建完了环境之后，并不知道怎么使用这个东西，借着这个机会玩一下。

把结果召回到Redis进行保存，首先需要在bigdata_env中安装redis包，否则找不到这个模块ModuleNotFoundError: No module named 'redis'，这里我直接pip install redis。然后直接导入，指定好主机和端口号

import redis
host = "192.168.56.101"  # 这是我的master主机位置
port = 6379

这个Redis的主机和port是我当时配置的时候设置的，具体的要跟着自己的来，然后就可以进行下面的代码了，这里要有一个客户端。

# 召回到redis  存储的和核心代码就是这个函数
def recall_cate_by_cf(partition):
    # 建立redis 连接池
    pool = redis.ConnectionPool(host=host, port=port, db='0')   # 主机， 端口，数据库编号
    # 建立redis客户端
    client = redis.Redis(connection_pool=pool)
    # 键值对的形式保存起来了  键： 用户id， 值： 推荐的商品类别
    for row in partition:
        client.hset("recall_cate", row.userId, [i.cateId for i in row.recommendations])

# 对每个分片的数据进行处理 #mapPartition Transformation   map
# foreachPartition Action操作             foreachRDD
result.foreachPartition(recall_cate_by_cf)

# 注意：这里这是召回的是用户最感兴趣的n个类别
# 总的条目数，查看redis中总的条目数是否一致
result.count()

点击运行之后，又开始一系列的坑了，这里开始记录。

第一次运行，报错说ModuleNotFoundError: No module name 'redis', 一开始感到了点奇怪，明明先导入的这个东西呀，但是再往上排查发现是192.168.56.103节点报的错误。这里就大体明白是怎么回事了，原因是redis包没有真正的放入pyspark里面，节点找不到啊，这时候别百度了，因为这时候百度的大部分结果依然是让你安装redis包，而我们这里的问题不是anaconda或者jupyter找不到这个包的问题，而是spark里面的程序文件找不到这个包，这时候需要把这个包放到pyspark中，这样在spark的底层运行的时候才能够找到redis。所以有时候我们遇到问题百度的时候也需要改变一下问问题的方式，否则可能找不到我们想要的答案，一开始我也是又直接粘贴复制的这个问题报错，结果百度上的都是anaconda里面没有这个包的问题，废了很多时间，唉。

这里把上面的这个问题转成一个通用的问题，然后给出解决方式。

通用问题就是在spark上运行Python代码遇到“ImportError: No module name xxxx”，这时候有可能不是anaconda环境里面没有这个包，如果是这个原因，一般发生在import的时候，而不是具体运行的时候。如果具体运行的时候报这样的一个错误，且涉及到RDD的一些东西，往往就是这个问题了。这个问题的解决方式：spark中添加相应的模块。

这里拿redis举例：由于我在anaconda中安装了redis，所以在相应环境的包下面会找到，我把redis压缩成redis.zip文件，然后把这个放到某个目录中，然后再sparkContext.addPyFile加入这个zip文件即可。这么说可能抽象，我的具体做法，首先压缩redis：

# 我在当前目录下面建了一个redis目录名，必须是这个名字
# 然后把anaconda环境中的redis包移动到了这个目录下，然后进行了压缩操作
!mkdir redis
!mv /opt/bigdata/anaconda3/envs/bigdata_env/lib/python3.7/site-packages/redis redis

# 这里是用代码进行的压缩，也可以zip命令压缩好
import shutil
dir_name = "redis"
output_filename = "./redis"
shutil.make_archive(output_filename, 'zip', dir_name)

压缩完毕之后，当前目录多了个redis.zip文件，把这个移动到了spark2.2/pyhont/lib和pyspark放一块了。当然也可以不放一块，只要下面导入的之后指明正确路径即可。

# 这样就添加了redis到spark中去， 后面的这个路径只要写redis.zip所在路径即可
spark.sparkContext.addPyFile("/opt/bigdata/spark/spark2.2/python/lib/redis.zip")
import redis

这样，后面执行的时候就不会报找不到redis的错了，其他也是包同理，同样的解决方法。还要注意一点是我这里的spark是创建的一个session对象，如果是直接用的sparkContext对象的话，可以直接addPyFile， sparkSession的话没有这个函数的。

到这里第一个问题解决了，再次运行，迎来了第二个报错：redis.exceptions.DataError: Invalid input of type: ‘list‘. Convert to a bytes, string, int or float，这个一搜很容易搜到了，原因是redis的版本太高，果然我的从conda list中看了一下，3.5, 需要降到2.多，于是乎卸掉了anaconda中的redis(这里看好，是卸载包，别把搭建的redis服务环境卸掉），进入bigdata_env环境，执行两个：

pip uninstall redis
pip install redis==2.10.6

然后还得把这个新的redis包压缩加入spark中，和上面的一样了。这样解决了第二个报错。

再次运行，结果又来个一个报错：Redis (error) NOAUTH Authentication required，这个原因是因为redis之前安装的时候是带了密码的（上次搭建环境的时候玩过火了，搞了个密码，结果这里没法输入密码了），这个解决的话非常简单了，修改redis.conf文件，然后把密码那一行注释掉，重启redis服务器即可。这个具体的可以参考搭建环境的那一篇文章了。

至此，就可以再次运行，就搞定了，哈哈，一上午下来，三个报错解决掉，舒服啊，下面看下成果了：

当时看视频里面讲到这里的时候，一直对召回结果如何保存到redis或者数据库感到好奇，如今终于把这层雾拨开了，redis是这样，数据库应该原理也差不多。召回结果保存起来之后，在后面排序的时候，就能从redis中把候选商品读取出来，然后映射到候选广告上，就能使用排序模型进行广告的点击率预测任务了。

5.2 对品牌的打分召回

前面已经说过，虽然我们排序部分的任务是广告的点击率预测，但是召回模块根据给定的数据我们没法直接召回候选广告，只能是召回和广告相关的物品的类别或者是品牌来，再用这个映射到候选广告上去， 5.1的整体流程就是如何对每一用户召回候选的商品类别(cate_id），我们也可以召回商品的品牌(brand_id)，这个就不在这里详细赘述了，因为代码逻辑一模一样，代码只需基于上面的改动

brand_rating_df = cate_count_df.rdd.map(process_row).toDF(["userId", "brandId", "rating"])

后面创建ALS模型的时候改成brandId就OK了。文章整理只整理原理，不整理重复代码，所以这里参考上面的就好啦。

6. 总结

这篇文章到这里就结束了，主要介绍的内容就是召回部分，用的数据表是behavior_logs.csv，基于用户的行为，创建了ALS模型(协同过滤)，对商品的类别和品牌进行了候选召回，并存入到了Redis数据库中去。

这篇文章学习到的内容就是数据采样(这个是硬件的上限)， pandas成块读取大数据文件，SparkSql中的DataFrame，数据透视和转换，pyspark的配置， pyspark运行python脚本，jupyter notebook运行pyspark代码，spark ml的ALS模型，召回结果如何导入Redis等，收获很多，感受是分布式的这套机制和单机就推荐系统的处理逻辑是一致的，不同的是分布式的这套机制各个机器之间要相互配合，于是就出现了一些各个机器之间通信和配合的问题，用到的数据处理工具原理是一样的，但是使用方式上，名称上就不太一样了。分布式这里是基于spark了（因为它能解决通信和配合问题），单机的pandas类似于这里的SparkSQL 的DataFrame，单机的sklearn或者一些推荐模型类似于这里的Spark ml库里面的模型。所以掌握了算法原理还是一通百通，模型和算法本身的原理会了，单机 or 分布式用起来依然是掉包操作啊，涉及到掉包的东西很快就可以通过查资料学会，然后用到工程，但算法的原理往往才是王道，好的算法才是根本。所以工程和算法要两手抓，两手都要硬，哈哈。

好了，技术文中说的又有点多了，停住，然后探索下面的了，召回结束之后，就是训练排序模型，对于候选的广告进行更加准确的预测和排序了，排序部分会加入更多的信息，还需要进行数据的进一步处理和清洗，然后再是排序模型，下一篇里面是为排序模型做数据的准备工作，这里结尾依然是吴军老师的一句话：信息量代表着不确定性的大小，信息量越大，不确定性就越小，熵就越小，我们就越容易搞清楚。排序部分就是通过增加信息量，让不确定性越来越小的，哈哈，对上了， Rush

你可能感兴趣的:(项目实战系列,推荐系统实战,个性化广告,ALS模型,召回)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
厉国刚：新闻学与传播学到底有何区别微观大道
厉国刚：新闻学与传播学到底有何区别头几天，有人在知乎上问我：新闻学与传播学到底有何区别。他是一位想要跨专业考研的学生，对新闻传播学学科可谓了解甚少，甚至一头雾水，想要让我帮他解释解释。在研究生学硕层面，新闻传播学是一级学科，分成新闻学、传播学这两个二级学科。有些高校，还自设了广告学、出版发行学等其他二级学科，但从官方角度，新闻传播学一级学科下，正统的就是那两个二级学科。招生时，一般会按一级学科招，
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
红手套节马小媛为中国城市环卫者公益发声：今天我手红疏狂君
#红手套节#公益活动，线头公益以及同多方资源的共同努力我们邀请到了线头公益大使马小媛马小媛，1993年5月3日出生于江苏省南京市，中国内地新生代女演员。2015年马小媛参演网剧《余罪》，饰演警校校花安嘉璐的闺蜜。2016年马小媛主演系列电影《丽人保镖》中女一号林欢馨，正式出道。此后，马小媛陆续接演了电视剧《警花与警犬2》，在网剧《你美丽李美丽》中担任女主角李美丽。拂晓，当你还在睡梦中时，这座城跟你
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f