nnodurian-

[pyspark]itemcf协同过滤推荐算法------应用华为比赛数据实现（包含转化为稀疏向量，lsh模型，杰卡德距离）

学完以后，第一感受，确实会比python代码来得简洁

先上代码

第一步，用pysql处理原始数据，包含计算冷却得分（不是今天的重点，暂不会在后面细说了）

import findspark
findspark.init()
import pathlib
import sys
import json
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.ml.feature import MinHashLSH
from pyspark.ml.linalg import Vectors
import pyspark.sql.functions as psf
from pyspark.sql import SparkSession
from pyspark.sql.types import FloatType
from pyspark.sql.types import StructType
from pyspark.sql.types import StringType
from pyspark.sql.types import StructField
from pyspark.sql.types import IntegerType
import math
import argparse
import time
import os

projectdir = str(
    pathlib.Path(os.path.abspath(__file__)).parent.parent.parent)
sys.path.append(projectdir)
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
from collections import defaultdict


def get_dataframe():
    # 读取csv文件至dataframe
    # Spark -- DataFrame按指定分隔符读取和写入文件 https://blog.csdn.net/Aeve_imp/article/details/107520678
    df = spark.read.format('csv').option('sep', '\t').option('header', True).load(
        r"file:///home/admin/pyspark_script3/data/4days/history_behavior_data/*.csv")
    # df.show(2,False)
    """
    +-------+--------+--------+--------+----------+----------+----------------+-----------+--------+
    |user_id|video_id|is_watch|is_share|is_collect|is_comment|watch_start_time|watch_label|pt_d    |
    +-------+--------+--------+--------+----------+----------+----------------+-----------+--------+
    |2897092|41270   |0       |0       |0         |0         |null            |0          |20210428|
    |4849237|33564   |0       |0       |0         |0         |null            |0          |20210428|
    +-------+--------+--------+--------+----------+----------+----------------+-----------+--------+
    """
    # 划分训练集测试集
    df.createOrReplaceTempView('df')

    train_sql = """
    select *
    from df
    where pt_d<='20210430' 
    limit 50
    """

    test_sql = """
       select *
       from df
       where pt_d='20210501'
       """

    train_df = spark.sql(train_sql)
    test_df = spark.sql(test_sql)
    # test_df.show(2, False)
    """
    +-------+--------+--------+--------+----------+----------+----------------+-----------+--------+
    |user_id|video_id|is_watch|is_share|is_collect|is_comment|watch_start_time|watch_label|pt_d    |
    +-------+--------+--------+--------+----------+----------+----------------+-----------+--------+
    |4256452|30150   |0       |0       |0         |0         |null            |0          |20210501|
    |4256452|10499   |0       |0       |0         |0         |null            |0          |20210501|
    +-------+--------+--------+--------+----------+----------+----------------+-----------+--------+
    """

    return train_df, test_df

def build_model(df):
    df.createOrReplaceTempView("df")

    def compute_score(input):
        """
        :param input:[" "]
        :return:
        """
        line=input[0].split(",")
        a = int(line[0])
        b = int(line[1])
        c = int(line[2])
        d = float(line[3])
        e = int(line[4])
        score = (a * 2 + b * 2 + c * 2 + 2 * d / 9.0) + 1   #当日得分值域[1:9]

        alpha = -(math.log(1.0 / 9.0)) / (3 * 1.0)
        day_diff = float(20210430 - e)
        cooling_score = float(1 + score * math.exp(-alpha * day_diff))  #冷却得分值域[1：10]

        return float(cooling_score)

    spark.udf.register("compute_score", compute_score)

    x_sql="""
    select user_id,video_id,compute_score(collect_list(concat_ws(',',is_share,is_collect,is_comment,watch_label,pt_d))) as cooling_score
    from df
    group by user_id,video_id
    """
    x_df=spark.sql(x_sql)   #得到每条含冷却得分的行为记录表x_df
    #x_df.show(10,False)
    """
    +-------+--------+--------+-------------+
    |user_id|video_id|pt_d    |cooling_score|
    +-------+--------+--------+-------------+
    |100    |15077   |20210429|0.5          |
    |100    |26061   |20210430|1.0          |
    |100    |32054   |20210430|1.0          |
    |100    |41270   |20210429|0.5          |
    |100    |45295   |20210428|0.25         |
    |100000 |46900   |20210429|0.5          |
    |1000001|12968   |20210428|0.25         |
    |1000003|2946    |20210430|1.0          |
    |1000004|29808   |20210430|1.0          |
    |1000006|25416   |20210428|0.25         |
    +-------+--------+--------+-------------+
    """

    x_df.createOrReplaceTempView('x_df')

    y_sql="""
    select user_id,video_id,sum (cooling_score) as score
    from x_df
    group by user_id,video_id
    order by user_id,video_id
    """
    y_df=spark.sql(y_sql)   # 得到每条含冷却得分的行为记录表x_df
    #y_df.show()
    '''
    +-------+--------+------------------+
    |user_id|video_id|             score|
    +-------+--------+------------------+
    |1000442|   11926|1.2311204247835448|
    |1000442|   47688|1.2311204247835448|
    |1004457|   13497|1.2311204247835448|
    |1004457|   20202|1.2311204247835448|
    |1004457|   23551|1.2311204247835448|
'''

    return y_df

第二步，计算电影之间的相似度（包含将数据转换成稀疏向量喂入MinHashLSH内，得到物品相似度矩阵）

# 调用函数
def run_main():
    ###获取数据
    train, test = get_dataframe()

    train=build_model(train)
    #test=build_model(test)
    """
    +-------+--------+------------------+
    |user_id|video_id|             score|
    +-------+--------+------------------+
    |1000442|   11926|1.2311204247835448|
    |1000442|   47688|1.2311204247835448|
    """
    train=train.rdd
    #test=test.rdd

    def takeSecond(elem):
        return elem[2]

    def getTopN(x, k):
        x.sort(key=takeSecond, reverse=True)
        x = x[:k]
        return x

    def toCSVLine(data):
        output_str = str(data[0]) + "\t"
        return output_str + ','.join([str(d[1]) for d in data[1]])

    #unionRDD = train.union(test)
    unionRDD = train#因为没有用到验证集，所以unionRDD就是train
    '''
+-------+--------+------------------+
|user_id|video_id|             score|
+-------+--------+------------------+
|1120079|   41040|1.2311204247835448|
|1682647|   41270|1.2311204247835448|
|1828321|   41270|1.2311204247835448|
|1936005|   10249|1.2311204247835448|
|1936005|   12968|1.2311204247835448|
|1936005|   41040|1.2311204247835448|
|1936005|   41270|1.2311204247835448|
|1936005|    6693|1.2311204247835448|
    '''
    userItemRDD = unionRDD.map(lambda x: (x[0], x[1]))# 取上表前两列
    # 基于LSH的操作
    max_user_id = userItemRDD.map(lambda x: int(x[0])).distinct().max() #取userid的最大值
    #5906637
    itemUserRDD = userItemRDD.map(lambda x: (x[1], [x[0]])).reduceByKey(lambda x, y: x + y) #得到 每个itemid被哪些userid观看
    '''
    +-----+--------------------+
    |   _1|                  _2|
    +-----+--------------------+
    | 3717|[1004457, 100520,...|
    |  248|[1122683, 4372546...|
    |35040|[1122683, 1878054...|
    |37407|[1122683, 1620767...|
    |41706|           [1435007]|
    |33419|           [1931401]|
    |17444|           [2271444]|
    '''
    itemUserRDD = itemUserRDD.map(lambda x: (x[0], max_user_id + 1, x[1]))#在上表的中间插入了一列max_user_id，为方便后面将数据转化为稀疏向量
    '''
   +-----+-------+---------------------------+
    |_1   |_2     |_3                         |
    +-----+-------+---------------------------+
    |33564|5709683|[4849237]                  |
    |14061|5709683|[2696565]                  |
    |26381|5709683|[3123010]                  |
    |29786|5709683|[4849237]                  |
    |6693 |5709683|[1936005, 2542704, 4247864]|
'''

    # 将数据转化为稀疏向量表示，如向量(1.0,0.0,1.0,3.0用稀疏格式表示为(4,[0,2,3],[1.0,1.0,3.0]) 第一个4表示向量的长度(元素个数)，[0,2,3]就是indices数组，[1.0,1.0,3.0]是values数组 表示向量0的位置的值是1.0，2的位置的值是1.0,而3的位置的值是3.0,其他的位置都是0
    def get_feature_list_from_partition(iterator):
        result = []
        for arr in iterator:
            arr_tmp = list(set(arr[2]))
            arr_tmp.sort()
            #print(arr_tmp)
            result.append((arr[0], Vectors.sparse(arr[1],  arr_tmp, [1] * len(arr_tmp))))
        return result
    '''
    ['5709682', '1120079', '2598452', '1936005']
    ['1120079', '1936005', '2598452', '5709682']
    [('41040', SparseVector(5709683, {1120079: 1.0, 1936005: 1.0, 2598452: 1.0, 5709682: 1.0}))]
    ['2897092', '1828321', '2332195', '3735127', '1936005', '2608535', '1682647']
    ['1682647', '1828321', '1936005', '2332195', '2608535', '2897092', '3735127']
    [('41040', SparseVector(5709683, {1120079: 1.0, 1936005: 1.0, 2598452: 1.0, 5709682: 1.0})), ('41270', SparseVector(5709683, {1682647: 1.0, 1828321: 1.0, 1936005: 1.0, 2332195: 1.0, 2608535: 1.0, 2897092: 1.0, 3735127: 1.0}))]
    ['1936005']
    ['1936005']
    [('41040', SparseVector(5709683, {1120079: 1.0, 1936005: 1.0, 2598452: 1.0, 5709682: 1.0})), ('41270', SparseVector(5709683, {1682647: 1.0, 1828321: 1.0, 1936005: 1.0, 2332195: 1.0, 2608535: 1.0, 2897092: 1.0, 3735127: 1.0})), ('10249', SparseVector(5709683, {1936005: 1.0}))]
    ['1936005']
    ['1936005']
    [('41040', SparseVector(5709683, {1120079: 1.0, 1936005: 1.0, 2598452: 1.0, 5709682: 1.0})), ('41270', SparseVector(5709683, {1682647: 1.0, 1828321: 1.0, 1936005: 1.0, 2332195: 1.0, 2608535: 1.0, 2897092: 1.0, 3735127: 1.0})), ('10249', SparseVector(5709683, {1936005: 1.0})), ('12968', SparseVector(5709683, {1936005: 1.0}))]
    ['4247864', '1936005', '2542704']
    ['1936005', '2542704', '4247864']
    '''
    #以上为get_feature_list_from_partition函数处理过程
    item_vec_rdd = itemUserRDD.mapPartitions(get_feature_list_from_partition)#化为稀疏向量
    '''
    +-----+-------------------------------------------------+
    |33564|(5709683,[4849237],[1.0])                        |
    |14061|(5709683,[2696565],[1.0])                        |
    |26381|(5709683,[3123010],[1.0])                        |
    |29786|(5709683,[4849237],[1.0])                        |
    |6693 |(5709683,[1936005,2542704,4247864],[1.0,1.0,1.0])|
    |12968|(5709683,[1936005],[1.0])                        |
    |11907|(5709683,[19390],[1.0])                          |
    |31294|(5709683,[2008802],[1.0])                        |
    |4280 |(5709683,[2008802],[1.0])                        |
    |39583|(5709683,[3735127],[1.0])                        |
    +-----+-------------------------------------------------+
    '''
    item_vec_df = item_vec_rdd.toDF(["item", "features"])#给每一列取名
    '''
    +-----+--------------------+
    | item|            features|
    +-----+--------------------+
    |41040|(5709683,[1120079...|
    |41270|(5709683,[1682647...|
    |10249|(5709683,[1936005...|
    |12968|(5709683,[1936005...|
    | 6693|(5709683,[1936005...|
    |11907|(5709683,[19390],...|
    |22472|(5709683,[2008802...|
    '''
    mh = MinHashLSH(inputCol="features", outputCol="hashes", numHashTables=5) # 给mhl模型传入参数
    model = mh.fit(item_vec_df) # 训练模型
    #计算物品之间的杰卡德距离，阈值为0.98
    item_sim_df = model.approxSimilarityJoin(item_vec_df, item_vec_df, 0.98, distCol="JaccardDistance") \
        .select(psf.col("datasetA.item").alias("idA"),
                psf.col("datasetB.item").alias("idB"),
                psf.col("JaccardDistance")).orderBy(psf.col("datasetA.item"), psf.col("JaccardDistance"))
    '''
    +-----+-----+------------------+
    |  idA|  idB|   JaccardDistance|
    +-----+-----+------------------+
    |10249|12968|               0.0|
    |10249|10249|               0.0|
    |10249| 6693|0.6666666666666667|
    |10249|41040|              0.75|
    |10249|41270|0.8571428571428572|
    |11318|44601|               0.0|
    |11318|11318|               0.0|
    |11318| 6228|               0.0|
    |11318|47815|               0.0|
    |11318| 6693|0.6666666666666667|

    '''
    #筛掉物品id相同的行，并将杰卡德距离转变为杰卡德相似度，值越大说明相似度越高
    item_sim_rdd = item_sim_df.rdd.filter(lambda x: x.idA != x.idB) \
        .map(lambda x: (x.idA, x.idB, 1 - x.JaccardDistance))
    '''
    +-----+-----+-------------------+
    |   _1|   _2|                 _3|
    +-----+-----+-------------------+
    |10249|12968|                1.0|
    |10249| 6693|0.33333333333333326|
    |10249|41040|               0.25|
    |11318|47815|                1.0|
    |11318| 6228|                1.0|
    |11318|44601|                1.0|
    |11318| 6693|0.33333333333333326|
    |12968|10249|                1.0|
    |12968| 6693|0.33333333333333326|
    |12968|41040|               0.25|
    +-----+-----+-------------------+
    '''
    rdd13 = item_sim_rdd.map(lambda data: ','.join(str(d) for d in data))
    #print(type(rdd13))#PipelinedRDD操作被流水线化并发送到worker；代码从上到下执行。它是RDD的一个子类

第三步，（相似度*冷却得分=兴趣值）通过兴趣值给用户推荐电影

    k = 5 # 每个物品获取5个近邻物品
    unionRDD = unionRDD.distinct()#去重

    '''
    +-------+--------+------------------+
    |user_id|video_id|score             |
    +-------+--------+------------------+
    |1936005|41040   |1.2311204247835448|
    |2332195|41270   |1.2311204247835448|
    |19390  |11907   |1.2311204247835448|
    |3735127|18399   |1.2311204247835448|
    |3123010|26381   |1.2311204247835448|
    |1828321|41270   |1.2311204247835448|
    |1936005|6693    |1.2311204247835448|
    |2542704|6693    |1.2311204247835448|
    |3735127|44786   |1.2311204247835448|
    |2598452|41040   |1.2311204247835448|
    +-------+--------+------------------+
    '''
    #getTopN(x[1], k)取x[1]数组前K项，topkSim为每个物品与5个以内近邻物品的相似度
    topkSim = item_sim_rdd.map(lambda x: (x[0], (x[0], x[1], x[2]))).groupByKey().map(lambda x: (x[0], list(x[1]))).map(lambda x: (x[0], getTopN(x[1], k))).flatMap(lambda x: x[1]).map(lambda x: (x[0], (x[1], x[2])))

    '''
    +-----+--------------------+
    |   _1|                  _2|
    +-----+--------------------+
    |37639|        [35839, 1.0]|
    |37639|        [29786, 1.0]|
    |37639|        [31328, 1.0]|
    |37639|        [46749, 1.0]|
    |37639|        [33564, 1.0]|
    |26744|        [40027, 1.0]|
    |26744|[6693, 0.33333333...|
    |24774|        [26381, 1.0]|   
    '''
    R2 = topkSim.join(unionRDD.map(lambda x: (x[1], (x[0], x[2]))))

    '''
+----+---------------------------------------------+
|_1  |_2                                           |
+----+---------------------------------------------+
|3139|[[33680, 1.0], [2008802, 1.2311204247835448]]|
|3139|[[31294, 1.0], [2008802, 1.2311204247835448]]|
|3139|[[4280, 1.0], [2008802, 1.2311204247835448]] |
|3139|[[28149, 1.0], [2008802, 1.2311204247835448]]|
|3139|[[36100, 1.0], [2008802, 1.2311204247835448]]|
+----+---------------------------------------------+
    '''
    R3 = R2.map(lambda x: ((x[1][1][0], x[1][0][0]), float(x[1][1][1]) * float(x[1][0][1])))#相似度*评分=兴趣值
    '''
    +----------------+-------------------+
    |              _1|                 _2|
    +----------------+-------------------+
    |[1936005, 10249]| 1.2311204247835448|
    | [1936005, 6693]|0.41037347492784815|
    |[1936005, 41040]| 0.3077801061958862|
    |[1936005, 41270]|0.17587434639764918|
    |[1936005, 12968]| 1.2311204247835448|
    | [1936005, 6693]|0.41037347492784815|
    |[1936005, 41040]| 0.3077801061958862|
    |[1936005, 41270]|0.17587434639764918|
        '''
    R4 = R3.reduceByKey(lambda x, y: x + y)#将键相同的合并，兴趣值相加

    '''
    +----------------+-------------------+
    |              _1|                 _2|
    +----------------+-------------------+
    |[2542704, 10249]|0.41037347492784815|
    |[4849237, 29786]|  6.155602123917724|
    |[2008802, 31294]|  4.308921486742407|
    |[2542704, 44601]|  3.693361274350634|
    |[3735127, 39583]|  6.155602123917724|
    |[4849237, 28149]| 0.6155602123917724|
    |[2598452, 41270]|0.12311204247835444|
    | [3735127, 6693]|0.13679115830928282|
    |[5709682, 12968]| 0.3077801061958862|
    |[18ui'''
    #R4.toDF().show()
    N = 10
    #筛掉用户看过的电影，不予推荐
    R5 = R4.leftOuterJoin(unionRDD.map(lambda x: ((x[0], x[1]), 1))).filter(lambda x: x[1][1] == None).map(
        lambda x: (x[0][0], (x[0][0], x[0][1], x[1][0])))
    '''
    +-------+-------------------------------------+
    |_1     |_2                                   |
    +-------+-------------------------------------+
    |4849237|[4849237, 31294, 0.6155602123917724] |
    |1828321|[1828321, 41040, 0.12311204247835444]|
    |2332195|[2332195, 41040, 0.12311204247835444]|
    |1682647|[1682647, 41040, 0.12311204247835444]|
    |1120079|[1120079, 6693, 0.20518673746392407] |
    +-------+-------------------------------------+
    '''
    R6 = R5.groupByKey().map(lambda x: (x[0], list(x[1])))
    R7 = R6.map(lambda x: (x[0], getTopN(x[1], N)))#得到前10个推荐结果
    #R7.toDF().show(5,False)
    '''
    +-------+-------------------------------------------------------------------------------------------------------------------------------------------------------+
    |_1     |_2                                                                                                                                                     |
    +-------+-------------------------------------------------------------------------------------------------------------------------------------------------------+
    |2008802|[[2008802, 29786, 0.6155602123917724]]                                                                                                                 |
    |4849237|[[4849237, 48824, 0.6155602123917724], [4849237, 28149, 0.6155602123917724], [4849237, 3139, 0.6155602123917724], [4849237, 31294, 0.6155602123917724]]|
    |2332195|[[2332195, 10249, 0.17587434639764918], [2332195, 12968, 0.17587434639764918], [2332195, 6693, 0.13679115830928282]]                                   |
    |1828321|[[1828321, 12968, 0.17587434639764918], [1828321, 10249, 0.17587434639764918], [1828321, 6693, 0.13679115830928282]]                                   |
    |1682647|[[1682647, 10249, 0.17587434639764918], [1682647, 12968, 0.17587434639764918], [1682647, 6693, 0.13679115830928282]]                                   |
    +-------+-------------------------------------------------------------------------------------------

    '''
    # R9 = R7.map(toCSVLine)
    # R9.coalesce(1).saveAsTextFile('file:///home/admin/pyspark_script3/data/4days/' + str(int(time.time())))
if __name__ == '__main__':
    # if len(sys.argv) > 0:
    #     ArgsUtils().deal_args(sys.argv, config_dict)

    conf = SparkConf().setMaster("local[4]").setAppName("movie_features_handle")
    spark = SparkSession.builder.config(conf=conf).getOrCreate()
    spark.sparkContext.setLogLevel("ERROR")
    sc = spark.sparkContext

    run_main()

    spark.stop()

附录1:

从topkSim开始，我用语言注释说不清楚，所以单独拎出来运行，结合图片理解

1.topkSim拿出来单独运行了一下，看数据结构，如下，此段不需要出现在推荐算法代码中

topkSim = item_sim_rdd.map(lambda x: (x[0], (x[0], x[1], x[2])))
'''
+-----+----------------------------------+
|_1   |_2                                |
+-----+----------------------------------+
|10249|[10249, 12968, 1.0]               |
|10249|[10249, 6693, 0.33333333333333326]|
|10249|[10249, 41040, 0.25]              |
|10249|[10249, 41270, 0.1428571428571428]|
|11318|[11318, 47815, 1.0]               |
|11318|[11318, 6228, 1.0]                |
|11318|[11318, 44601, 1.0]               |
|11318|[11318, 6693, 0.33333333333333326]|
|12968|[12968, 10249, 1.0]               |
|12968|[12968, 6693, 0.33333333333333326]|
+-----+----------------------------------+

'''
topkSim = item_sim_rdd.map(lambda x: (x[0], (x[0], x[1], x[2]))).groupByKey()
'''
+-----+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|_1   |_2                                                                                                                                                                                                                                                                 |
+-----+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|11318|[[[11318, 44601, 1.0], [11318, 6228, 1.0], [11318, 47815, 1.0], [11318, 6693, 0.33333333333333326]], 0, 4]                                                                                                                                                         |
|9308 |[[[9308, 44786, 1.0], [9308, 18399, 1.0], [9308, 842, 1.0], [9308, 39583, 1.0], [9308, 45507, 1.0], [9308, 41270, 0.1428571428571428]], 0, 6]                                                                                                                      |
|33680|[[[33680, 31294, 1.0], [33680, 4280, 1.0], [33680, 28149, 1.0], [33680, 3139, 1.0], [33680, 36100, 1.0], [33680, 48824, 1.0], [33680, 22472, 0.5]], 0, 7]                                                                                                          |
|46749|[[[46749, 29786, 1.0], [46749, 33564, 1.0], [46749, 35839, 1.0], [46749, 37639, 1.0], [46749, 31328, 1.0], [46749, 22472, 0.5]], 0, 6]                                                                                                                             |
|39583|[[[39583, 44786, 1.0], [39583, 9308, 1.0], [39583, 18399, 1.0], [39583, 45507, 1.0], [39583, 842, 1.0], [39583, 41270, 0.1428571428571428]], 0, 6]                                                                                                                 |
|26744|[[[26744, 40027, 1.0]], 0, 1]                                                                                                                                                                                                                                      |
|6693 |[[[6693, 6228, 0.33333333333333326], [6693, 10249, 0.33333333333333326], [6693, 11318, 0.33333333333333326], [6693, 12968, 0.33333333333333326], [6693, 44601, 0.33333333333333326], [6693, 47815, 0.33333333333333326], [6693, 41040, 0.16666666666666663]], 0, 7]|
|28149|[[[28149, 33680, 1.0], [28149, 48824, 1.0], [28149, 3139, 1.0], [28149, 31294, 1.0], [28149, 36100, 1.0], [28149, 4280, 1.0], [28149, 22472, 0.5]], 0, 7]                                                                                                          |
|35839|[[[35839, 31328, 1.0], [35839, 37639, 1.0], [35839, 46749, 1.0], [35839, 29786, 1.0], [35839, 33564, 1.0], [35839, 22472, 0.5]], 0, 6]                                                                                                                             |
|10249|[[[10249, 12968, 1.0], [10249, 6693, 0.33333333333333326], [10249, 41040, 0.25]], 0, 3]                                                                                                                                                                            |
+-----+-------------------------------------------------------------------------------------------
'''
.map(lambda x: (x[0], list(x[1])))
'''
+-----+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|_1   |_2                                                                                                                                                                                                                                                                                             |
+-----+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|11318|[[11318, 44601, 1.0], [11318, 47815, 1.0], [11318, 6228, 1.0], [11318, 6693, 0.33333333333333326]]                                                                                                                                                                                             |
|9308 |[[9308, 39583, 1.0], [9308, 842, 1.0], [9308, 44786, 1.0], [9308, 45507, 1.0], [9308, 18399, 1.0], [9308, 41270, 0.1428571428571428]]                                                                                                                                                          |
|33680|[[33680, 36100, 1.0], [33680, 3139, 1.0], [33680, 48824, 1.0], [33680, 4280, 1.0], [33680, 28149, 1.0], [33680, 31294, 1.0], [33680, 22472, 0.5]]                                                                                                                                              |
|46749|[[46749, 35839, 1.0], [46749, 33564, 1.0], [46749, 37639, 1.0], [46749, 29786, 1.0], [46749, 31328, 1.0], [46749, 22472, 0.5]]                                                                                                                                                                 |
|39583|[[39583, 9308, 1.0], [39583, 45507, 1.0], [39583, 18399, 1.0], [39583, 44786, 1.0], [39583, 842, 1.0], [39583, 41270, 0.1428571428571428]]                                                                                                                                                     |
|26744|[[26744, 40027, 1.0], [26744, 6693, 0.33333333333333326]]                                                                                                                                                                                                                                      |
|6693 |[[6693, 44601, 0.33333333333333326], [6693, 6228, 0.33333333333333326], [6693, 40027, 0.33333333333333326], [6693, 10249, 0.33333333333333326], [6693, 47815, 0.33333333333333326], [6693, 12968, 0.33333333333333326], [6693, 26744, 0.33333333333333326], [6693, 11318, 0.33333333333333326]]|
|28149|[[28149, 36100, 1.0], [28149, 4280, 1.0], [28149, 3139, 1.0], [28149, 31294, 1.0], [28149, 48824, 1.0], [28149, 33680, 1.0], [28149, 22472, 0.5]]                                                                                                                                              |
|35839|[[35839, 37639, 1.0], [35839, 31328, 1.0], [35839, 33564, 1.0], [35839, 46749, 1.0], [35839, 29786, 1.0], [35839, 22472, 0.5]]                                                                                                                                                                 |
|10249|[[10249, 12968, 1.0], [10249, 6693, 0.33333333333333326], [10249, 41040, 0.25]]                                                                                                                                                                                                                |
+-----+----------------------------------------------------------------------------------
.map(lambda x: (x[0], getTopN(x[1], k)))
'''
+-----+---------------------------------------------------------------------------------------------------------------------+
|_1   |_2                                                                                                                   |
+-----+---------------------------------------------------------------------------------------------------------------------+
|26744|[[26744, 40027, 1.0], [26744, 6693, 0.33333333333333326]]                                                            |
|6228 |[[6228, 11318, 1.0], [6228, 47815, 1.0], [6228, 44601, 1.0]]                                                         |
|4280 |[[4280, 28149, 1.0], [4280, 31294, 1.0], [4280, 3139, 1.0], [4280, 48824, 1.0], [4280, 33680, 1.0]]                  |
|11318|[[11318, 47815, 1.0], [11318, 44601, 1.0], [11318, 6228, 1.0]]                                                       |
|35839|[[35839, 37639, 1.0], [35839, 31328, 1.0], [35839, 29786, 1.0], [35839, 46749, 1.0], [35839, 33564, 1.0]]            |
|28149|[[28149, 31294, 1.0], [28149, 33680, 1.0], [28149, 48824, 1.0], [28149, 3139, 1.0], [28149, 4280, 1.0]]              |
|9308 |[[9308, 45507, 1.0], [9308, 39583, 1.0], [9308, 44786, 1.0], [9308, 842, 1.0], [9308, 18399, 1.0]]                   |
|41040|[[41040, 12968, 0.25], [41040, 10249, 0.25], [41040, 6693, 0.16666666666666663], [41040, 41270, 0.09999999999999998]]|
|10249|[[10249, 12968, 1.0], [10249, 6693, 0.33333333333333326], [10249, 41040, 0.25], [10249, 41270, 0.1428571428571428]]  |
|22472|[[22472, 31294, 0.5], [22472, 46749, 0.5], [22472, 33564, 0.5], [22472, 29786, 0.5], [22472, 48824, 0.5]]            |
+-----+---------------------------------------------------------------------------------------------------------------------+
'''
.flatMap(lambda x: x[1])#把上面的列表第二列每一行中的每一个【】变成一列
'''
+-----+-----+-------------------+
|_1   |_2   |_3                 |
+-----+-----+-------------------+
|37639|31328|1.0                |
|37639|35839|1.0                |
|37639|29786|1.0                |
|37639|46749|1.0                |
|37639|33564|1.0                |
|26744|40027|1.0                |
|26744|6693 |0.33333333333333326|
|24774|26381|1.0                |
|47815|11318|1.0                |
|47815|6228 |1.0                |
+-----+-----+-------------------+
'''
.map(lambda x: (x[0], (x[1], x[2])))
'''
+-----+------------+
|_1   |_2          |
+-----+------------+
|22472|[37639, 0.5]|
|22472|[29786, 0.5]|
|22472|[46749, 0.5]|
|22472|[4280, 0.5] |
|22472|[33680, 0.5]|
|44786|[39583, 1.0]|
|44786|[9308, 1.0] |
|44786|[45507, 1.0]|
|44786|[842, 1.0]  |
|44786|[18399, 1.0]|
+-----+------------+
'''

2.r2，r3也单独拿出来理解，如下图

3.r5单独运行

b=unionRDD.map(lambda x: ((x[0], x[1]), 1))
+----------------+---+
|uid       iid
+----------------+---+
|[1936005, 41040]|  1|
|[2332195, 41270]|  1|
|  [19390, 11907]|  1|
|[3735127, 18399]|  1|
|[3123010, 26381]|  1|
|[1828321, 41270]|  1|
| [1936005, 6693]|  1|
| [2542704, 6693]|  1|
|[3735127, 44786]|  1|
|[2598452, 41040]|  1|
|[1936005, 10249]|  1|
| [2008802, 3139]|  1|
|[2542704, 11318]|  1|
|[2608535, 41270]|  1|
R5 = R4.leftOuterJoin(b)
+----------------+----------------------+
|_1              |_2                    |
+----------------+----------------------+
|[4247864, 26744]|[1.641493899711393, 1]|
|[5709682, 6693] |[0.20518673746392407,]|
|[5709682, 10249]|[0.3077801061958862,] |
|[3735127, 9308] |[6.155602123917724, 1]|
|[2598452, 6693] |[0.20518673746392407,]|
+----------------+----------------------+

4.最后的r7

到此，就结束了，我脱离代码在纸上上整理了一遍代码思路，字太丑，还是不上传了

原文参考：https://zhuanlan.zhihu.com/p/84095942

数据变了，推荐算法思路和代码基本不变

Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币 FreeBuf- TikTok App Store iOS Android
卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。这款间谍软件旨在窃取用户移动设备中的所有图片，疑似专门搜寻加密货币相关信息。该攻击活动自2024年初开始活跃，主要针对东南亚和中国用户。伪装流行应用渗透设备SparkKitty间谍软件通过看似无害的应用程序渗透设备，通常伪装成TikTok等流行应用的修改
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
Spark教程3：SparkSQL最全介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络 AHP 需求分析
文章目录SparkSQL最全介绍一、SparkSQL概述二、SparkSession：入口点三、DataFrame基础操作四、SQL查询五、SparkSQL函数六、与Hive集成七、数据源操作八、DataFrame与RDD互转九、高级特性十、性能优化十一、Catalyst优化器十二、SparkSQL应用场景十三、常见问题与解决方法SparkSQL最全介绍一、SparkSQL概述SparkSQL是A
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

[pyspark]itemcf协同过滤推荐算法------应用华为比赛数据实现（包含转化为稀疏向量，lsh模型，杰卡德距离）

你可能感兴趣的:(pyspark,spark)