Sonhhxg_柒

【Spark ML】第 5 章：Recommendations

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

文章目录

推荐引擎的类型

使用交替最小二乘法的协同滤波

参数

例子

Market Basket分析与FP-Growth

例子

基于内容的过滤

总结

提供个性化推荐是机器学习最受欢迎的应用之一。几乎每个主要零售商，如亚马逊，阿里巴巴，沃尔玛和Target，都会根据客户行为提供某种个性化推荐。Netflix，Hulu和Spotify等流媒体服务根据用户的口味和偏好提供电影或音乐推荐。

建议对于提高客户满意度和参与度至关重要，最终增加销售额和收入。为了强调推荐的重要性，44%的亚马逊买家从他们在亚马逊上看到的产品推荐中购买。第二麦肯锡的一份报告发现，35%的客户销售额直接来自亚马逊的推荐。同一项研究报告称，75%的观众在Netflix上观看的内容来自个性化推荐。第三Netflix的首席产品官在接受采访时宣称，Netflix的个性化电影和电视节目推荐每年对该公司的价值为10亿美元。四阿里巴巴的推荐引擎帮助推动了创纪录的销售，成为全球最大的电子商务公司之一，2013年的销售额达到2480亿美元（超过亚马逊和eBay的总和）。v

推荐不仅限于零售商和流媒体服务。银行使用推荐引擎作为有针对性的营销工具，使用它来为在线银行客户提供金融产品和服务，例如基于其人口统计和心理特征的家庭或学生贷款。广告和营销机构使用推荐引擎来显示高度针对性的在线广告。

推荐引擎的类型

有几种类型的推荐引擎。六我们将讨论最流行的：协作过滤、基于内容的过滤和关联规则。

使用交替最小二乘法的协同滤波

协作筛选通常用于在 Web 上提供个性化建议。利用协同过滤的公司包括Netflix，亚马逊，阿里巴巴，Spotify和苹果，仅举几例。协作筛选根据其他人（协作）的偏好或品味提供建议（筛选）。它基于这样一种想法，即具有相同偏好的人将来更有可能拥有相同的兴趣。例如，劳拉喜欢泰坦尼克号，阿波罗13号和高耸的地狱。汤姆喜欢阿波罗13号和高耸的地狱。如果安妮喜欢阿波罗13号，根据我们的计算，任何喜欢阿波罗13号的人也必须喜欢《高耸的地狱》，那么《高耸的地狱》可能是对安妮的潜在推荐。产品可以是任何项目，例如电影、歌曲、视频或书籍。

图 5-1原子层沉积液评级矩阵
火花 MLlib 包括一种用于协同过滤的流行算法，称为交替最小二乘法（ALS）。ALS 将评级矩阵（图 5-1）建模为用户和产品因素的乘积（图 5-2）。ALS利用最小二乘计算来最小化估计误差，在固定客户因素和求解产品因素之间交替迭代，反之亦然，直到过程收敛。Spark MLlib 实现了一个阻塞版本的 ALS，该版本利用 Spark 的分布式处理功能，将两组因子（称为“用户”和“产品”）分组为块，并通过在每次迭代时仅向每个产品块发送每个用户向量的一个副本来减少通信，并且仅用于需要该用户特征向量的产品块。

图 5-2ALS 如何计算建议
星火 MLlib 的 ALS 实现同时支持显式和隐式评级。显式分级（默认）要求用户对产品的分级为分数（例如，1-5 竖起大拇指），而隐式分级表示用户对与产品互动的信心（例如，点击次数或页面浏览次数，或视频流式传输的次数）。隐式评级在现实生活中更为常见，因为并非每家公司都为其产品收集明确的评级。但是，可以从公司数据（如 Web 日志、查看习惯或销售交易）中提取隐式评级。Spark MLlib 的 ALS 实现对项目和用户 ID 使用整数，这意味着项目和用户 ID 必须在整数值的范围内，最大值为 2，147，483，647。

注意交替最小二乘法（ALS）在耶胡达·科伦和罗伯特·贝尔的论文“具有联合派生的邻域插值权重的可扩展协同滤波”中进行了描述。

参数

Spark MLlib 的 ALS 实现支持以下参数:

alpha：适用于 ALS 的隐式反馈版本，该版本指导优先观察的基线置信度
numBlocks：用于并行处理的 U sed;项目和用户将被划分为的块数
nonnegative：指示是否对最小二乘法使用非负约束
implicitPrefs：指示是使用显式反馈还是隐式反馈
k：指示模型中潜在因子的数量
regParam：正则化参数
maxIter：指示要执行的最大迭代次数。

例子

我们将使用电影缩略图数据集来构建玩具电影推荐系统。数据集可以从 https://grouplens.org/datasets/movielens/ 下载。数据集中包含多个文件，但我们主要对评级.csv感兴趣。清单 5-1 所示文件中的每一行都包含用户对电影的显式评级（1-5 评级）。

val dataDF = spark.read.option("header", "true")
             .option("inferSchema", "true")
             .csv("ratings.csv")
dataDF.printSchema
root
 |-- userId: integer (nullable = true)
 |-- movieId: integer (nullable = true)
 |-- rating: double (nullable = true)
 |-- timestamp: integer (nullable = true)
dataDF.show
+------+-------+------+---------+
|userId|movieId|rating|timestamp|
+------+-------+------+---------+
|     1|      1|   4.0|964982703|
|     1|      3|   4.0|964981247|
|     1|      6|   4.0|964982224|
|     1|     47|   5.0|964983815|
|     1|     50|   5.0|964982931|
|     1|     70|   3.0|964982400|
|     1|    101|   5.0|964980868|
|     1|    110|   4.0|964982176|
|     1|    151|   5.0|964984041|
|     1|    157|   5.0|964984100|
|     1|    163|   5.0|964983650|
|     1|    216|   5.0|964981208|
|     1|    223|   3.0|964980985|
|     1|    231|   5.0|964981179|
|     1|    235|   4.0|964980908|
|     1|    260|   5.0|964981680|
|     1|    296|   3.0|964982967|
|     1|    316|   3.0|964982310|
|     1|    333|   5.0|964981179|
|     1|    349|   4.0|964982563|
+------+-------+------+---------+
only showing top 20 rows
val Array(trainingData, testData) = dataDF.randomSplit(Array(0.7, 0.3))
import org.apache.spark.ml.recommendation.ALS
val als = new ALS()
          .setMaxIter(15)
          .setRank(10)
          .setSeed(1234)
          .setRatingCol("rating")
          .setUserCol("userId")
          .setItemCol("movieId")
val model = als.fit(trainingData)
val predictions = model.transform(testData)
predictions.printSchema
root
 |-- userId: integer (nullable = true)
 |-- movieId: integer (nullable = true)
 |-- rating: double (nullable = true)
 |-- timestamp: integer (nullable = true)
 |-- prediction: float (nullable = false)
predictions.show
+------+-------+------+----------+----------+
|userId|movieId|rating| timestamp|prediction|
+------+-------+------+----------+----------+
|   133|    471|   4.0| 843491793| 2.5253267|
|   602|    471|   4.0| 840876085| 3.2802277|
|   182|    471|   4.5|1054779644| 3.6534667|
|   500|    471|   1.0|1005528017| 3.5033386|
|   387|    471|   3.0|1139047519| 2.6689813|
|   610|    471|   4.0|1479544381|  3.006948|
|   136|    471|   4.0| 832450058| 3.1404104|
|   312|    471|   4.0|1043175564|  3.109232|
|   287|    471|   4.5|1110231536| 2.9776838|
|    32|    471|   3.0| 856737165| 3.5183017|
|   469|    471|   5.0| 965425364| 2.8298397|
|   608|    471|   1.5|1117161794|  3.007364|
|   373|    471|   5.0| 846830388| 3.9275675|
|   191|    496|   5.0| 829760898|       NaN|
|    44|    833|   2.0| 869252237| 2.4776468|
|   609|    833|   3.0| 847221080| 1.9167987|
|   608|    833|   0.5|1117506344|  2.220617|
|   463|   1088|   3.5|1145460096| 3.0794377|
|    47|   1088|   4.0|1496205519| 2.4831696|
|   479|   1088|   4.0|1039362157| 3.5400867|
+------+-------+------+----------+----------+
import org.apache.spark.ml.evaluation.RegressionEvaluator
val evaluator = new RegressionEvaluator()
                .setPredictionCol("prediction")
                .setLabelCol("rating")
                .setMetricName("rmse")
val rmse = evaluator.evaluate(predictions)
rmse: Double = NaN

列出 5-1使用 ALS 的电影推荐
评估器似乎不喜欢预测数据帧中的 NaN 值。现在，让我们通过删除具有 NaN 值的行来修复它。我们稍后将讨论如何使用冷启动策略参数来处理此问题。

val predictions2 = predictions.na.drop
predictions2.show
+------+-------+------+----------+----------+
|userId|movieId|rating| timestamp|prediction|
+------+-------+------+----------+----------+
|   133|    471|   4.0| 843491793| 2.5253267|
|   602|    471|   4.0| 840876085| 3.2802277|
|   182|    471|   4.5|1054779644| 3.6534667|
|   500|    471|   1.0|1005528017| 3.5033386|
|   387|    471|   3.0|1139047519| 2.6689813|
|   610|    471|   4.0|1479544381|  3.006948|
|   136|    471|   4.0| 832450058| 3.1404104|
|   312|    471|   4.0|1043175564|  3.109232|
|   287|    471|   4.5|1110231536| 2.9776838|
|    32|    471|   3.0| 856737165| 3.5183017|
|   469|    471|   5.0| 965425364| 2.8298397|
|   608|    471|   1.5|1117161794|  3.007364|
|   373|    471|   5.0| 846830388| 3.9275675|
|    44|    833|   2.0| 869252237| 2.4776468|
|   609|    833|   3.0| 847221080| 1.9167987|
|   608|    833|   0.5|1117506344|  2.220617|
|   463|   1088|   3.5|1145460096| 3.0794377|
|    47|   1088|   4.0|1496205519| 2.4831696|
|   479|   1088|   4.0|1039362157| 3.5400867|
|   554|   1088|   5.0| 944900489| 3.3577442|
+------+-------+------+----------+----------+
only showing top 20 rows
val evaluator = new RegressionEvaluator()
                .setPredictionCol("prediction")
                .setLabelCol("rating")
                .setMetricName("rmse")
val rmse = evaluator.evaluate(predictions2)
rmse: Double = 0.9006479893684061

注意使用 ALS 时，您有时会遇到测试数据集中在训练模型时不存在的用户和/或项。新用户或项目可能没有任何评级，并且尚未对其进行模型训练。这称为冷启动问题。当数据在评估数据集和训练数据集之间随机拆分时，也可能会遇到这种情况。当用户和/或项目不在模型中时，预测设置为 NaN。这就是我们在评估模型时遇到NaN结果的原因。为了解决这个问题，Spark 提供了一个冷启动策略参数，可以将该参数设置为删除预测数据帧中包含 NaN 值的所有行。

让我们生成一些建议。

为所有用户推荐前三部电影。

model.recommendForAllUsers(3).show(false)
+------+----------------------------------------------------------+
|userId|recommendations                                           |
+------+----------------------------------------------------------+
|471   |[[7008, 4.8596725], [7767, 4.8047066], [26810, 4.7513227]]|
|463   |[[33649, 5.0881286], [3347, 4.7693057], [68945, 4.691733]]|
|496   |[[6380, 4.946864], [26171, 4.8910613], [7767, 4.868356]]  |
|148   |[[183897, 4.972257], [6732, 4.561547], [33649, 4.5440807]]|
|540   |[[26133, 5.19643], [68945, 5.1259947], [3379, 5.1259947]] |
|392   |[[3030, 6.040107], [4794, 5.6566052], [55363, 5.4429026]] |
|243   |[[1223, 6.5019746], [68945, 6.353135], [3379, 6.353135]]  |
|31    |[[4256, 5.3734074], [49347, 5.365612], [7071, 5.3175936]] |
|516   |[[4429, 4.8486495], [48322, 4.8443394], [28, 4.8082485]]  |
|580   |[[86347, 5.20571], [4256, 5.0522637], [72171, 5.037114]]  |
|251   |[[33649, 5.6993585], [68945, 5.613014], [3379, 5.613014]] |
|451   |[[68945, 5.392536], [3379, 5.392536], [905, 5.336588]]    |
|85    |[[25771, 5.2532864], [8477, 5.186757], [99764, 5.1611686]]|
|137   |[[7008, 4.8952146], [26131, 4.8543305], [3200, 4.6918836]]|
|65    |[[33649, 4.695069], [3347, 4.5379376], [7071, 4.535537]]  |
|458   |[[3404, 5.7415047], [7018, 5.390625], [42730, 5.343014]]  |
|481   |[[232, 4.393473], [3473, 4.3804317], [26133, 4.357505]]   |
|53    |[[3200, 6.5110188], [33649, 6.4942613], [3347, 6.452143]] |
|255   |[[86377, 5.9217377], [5047, 5.184309], [6625, 4.962062]]  |
|588   |[[26133, 4.7600465], [6666, 4.65716], [39444, 4.613207]]  |
+------+----------------------------------------------------------+
only showing top 20 rows
//为所有电影推荐前三名用户。
model.recommendForAllItems(3).show(false)
+-------+------------------------------------------------------+
|movieId|recommendations                                       |
+-------+------------------------------------------------------+
|1580   |[[53, 4.939177], [543, 4.8362885], [452, 4.5791063]]  |
|4900   |[[147, 3.0081954], [375, 2.9420073], [377, 2.6285374]]|
|5300   |[[53, 4.29147], [171, 4.129584], [375, 4.1011653]]    |
|6620   |[[392, 5.0614614], [191, 4.820595], [547, 4.7811346]] |
|7340   |[[413, 3.2256641], [578, 3.1126869], [90, 3.0790782]] |
|32460  |[[53, 5.642673], [12, 5.5260286], [371, 5.2030106]]   |
|54190  |[[53, 5.544555], [243, 5.486003], [544, 5.243029]]    |
|471    |[[51, 5.073474], [53, 4.8641024], [337, 4.656805]]    |
|1591   |[[112, 4.250576], [335, 4.147236], [207, 4.05843]]    |
|140541 |[[393, 4.4335465], [536, 4.1968756], [388, 4.0388694]]|
|1342   |[[375, 4.3189483], [313, 3.663758], [53, 3.5866988]]  |
|2122   |[[375, 4.3286233], [147, 4.3245177], [112, 3.8350344]]|
|2142   |[[51, 3.9718416], [375, 3.8228302], [122, 3.8117828]] |
|7982   |[[191, 5.297085], [547, 5.020829], [187, 4.984965]]   |
|44022  |[[12, 4.5919843], [53, 4.501897], [523, 4.301981]]    |
|141422 |[[456, 2.7050805], [597, 2.6988854], [498, 2.6347125]]|
|833    |[[53, 3.8047972], [543, 3.740805], [12, 3.6920836]]   |
|5803   |[[537, 3.8269677], [544, 3.8034997], [259, 3.76062]]  |
|7993   |[[375, 2.93635], [53, 2.9159238], [191, 2.8663528]]   |
|160563 |[[53, 4.048704], [243, 3.9232922], [337, 3.7616432]]  |
+-------+------------------------------------------------------+
only showing top 20 rows
//为指定的一组电影生成前三个用户推荐。
model.recommendForItemSubset(Seq((111), (202), (225), (347), (488)).toDF("movieId"), 3).show(false)
+-------+----------------------------------------------------+
|movieId|recommendations                                     |
+-------+----------------------------------------------------+
|225    |[[53, 4.4893017], [147, 4.483344], [276, 4.2529426]]|
|111    |[[375, 5.113064], [53, 4.9947076], [236, 4.9493203]]|
|347    |[[191, 4.686208], [236, 4.51165], [40, 4.409832]]   |
|202    |[[53, 3.349618], [578, 3.255436], [224, 3.245058]]  |
|488    |[[558, 3.3870435], [99, 3.2978806], [12, 3.2749753]]|
+-------+----------------------------------------------------+
//为一组指定的用户生成前三大电影推荐。
model.recommendForUserSubset(Seq((111), (100), (110), (120), (130)).toDF("userId"), 3).show(false)
+------+--------------------------------------------------------------+
|userId|recommendations                                               |
+------+--------------------------------------------------------------+
|111   |[[106100, 4.956068], [128914, 4.9050474], [162344, 4.9050474]]|
|120   |[[26865, 4.979374], [3508, 4.6825113], [3200, 4.6406555]]     |
|100   |[[42730, 5.2531567], [5867, 5.1075697], [3404, 5.0877166]]    |
|130   |[[86377, 5.224841], [3525, 5.0586476], [92535, 4.9758487]]    |
|110   |[[49932, 4.6330786], [7767, 4.600622], [26171, 4.5615706]]    |
+------+--------------------------------------------------------------+

协同过滤可以非常有效地提供高度相关的建议。它可以很好地扩展，并且可以处理非常大的数据集。为了使协同过滤以最佳方式运行，它需要访问大量数据。数据越多越好。随着时间的流逝和评级开始累积，建议变得越来越准确。在实施的早期阶段，访问大型数据集通常是一个问题。一种解决方案是将基于内容的筛选与协作筛选结合使用。由于基于内容的筛选不依赖于用户活动，因此它可以立即开始提供建议，从而随着时间的推移逐渐增加数据集。

Market Basket分析与FP-Growth

Market Basket分析是零售商常用的一种简单但重要的技术，用于提供产品建议。它使用事务数据集来确定哪些产品经常一起购买。零售商可以使用这些建议来为个性化的交叉销售和追加销售提供信息，从而帮助提高转化率并最大限度地提高每个客户的价值。

在浏览 Amazon.com 时，您很可能已经看到了市场篮分析的实际应用。Amazon.com 产品页面通常会有一个名为“购买此商品的客户也购买了”的部分，向您显示经常与您当前正在浏览的产品一起购买的商品列表。该列表是通过市场篮分析生成的。实体零售商还使用市场篮分析，通过在货架图中通知产品放置和邻接来优化商店。这个想法是通过将互补项目彼此相邻来推动更多销售。

市场篮分析使用关联规则学习来提出建议。关联规则使用大型事务数据集查找项之间的关系。关联规则是根据两个或多个称为项集的项计算得出的。关联规则由前置（如果）和后置（则）组成。例如，如果有人购买饼干（前因），那么这个人也更有可能购买牛奶（随后）。流行的关联规则算法包括先验、SETM、怡亨和FP增长。Spark MLlib 包括一个高度可扩展的 FP 增长实现，用于关联规则挖掘。十五FP-Growth使用频繁模式（“FP”代表频繁模式）树结构识别频繁项目并计算项目频率。

注意FP-Growth在韩佳伟、裴健和尹雯文的论文《挖掘没有候选世代的频繁模式》中有所描述。

例子

我们将使用流行的Instacart在线杂货购物数据集作为我们使用FP-Growth的市场篮分析示例。十八该数据集包含来自 200，000 名 Instacart 客户的 50，000 种产品的 340 万份杂货订单。可以从 www.instacart.com/datasets/grocery-shopping-2017 下载数据集。对于 FP-Growth，我们只需要产品和order_products_train表（参见清单 5-2）。

val productsDF = spark.read.format("csv")
                 .option("header", "true")
                 .option("inferSchema","true")
                 .load("/instacart/products.csv")
ProductsDF.show(false)
+----------+-------------------------------------------------+
|product_id|product_name                                     |
+----------+-------------------------------------------------+
|1         |Chocolate Sandwich Cookies                       |
|2         |All-Seasons Salt                                 |
|3         |Robust Golden Unsweetened Oolong Tea             |
|4         |Smart Ones Classic Favorites Mini Rigatoni With  |
|5         |Green Chile Anytime Sauce                        |
|6         |Dry Nose Oil                                     |
|7         |Pure Coconut Water With Orange                   |
|8         |Cut Russet Potatoes Steam N' Mash                |
|9         |Light Strawberry Blueberry Yogurt                |
|10        |Sparkling Orange Juice & Prickly Pear Beverage   |
|11        |Peach Mango Juice                                |
|12        |Chocolate Fudge Layer Cake                       |
|13        |Saline Nasal Mist                                |
|14        |Fresh Scent Dishwasher Cleaner                   |
|15        |Overnight Diapers Size 6                         |
|16        |Mint Chocolate Flavored Syrup                    |
|17        |Rendered Duck Fat                                |
|18        |Pizza for One Suprema  Frozen Pizza              |
|19        |Gluten Free Quinoa Three Cheese & Mushroom Blend |
|20        |Pomegranate Cranberry & Aloe Vera Enrich Drink   |
+----------+-------------------------------------------------+
+--------+-------------+
|aisle_id|department_id|
+--------+-------------+
|61      |19           |
|104     |13           |
|94      |7            |
|38      |1            |
|5       |13           |
|11      |11           |
|98      |7            |
|116     |1            |
|120     |16           |
|115     |7            |
|31      |7            |
|119     |1            |
|11      |11           |
|74      |17           |
|56      |18           |
|103     |19           |
|35      |12           |
|79      |1            |
|63      |9            |
|98      |7            |
+--------+-------------+
only showing top 20 rows
val orderProductsDF = spark.read.format("csv")
                      .option("header", "true")
                      .option("inferSchema","true")
                      .load("/instacart/order_products__train.csv")
orderProductsDF.show()
+--------+----------+-----------------+---------+
|order_id|product_id|add_to_cart_order|reordered|
+--------+----------+-----------------+---------+
|       1|     49302|                1|        1|
|       1|     11109|                2|        1|
|       1|     10246|                3|        0|
|       1|     49683|                4|        0|
|       1|     43633|                5|        1|
|       1|     13176|                6|        0|
|       1|     47209|                7|        0|
|       1|     22035|                8|        1|
|      36|     39612|                1|        0|
|      36|     19660|                2|        1|
|      36|     49235|                3|        0|
|      36|     43086|                4|        1|
|      36|     46620|                5|        1|
|      36|     34497|                6|        1|
|      36|     48679|                7|        1|
|      36|     46979|                8|        1|
|      38|     11913|                1|        0|
|      38|     18159|                2|        0|
|      38|      4461|                3|        0|
|      38|     21616|                4|        1|
+--------+----------+-----------------+---------+
only showing top 20 rows
// Create temporary tables .
orderProductsDF.createOrReplaceTempView("order_products_train")
productsDF.createOrReplaceTempView("products")
val joinedData = spark.sql("select p.product_name, o.order_id from order_products_train o inner join products p where p.product_id = o.product_id")
import org.apache.spark.sql.functions.max
import org.apache.spark.sql.functions.collect_set
val basketsDF = joinedData
                .groupBy("order_id")
                .agg(collect_set("product_name")
                .alias("items"))
basketsDF.createOrReplaceTempView("baskets"
basketsDF.show(20,55)
+--------+-------------------------------------------------------+
|order_id|                                                  items|
+--------+-------------------------------------------------------+
|    1342|[Raw Shrimp, Seedless Cucumbers, Versatile Stain Rem...|
|    1591|[Cracked Wheat, Strawberry Rhubarb Yoghurt, Organic ...|
|    4519|[Beet Apple Carrot Lemon Ginger Organic Cold Pressed...|
|    4935|                                                [Vodka]|
|    6357|[Globe Eggplant, Panko Bread Crumbs, Fresh Mozzarell...|
|   10362|[Organic Baby Spinach, Organic Spring Mix, Organic L...|
|   19204|[Reduced Fat Crackers, Dishwasher Cleaner, Peanut Po...|
|   29601|[Organic Red Onion, Small Batch Authentic Taqueria T...|
|   31035|[Organic Cripps Pink Apples, Organic Golden Deliciou...|
|   40011|[Organic Baby Spinach, Organic Blues Bread with Blue...|
|   46266|[Uncured Beef Hot Dog, Organic Baby Spinach, Smoked ...|
|   51607|[Donut House Chocolate Glazed Donut Coffee K Cup, Ma...|
|   58797|[Concentrated Butcher's Bone Broth, Chicken, Seedles...|
|   61793|[Raspberries, Green Seedless Grapes, Clementines, Na...|
|   67089|[Original Tofurky Deli Slices, Sharp Cheddar Cheese,...|
|   70863|[Extra Hold Non-Aerosol Hair Spray, Bathroom Tissue,...|
|   88674|[Organic Coconut Milk, Everything Bagels, Rosemary, ...|
|   91937|[No. 485 Gin, Monterey Jack Sliced Cheese, Tradition...|
|   92317|[Red Vine Tomato, Harvest Casserole Bowls, Organic B...|
|   99621|[Organic Baby Arugula, Organic Garlic, Fennel, Lemon...|
+--------+-------------------------------------------------------+
only showing top 20 rows
import org.apache.spark.ml.fpm.FPGrowth
// FPGrowth only needs a string containing the list of items.
val basketsDF = spark.sql("select items from baskets")
                .as[Array[String]].toDF("items")
basketsDF.show(20,55)
+-------------------------------------------------------+
|                                                  items|
+-------------------------------------------------------+
|[Raw Shrimp, Seedless Cucumbers, Versatile Stain Rem...|
|[Cracked Wheat, Strawberry Rhubarb Yoghurt, Organic ...|
|[Beet Apple Carrot Lemon Ginger Organic Cold Pressed...|
|                                                [Vodka]|
|[Globe Eggplant, Panko Bread Crumbs, Fresh Mozzarell...|
|[Organic Baby Spinach, Organic Spring Mix, Organic L...|
|[Reduced Fat Crackers, Dishwasher Cleaner, Peanut Po...|
|[Organic Red Onion, Small Batch Authentic Taqueria T...|
|[Organic Cripps Pink Apples, Organic Golden Deliciou...|
|[Organic Baby Spinach, Organic Blues Bread with Blue...|
|[Uncured Beef Hot Dog, Organic Baby Spinach, Smoked ...|
|[Donut House Chocolate Glazed Donut Coffee K Cup, Ma...|
|[Concentrated Butcher's Bone Broth, Chicken, Seedles...|
|[Raspberries, Green Seedless Grapes, Clementines, Na...|
|[Original Tofurky Deli Slices, Sharp Cheddar Cheese,...|
|[Extra Hold Non-Aerosol Hair Spray, Bathroom Tissue,...|
|[Organic Coconut Milk, Everything Bagels, Rosemary, ...|
|[No. 485 Gin, Monterey Jack Sliced Cheese, Tradition...|
|[Red Vine Tomato, Harvest Casserole Bowls, Organic B...|
|[Organic Baby Arugula, Organic Garlic, Fennel, Lemon...|
+-------------------------------------------------------+
only showing top 20 rows
val fpgrowth = new FPGrowth()
               .setItemsCol("items")
               .setMinSupport(0.002)
               .setMinConfidence(0)
val model = fpgrowth.fit(basketsDF)
// Frequent itemsets.
val mostPopularItems = model.freqItemsets
mostPopularItems.createOrReplaceTempView("mostPopularItems")
// Verify results.
spark.sql("select ∗ from mostPopularItems wheresize(items) >= 2 order by freq desc")
          .show(20,55)
+----------------------------------------------+----+
|                                         items|freq|
+----------------------------------------------+----+
|[Organic Strawberries, Bag of Organic Bananas]|3074|
|[Organic Hass Avocado, Bag of Organic Bananas]|2420|
|[Organic Baby Spinach, Bag of Organic Bananas]|2236|
|                     [Organic Avocado, Banana]|2216|
|                [Organic Strawberries, Banana]|2174|
|                         [Large Lemon, Banana]|2158|
|                [Organic Baby Spinach, Banana]|2000|
|                        [Strawberries, Banana]|1948|
| [Organic Raspberries, Bag of Organic Bananas]|1780|
|   [Organic Raspberries, Organic Strawberries]|1670|
|  [Organic Baby Spinach, Organic Strawberries]|1639|
|                          [Limes, Large Lemon]|1595|
|  [Organic Hass Avocado, Organic Strawberries]|1539|
|       [Organic Avocado, Organic Baby Spinach]|1402|
|                [Organic Avocado, Large Lemon]|1349|
|                               [Limes, Banana]|1331|
|   [Organic Blueberries, Organic Strawberries]|1269|
|    [Organic Cucumber, Bag of Organic Bananas]|1268|
|  [Organic Hass Avocado, Organic Baby Spinach]|1252|
|           [Large Lemon, Organic Baby Spinach]|1238|
+----------------------------------------------+----+
only showing top 20 rows
spark.sql("select ∗ from mostPopularItems where
          size(items) > 2 order by freq desc")
          .show(20,65)
+-----------------------------------------------------------------+----+
|                                                            items|freq|
+-----------------------------------------------------------------+----+
|[Organic Hass Avocado, Organic Strawberries, Bag of Organic Ba...| 710|
|[Organic Raspberries, Organic Strawberries, Bag of Organic Ban...| 649|
|[Organic Baby Spinach, Organic Strawberries, Bag of Organic Ba...| 587|
|[Organic Raspberries, Organic Hass Avocado, Bag of Organic Ban...| 531|
|[Organic Hass Avocado, Organic Baby Spinach, Bag of Organic Ba...| 497|
|                  [Organic Avocado, Organic Baby Spinach, Banana]| 484|
|                           [Organic Avocado, Large Lemon, Banana]| 477|
|                                     [Limes, Large Lemon, Banana]| 452|
| [Organic Cucumber, Organic Strawberries, Bag of Organic Bananas]| 424|
|                            [Limes, Organic Avocado, Large Lemon]| 389|
|[Organic Raspberries, Organic Hass Avocado, Organic Strawberries]| 381|
|                  [Organic Avocado, Organic Strawberries, Banana]| 379|
|             [Organic Baby Spinach, Organic Strawberries, Banana]| 376|
|[Organic Blueberries, Organic Strawberries, Bag of Organic Ban...| 374|
|                      [Large Lemon, Organic Baby Spinach, Banana]| 371|
| [Organic Cucumber, Organic Hass Avocado, Bag of Organic Bananas]| 366|
|    [Organic Lemon, Organic Hass Avocado, Bag of Organic Bananas]| 353|
|                                 [Limes, Organic Avocado, Banana]| 352|
|[Organic Whole Milk, Organic Strawberries, Bag of Organic Bana...| 339|
|             [Organic Avocado, Large Lemon, Organic Baby Spinach]| 334|
+-----------------------------------------------------------------+----+
only showing top 20 rows

列出5-2市场篮分析与FP增长
显示的是最有可能一起购买的物品。列表中最受欢迎的是有机鳄梨，有机草莓和一袋有机香蕉的组合。这种列表可以成为“经常一起购买”类型建议的基础。

// FP-Growth 模型还会生成关联规则。输出包括
// 前因、后因和置信度（概率）。最小值
// 生成关联规则的置信度由
// 最小信任参数。
val AssocRules = model.associationRules
AssocRules.createOrReplaceTempView("AssocRules")
spark.sql("select antecedent, consequent,
          confidence from AssocRules order by confidence desc")
          .show(20,55)
+-------------------------------------------------------+
|                                             antecedent|
+-------------------------------------------------------+
|            [Organic Raspberries, Organic Hass Avocado]|
|                        [Strawberries, Organic Avocado]|
|           [Organic Hass Avocado, Organic Strawberries]|
|                  [Organic Lemon, Organic Hass Avocado]|
|                  [Organic Lemon, Organic Strawberries]|
|               [Organic Cucumber, Organic Hass Avocado]|
|[Organic Large Extra Fancy Fuji Apple, Organic Straw...|
|           [Organic Yellow Onion, Organic Hass Avocado]|
|                            [Strawberries, Large Lemon]|
|             [Organic Blueberries, Organic Raspberries]|
|               [Organic Cucumber, Organic Strawberries]|
|               [Organic Zucchini, Organic Hass Avocado]|
|            [Organic Raspberries, Organic Baby Spinach]|
|           [Organic Hass Avocado, Organic Baby Spinach]|
|               [Organic Zucchini, Organic Strawberries]|
|            [Organic Raspberries, Organic Strawberries]|
|                                       [Bartlett Pears]|
|                                          [Gala Apples]|
|                               [Limes, Organic Avocado]|
|            [Organic Raspberries, Organic Hass Avocado]|
+-------------------------------------------------------+
+------------------------+-------------------+
|              consequent|         confidence|
+------------------------+-------------------+
|[Bag of Organic Bananas]|  0.521099116781158|
|                [Banana]| 0.4643478260869565|
|[Bag of Organic Bananas]| 0.4613385315139701|
|[Bag of Organic Bananas]| 0.4519846350832266|
|[Bag of Organic Bananas]| 0.4505169867060561|
|[Bag of Organic Bananas]| 0.4404332129963899|
|[Bag of Organic Bananas]| 0.4338461538461538|
|[Bag of Organic Bananas]|0.42270861833105333|
|                [Banana]| 0.4187779433681073|
|  [Organic Strawberries]|  0.414985590778098|
|[Bag of Organic Bananas]| 0.4108527131782946|
|[Bag of Organic Bananas]|0.40930232558139534|
|[Bag of Organic Bananas]|0.40706806282722513|
|[Bag of Organic Bananas]|0.39696485623003197|
|[Bag of Organic Bananas]| 0.3914780292942743|
|[Bag of Organic Bananas]|0.38862275449101796|
|                [Banana]| 0.3860811930405965|
|                [Banana]|0.38373305526590196|
|           [Large Lemon]| 0.3751205400192864|
|  [Organic Strawberries]|0.37389597644749756|
+------------------------+-------------------+
only showing top 20 rows

根据产量，购买有机覆盆子，有机鳄梨和有机草莓的客户也更有可能购买有机香蕉。如您所见，香蕉是一种非常受欢迎的项目。这种列表可能是“购买此商品的客户也购买了”类型建议的基础。

注意：除了 FP 增长之外，Spark MLlib 还包括频率模式匹配算法的另一种实现，称为前缀跨度。虽然 FP-Growth 对项集的排序方式无动于衷，但 PrefixSpan 使用序列或项集的有序列表来发现数据集中的顺序模式。前缀跨度属于称为顺序模式挖掘的算法子组。前缀跨度在论文“通过模式增长挖掘顺序模式：前缀跨度方法”中进行了描述，作者是 Jian Pei 等人。

基于内容的过滤

基于内容的筛选通过将有关项目的信息（如项目名称、说明或类别）与用户的配置文件进行比较来提供建议。让我们以基于内容的电影推荐系统为例。如果系统根据用户的个人资料确定用户更喜欢加里·格兰特的电影，它可能会开始推荐他的电影，例如西北偏北，抓住小偷和要记住的外遇。推荐人可能会推荐同类型演员的电影，如吉米·斯图尔特，格雷戈里·派克或克拉克·盖博（经典电影）。阿尔弗雷德·希区柯克和乔治·库克执导的电影，经常与卡里·格兰特合作，也可能被推荐。尽管内容推荐引擎很简单，但通常提供相关结果。它也很容易实现。该系统可以立即提供建议，而无需等待用户的显式或隐式反馈，这是困扰其他方法（例如协作过滤）的艰巨要求。

不利的一面是，基于内容的过滤在其建议中缺乏多样性和新颖性。观众有时想要更广泛的电影选择或更前卫的东西，这可能与观众的个人资料不完全匹配。可扩展性是困扰基于内容的推荐系统的另一个挑战。为了生成高度相关的建议，基于内容的引擎需要大量有关其推荐项目的相关域特定信息。十九对于电影推荐人来说，仅仅根据标题，描述或类型来提出建议是不够的。内部数据可能必须使用来自第三方来源（如IMDB或烂番茄）的数据进行增强。无监督学习方法（如潜在狄利克雷分配（LDA））可用于从这些数据源中提取的元数据创建新主题。我将在第 4 章中详细讨论 LDA。

Netflix通过创建数千种提供高度针对性个性化推荐的微型产品，在这一领域处于领先地位。例如，Netflix不仅知道我的妻子喜欢看韩国电影，还知道她喜欢浪漫音乐韩国电影，谋杀神秘僵尸韩国电影，纪录片黑帮韩国僵尸电影，以及她个人最喜欢的法庭戏剧法律惊悚僵尸韩国电影。通过类似土耳其人的机械系统，Netflix聘请了兼职电影爱好者，手动为其库中的数千部电影和电视节目分配描述和类别。据最新统计，Netflix拥有76，897种独特的微型类型。这是一个新的个性化水平，在Netflix之外的任何地方都看不到。

Spark MLlib 不包含用于基于内容的筛选算法，尽管 Spark 具有必要的组件来帮助您开发自己的实现。为了帮助您入门，我建议您研究一下Spark中可用的高度可扩展的相似性算法，称为“使用MapReduce的维度独立矩阵方块”或简称DIMSUM。查看 https://bit.ly/2YV6qTr 以了解有关 DIMSUM 的更多信息。断续器

总结

每种方法都有自己的优点和缺点。在实际方案中，通常的做法是构建混合推荐引擎，结合多种技术来增强结果。推荐者是研究的沃土。考虑到它为一些世界上最大的公司带来的收入，预计很快就会在这一领域取得更多进展。FP增长的例子改编自巴文·库卡迪亚和丹尼·李在Databricks的工作。

你可能感兴趣的:(使用Spark的下一代机器学习,spark-ml,大数据,人工智能,1024程序员节)

陪孩子备战高考第九十六天想入非非的棋子
今天距高考还有整一百天，孩子与同学和老师一起举行了隆重的誓师仪式。我也很激动和兴奋，希望孩子能够以稳定和安静的心态度过这关键的一百天，用心学习，努力奋斗！争取考出好成绩步入理想的大学！我非常高兴和感激我的孩子在未来的考试中考入理想的大学，我感谢这个世界，感谢孩子的老师，感谢古今圣贤。我的孩子必定圆满！必定如意！加油吧！
养狗渔渔说
其实说真的不想领养我弟弟的狗，可不知道为什么每次弟弟让我帮他的忙，我都尽力帮他。这次养狗也是，就算弟弟没有非要我帮养着，但他一开口我就觉得不帮就觉得欠他的一样。好像弟弟也算准我会帮他一样，心软惹的祸。我听弟弟说养这种叫泰迪的狗只需要给狗粮和水就好，一个月洗几次澡，都是他出钱，想来只是干点苦力活，不用我出钱，就当辛苦点也帮了吧。后来狗到家我才知道错了，真的太闻够味，太臭了，我差点要吐了，我住的家没有
AI产品经理面试宝典第30天：AI+教育个性化学习与知识图谱相关面试题的解答指导 TGITCIC AI产品经理一线大厂面试题人工智能产品经理 AI产品经理面试大模型产品经理面试 AI面试大模型面试
自适应学习系统如何实现千人千面？面试官：请用产品视角解释AI自适应学习系统的核心逻辑你的回答：自适应学习系统本质是构建"数据-模型-决策"的闭环。以沪江Hitalk为例，其通过12级能力评估体系采集学员的听、说、读、写数据，利用知识图谱建立知识点关联网络。当学员完成"实景演练-诊断反馈-学习包推送"的完整链路时，系统会动态调整知识图谱权重，形成个性化学习路径。面试官追问：如何验证个性化效果？回答：
国内第一梯队终端安全产品解析：技术与场景实践粤海科技君安全腾讯iOA 零信任终端安全
国内终端安全市场的第一梯队产品，通常具备技术领先性、场景覆盖度和规模化落地能力。结合2025年最新行业动态与实战案例，以下从技术架构、核心能力和典型应用三个维度，解析当前市场的头部产品及其差异化价值。一、技术架构与市场格局国内终端安全市场呈现"平台化、智能化、场景化"三大趋势。根据赛迪顾问2023年数据，奇安信以18.7%的终端安全市场份额位居首位，其天擎系统通过"终端检测与响应（EDR）+主动防
TimSort：论Java Arrays.sort的稳定性 lifallen Java 算法排序算法算法数据结构 java 开发语言后端
TimSort是一种混合的、稳定的排序算法，结合了归并排序（MergeSort）和二分插入排序（BinaryInsertionSort）的优点，尤其适用于部分有序的数据。在Java中，Arrays.sort()对对象数组排序时内部使用了TimSort算法。对于集合的排序实际上也是使用Arrays.sort如List.javadefaultvoidsort(Comparatorc){Object[]
打拳常被人说没整劲，到底什么是整劲？！武林人官方
【神形合一的意念劲】太极拳强调“以心行气、以气运身”，“中和元气，随意所之，意之所向，全神贯注”，要求在意念主导下修炼意气力、精气神完整合一的功力超常、魅力超常的“太极内劲”。【松腰松胯的丹田内转劲】太极拳劲力凝聚、运转的关键在腰部（丹田），“首先要把腰劲练出来”。腰胯在行拳中走立体横“8”字，形成丹田内转丹田做功，以内带外以气催形。【出肾入肾的内气鼓荡劲】一是气沉丹田丹田内气鼓荡。二是内气出肾入
7.17day10-90 #为减重10斤，每天做一件力所能及的事情 #复盘慧媛麻麻
固定时间嗯嗯。轻断食用华为健康记录卡路里。多喝水，上1000ml，用手机响铃提醒自己昨天本来没有运动的，但是由于要践行打卡，运动的进度条没法骗人哈，所以还是运动哈，是啊，就如结果没法骗人一样，已经10天的，可是的我重量还那么坚挺着，再坚持轻断食试试，如果还不行，再试其他办法，一定可以在3个月内减重的。似乎有些焦虑了。
饭局之伤……故事新编白开水加糖吧
图片发自App本篇根据民间传说编辑整理。故事新编使文章的阅览更加赏心悦目，增强了文章的可读性娱乐性，使读者在阅览的同时享受一种唯美的体验。高档次的饭局，出席的有名人，有领导。临开席，进来一长相甜美的女服务员，笑着说：“大家知道老毕吧？请把大家的手机集中保管。”满桌人都会心地笑了，纷纷响应。酒醉饭饱后，大家等拿手机进来，却半天不见送回手机。怎么回事？领班解释说：饭店根本没有这个服务员。7部苹果，5部
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
2023-01-01新的开始松林子
新的开始2023年1月1日星期日告别了2022年，进入2023年。过去的一年已经结束，新的一年在我的面前展开。我对新的一年的期望就是成长。我期望工作上的成长，我期望学习的成长，我也期望家庭方面的成长，我还期望健康方面的成长。关于工作方面的成长，我需要殷勤筹划，我要发起各样的活动。关于学习方面的成长，我需要的是多阅读和写作。家庭方面的成长，我需要表达爱和不计较人的恶。健康方面的成长，我需要的是锻炼身
阻塞非阻塞和同步异步大金叶子
本文转自该处，由于这篇文章写的非常好就没有再单独总结。感谢作者！！！作者：凉拌姨妈好吃链接：https://www.jianshu.com/p/6a6845464770来源：著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。首先引用levin的回答让我们理清楚五种IO模型1.阻塞I/O模型(同步阻塞)老李去火车站买票，排队三天买到一张退票。耗费：在车站吃喝拉撒睡3天，其他事一件没干。
Docker报错：No address associated with hostname longze_7 docker
进入Docker容器终端执行命令检查，在容器内能不能访问到外部容器的接口dockerexec-it/bin/bash不同的docker容器内部互相访问方式，http://容器名:开放的端口号，但是注意互相通信的容器要加入自定义网络而不是默认网络bridge：默认bridge网络：容器间不能用名字互相访问，只能用IP。自定义网络：容器间可以用名字互相访问，Docker自动做了DNS解析。http:/
力扣（LeetCode） - 275 H指数 II 小怪兽大作战
使用二分查找求解一、题目给定一位研究者论文被引用次数的数组（被引用次数是非负整数），数组已经按照升序排列。编写一个方法，计算出研究者的h指数。h指数的定义:“h代表“高引用次数”（highcitations），一名科研人员的h指数是指他（她）的（N篇论文中）至多有h篇论文分别被引用了至少h次。（其余的N-h篇论文每篇被引用次数不多于h次。）"示例1:输入:citations=[0,1,3,5,6]
吃辣是一种什么样的感觉鹿鸣山野
首先一定是爽，其次还是爽，最后还是爽。但是如果不能吃辣，那一定是痛苦的因为辣不属于一种味觉，而是一种痛觉。吃辣能力从某种意义上来说，其实是一种承受痛苦的能力。吃辣从地域上来说主要的是长江流域的四川重庆湖南江西贵州等地。之前看重庆人为啥吃辣不长痘，得出的结论是重庆湿气重，吃辣能有效的排出体内的湿气。而吃辣作为一种能力能不能通过锻炼出来答案是挺难的，这真的是和地域有关，东北滴麻辣拌麻辣盆我也在当地吃过
生命的依赖安欣的影子
图片发自App不理你并不是内心没有牵挂生命大概都有捆绑取暖的欲望树一颗的孤零零两棵的貌似也不那么孤单雁一只的叫孤雁在冬天的天空像迷失了方向般凄凉一群大雁已南飞天空清澈的像童年生活却如停止在了冬天冬天的天空是老态龙钟的老人眼中灰蒙蒙的未来抓住你的手或者只是衣襟看着你的眼定格那一丝温暖想念的心让一切在其中流淌所有的明白装作置若罔闻可是你却并不清楚我也喜欢两棵树并排生长的样子
ComfyUI 完全入门：图生视频
随着科技的不断发展，用户界面（UI）设计变得越来越重要。一个优秀的UI不仅能提升用户体验，还能增加应用的吸引力和使用率。ComfyUI作为一个开源的用户界面框架，以其简便易用、高度自定义和丰富的组件，成为了许多开发者的首选。本文将以“图生视频”为例，详细介绍如何使用ComfyUI，从基础入门到高级应用，帮助你轻松创建出色的用户界面。一、什么是ComfyUI？ComfyUI是一个开源的用户界面框架，
《整理情绪的力量》书摘记录06 樱苔
整理情绪的关键之问题与情绪分开思考这点和前一点“专心考虑该怎样做”有相似处，也就是要把“问题”拎出来，将情绪搁置一旁。在解决问题的时候，要暂时收起情绪，只需专注地思考“接下来该怎么办”。接下来，就是去做那些自己应该做的事情。在工作、生活和人际关系上难以疏通的都是情绪方面的问题，都是一些关于应该怎样让自己心情愉快、如果不顺利的话该如何恢复心情的问题。比如说工作上出了麻烦，会出现“这是谁的责任”“到底
2022-03-10 有关焦虑与消费观随风飘过的思绪
3月10日，星期四，晴。12-26度，1级南风这是要过夏天的节奏，一大清晨，又搬了一堆被子到天台上去晒。做了一下卫生，好想坐下来追下剧，现在好像只能看余光剧了。今天摸了一下琴，忘光了，这得每天那怕只摸十分钟也是好的，不然大半年的用功白废了。今天跟小祖宗掰扯了半天，感觉现在的人焦虑是自找的，一年赚了三十万还要焦虑，还要让我赞助。我也不懂这日子是怎么过的，居然说钱都不知道用哪去了，一年要买十万的包包，
樊德然：靠糖画技艺，成非物质文化遗产传承人，曾受邀到法国表演剑惊禅
成都的庙会，是我小时候逢年过节最期待的活动。因为在这一天里，我可以看见平日里很少看到的新鲜事物，诸如闹花灯、猜灯谜、拜喜神、舞狮之类。但最能吸引我的，还是那些身怀绝技的大师们，他们给我的感觉就是隐藏在市井中的武林高手。在诸多精彩的节目中，兼具吃和欣赏两种功能的“糖画”，无疑是其中的压轴戏。师傅们以勺为笔，以糖作墨，他们趁热将糖浆浇铸在光滑的板子上，然后在极短的时间内，为其塑形，待糖冷却后就塑造出了
2022手机性价比排行榜最新手机，2022年哪一款手机值得买? 优惠券高省
大家都知道买手机最主要的是性价比高，用最少的价钱买到最好的性能配置，是大多数人的第一需求。今年什么手机性价比最高？最值得购买呢？我们一起盘点一下最具性价比的手机品牌，仅供大家参考！买手机推荐用高省【高省邀请码989898】在高省领取优惠券跳转淘宝等平台下单更优惠，下单成功还有返利折上折！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇
洛谷 B4262：[GESP202503 三级] 词频统计 ← STL map hnjzsyjyj 信息学竞赛 #STL标准库 STL map
【题目来源】https://www.luogu.com.cn/problem/B4262【题目描述】在文本处理中，统计单词出现的频率是一个常见的任务。现在，给定n个单词，你需要找出其中出现次数最多的单词。在本题中，忽略单词中字母的大小写（即Apple、apple、APPLE、aPPle等均视为同一个单词）。请你编写一个程序，输入n个单词，输出其中出现次数最多的单词。【输入格式】第一行，一个整数n，
十分读书社元旦活动预告陆兮
鸟欲高飞先振翅，人求上进先读书。不知不觉，“同舟学院•十分读书社”成立已将近一年了。在过去的一年中，在社长胖哥的带领下，社员们秉承着“每日读书十分钟”的理念，坚持读书，坚持每日读书。与一年前的自己相比，每个人都取得了不小的进步。在一起读书的过程中，大家由陌生，到熟悉，再到相互鼓励，一起进步。在12月1日，十分读书社的手写小分队也成立了。十分读书社在无形中影响着一批人。1月1日是十分读书社成立一周年
信息学奥赛一本通1212：LETTERS DFS 0hang 深度优先算法图论
1212：LETTERS时间限制:1000ms内存限制:65536KB提交数:31678通过数:14328【题目描述】给出一个roe×col的大写字母矩阵，一开始的位置为左上角，你可以向上下左右四个方向移动，并且不能移向曾经经过的字母。问最多可以经过几个字母。【输入】第一行，输入字母矩阵行数R和列数S，1≤R,S≤20。接着输出R行S列字母矩阵。【输出】最多能走过的不同字母的个数。【输入样例】36
关注外在，更关注内在的自己！越努力越幸运99
近段时间处理不好工作、处理不好家庭，静下心来关注自己的内在，问题出在哪？怎样去改善？图片发自App图片发自App图片发自App图片发自App
开学第32篇团团圆圆妈妈
2018.3.28星期三晴现在天气暖和了，把闺女接回来我们会在车库门口玩会，玩的高兴了都不想上去写作业，非得催着才肯上去！今天我说让她把口算天天练做做补一补，直接不听我话，她爹回来一吓唬，很不乐意的写了几页，她爸爸说他竟能把13+7=100也不知道咋算的了，估计是应付我们瞎写了！让他爸爸又好一顿教育！小臭孩墨迹啊墨迹！啥时候能改掉呢！语文考了98.5分，还算可以，错了两个地方，都知道怎么错的了也改
中原焦点团队焦点初级32期梁怡2022年2月13日坚持分享第88天怡_96d8
当事人犯错究竟有何意义？当事人犯错究竟如何改善？如何帮助当事人能从犯错中有更多的学习与成长，而非仅是停止犯错而已？——SFBT的“目标架构”乃有一些实用的想法。(-)当事人犯错之际，正是成长的好时机当事人的问题行为，尤其是青少年的经常性犯错,常令关心当事人的人倍感头痛挫折，以至于在处理当事人之问题或层出不穷的事件时，会以追究责任、道德劝说或生气指责的方式对待当事人。但是这些方式反而会造成当事人的反
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1179 数字统计
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1179[NOIP2010普及组]数字
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1109 学生分组热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1109学生分组-洛谷【题目描述】有n
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1449 后缀表达式热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1449后缀表达式-洛谷【题目描述】所
（原创小说）《厉爷别虐了，夫人跳楼了》苏清予厉霆琛&全文在线阅读寒风书楼
（原创小说）《厉爷别虐了，夫人跳楼了》苏清予厉霆琛&全文在线阅读主角：苏清予厉霆琛简介：苏清予嫁给厉霆琛三年，终究抵不过他藏在心里十年的白月光。可以关注微信公众号【九月文楼】去回个书號【189】，即可免费阅读【厉爷别虐了，夫人跳楼了】小说全文！苏清予在陵墓絮叨了半天才离开，她没时间悲春伤秋，从她拿到的照片继续追查。爸爸能接触到的女性大多都在公司，就在她准备从公司的人员下手时，她接到一通电话。是爸爸
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe