jiangshouzhuang

Spark数据分析之第5课

对于http://blog.csdn.net/jiangshouzhuang/article/details/51550275中介绍的算法得出的推荐结果不怎么理想，下面进行进一步优化。

#评价推荐质量

为了使用推荐变得有用，我们可以从数据集中拿出一些艺术家的播放数据放到一边，在整个ALS模型构建过程中并不使用这些数据。这些放在一边的数据中的艺术家可以作为
每个用户的优秀推荐，但这些数据并没有喂给推荐引擎。让推荐引擎对模型中所有的产品进行评分，然后对比检查放在一边的艺术家的推荐排名情况。理想情况下，推荐引擎
对这些艺术家的推荐排名应该最靠前或接近最靠前。
接着我们就可以计算推荐引擎的部分，方法是比较放在一边的艺术家推荐排名和整个数据集中的艺术家的推荐排名。对比组合中放在一边的艺术家排名高的组合所占比例就是模型
的得分，1.0代表最好，0.0代表最差，0.5是随机给艺术家排名的模型的期望得分。

这个指标和一个信息检索概念直接相关，这个概念是观察者操作特性(Receiver Operating Characteristic ROC)曲线。上一段中的指标等于ROC曲线下区域的面积，
称为AUC(Area Under the Curve)。可以把AUC看成是随机选择的好推荐比随机选择的差推荐的排名高的概率。

AUC指标也用于评价分类器。MLlib的BinaryClassificationMetrics类实现了这个指标及相关方法。对于推荐引擎，为每个用户计算AUC并取其评价值，最后的结果指标稍有不同，
可称为"平均AUC"。

事实上，取出一部分数据来选择模型并评估模型准确度是所有机器学习的通用做法。通常数据被分成三个子集:
训练集，检验集(Cross-Validation,CV)和测试集。

#计算AUC
AUC实现接受一个检验集CV和一个预测函数，CV集代表每个用户对应的"正面的"和"好的"艺术家。
预测函数把每个"用户-艺术家"对转换为一个预测Rating。Rating包含了用户、艺术家和一个数值，这个值越大，代表推荐的排名越高。

为了利用输入的数据，我们需要把它分成训练集和检验集。训练集只用于训练ALS模型，检验集用于评估模型。我们将90%的数据用于训练，剩余的10%用于交叉检验。

代码如下：

package com.cloudera.datascience.recommender

import scala.collection.Map
import scala.collection.mutable.ArrayBuffer
import scala.util.Random

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.SparkContext._
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.mllib.recommendation._
import org.apache.spark.rdd.RDD

object RunRecommender {

def main(args: Array[String]): Unit = {
// 实例化SparkContext
val sc = new SparkContext(new SparkConf().setAppName("Recommender"))

// 数据存放路径
val base = "hdfs:///user/ds/"
// 用户ID-艺术家ID-值数据文件
val rawUserArtistData = sc.textFile(base + "user_artist_data.txt")
// 艺术家ID-姓名
val rawArtistData = sc.textFile(base + "artist_data.txt")
// 拼写错误的艺术家ID或非标准的艺术家ID-艺术家的正规ID
val rawArtistAlias = sc.textFile(base + "artist_alias.txt")

// 对三个文件的数据进行预处理
preparation(rawUserArtistData, rawArtistData, rawArtistAlias)

// 建立模型
model(sc, rawUserArtistData, rawArtistData, rawArtistAlias)

// 评价模型
evaluate(sc, rawUserArtistData, rawArtistAlias)
recommend(sc, rawUserArtistData, rawArtistData, rawArtistAlias)
}

def buildArtistByID(rawArtistData: RDD[String]) =
rawArtistData.flatMap { line =>
val (id, name) = line.span(_ != '\t')
if (name.isEmpty) {
None
} else {
try {
Some((id.toInt, name.trim))
} catch {
case e: NumberFormatException => None
}
}
}

def buildArtistAlias(rawArtistAlias: RDD[String]): scala.collection.Map[Int,Int] =
rawArtistAlias.flatMap { line =>
val tokens = line.split('\t')
if (tokens(0).isEmpty) {
None
} else {
Some((tokens(0).toInt, tokens(1).toInt))
}
}.collectAsMap()

// 准备数据
def preparation(
rawUserArtistData: RDD[String],
rawArtistData: RDD[String],
rawArtistAlias: RDD[String]) = {
// 对用户ID进行统计分析
val userIDStats = rawUserArtistData.map(_.split(' ')(0).toDouble).stats()
// 对艺术家ID进行统计分析
val itemIDStats = rawUserArtistData.map(_.split(' ')(1).toDouble).stats()

// 因为Spark MLlib的ALS算法要求用户和产品的ID必须是数值型，并且是32位非负整数。这意味着大于Integer.MAX_VALUE(2147483647)的ID都是非法的。
println(userIDStats)
println(itemIDStats)

// org.apache.spark.rdd.RDD[(Int, String)] 艺术家ID-姓名
val artistByID = buildArtistByID(rawArtistData)
// scala.collection.Map[Int,Int] Map(6803336 -> 1000010, 6663187 -> 1992, 2124273 -> 2814,...)
val artistAlias = buildArtistAlias(rawArtistAlias)

// 列出artistAlias第一个key-value值(badID: Int = 6803336 goodID: Int = 1000010)
val (badID, goodID) = artistAlias.head
// 比如WrappedArray(Aerosmith (unplugged)) -> WrappedArray(Aerosmith)
println(artistByID.lookup(badID) + " -> " + artistByID.lookup(goodID))
}

// 构建排名模型
def buildRatings(
rawUserArtistData: RDD[String],
bArtistAlias: Broadcast[Map[Int,Int]]) = {
rawUserArtistData.map { line =>
val Array(userID, artistID, count) = line.split(' ').map(_.toInt)
// 根据badID获取goodID，如果根据badID没有对应的goodID，就默认为badID
val finalArtistID = bArtistAlias.value.getOrElse(artistID, artistID)
// 构建Rating模型(org.apache.spark.mllib.recommendation._)
Rating(userID, finalArtistID, count)
}
}

// 建立模型
def model(
sc: SparkContext,
rawUserArtistData: RDD[String],
rawArtistData: RDD[String],
rawArtistAlias: RDD[String]): Unit = {

// 对badID->goodID数据进行广播(org.apache.spark.broadcast.Broadcast[scala.collection.Map[Int,Int]])
val bArtistAlias = sc.broadcast(buildArtistAlias(rawArtistAlias))

// 构建排名模型(trainData: org.apache.spark.rdd.RDD[org.apache.spark.mllib.recommendation.Rating])
val trainData = buildRatings(rawUserArtistData, bArtistAlias).cache()

// 开始训练模型(model: org.apache.spark.mllib.recommendation.MatrixFactorizationModel)
val model = ALS.trainImplicit(trainData, 10, 5, 0.01, 1.0)

// 对训练的数据强制移除缓存/持久化的RDD
trainData.unpersist()
// (90,-0.34101608395576477, 0.9143036007881165, 0.8365337252616882, 0.48369652032852173, 0.5416117906570435, -0.40115535259246826, 0.2735286056995392, 0.17051056027412415, -0.4300401508808136, -0.0985608622431755)
println(model.userFeatures.mapValues(_.mkString(", ")).first())

// 利用计算出的模型给2093760用户推荐5名艺术家
val userID = 2093760
// recommendations: Array[org.apache.spark.mllib.recommendation.Rating] = Array(Rating(2093760,1300642,0.03101707128027848),..)
val recommendations = model.recommendProducts(userID, 5)
// Rating(2093760,1300642,0.03101707128027848)
// Rating(2093760,2814,0.030879657724463577)
// Rating(2093760,1001819,0.03010725268263153)
// Rating(2093760,1037970,0.02981504815221999)
// Rating(2093760,1007614,0.029730034526127574)
recommendations.foreach(println)
// 列出所有推荐的艺术家(去除重复的艺术家)
val recommendedProductIDs = recommendations.map(_.product).toSet

// 获取所有userID为2093760参与的评价数据(用户ID-艺术家ID-值)(rawArtistsForUser: org.apache.spark.rdd.RDD[Array[String]])
val rawArtistsForUser = rawUserArtistData.map(_.split(' ')).filter { case Array(user,_,_) => user.toInt == userID }
// 获取用户ID对应的所有艺术家ID列表(existingProducts: scala.collection.immutable.Set[Int] = Set(1255340, 942, 1180, 813, 378))
val existingProducts = rawArtistsForUser.map { case Array(_,artist,_) => artist.toInt }.collect().toSet

// artistByID: org.apache.spark.rdd.RDD[(Int, String)]
val artistByID = buildArtistByID(rawArtistData)

// 根据艺术家ID获取艺术家姓名
// David Gray
// Blackalicious
// Jurassic 5
// The Saw Doctors
// Xzibit
artistByID.filter { case (id, name) => existingProducts.contains(id) }.values.collect().foreach(println)

// 根据艺术家ID获取推荐的艺术家姓名
// 50 Cent
// Jay-Z
// Kanye West
// 2Pac
// The Game
artistByID.filter { case (id, name) => recommendedProductIDs.contains(id) }.values.collect().foreach(println)

unpersist(model)
}

// areaUnderCurve()把一个函数作为它的第三个参数。这里传入的是 MatrixFactorizationModel 的 predict()
def areaUnderCurve(
positiveData: RDD[Rating], // 校验集
bAllItemIDs: Broadcast[Array[Int]], // 所有去重后的艺术家ID
predictFunction: (RDD[(Int,Int)] => RDD[Rating])) = {
// What this actually computes is AUC, per user. The result is actually something
// that might be called "mean AUC".

// Take held-out data as the "positive", and map to tuples
val positiveUserProducts = positiveData.map(r => (r.user, r.product))
// Make predictions for each of them, including a numeric score, and gather by user
val positivePredictions = predictFunction(positiveUserProducts).groupBy(_.user)

// BinaryClassificationMetrics.areaUnderROC is not used here since there are really lots of
// small AUC problems, and it would be inefficient, when a direct computation is available.

// Create a set of "negative" products for each user. These are randomly chosen
// from among all of the other items, excluding those that are "positive" for the user.
val negativeUserProducts = positiveUserProducts.groupByKey().mapPartitions {
// mapPartitions operates on many (user,positive-items) pairs at once
userIDAndPosItemIDs => {
// Init an RNG and the item IDs set once for partition
val random = new Random()
val allItemIDs = bAllItemIDs.value
userIDAndPosItemIDs.map { case (userID, posItemIDs) =>
val posItemIDSet = posItemIDs.toSet
val negative = new ArrayBuffer[Int]()
var i = 0
// Keep about as many negative examples per user as positive.
// Duplicates are OK
while (i < allItemIDs.size && negative.size < posItemIDSet.size) {
val itemID = allItemIDs(random.nextInt(allItemIDs.size))
if (!posItemIDSet.contains(itemID)) {
negative += itemID
}
i += 1
}
// Result is a collection of (user,negative-item) tuples
negative.map(itemID => (userID, itemID))
}
}
}.flatMap(t => t)
// flatMap breaks the collections above down into one big set of tuples

// Make predictions on the rest:
val negativePredictions = predictFunction(negativeUserProducts).groupBy(_.user)

// Join positive and negative by user
positivePredictions.join(negativePredictions).values.map {
case (positiveRatings, negativeRatings) =>
// AUC may be viewed as the probability that a random positive item scores
// higher than a random negative one. Here the proportion of all positive-negative
// pairs that are correctly ranked is computed. The result is equal to the AUC metric.
var correct = 0L
var total = 0L
// For each pairing,
for (positive <- positiveRatings;
negative <- negativeRatings) {
// Count the correctly-ranked pairs
if (positive.rating > negative.rating) {
correct += 1
}
total += 1
}
// Return AUC: fraction of pairs ranked correctly
correct.toDouble / total
}.mean() // Return mean AUC over users
}

// (sc: org.apache.spark.SparkContext, train: org.apache.spark.rdd.RDD[org.apache.spark.mllib.recommendation.Rating])(allData: org.apache.spark.rdd.RDD[(Int, Int)])
// 向每个用户推荐播放最多的艺术家。这个策略一点儿都不个性化，但它很简单，也可能有效。定义这个简单模型并评估它的AUC得分。
// 这个函数看似有两个参数列表。调用函数并应用前两个参数得到了一个偏应用函数，这个函数本身又带有一个参数(allData)并返回预测结果。
// predictMostListened(sc,trainData)的返回结果是一个函数
def predictMostListened(sc: SparkContext, train: RDD[Rating])(allData: RDD[(Int,Int)]) = {
// 先对训练集中的艺术家ID的值进行汇总，并广播给所有Executor(bListenCount: org.apache.spark.broadcast.Broadcast[scala.collection.Map[Int,Double]])
//bListenCount.value(Map(6867269 -> 4.0, 10268079 -> 9.0, 1249474 -> 38.0,...)
val bListenCount = sc.broadcast(train.map(r => (r.product, r.rating)).reduceByKey(_ + _).collectAsMap())
//
allData.map { case (user, product) => Rating(user, product, bListenCount.value.getOrElse(product, 0.0)) }
}

def evaluate(
sc: SparkContext,
rawUserArtistData: RDD[String],
rawArtistAlias: RDD[String]): Unit = {
// 对badID->goodID数据进行广播(org.apache.spark.broadcast.Broadcast[scala.collection.Map[Int,Int]])
// bArtistAlias.value
val bArtistAlias = sc.broadcast(buildArtistAlias(rawArtistAlias))

// 所有数据构建排名模型(allData: org.apache.spark.rdd.RDD[org.apache.spark.mllib.recommendation.Rating])
val allData = buildRatings(rawUserArtistData, bArtistAlias)

// 90%用于训练模型，10%用作检验集(def randomSplit(weights: Array[Double], seed: Long): Array[org.apache.spark.rdd.RDD[T]])
val Array(trainData, cvData) = allData.randomSplit(Array(0.9, 0.1))

// 将训练集和检验集都缓存在内存
trainData.cache()
cvData.cache()

// 获取所有去重后的艺术家ID，收集给驱动程序(Driver Program)
val allItemIDs = allData.map(_.product).distinct().collect()

// 将所有艺术家ID广播到所有Executor
val bAllItemIDs = sc.broadcast(allItemIDs)

// mostListenedAUC: Double = 0.9393479200578481
// 这个是非个性化推荐，得分大于0.94，意味着对AUC这个指标，表现已经不错了，明显打败了之前的简单推荐方法。
val mostListenedAUC = areaUnderCurve(cvData, bAllItemIDs, predictMostListened(sc, trainData))
println(mostListenedAUC)

// 下面选择更好的推荐方法
/*
我们可以从数据集中选择另外的90%作为训练集，这样就可以多次进行模型评估。得到的AUC值的平均可能会更好地估计算法在数据集上的表现。
实际中一个常用的做法就是把数据集分成K个大小差不多的子集，用k-1个子集做训练，在剩下的一个子集上做评估。我们把这个过程重复k次，每次
用一个不同的子集做评估。这种做法称为k折交叉验证算法。MLlib的辅助方法MLUtils.kFold()方法在一定程度上提供对这种技术的支持。

选择超参数，这些都是调用者指定的，不是算法学习得到的。
ALS.trainImplicit()的参数包括如下几个：
* rank = 10 模型的潜在因素的个数，即"用户-特征"和"产品-特征"矩阵的列数；一般来说，它也是矩阵的阶
* iterations = 5 矩阵分解迭代的次数；迭代的次数越多，花费的时间越长，但分解的结果可能会更好
* lambda = 0.01 标准的过拟合参数；值越大越不容易产生过拟合，但值太大会减低分解的准确度
* alpha = 1.0 控制矩阵分解时，被观察到的"用户-产品"交互相对没被观察到的交互的权重

可以把rank，lambda和alpha看做是模型的超参数。(iterations更像是对分解过程使用的资源的一种约束)。这些值不会体现在 MatrixFactorizationModel 的内容矩阵中，
这些矩阵只是参数，其值由算法选定。这里的参数不一定是最优的。
我们下面尝试了8种可能的组合，rank=10或50，lambda=10或0.0001，以及alpha=1.0或40.0。这些值都是猜测的，但他们能够覆盖很大范围的参数值。
各种组合的的结果按照AUC得分从高到低排序。

我们算出的结果中，lambda取较大的值看起来结果要稍微好一些。这表明模型有些受到拟合的影响，因此需要一个较大的lambda值以防止过度精确拟合每个用户
的稀疏输入数据。

严格来说，理解超参数的含义其实不是必须的，但知道这些值的典型范围有助于一个合适的参数空间开始搜索，这个空间不宜太大，也不能太小。

*/
val evaluations =
for (rank <- Array(10, 50);
lambda <- Array(1.0, 0.0001);
alpha <- Array(1.0, 40.0))
yield {
val model = ALS.trainImplicit(trainData, rank, 10, lambda, alpha)
val auc = areaUnderCurve(cvData, bAllItemIDs, model.predict)
unpersist(model)
((rank, lambda, alpha), auc)
}

evaluations.sortBy(_._2).reverse.foreach(println)

trainData.unpersist()
cvData.unpersist()
}

def recommend(
sc: SparkContext,
rawUserArtistData: RDD[String],
rawArtistData: RDD[String],
rawArtistAlias: RDD[String]): Unit = {

val bArtistAlias = sc.broadcast(buildArtistAlias(rawArtistAlias))
val allData = buildRatings(rawUserArtistData, bArtistAlias).cache()
val model = ALS.trainImplicit(allData, 50, 10, 1.0, 40.0)
allData.unpersist()

val userID = 2093760
val recommendations = model.recommendProducts(userID, 5)
val recommendedProductIDs = recommendations.map(_.product).toSet

val artistByID = buildArtistByID(rawArtistData)

artistByID.filter { case (id, name) => recommendedProductIDs.contains(id) }.
values.collect().foreach(println)

val someUsers = allData.map(_.user).distinct().take(100)
val someRecommendations = someUsers.map(userID => model.recommendProducts(userID, 5))
someRecommendations.map(
recs => recs.head.user + " -> " + recs.map(_.product).mkString(", ")
).foreach(println)

unpersist(model)
}

def unpersist(model: MatrixFactorizationModel): Unit = {
// At the moment, it\'s necessary to manually unpersist the RDDs inside the model
// when done with it in order to make sure they are promptly uncached
model.userFeatures.unpersist()
model.productFeatures.unpersist()
}

}

#注释：对于代码中频繁使用broadcast，下面对broadcast进行描述
broadcast，广播，顾名思义，就是分布式集群环境下，将数据从一个节点发送到其他各个节点上去。
这样的场景很多，比如 driver 上有一张表，其他节点上运行的 task 需要 lookup 这张表，那么 driver 可以先把这张表 copy 到这些节点，这样 task 就可以在本地查表了。
如何实现一个可靠高效的 broadcast 机制是一个有挑战性的问题。
出于数据一致性（以及容错性）的考虑，要求只能 broadcast 只读变量。

broadcast 是将只读变量广播到节点（node）而不是 broadcast 到每个 task。因为每个 task 是一个线程，而且同在一个进程运行 tasks 都属于同一个 application。
因此每个节点（executor）上放一份就可以被所有 task 共享。

【HarmonyOS next】ArkUI-X休闲娱乐搞笑日历【基础】 harmonyos-next
引言在跨平台应用开发中，网络图片在不同设备上的适配展示是常见挑战。本文将基于HarmonyOSnext的ArkUI-X框架，通过一个休闲娱乐日历应用，展示如何实现网络图片在华为和iOS设备上的完美适配。应用每日通过API获取搞笑日历图片，并在不同设备上智能适配显示。开发环境操作系统：macOS开发工具：DevEcoStudio5.0.4测试设备：华为Nova12Ultra、iPhone13Pro开
假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢？ Lowjin_ leetCode算法练习算法 c++学习笔记
示例1：输入：n=2输出：2解释：有两种方法可以爬到楼顶。1.1阶+1阶2.2阶示例2：输入：n=3输出：3解释：有三种方法可以爬到楼顶。1.1阶+1阶+1阶2.1阶+2阶3.2阶+1阶提示：1<=n<=45本题大家如果没有接触过的话，会感觉比较难，多举几个例子，就可以发现其规律。爬到第一层楼梯有一种方法，爬到二层楼梯有两种方法。那么第一层楼梯再跨两步就到第三层，第二层楼梯再跨一步就到第三层。所以
【HarmonyOS next】ArkUI-X休闲益智儿童拼图【进阶】 harmonyos-next
【HarmonyOSnext】ArkUI-X休闲益智儿童拼图【进阶】一、前言：当拼图遇上跨端开发最近在开发一款跨平台的儿童拼图游戏时，我深刻体会到了ArkUI-X框架的威力——同一套代码竟能同时在华为Mate60Pro和iPhone15上流畅运行！这不仅节省了开发成本，更重要的是确保了多端用户体验的一致性。今天我们就来聊聊这个项目的核心技术点，特别是拖动坐标计算和图片剪影生成这两个让人"又爱又恨"
鸿蒙关系型数据库实战：高效数据存储与管理数据库harmonyos
在鸿蒙应用开发中，关系型数据库（RDB）是结构化数据存储的核心方案。通过深度实践，其基于SQLite的轻量级实现不仅性能出色，更提供了强大的事务支持和类型安全。以下是关键经验总结：三大核心优势：SQL兼容：完整支持SQL92标准语法线程安全：内置多线程读写锁机制加密存储：支持AES-256加密敏感数据关系型数据库实战封装及使用：在Utils目录下新建一个RdbUtils文件//./src/main
Python中np.vstack和np.hstack的应用解释
Python中np.vstack和np.hstack的应用解释用法说明对于np.vstack和np.hstack各自有两种用法•第1种：np.vstack((a,b))或np.hstack((a,b))，即常规用法，也就是两个维数相等的ndarray在对应的方向上进行合并•第2种：np.vstack(a)或np.hstack(a)，对一个ndarray在其内部对应的方向上进行合并，这种属于非常规用
数文件夹中jpg,json文件个数叶子202422 Python学习记录 json sql 数据库
#2025.6.14importosfolder_path=r"E:\shujuji\the_seconde_shujuji_select_taka_photo_in_2025_6_9\select_from_images\select_colors"#替换为你的文件夹路径jpg_count=0json_count=0forfilenameinos.listdir(folder_path):iff
python np.hstack gz153016 python语法总结
importnumpyasnparr1=np.array([1,2,3])arr2=np.array([4,5,6])#print('np.vstack((arr1,arr2)):',np.vstack((arr1,arr2)))print('np.hstack((arr1,arr2)):',np.hstack((arr1,arr2)))#np.hstack((arr1,arr2)):[12345
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
IDE 大乱斗：Eclipse、VSCode、IDEA、Cursor 谁才是你的「梦中情码」？ zhysunny Java那些事 ide eclipse vscode intellij idea
IDE大乱斗：Eclipse、VSCode、IDEA、Cursor谁才是你的「梦中情码」？“啊！又卡死了！”小编第N次愤怒地拍打键盘，看着Eclipse的"无响应"提示欲哭无泪。“是时候换个新IDE了…但选哪个好呢？”别急，让我带你走进IDE选美大赛现场，看看这些选手们都有什么绝活！️选手1：Eclipse-老牌建筑师的工具箱优势：️稳如老狗：运行20年的经典之作完全开源：适合公司合规要求插件体系
信息系统项目管理师2025年考试关键知识点梳理-第11章项目成本管理 ℃-柠檬职场和发展其他高项项目管理
项目成本管理是为了项目在批准的预算内完成，对成本进行规划、估算、预算、融资、筹资、管理和控制的过程。项目成本管理重点关注完成项目活动所需资源的成本，但同时也考虑项目决策对项目产品、服务或成果的使用成本、维护成本和支持成本的影响。因此，项目成本管理还需使用其他过程和许多通用财务管理技术，如投资回报率分析、现金流贴现分析和投资回收期分析等。1、管理基础1.1重要性和意义项目管理主要受范围、时间、成本和
一篇文章读完50篇摄影教程（托马斯的2016总结） weixin_30341745 photoshop 人工智能
作者：Thomas看看世界链接：https://zhuanlan.zhihu.com/p/24654853来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。2016年，托马斯精心原创和精选转载了近50篇摄影教程。从拍摄思路到修图技术，从前期滤镜到后期工具，从风光人像到手机摄影。每篇教程，都是托马斯利用周末时间，策划、编写和制作完成的。托马斯制作教程，并不是为了显摆自己有
【Golang】用gorm实现分页的功能在成都搬砖的鸭鸭 Golang golang 开发语言后端 1024程序员节
目录1、背景2、go库下载3、初始化数据【1】建表【2】插入数据【3】查看数据4、代码示例【1】gorm结构体定义【2】分页结构体定义【3】封装分页方法【4】封装获取数据库连接方法【5】查询列表接口【6】启动http服务【7】调用获取列表接口5、总结1、背景在提供列表接口时一般要用到分页，对于存储在某些数据库中的数据进行分页起来非常的方便，下文给出一个通过gorm进行分页并通过http返回数据的例
DeLorean联手Sui网络推出最新区块链订车,XBIT平台xaut今日价格行情飙升引热议 caijingshiye 区块链
币界网6月24日讯,全球豪华汽车领域迎来颠覆性变革!DeLorean汽车公司今日宣布,基于SuiNetwork打造的全球首个区块链汽车预订市场正式上线,用户可通过加密货币直接预订其旗舰电动跑车Alpha5,并在等待交付期间通过质押资产赚取收益。这一创新模式不仅解决了传统汽车预订的退款难、周期长等痛点,更将区块链技术的透明性与金融属性深度融合。受此消息刺激,去中心化交易所XBIT平台上的黄金稳定币x
PCB走线宽度和走过的电流对照表小猫不吃鱼1202 单片机嵌入式硬件 pcb工艺
厚度[um]线宽[mm]70um[2OZ]50um[1.5OZ]35um[1OZ]2.50mm[98mil]6.00A5.10A4.50A2.00mm[78mil]5.10A4.30A4.00A1.50mm[59mil]4.20A3.50A3.20A1.20mm[47mil]3.60A3.00A2.70A1.00mm[40mil]3.20A2.60A2.30A0.80mm[32mil]2.80A2
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
对于高考边界的理解以及未来就业层级的学习与思考如果你想拥有什么先让自己配得上拥有方法认知思考高考总结
目录一、2024年高考全国多少考生，文化课，文科理科，分别总分多少分？清北得多少分能上？二、1342万人里面，有多少人能上清北，多少能上985，多少能上211，多少能上二本，多少能上专科？三、2024年高考的人，是那一年出生的，当年全国的出生人口是多少人？四、每年的补习生占高考的比例是多少？五、那也就是2024年高考当年出生的1560万，应届参加高考的900万左右，其余的700万左右的人，没参加高
sam9x60 uart 中断列表洪大宇 java 前端 linux
节选自邮件列表Allthemailmirroredfromlore.kernel.orghelp/color/mirror/Atomfeed[PATCHv30/2]updateat91usartcompatibleforsam9x60@2023-07-186:57`DuraiManickamKR0siblings,0replies;11+messagesinthreadFrom:DuraiMani
Android Studio flutter项目运行、打包时间太长小蜜蜂嗡嗡 android studio flutter android
AndroidStudio：AndroidStudioMeerkatFeatureDrop|2024.3.2Patch1flutterSdk：3.29.3系统：windowsfluttersdk从2.10.5升级到3.29.3，但是Flutter3.16开始新增了使用Gradle声明式plugins{}块，gradle文件配置方式改变了。而国内的阿里云、华为云等镜像仓库的更新并不是与google(
重温经典第二弹（xdoj1175，xdoj1179） Owen_Q 搜索暴力枚举字符串
一转眼，记忆又来到了暑假。或许，这是一个这算是自己真正开始接触了解acm的一个时间点吧，各种算法数据结构，开始慢慢浮出水面。回顾当初，感慨万千。又找出了两道未ac之题，确实复杂度明显加强，思维性的进一步考验。Count思路：子串搜索问题，因为n和k大到2e5，因此，肯定是个单向处理不能回溯的问题，否则最坏n方的复杂度是难以接受的。对于单次搜索，考虑可以维护现有区间的元素，然后移位遍历向后搜索，对于
2017暑训摸底（xdoj1045，xdoj1173，xdoj1007，xdoj1038） Owen_Q dp xdoj 搜索
由于时间没赶上摸底，只能跟一波新增的dp摸底，感觉难度一般般，可能有段时间内没做题的缘故吧暑训就要开始了呢A黑白棋思路：一上来就是个博弈搜索根据上一状态与这一状态必胜必败态的转换来判断先手的情况dfs搜索所有前项状态，若均为必败态，则该状态为必胜态，否则为必败态/*Author：Owen_Q*/#includeusingnamespacestd;inta[5][5];intdfs(intx,int
2015 United Kingdom and Ireland Programming Contest (UKIEPC 2015) Owen_Q 数学字符串模拟
2015年的icpc英国站，不到一百只过题队伍，可以算是icpc在英国刚起步的时候。ProblemBMountainBiking思路：作为本场的签到题，读懂题意之后，这题倒是更像一道数学题。给定n个坡面的角度，求解到达坡道底端的速度利用经典力学动力学公式即可直接求出./*AuthorOwen_Q*/#includeusingnamespacestd;typedeflonglongll;consti
Cadence Design Systems EDA介绍（五）--Innovus 小蘑菇二号笔记
目录Innovus的主要功能1.初始布局规划（Floorplanning）2.详细布局（Placement）3.布线（Routing）4.时序分析与优化（TimingAnalysisandOptimization）5.功耗分析与优化（PowerAnalysisandOptimization）6.面积优化（AreaOptimization）7.签核（Sign-off）Innovus的特点1.高性能2
中国双非高校经费TOP榜数据分析归零鸟高考考研高校大学
当我们习惯性仰望985、211这些“国家队”时，一批地方重点支持的高校正悄悄发力，手握重金，展现出不逊于名校的“钞能力”。特别是“双非”大学中的佼佼者，它们的年度经费预算，足以让许多普通院校望尘莫及。今天就带大家揭开2024年全国高校经费预算的神秘面纱，尤其关注那些没有985/211光环，却获得财政“真金白银”大力支持的双非实力派们！（数据综合整理自各高校2024年公开预算报告及相关教育资讯平台，
MySQL之MVCC实现原理深度解析 AA-代码批发V哥 MySQL mysql 数据库
MySQL之MVCC实现原理深度解析一、MVCC基础：为什么需要多版本控制？1.1并发访问的痛点1.2MVCC的核心目标二、MVCC核心组件：构建多版本世界的基石2.1隐藏字段：数据版本的"身份证"2.2Undo日志：版本回溯的"时间机器"2.2.1Undo日志类型2.2.2Undo日志的生命周期2.3版本链：数据演变的"历史轨迹"2.4ReadView：版本可见性的"过滤器"三、MVCC核心逻辑
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
hmc7044时钟芯片调试笔记 So_shine Linux驱动总结分享 linux内核驱动时钟芯片
目录前言一、依赖文档、工具二、运行linux内核驱动的平台1、代码、文件列表2、适配、编译3、调试三、无os的mcu平台1、代码、文件列表2、适配、编译3、调试前言本笔记基于运行linux操作系统的SOC芯片平台、linux内核版本linux5.10.xxx和无操作系统的mcu平台记录调试；一、依赖文档、工具文档名说明获取方式hmc7044.pdf数据手册adi官网或者国内采芯网GUI配置工具通过
linux应用:linux下用户空间操作GPIO的几种方式
目录一、sys文件系统二、devmem工具三、libgpiod库四、操作/dev/gpiochipN设备节点五、自己实现的一种方式六、其它方式本文基于linux5.10版本说明一、sys文件系统1、使用步骤export引脚号/sys/class/gpio/export，会生成/syc/class/gpio/gpio引脚号目录；echoout或者in>/syc/class/gpio/gpio引脚号/
目标跟踪存在问题以及解决方案选与握 #目标跟踪目标跟踪人工智能计算机视觉
3D跟踪一、数据特性引发的跟踪挑战1.点云稀疏性与远距离特征缺失问题表现：激光雷达点云密度随距离平方衰减（如100米外车辆点云数不足近距离的1/10），导致远距离目标几何特征（如车轮、车顶轮廓）不完整，跟踪时易因特征匹配失败导致ID丢失。典型案例：在高速公路场景中，200米外的卡车因点云稀疏（仅约50个点），跟踪算法难以区分其与大型货车的形状差异，导致轨迹跳跃或ID切换。技术方案：稀疏点云增强与特
《Vuejs设计与实现》第 12 章（组件实现原理上）前端贾公子 vue.js 前端 javascript
目录12.1组件的渲染12.2组件状态与自更新12.3组件实例与生命周期2.4Props与组件被动更新在上一章节，我们详细探讨了渲染器的基本概念和实现方式，它的主要作用是将虚拟DOM渲染为真实DOM。然而，当我们处理复杂页面时，虚拟DOM描述页面结构的代码量可能会剧增，导致页面模板臃肿。为此，我们引入了组件化的概念，通过组件，我们可以将大型页面划分为多个模块，每个模块都独立为一个组件，最终组成完整
05 大项目把握关键点，谋定而后动周壮成为团队技术牛人 java 后端面试架构
对技术Leader来讲，团队的开发模式多以项目制或敏捷迭代为主，不论哪种方式，项目管理都是最主要的工作之一。在互联网公司中，日常迭代和重点项目的同步进行几乎成了常态，你也会遇到一些特殊的项目，比如“一号工程（老板项目）”“技改项目（核心系统重写）”“倒排期的重大业务（11.11和618的大促、新业务新产品研发）”。这些项目我统称为“大项目”。大项目因为时间投入大、人员规模大、系统更大，和日常迭代项
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

Spark数据分析之第5课

你可能感兴趣的:(Spark数据分析之第5课)