段智华

Spark商业案例与性能调优实战100课》第16课：商业案例之NBA篮球运动员大数据分析系统架构和实现思路

http://www.basketball-reference.com/leagues/NBA_2017_per_game.html

参考数据查询器

http://www.stat-nba.com/

	球员	出场	首发	时间	投篮	命中	出手	三分	命中	出手	罚球	命中	出手	篮板	前场	后场	助攻	抢断	盖帽	失误	犯规	得分	胜	负
1	迈克尔-乔丹	1072	1039	38.3	49.7%	11.4	22.9	32.7%	0.5	1.7	83.5%	6.8	8.2	6.2	1.6	4.7	5.3	2.3	0.8	2.7	2.6	30.1
2	威尔特-张伯伦	1045		45.8	54.0%	12.1	22.5				51.1%	5.8	11.4	22.9			4.4				2	30.1
3	埃尔金·贝勒	846		40	43.1%	10.3	23.8				78.0%	6.8	8.7	13.5			4.3				3.1	27.4
4	凯文-杜兰特	689	689	37.5	48.7%	9.2	18.9	38.0%	1.8	4.7	88.2%	7.1	8	7.1	0.8	6.4	3.8	1.2	1	3.2	1.9	27.3	415	274
5	勒布朗-詹姆斯	1030	1029	38.9	49.9%	9.8	19.7	34.1%	1.4	4	74.2%	6.1	8.3	7.2	1.2	6	7	1.7	0.8	3.4	1.9	27.1	692	338
6	杰里-韦斯特	932		39.2	47.4%	9.7	20.4				81.4%	7.7	9.4	5.8			6.7				2.6	27
7	阿伦-艾弗森	914	901	41.1	42.5%	9.3	21.8	31.3%	1.2	3.7	78.0%	7	8.9	3.7	0.8	2.9	6.2	2.2	0.2	3.6	1.9	26.7	466	448
8	鲍勃-佩蒂特	792		38.8	43.6%	9.3	21.3				76.1%	7.8	10.3	16.2			3				3.2	26.4
9	乔治-格文	791		33.5	51.1%	10.2	19.9				84.4%	5.7	6.8	4.6	1.5	3.1	2.8	1.2	0.8		2.9	26.2
10	奥斯卡-罗伯特森	1040		42.2	48.5%	9.1	18.9				83.8%	7.4	8.8	7.5			9.5				2.8	25.7
11	卡尔-马龙	1476	1471	37.2	51.6%	9.2	17.8	27.4%	0.1	0.2	74.2%	6.6	8.9	10.1	2.4	7.7	3.6	1.4	0.8	3.1	3.1	25	952	524
12	科比-布莱恩特	1346	1198	36.1	44.7%	8.7	19.5	32.9%	1.4	4.1	83.7%	6.2	7.4	5.2	1.1	4.1	4.7	1.4	0.5	3	2.5	25	836	510
13	卡梅罗-安东尼	950	950	36.2	45.2%	8.9	19.6	34.6%	1.2	3.4	81.3%	6	7.3	6.6	1.8	4.8	3.1	1.1	0.5	2.8	2.9	24.8	525	425
14	多米尼克-威尔金斯	1074	995	35.5	46.1%	9.3	20.1	31.9%	0.7	2.1	81.1%	5.6	6.9	6.7	2.7	3.9	2.5	1.3	0.6	2.5	1.9	24.8
15	卡里姆-贾巴尔	1560		36.8	55.9%	10.2	18.1				72.1%	4.3	6	11.2			3.6				3	24.6
16	拉里·伯德	897	870	38.4	49.6%	9.6	19.3	37.6%	0.7	1.9	88.6%	4.4	5	10	2	8	6.3	1.7	0.8	3.1	2.5	24.3
17	阿德里安-丹特利	955		35.8	54.0%	8.6	15.8				81.8%	7.2	8.7	5.7	2.3	3.4	3	1	0.2		2.7	24.3
18	皮特-马拉维奇	658		37	44.1%	9.4	21.3				82.0%	5.4	6.6	4.2			5.4				2.8	24.2
19	沙奎尔-奥尼尔	1207	1197	34.7	58.2%	9.4	16.1	4.5%	0	0	52.7%	4.9	9.3	10.9	3.5	7.4	2.5	0.6	2.3	2.7	3.4	23.7	819	388
20	德维恩-韦德	899	888	35.5	48.5%	8.5	17.5	28.7%	0.5	1.6	76.8%	6	7.8	4.8	1.3	3.5	5.7	1.7	0.9	3.3	2.3	23.4	531	368

	球队	赛季	投篮	命中	出手	三分	命中	出手	罚球	命中	出手	篮板	前场	后场	助攻	抢断	盖帽	失误	犯规	得分	失分	胜	负	公式
1	金州勇士	15-16	48.7%	42.5	87.3	41.5%	13.1	31.6	76.3%	16.7	21.8	46.2	10	36.2	28.9	8.4	6.1	14.9	20.7	114.9	104.1	73	9	89
2	芝加哥公牛	95-96	47.8%	40.2	84	40.3%	6.6	16.5	74.6%	18.2	24.4	44.6	15.2	29.4	24.8	9.1	4.2	13.8	22	105.2	92.9	72	10	87.8
3	金州勇士	16-17	50.1%	43.7	87.2	38.6%	11.9	30.9	79.0%	18.7	23.6	45.2	9	36.2	31	9.4	6.4	14.9	19.2	118	104.8	41	7	85.4
4	芝加哥公牛	96-97	47.3%	40	84.4	37.3%	6.4	17.1	74.7%	16.8	22.5	45.1	15.1	30	26.1	8.7	4	13.1	19.7	103.1	92.3	69	13	84.1
5	波士顿凯尔特人	85-86	50.8%	45.3	89.2	35.3%	1.7	4.8	79.4%	21.8	27.4	46.4	12.9	33.5	29	7.8	6.2	16.3	21.4	114.1	104.7	67	15	81.7
6	芝加哥公牛	91-92	50.8%	44.4	87.4	30.4%	1.7	5.5	74.4%	19.4	26	44	14.3	29.7	27.8	8.2	5.9	12.8	20.6	109.9	99.5	67	15	81.7
7	达拉斯小牛	06-07	46.7%	36.7	78.6	38.1%	6.5	17.1	80.5%	20.1	24.9	41.9	11.2	30.7	19.9	6.8	5	13.1	22.4	100	92.8	67	15	81.7
8	金州勇士	14-15	47.8%	41.6	87	39.8%	10.8	27	76.8%	16	20.8	44.7	10.4	34.3	27.4	9.3	6	14.1	19.9	110	99.8	67	15	81.7
9	洛杉矶湖人	99-00	45.9%	38.3	83.4	32.9%	4.2	12.8	69.6%	20.1	28.9	47	13.6	33.4	23.4	7.5	6.5	13.5	22.5	100.8	92.3	67	15	81.7
10	圣安东尼奥马刺	15-16	48.4%	40.1	82.9	37.6%	7	18.5	80.3%	16.4	20.4	43.9	9.4	34.5	24.5	8.3	5.9	12.5	17.5	103.5	92.9	67	15	81.7
11	波士顿凯尔特人	07-08	47.5%	36.4	76.7	38.1%	7.3	19.1	77.1%	20.5	26.5	42	10.1	31.9	22.4	8.5	4.6	14.4	22.7	100.5	90.3	66	16	80.5
12	克里夫兰骑士	08-09	46.8%	36.9	78.7	39.3%	8	20.4	75.7%	18.6	24.5	42.2	10.8	31.4	20.3	7.2	5.3	12	20.3	100.3	91.4	66	16	80.5
13	迈阿密热火	12-13	49.6%	38.4	77.4	39.6%	8.7	22.1	75.4%	17.4	23	38.6	8.2	30.4	23	8.7	5.4	13.3	18.7	102.9	95	66	16	80.5
14	洛杉矶湖人	08-09	47.4%	40.3	85.1	36.1%	6.7	18.5	77.0%	19.6	25.5	43.9	12.4	31.5	23.3	8.8	5.1	13.1	20.7	106.9	99.3	65	17	79.3
15	洛杉矶湖人	86-87	51.6%	45.6	88.3	36.8%	2	5.4	78.9%	24.5	31.1	44.4	13.7	30.7	29.6	8.9	5.8	16.4	22.6	117.8	108.5	65	17	79.3
16	底特律活塞	05-06	45.5%	36.4	80	38.4%	6.8	17.7	72.7%	17.3	23.8	40.5	11.9	28.6	24	7.1	6	10.8	18.5	96.8	90.2	64	18	78
17	西雅图超音速	95-96	48.0%	37.5	78.1	36.4%	7.1	19.5	76.0%	22.5	29.6	41.5	11.6	29.9	24.4	10.8	4.8	17.2	24	104.5	96.7	64	18	78
18	犹他爵士	96-97	50.4%	38.2	75.8	37.0%	4.1	11	76.9%	22.7	29.5	40.2	10.8	29.4	26.8	9.1	5	14.9	24.2	103.1	94.3	64	18	78
19	底特律活塞	88-89	49.4%	41.4	83.9	30.0%	1.5	4.9	76.9%	22.3	29	45.1	14.1	31	24.7	6.4	5	16	23.6	106.6	100.8	63	19	76.8
20	洛杉矶湖人	89-90	49.0%	41.9	85.5	36.7%	3.8	10.3	78.7%	23.2	29.5	43.4	13.4	30	27.2	8	5.4	14.5	21.2	110.7	103.9	63	19	76.8
21	波特兰开拓者	90-91	48.5%	43.6	89.9	37.7%	4.2	11	75.3%	23.3	31	45.9	14.7	31.2	27.5	8.8	5	15.7	24.1	114.7	106	63	19	76.8
22	圣安东尼奥马刺	05-06	47.2%	36.5	77.3	38.5%	6.4	16.6	70.2%	16.2	23.1	41.5	10.4	31.1	20.9	6.6	5.7	13.3	20.9	95.6	88.8	63	19	76.8
23	西雅图超音速	93-94	48.4%	40.7	84.2	33.5%	3	8.8	74.5%	21.6	29	41.2	14	27.2	25.8	12.8	4.5	14.8	23.3	105.9	96.9	63	19	76.8
24	圣安东尼奥马刺	16-17	47.9%	39.8	83.1	41.1%	9.3	22.6	81.4%	18.6	22.8	42.9	9.3	33.6	24.3	7.9	5.6	12.4	18.3	107.4	99.3	36	11	76.6
25	芝加哥公牛	11-12	45.2%	37.4	82.8	37.5%	6.3	16.9	72.2%	15.2	21.1	46.7	13.9	32.8	23.1	6.9	5.9	13.4	17.3	96.3	88.2	50	16	75.8
26	圣安东尼奥马刺	11-12	47.8%	39.6	82.8	39.3%	8.4	21.3	74.8%	16.2	21.6	43	10.3	32.6	23.2	7.4	4.4	13.2	17.3	103.7	96.5	50	16	75.8
27	波士顿凯尔特人	08-09	48.6%	37.5	77.2	39.7%	6.6	16.5	76.5%	19.4	25.3	42.1	10.6	31.5	22.7	7.6	4.7	15	23.1	100.9	93.4	62	20	75.6
28	芝加哥公牛	97-98	45.1%	37.4	82.9	32.3%	3.8	11.7	74.3%	18.2	24.5	44.9	15.2	29.7	23.8	8.5	4.3	13.3	20.6	96.7	89.6	62	20	75.6
29	芝加哥公牛	10-11	46.2%	37.1	80.3	36.1%	6.2	17.3	74.3%	18.2	24.5	44.2	11.8	32.4	22.3	7.2	5.7	13.5	20	98.6	91.3	62	20	75.6
30	洛杉矶湖人	85-86	52.1%	46.8	89.7	33.8%	1.7	5	77.8%	22.1	28.4	44.6	13.4	31.2	29.7	8.4	5.1	17.6	24.7	117.3	109.5	62	20	75.6

序号	SEQ
球队名称	TEAM
赛季	SEASON
投篮命中率	FG
投篮命中数	FGM
投篮出手次数	FGA
三分球命中率	3P
三分球命中数	3PM
三分球出手次数	3PA
罚球命中率	FT
罚球命中次数	FTM
罚球出手次数	FTA
篮板	REBS
前场篮板	OREB
后场篮板	DREB
助攻	AST
抢断	STL
盖帽	BLK
失误	TO
犯规	FOVLS
场均得分	PTS
场均失分	PTLS
胜场	W
负场	L

1.	 package com.dt.spark.sparksql
2.	
3.	import scala.language.postfixOps
4.	import org.apache.hadoop.conf.Configuration
5.	import org.apache.hadoop.fs.{FileSystem, Path}
6.	import org.apache.log4j.{Level, Logger}
7.	import org.apache.spark.SparkConf
8.	import org.apache.spark.broadcast.Broadcast
9.	import org.apache.spark.rdd.RDD
10.	import org.apache.spark.sql.{DataFrame, SparkSession}
11.	
12.	import scala.collection.{Map, mutable}
13.	
14.	/**
15.	  * 版权：DT大数据梦工厂所有
16.	  * 时间：2017年1月26日；
17.	  * NBA篮球运动员大数据分析决策支持系统：
18.	  * 基于NBA球员历史数据1970~2017年各种表现，全方位分析球员的技能，构建最强NBA篮球团队做数据分析支撑系统
19.	  * 曾经非常火爆的梦幻篮球是基于现实中的篮球比赛数据根据对手的情况制定游戏的先发阵容和比赛结果（也就是说比赛结果是由实际结果来决定），
20.	  * 游戏中可以管理球员，例如说调整比赛的阵容，其中也包括裁员、签入和交易等
21.	  *
22.	  * 而这里的大数据分析系统可以被认为是游戏背后的数据分析系统。
23.	  * 具体的数据关键的数据项如下所示：
24.	  * 3P：3分命中；
25.	  * 3PA：3分出手；
26.	  * 3P%：3分命中率；
27.	  * 2P：2分命中；
28.	  * 2PA：2分出手；
29.	  * 2P%：2分命中率；
30.	  * TRB：篮板球；
31.	  * STL：抢断；
32.	  * AST：助攻；
33.	  * BLT: 盖帽；
34.	  * FT: 罚球命中；
35.	  * TOV: 失误；
36.	  *
37.	  *
38.	  * 基于球员的历史数据，如何对球员进行评价？也就是如何进行科学的指标计算，一个比较流行的算法是Z-score：其基本的计算过程是
39.	  * 基于球员的得分减去平均值后来除以标准差，举个简单的例子，某个球员在2016年的平均篮板数是7.1，而所有球员在2016年的平均篮板数是4.5
40.	  * 而标准差是1.3，那么该球员Z-score得分为：2
41.	  *
42.	  * 在计算球员的表现指标中可以计算FT%、BLK、AST、FG%等；
43.	  *
44.	  *
45.	  * 具体如何通过Spark技术来实现呢？
46.	  * 第一步：数据预处理：例如去掉不必要的标题等信息；
47.	  * 第二步：数据的缓存：为加速后面的数据处理打下基础；
48.	  * 第三步：基础数据项计算：方差、均值、最大值、最小值、出现次数等等；
49.	  * 第四步：计算Z-score，一般会进行广播，可以提升效率；
50.	  * 第五步：基于前面四步的基础可以借助Spark SQL进行多维度NBA篮球运动员数据分析，可以使用SQL语句，也可以使用DataSet（我们在这里可能会
51.	  * 优先选择使用SQL，为什么呢？其实原因非常简单，复杂的算法级别的计算已经在前面四步完成了且广播给了集群，我们在SQL中可以直接使用）
52.	  * 第六步：把数据放在Redis或者DB中；
53.	  *
54.	  *
55.	  * Tips：
56.	  * 1，这里的一个非常重要的实现技巧是通过RDD计算出来一些核心基础数据并广播出去，后面的业务基于SQL去实现，既简单又可以灵活的应对业务变化需求，希望
57.	  * 大家能够有所启发；
58.	  * 2，使用缓存和广播以及调整并行度等来提升效率；
59.	  *
60.	  */
61.	object NBABasketball_Analysis {
62.	
63.	  def main(args: Array[String]) {
64.	    Logger.getLogger("org").setLevel(Level.ERROR)
65.	    var masterUrl = "local[4]"
66.	    if (args.length > 0) {
67.	      masterUrl = args(0)
68.	    }
69.	
70.	    // Create a SparContext with the given master URL
71.	    /**
72.	      * Spark SQL默认情况下Shuffle的时候并行度是200，如果数据量不是非常多的情况下，设置200的Shuffle并行度会拖慢速度，
73.	      * 所以在这里我们根据实际情况进行了调整，因为NBA的篮球运动员的数据并不是那么多，这样做同时也可以让机器更有效的使用（例如内存等）
74.	      */
75.	    val conf = new SparkConf().setMaster(masterUrl).set("spark.sql.shuffle.partitions", "5").setAppName("FantasyBasketball")
76.	    val spark = SparkSession
77.	      .builder()
78.	      .appName("NBABasketball_Analysis")
79.	      .config(conf)
80.	      .getOrCreate()
81.	
82.	    val sc = spark.sparkContext
83.	
84.	    //********************
85.	    //SET-UP
86.	    //********************
87.	
88.	
89.	    val DATA_PATH = "data/NBABasketball"
90.	    //数据存在的目录
91.	    val TMP_PATH = "data/basketball_tmp"
92.	
93.	    val fs = FileSystem.get(new Configuration())
94.	    fs.delete(new Path(TMP_PATH), true)
95.	
96.	    //process files so that each line includes the year
97.	    for (i <- 1970 to 2016) {
98.	      println(i)
99.	      val yearStats = sc.textFile(s"${DATA_PATH}/leagues_NBA_$i*").repartition(sc.defaultParallelism)
100.	      yearStats.filter(x => x.contains(",")).map(x => (i, x)).saveAsTextFile(s"${TMP_PATH}/BasketballStatsWithYear/$i/")
101.	    }
102.	
103.	
104.	    //********************
105.	    //CODE
106.	    //********************
107.	    //Cut and Paste into the Spark Shell. Use :paste to enter "cut and paste mode" and CTRL+D to process
108.	    //spark-shell --master yarn-client
109.	    //********************
110.	
111.	
112.	    //********************
113.	    //Classes, Helper Functions + Variables
114.	    //********************
115.	    import org.apache.spark.sql.Row
116.	    import org.apache.spark.sql.types._
117.	    import org.apache.spark.util.StatCounter
118.	
119.	    import scala.collection.mutable.ListBuffer
120.	
121.	    //helper funciton to compute normalized value
122.	    def statNormalize(stat: Double, max: Double, min: Double) = {
123.	      val newmax = math.max(math.abs(max), math.abs(min))
124.	      stat / newmax
125.	    }
126.	
127.	    //Holds initial bball stats + weighted stats + normalized stats
128.	    case class BballData(val year: Int, name: String, position: String,
129.	                         age: Int, team: String, gp: Int, gs: Int, mp: Double,
130.	                         stats: Array[Double], statsZ: Array[Double] = Array[Double](),
131.	                         valueZ: Double = 0, statsN: Array[Double] = Array[Double](),
132.	                         valueN: Double = 0, experience: Double = 0)
133.	
134.	    //parse a stat line into a BBallDataZ object
135.	    def bbParse(input: String, bStats: scala.collection.Map[String, Double] = Map.empty,
136.	                zStats: scala.collection.Map[String, Double] = Map.empty): BballData = {
137.	      val line = input.replace(",,", ",0,")
138.	      val pieces = line.substring(1, line.length - 1).split(",")
139.	      val year = pieces(0).toInt
140.	      val name = pieces(2)
141.	      val position = pieces(3)
142.	      val age = pieces(4).toInt
143.	      val team = pieces(5)
144.	      val gp = pieces(6).toInt
145.	      val gs = pieces(7).toInt
146.	      val mp = pieces(8).toDouble
147.	
148.	      val stats: Array[Double] = pieces.slice(9, 31).map(x => x.toDouble)
149.	      var statsZ: Array[Double] = Array.empty
150.	      var valueZ: Double = Double.NaN
151.	      var statsN: Array[Double] = Array.empty
152.	      var valueN: Double = Double.NaN
153.	
154.	      if (!bStats.isEmpty) {
155.	        val fg: Double = (stats(2) - bStats.apply(year.toString + "_FG%_avg")) * stats(1)
156.	        val tp = (stats(3) - bStats.apply(year.toString + "_3P_avg")) / bStats.apply(year.toString + "_3P_stdev")
157.	        val ft = (stats(12) - bStats.apply(year.toString + "_FT%_avg")) * stats(11)
158.	        val trb = (stats(15) - bStats.apply(year.toString + "_TRB_avg")) / bStats.apply(year.toString + "_TRB_stdev")
159.	        val ast = (stats(16) - bStats.apply(year.toString + "_AST_avg")) / bStats.apply(year.toString + "_AST_stdev")
160.	        val stl = (stats(17) - bStats.apply(year.toString + "_STL_avg")) / bStats.apply(year.toString + "_STL_stdev")
161.	        val blk = (stats(18) - bStats.apply(year.toString + "_BLK_avg")) / bStats.apply(year.toString + "_BLK_stdev")
162.	        val tov = (stats(19) - bStats.apply(year.toString + "_TOV_avg")) / bStats.apply(year.toString + "_TOV_stdev") * (-1)
163.	        val pts = (stats(21) - bStats.apply(year.toString + "_PTS_avg")) / bStats.apply(year.toString + "_PTS_stdev")
164.	        statsZ = Array(fg, ft, tp, trb, ast, stl, blk, tov, pts)
165.	        valueZ = statsZ.reduce(_ + _)
166.	
167.	        if (!zStats.isEmpty) {
168.	          val zfg = (fg - zStats.apply(year.toString + "_FG_avg")) / zStats.apply(year.toString + "_FG_stdev")
169.	          val zft = (ft - zStats.apply(year.toString + "_FT_avg")) / zStats.apply(year.toString + "_FT_stdev")
170.	          val fgN = statNormalize(zfg, (zStats.apply(year.toString + "_FG_max") - zStats.apply(year.toString + "_FG_avg"))
171.	            / zStats.apply(year.toString + "_FG_stdev"), (zStats.apply(year.toString + "_FG_min")
172.	            - zStats.apply(year.toString + "_FG_avg")) / zStats.apply(year.toString + "_FG_stdev"))
173.	          val ftN = statNormalize(zft, (zStats.apply(year.toString + "_FT_max") - zStats.apply(year.toString + "_FT_avg"))
174.	            / zStats.apply(year.toString + "_FT_stdev"), (zStats.apply(year.toString + "_FT_min")
175.	            - zStats.apply(year.toString + "_FT_avg")) / zStats.apply(year.toString + "_FT_stdev"))
176.	          val tpN = statNormalize(tp, zStats.apply(year.toString + "_3P_max"), zStats.apply(year.toString + "_3P_min"))
177.	          val trbN = statNormalize(trb, zStats.apply(year.toString + "_TRB_max"), zStats.apply(year.toString + "_TRB_min"))
178.	          val astN = statNormalize(ast, zStats.apply(year.toString + "_AST_max"), zStats.apply(year.toString + "_AST_min"))
179.	          val stlN = statNormalize(stl, zStats.apply(year.toString + "_STL_max"), zStats.apply(year.toString + "_STL_min"))
180.	          val blkN = statNormalize(blk, zStats.apply(year.toString + "_BLK_max"), zStats.apply(year.toString + "_BLK_min"))
181.	          val tovN = statNormalize(tov, zStats.apply(year.toString + "_TOV_max"), zStats.apply(year.toString + "_TOV_min"))
182.	          val ptsN = statNormalize(pts, zStats.apply(year.toString + "_PTS_max"), zStats.apply(year.toString + "_PTS_min"))
183.	          statsZ = Array(zfg, zft, tp, trb, ast, stl, blk, tov, pts)
184.	          //  println("bbParse函数中打印statsZ： " + statsZ.foreach(println(_)) )
185.	          valueZ = statsZ.reduce(_ + _)
186.	          statsN = Array(fgN, ftN, tpN, trbN, astN, stlN, blkN, tovN, ptsN)
187.	          //   println("bbParse函数中打印statsN： " + statsN.foreach(println(_)) )
188.	          valueN = statsN.reduce(_ + _)
189.	        }
190.	      }
191.	      BballData(year, name, position, age, team, gp, gs, mp, stats, statsZ, valueZ, statsN, valueN)
192.	    }
193.	
194.	    //stat counter class -- need printStats method to print out the stats. Useful for transformations
195.	    //该类是一个辅助工具类，在后面编写业务代码的时候会反复使用其中的方法
196.	    class BballStatCounter extends Serializable {
197.	      val stats: StatCounter = new StatCounter()
198.	      var missing: Long = 0
199.	
200.	      def add(x: Double): BballStatCounter = {
201.	        if (x.isNaN) {
202.	          missing += 1
203.	        } else {
204.	          stats.merge(x)
205.	        }
206.	        this
207.	      }
208.	
209.	      def merge(other: BballStatCounter): BballStatCounter = {
210.	        stats.merge(other.stats)
211.	        missing += other.missing
212.	        this
213.	      }
214.	
215.	      def printStats(delim: String): String = {
216.	        stats.count + delim + stats.mean + delim + stats.stdev + delim + stats.max + delim + stats.min
217.	      }
218.	
219.	      override def toString: String = {
220.	        "stats: " + stats.toString + " NaN: " + missing
221.	      }
222.	    }
223.	
224.	    object BballStatCounter extends Serializable {
225.	      def apply(x: Double) = new BballStatCounter().add(x) //在这里使用了Scala语言的一个编程技巧，借助于apply工厂方法，在构造该对象的时候就可以执行出结果
226.	    }
227.	
228.	    //process raw data into zScores and nScores
229.	    def processStats(stats0: org.apache.spark.rdd.RDD[String], txtStat: Array[String],
230.	                     bStats: scala.collection.Map[String, Double] = Map.empty,
231.	                     zStats: scala.collection.Map[String, Double] = Map.empty): RDD[(String, Double)] = {
232.	      //parse stats
233.	      val stats1: RDD[BballData] = stats0.map(x => bbParse(x, bStats, zStats))
234.	
235.	      //group by year
236.	      val stats2 = {
237.	        if (bStats.isEmpty) {
238.	          stats1.keyBy(x => x.year).map(x => (x._1, x._2.stats)).groupByKey()
239.	        } else {
240.	          stats1.keyBy(x => x.year).map(x => (x._1, x._2.statsZ)).groupByKey()
241.	        }
242.	      }
243.	
244.	      //map each stat to StatCounter
245.	      val stats3 = stats2.map { case (x, y) => (x, y.map(a => a.map(b => BballStatCounter(b)))) }
246.	
247.	      //merge all stats together
248.	      val stats4 = stats3.map { case (x, y) => (x, y.reduce((a, b) => a.zip(b).map { case (c, d) => c.merge(d) })) }
249.	
250.	      //combine stats with label and pull label out
251.	      val stats5 = stats4.map { case (x, y) => (x, txtStat.zip(y)) }.map {
252.	        x =>
253.	          (x._2.map {
254.	            case (y, z) => (x._1, y, z)
255.	          })
256.	      }
257.	
258.	      //separate each stat onto its own line and print out the Stats to a String
259.	      val stats6 = stats5.flatMap(x => x.map(y => (y._1, y._2, y._3.printStats(","))))
260.	
261.	      //turn stat tuple into key-value pairs with corresponding agg stat
262.	      val stats7: RDD[(String, Double)] = stats6.flatMap { case (a, b, c) => {
263.	        val pieces = c.split(",")
264.	        val count = pieces(0)
265.	        val mean = pieces(1)
266.	        val stdev = pieces(2)
267.	        val max = pieces(3)
268.	        val min = pieces(4)
269.	        /*    println("processStats函数的返回结果array" +
270.	              (a + "_" + b + "_" + "count", count.toDouble),
271.	              (a + "_" + b + "_" + "avg", mean.toDouble),
272.	              (a + "_" + b + "_" + "stdev", stdev.toDouble),
273.	              (a + "_" + b + "_" + "max", max.toDouble),
274.	              (a + "_" + b + "_" + "min", min.toDouble))*/
275.	
276.	
277.	        Array((a + "_" + b + "_" + "count", count.toDouble),
278.	          (a + "_" + b + "_" + "avg", mean.toDouble),
279.	          (a + "_" + b + "_" + "stdev", stdev.toDouble),
280.	          (a + "_" + b + "_" + "max", max.toDouble),
281.	          (a + "_" + b + "_" + "min", min.toDouble))
282.	      }
283.	      }
284.	      stats7
285.	    }
286.	
287.	    //process stats for age or experience
288.	    def processStatsAgeOrExperience(stats0: org.apache.spark.rdd.RDD[(Int, Array[Double])], label: String): DataFrame = {
289.	
290.	
291.	      //group elements by age
292.	      val stats1: RDD[(Int, Iterable[Array[Double]])] = stats0.groupByKey()
293.	
294.	      val stats2: RDD[(Int, Iterable[Array[BballStatCounter]])] = stats1.map {
295.	        case (x: Int, y: Iterable[Array[Double]]) =>
296.	          (x, y.map((z: Array[Double]) => z.map((a: Double) => BballStatCounter(a))))
297.	      }
298.	      //Reduce rows by merging StatCounter objects
299.	      val stats3: RDD[(Int, Array[BballStatCounter])] = stats2.map { case (x, y) => (x, y.reduce((a, b) => a.zip(b).map { case (c, d) => c.merge(d) })) }
300.	      //turn data into RDD[Row] object for dataframe
301.	      val stats4 = stats3.map(x => Array(Array(x._1.toDouble),
302.	        x._2.flatMap(y => y.printStats(",").split(",")).map(y => y.toDouble)).flatMap(y => y))
303.	        .map(x =>
304.	          Row(x(0).toInt, x(1), x(2), x(3), x(4), x(5), x(6), x(7), x(8),
305.	            x(9), x(10), x(11), x(12), x(13), x(14), x(15), x(16), x(17), x(18), x(19), x(20)))
306.	
307.	      //create schema for age table
308.	      val schema = StructType(
309.	        StructField(label, IntegerType, true) ::
310.	          StructField("valueZ_count", DoubleType, true) ::
311.	          StructField("valueZ_mean", DoubleType, true) ::
312.	          StructField("valueZ_stdev", DoubleType, true) ::
313.	          StructField("valueZ_max", DoubleType, true) ::
314.	          StructField("valueZ_min", DoubleType, true) ::
315.	          StructField("valueN_count", DoubleType, true) ::
316.	          StructField("valueN_mean", DoubleType, true) ::
317.	          StructField("valueN_stdev", DoubleType, true) ::
318.	          StructField("valueN_max", DoubleType, true) ::
319.	          StructField("valueN_min", DoubleType, true) ::
320.	          StructField("deltaZ_count", DoubleType, true) ::
321.	          StructField("deltaZ_mean", DoubleType, true) ::
322.	          StructField("deltaZ_stdev", DoubleType, true) ::
323.	          StructField("deltaZ_max", DoubleType, true) ::
324.	          StructField("deltaZ_min", DoubleType, true) ::
325.	          StructField("deltaN_count", DoubleType, true) ::
326.	          StructField("deltaN_mean", DoubleType, true) ::
327.	          StructField("deltaN_stdev", DoubleType, true) ::
328.	          StructField("deltaN_max", DoubleType, true) ::
329.	          StructField("deltaN_min", DoubleType, true) :: Nil
330.	      )
331.	
332.	      //create data frame
333.	      spark.createDataFrame(stats4, schema)
334.	    }
335.	
336.	    //********************
337.	    //Processing + Transformations
338.	    //********************
339.	
340.	
341.	    //********************
342.	    //Compute Aggregate Stats Per Year
343.	    //********************
344.	
345.	    //read in all stats
346.	    val stats = sc.textFile(s"${TMP_PATH}/BasketballStatsWithYear/*/*").repartition(sc.defaultParallelism)
347.	
348.	    //filter out junk rows, clean up data entry errors as well
349.	    val filteredStats: RDD[String] = stats.filter(x => !x.contains("FG%")).filter(x => x.contains(","))
350.	      .map(x => x.replace("*", "").replace(",,", ",0,"))
351.	    filteredStats.cache()
352.	    println("NBA球员清洗以后的数据记录:  ")
353.	    filteredStats.take(10).foreach(println)
354.	
355.	    //process stats and save as map
356.	    val txtStat: Array[String] = Array("FG", "FGA", "FG%", "3P", "3PA", "3P%", "2P", "2PA", "2P%", "eFG%", "FT",
357.	      "FTA", "FT%", "ORB", "DRB", "TRB", "AST", "STL", "BLK", "TOV", "PF", "PTS")
358.	    println("NBA球员数据统计维度: ")
359.	    txtStat.foreach(println)
360.	    val aggStats: Map[String, Double] = processStats(filteredStats, txtStat).collectAsMap //基础数据项，需要在集群中使用，因此会在后面广播出去
361.	    println("NBA球员基础数据项aggStats MAP映射集: ")
362.	    aggStats.take(60).foreach { case (k, v) => println(" （ " + k + "  , " + v + " ) ") }
363.	
364.	    //collect rdd into map and broadcast
365.	    val broadcastStats: Broadcast[Map[String, Double]] = sc.broadcast(aggStats) //使用广播提升效率
366.	
367.	
368.	    //********************
369.	    //Compute Z-Score Stats Per Year
370.	    //********************
371.	
372.	    //parse stats, now tracking weights
373.	    val txtStatZ = Array("FG", "FT", "3P", "TRB", "AST", "STL", "BLK", "TOV", "PTS")
374.	    val zStats: Map[String, Double] = processStats(filteredStats, txtStatZ, broadcastStats.value).collectAsMap
375.	    println("NBA球员Z-Score标准分zStats  MAP映射集: ")
376.	    zStats.take(10).foreach { case (k, v) => println(" （ " + k + "  , " + v + " ) ") }
377.	    //collect rdd into map and broadcast
378.	    val zBroadcastStats = sc.broadcast(zStats)
379.	
380.	
381.	    //********************
382.	    //Compute Normalized Stats Per Year
383.	    //********************
384.	
385.	    //parse stats, now normalizing
386.	    val nStats: RDD[BballData] = filteredStats.map(x => bbParse(x, broadcastStats.value, zBroadcastStats.value))
387.	
388.	    //map RDD to RDD[Row] so that we can turn it into a dataframe
389.	
390.	    val nPlayer: RDD[Row] = nStats.map(x => {
391.	      val nPlayerRow: Row = Row.fromSeq(Array(x.name, x.year, x.age, x.position, x.team, x.gp, x.gs, x.mp)
392.	        ++ x.stats ++ x.statsZ ++ Array(x.valueZ) ++ x.statsN ++ Array(x.valueN))
393.	      //println( nPlayerRow.mkString(" ")) 
394.	      nPlayerRow
395.	    })
396.	
397.	    //create schema for the data frame
398.	    val schemaN: StructType = StructType(
399.	      StructField("name", StringType, true) ::
400.	        StructField("year", IntegerType, true) ::
401.	        StructField("age", IntegerType, true) ::
402.	        StructField("position", StringType, true) ::
403.	        StructField("team", StringType, true) ::
404.	        StructField("gp", IntegerType, true) ::
405.	        StructField("gs", IntegerType, true) ::
406.	        StructField("mp", DoubleType, true) ::
407.	        StructField("FG", DoubleType, true) ::
408.	        StructField("FGA", DoubleType, true) ::
409.	        StructField("FGP", DoubleType, true) ::
410.	        StructField("3P", DoubleType, true) ::
411.	        StructField("3PA", DoubleType, true) ::
412.	        StructField("3PP", DoubleType, true) ::
413.	        StructField("2P", DoubleType, true) ::
414.	        StructField("2PA", DoubleType, true) ::
415.	        StructField("2PP", DoubleType, true) ::
416.	        StructField("eFG", DoubleType, true) ::
417.	        StructField("FT", DoubleType, true) ::
418.	        StructField("FTA", DoubleType, true) ::
419.	        StructField("FTP", DoubleType, true) ::
420.	        StructField("ORB", DoubleType, true) ::
421.	        StructField("DRB", DoubleType, true) ::
422.	        StructField("TRB", DoubleType, true) ::
423.	        StructField("AST", DoubleType, true) ::
424.	        StructField("STL", DoubleType, true) ::
425.	        StructField("BLK", DoubleType, true) ::
426.	        StructField("TOV", DoubleType, true) ::
427.	        StructField("PF", DoubleType, true) ::
428.	        StructField("PTS", DoubleType, true) ::
429.	        StructField("zFG", DoubleType, true) ::
430.	        StructField("zFT", DoubleType, true) ::
431.	        StructField("z3P", DoubleType, true) ::
432.	        StructField("zTRB", DoubleType, true) ::
433.	        StructField("zAST", DoubleType, true) ::
434.	        StructField("zSTL", DoubleType, true) ::
435.	        StructField("zBLK", DoubleType, true) ::
436.	        StructField("zTOV", DoubleType, true) ::
437.	        StructField("zPTS", DoubleType, true) ::
438.	        StructField("zTOT", DoubleType, true) ::
439.	        StructField("nFG", DoubleType, true) ::
440.	        StructField("nFT", DoubleType, true) ::
441.	        StructField("n3P", DoubleType, true) ::
442.	        StructField("nTRB", DoubleType, true) ::
443.	        StructField("nAST", DoubleType, true) ::
444.	        StructField("nSTL", DoubleType, true) ::
445.	        StructField("nBLK", DoubleType, true) ::
446.	        StructField("nTOV", DoubleType, true) ::
447.	        StructField("nPTS", DoubleType, true) ::
448.	        StructField("nTOT", DoubleType, true) :: Nil
449.	    )
450.	
451.	    //create data frame
452.	    val dfPlayersT: DataFrame = spark.createDataFrame(nPlayer, schemaN)
453.	
454.	    //save all stats as a temp table
455.	    dfPlayersT.createOrReplaceTempView("tPlayers")
456.	
457.	    //calculate exp and zdiff, ndiff
458.	    val dfPlayers: DataFrame = spark.sql("select age-min_age as exp,tPlayers.* from tPlayers join" +
459.	      " (select name,min(age)as min_age from tPlayers group by name) as t1" +
460.	      " on tPlayers.name=t1.name order by tPlayers.name, exp  ")
461.	    println("计算exp and zdiff, ndiff")
462.	    dfPlayers.show()
463.	    //save as table
464.	    dfPlayers.createOrReplaceTempView("Players")
465.	    //filteredStats.unpersist()
466.	
467.	    //********************
468.	    //ANALYSIS
469.	    //********************
470.	    println("打印NBA球员的历年比赛记录：   ")
471.	    dfPlayers.rdd.map(x =>
472.	      (x.getString(1), x)).filter(_._1.contains("A.C. Green")).foreach(println)
473.	
474.	    val pStats: RDD[(String, Iterable[(Double, Double, Int, Int, Array[Double], Int)])] = dfPlayers.sort(dfPlayers("name"), dfPlayers("exp") asc).rdd.map(x =>
475.	      (x.getString(1), (x.getDouble(50), x.getDouble(40), x.getInt(2), x.getInt(3),
476.	        Array(x.getDouble(31), x.getDouble(32), x.getDouble(33), x.getDouble(34), x.getDouble(35),
477.	          x.getDouble(36), x.getDouble(37), x.getDouble(38), x.getDouble(39)), x.getInt(0))))
478.	      .groupByKey
479.	    pStats.cache
480.	
481.	    println("**********根据NBA球员名字分组：   ")
482.	    pStats.take(15).foreach(x => {
483.	      val myx2: Iterable[(Double, Double, Int, Int, Array[Double], Int)] = x._2
484.	      println("按NBA球员： " + x._1 + " 进行分组，组中元素个数为：" + myx2.size)
485.	      for (i <- 1 to myx2.size) {
486.	        val myx2size: Array[(Double, Double, Int, Int, Array[Double], Int)] = myx2.toArray
487.	        val mynext: (Double, Double, Int, Int, Array[Double], Int) = myx2size(i - 1)
488.	        println(i + " : " + x._1 + " , while   " + mynext._1 + " , " + mynext._2 + " , "
489.	          + mynext._3 + " , " + mynext._4 + " ,     " + mynext._5.mkString(" || ") + "     , "
490.	          + mynext._6)
491.	      }
492.	
493.	    })
494.	
495.	
496.	    import spark.implicits._
497.	    //for each player, go through all the years and calculate the change in valueZ and valueN, save into two lists
498.	    //one for age, one for experience
499.	    //exclude players who played in 1980 from experience, as we only have partial data for them
500.	    val excludeNames: String = dfPlayers.filter(dfPlayers("year") === 1980).select(dfPlayers("name"))
501.	      .map(x => x.mkString).collect().mkString(",")
502.	
503.	    val pStats1: RDD[(ListBuffer[(Int, Array[Double])], ListBuffer[(Int, Array[Double])])] = pStats.map { case (name, stats) =>
504.	      var last = 0
505.	      var deltaZ = 0.0
506.	      var deltaN = 0.0
507.	      var valueZ = 0.0
508.	      var valueN = 0.0
509.	      var exp = 0
510.	      val aList = ListBuffer[(Int, Array[Double])]()
511.	      val eList = ListBuffer[(Int, Array[Double])]()
512.	      stats.foreach(z => {
513.	        if (last > 0) {
514.	          deltaN = z._1 - valueN
515.	          deltaZ = z._2 - valueZ
516.	        } else {
517.	          deltaN = Double.NaN
518.	          deltaZ = Double.NaN
519.	        }
520.	        valueN = z._1
521.	        valueZ = z._2
522.	        last = z._4
523.	        aList += ((last, Array(valueZ, valueN, deltaZ, deltaN)))
524.	        if (!excludeNames.contains(z._1)) {
525.	          exp = z._6
526.	          eList += ((exp, Array(valueZ, valueN, deltaZ, deltaN)))
527.	        }
528.	      })
529.	      (aList, eList)
530.	    }
531.	
532.	    pStats1.cache
533.	
534.	
535.	    println("按NBA球员的年龄及经验值进行统计：   ")
536.	    pStats1.take(10).foreach(x => {
537.	      //pStats1: RDD[(ListBuffer[(Int, Array[Double])], ListBuffer[(Int, Array[Double])])]
538.	      for (i <- 1 to x._1.size) {
539.	        println("年龄：" + x._1(i - 1)._1 + " , " + x._1(i - 1)._2.mkString("||") +
540.	          "  经验: " + x._2(i - 1)._1 + " , " + x._2(i - 1)._2.mkString("||"))
541.	      }
542.	    })
543.	
544.	
545.	    //********************
546.	    //compute age stats
547.	    //********************
548.	
549.	    //extract out the age list
550.	    val pStats2: RDD[(Int, Array[Double])] = pStats1.flatMap { case (x, y) => x }
551.	
552.	    //create age data frame
553.	    val dfAge: DataFrame = processStatsAgeOrExperience(pStats2, "age")
554.	    dfAge.show()
555.	    //save as table
556.	    dfAge.createOrReplaceTempView("Age")
557.	
558.	    //extract out the experience list
559.	    val pStats3: RDD[(Int, Array[Double])] = pStats1.flatMap { case (x, y) => y }
560.	
561.	    //create experience dataframe
562.	    val dfExperience: DataFrame = processStatsAgeOrExperience(pStats3, "Experience")
563.	    dfExperience.show()
564.	    //save as table
565.	    dfExperience.createOrReplaceTempView("Experience")
566.	
567.	    pStats1.unpersist()
568.	
569.	    //while(true){}
570.	  }
571.	
572.	}

你可能感兴趣的:(Spark商业案例与性能调优实战100课》第16课：商业案例之NBA篮球运动员大数据分析系统架构和实现思路)

ILI9806G 4.3吋触摸屏 LVGL9 描点函数 UIUI lvgl9 stm32f407 ucos3
staticvoiddisp_flush(lv_display_t*disp_drv,constlv_area_t*area,uint16_t*px_map){if(disp_flush_enabled){/*Themostsimplecase(butalsotheslowest)toputallpixelstothescreenone-by-one*/int32_tx;int32_ty;int3
【锂电池寿命】基于BP锂电池寿命预测（matlab) 大橘科研工作室毕设锂电池方向（MATLAB版）matlab
【锂电池寿命】基于BP锂电池寿命预测（matlab)文章目录【锂电池寿命】基于BP锂电池寿命预测（matlab)一、引言1.1、研究背景1.2、研究意义二、文献综述2.1、锂电池寿命预测研究现状2.2、常见预测方法对比2.3、BP神经网络在寿命预测中的应用三、研究方法与数据准备3.1、BP神经网络模型设计3.2、数据来源与预处理3.3、特征提取与选择四、模型训练与验证4.1、训练过程4.2、模型验
Hibernate与Spring Data JPA：深入解读两大持久化框架的优劣与选择 devme hibernate spring java
亲爱的读者，你是否在处理Java应用程序的数据库交互时，曾对选择哪种持久化框架感到困惑？你是否曾对Hibernate和SpringDataJPA之间的关系感到好奇？今天，我将带你深入探索这两个流行的Java持久化框架，帮助你更好地理解它们的优缺点，以及在何种情况下应该选择哪一个。首先，让我们来了解一下Hibernate和SpringDataJPA的基本概念。HibernateHibernate是一
STLG_05_04_Python - 函数魔都天健开发语言前端笔记 python
Python函数是一种可重用的代码块，用于执行特定任务。它通过def关键字定义，可以接受参数作为输入，并通过return语句返回值。函数能够提高代码的模块化和可读性，方便维护和调试。无论是内置函数还是自定义函数，它们都是Python编程中实现功能和逻辑的重要工具。1.函数的定义和调用1.1函数的定义在Python中，函数是一段可重复使用的代码块，用于执行特定的任务。函数可以帮助我们将代码模块化，提
2024年推荐使用的centos版本是多少? wordpress爱好者 centos linux 运维
2024年CentOS版本选择策略：最新稳定与长期支持的平衡结论：在Linux发行版的选择上，CentOS以其开源、免费和稳定性深受企业级用户的青睐。然而，由于技术的快速发展，每个新版本都会带来新的功能和改进，对于2024年的用户来说，决定采用哪个CentOS版本至关重要。鉴于此，我们建议考虑CentOSStream和CentOS8，两者各具优势，但侧重点不同。原文链接：2024年推荐使用的cen
CentOS 7.6和7.9建站哪个好？ wordpress爱好者 centos linux 运维
CentOS7.6与7.9：建站选择的深度剖析结论：在决定使用CentOS7.6或7.9进行建站时，没有绝对的“更好”，只有更适合。两者都是稳定、可靠的Linux发行版，但7.9作为更新版本，包含了更多的安全修复和功能改进。对于新项目，选择7.9可能是更明智的选择，因为它提供了最新的安全补丁和优化。然而，如果已有系统基于7.6并且运行良好，升级可能带来的风险和复杂性需要权衡。因此，选择应基于具体需
使用AI工具链的实战指南 azzxcvhj 人工智能 python
在这篇指南中，我们将深入探讨如何创建调用工具的链(Chains)和智能体(Agents)。工具可以是API、函数、数据库等等，它们能让模型的能力超越简单的文本或消息输出。使用模型与工具的关键在于如何正确地提示模型选择合适的工具并提供正确的输入。技术背景介绍在现代AI应用中，模型本身虽然强大，但通常需要结合其他工具来实现更复杂的功能。通过集成工具，我们可以扩展模型的能力，轻松实现如计算、数据查询和特
激活office2016遇：The Software Licensing Service reported that the product SKU is not found. ୧⍢⃝୨ LonelyCoder Office2016 Office2016 Windows10
今天把办公电脑系统重装了，之前的已经用了3年多了，win10还是不错了！！哈哈打开巨硬的下载地址：https://www.microsoft.com/zh-cn/software-download/windows10上面的立即更新，可以更新当前win10系统到最新版本，我顺便把X1也升级到1903了。全新安装点击“立即下载工具”下载程序，下载后插上8G以上的U盘（先格式掉），运行下载的程序，过一会
FreePBX修改IP地址和端口以及添加SSL证书开启HTTPS访问 ୧⍢⃝୨ LonelyCoder CentOS FreePBX mkcert tcp/ip ssl https
最近给单位部署了freepbx网络电话系统，我的系统是安装在ibmx3650m4物理机上的，iso镜像下载后直接用Rufus烧录到U盘，服务器上先做好了raid1，插上U盘重启服务器开撸。安装过程略过了，在虚拟机上安装就不用那么麻烦。一、修改IP地址：1、修改前，先看看你的网线是插在哪个网卡的，用ifconfig查看哪个网卡在用，lo口除外；2、我用的是eth3网卡，所以下面的以eth3网卡为例，
高级 Java 并发：模式和最佳实践小蜗牛慢慢爬行 java 开发语言
并发性是现代软件开发的基石，它使应用程序能够同时执行多个任务并高效利用系统资源。Java是一种多功能且功能强大的编程语言，它已经发展到包含强大的并发支持，使开发人员能够创建高性能、可扩展的应用程序。本文深入介绍了Java中的高级并发模式和最佳实践，使开发人员能够掌握应对复杂并发挑战和优化其应用程序的知识。1.Java并发基础知识基本并发概念Java中的并发性首先要了解基本构建块：线程和Runnab
数据存储设计面试：了解数据库分区、分片、索引小蜗牛慢慢爬行数据库 mysql 面试
快速掌握：分片将您的数据分布到多个服务器，以实现可扩展性和更好的性能。分区将单个数据库内的表划分为更小的部分（分区），从而提高查询性能和可管理性。索引创建数据结构以加速某些列的数据检索，从而提高查询性能，但代价是额外的存储和写入开销。数据库分片分片是一种在多个服务器或数据库之间水平划分数据的方法，这样每个服务器（或“分片”）都包含整个数据集的一个子集。此技术用于提高数据库的可扩展性和性能，尤其是在
我的软件架构师——Java 职位面试经历。小蜗牛慢慢爬行 java 面试开发语言职场和发展后端 spring boot spring
最近，我参加了一家领先的服务型公司的软件架构师（Java）职位的面试。我在这里分享了一些面试官问我的问题。我只列出了与Java相关的问题，因为本文主要关注Java。面试官问我有关AWS、Docker、Kubernetes、Kafka、ElasticSearch、SQL/NoSQL和设计模式的问题。ClassNotFoundException和NoClassDefFoundError有什么区别？当您
掌握 Spring Boot 中的 WebClient：何时以及为何使用它而不是 RestTemplate 小蜗牛慢慢爬行 spring boot 后端 java 开发语言 spring
在开发SpringBoot应用程序时，与RESTfulWeb服务进行通信是一项常见需求。从历史上看，开发人员已将RestTemplate用于此目的。然而，随着反应式编程的出现和对更高效资源利用的需求，WebClient已成为首选。本文探讨了RestTemplate和WebClient之间的差异，并通过实际示例强调了为什么WebClient更适合现代应用程序。何时使用RestTemplate？Res
c/c++ 左值右值 Tiantangbujimo7 基础 c语言 c++java
左值(Lvalue):定义：表达式结束后依然存在的持久对象。有名字、有持久性的表达式，它是既能够出现在等号左边，也能出现在等号右边的变量。右值(Rvalue):定义：表达式结束后就不再存在的临时对象。临时的、将亡的值。一般是不可寻址的常量，或在表达式求值过程中创建的无名临时对象，短暂性的。左值和右值主要的区别之一是左值可以被修改，而右值不能。intnumber;number=1在这段代码中numb
Apache SeaTunnel 2.3.9 正式发布：多项新特性与优化全面提升数据集成能力数据库
近日，ApacheSeaTunnel社区正式发布了最新版本2.3.9。本次更新新增了`Helm集群部署、Transform支持多表、Zeta新API、表结构转换、任务提交队列、分库分表合并、列转多行`等多个功能更新！作为一款开源、分布式的数据集成平台，本次版本通过新增功能、性能优化与问题修复，为开发者与企业用户带来了更加全面的支持。2.3.9版本下载：https://seatunnel.apach
小白也能懂的Vite + React组件开发完全指南前端
学习前端开发，你可能会听说过很多工具和框架，其中Vite和React无疑是炙手可热的明星。Vite凭借其闪电般的速度和优秀的开发体验，迅速成为了许多开发者的首选构建工具；而React，作为目前最流行的JavaScript库之一，以其组件化、声明式编程的特性，简化了复杂的Web应用开发。这篇教程将带你快速掌握AI写代码工具Vite和React组件开发的核心技能，让你从小白也能轻松入门，独立完成简单的
Python_线性插值胡小记 python
1、语法解释线性插值主要用到的是numpy中的interp函数interp(x,xp,fp,left=None,right=None,period=None)其中x为要插值点的横坐标，xp为x的坐标值（必须是递增），fp为y的坐标值left是可选择参数，如果x小于xp，则会默认返回xp[0]对应的fp值，right同理。period可设定横坐标的周期，该选项打开时，则忽略left和right。具体
亮相AICon，火山引擎边缘云揭秘边缘AI Agent探索与实践边缘计算智能硬件ai开发
12月13-14日，AICon全球人工智能开发与应用大会在北京成功举办。火山引擎边缘智能技术负责人谢皓受邀出席大会，以《AIAgent在边缘云的探索与实践》为主题，与全球AI领域的资深专家，共同深入探讨大模型落地、具身智能、多模态大模型、AIAgent等前沿技术如何推动行业变革、引领未来发展。火山引擎边缘智能技术负责人谢皓指出，随着AI时代的到来，边缘智能由传统的物联网、智慧物联，逐渐演变成智能体
如何用selenium来链接并打开比特浏览器进行自动化操作（1）写python的鑫哥爬虫实战进阶 selenium pyppeteer puppeteer 比特浏览器比特指纹浏览器链接打开
前言本文是该专栏的第76篇，后面会持续分享python爬虫干货知识，记得关注。本文，笔者将基于“比特浏览器”，通过selenium来实现链接并打开比特浏览器，进行相关的“自动化”操作。值得一提的是，在本专栏之前，笔者有详细介绍过“使用selenium或者pyppeteer（puppeteer）来链接并打开指纹浏览器AdsPower”的方法和详细教程。笔者将相关文章的链接，整理如下（对此领域，感兴趣
如何为LangChain开源项目做出贡献？ FADxafs langchain easyui 前端 python
技术背景介绍LangChain是一个快速发展的开源项目，旨在为开发者提供强大的语言模型链式调用功能。随着AI技术的不断革新，LangChain也在不断迭代和扩展功能。为了保持项目的活力和发展，我们欢迎不同背景的开发者进行贡献，无论是在代码、文档还是集成工具方面。核心贡献领域在LangChain项目中，您可以通过以下几种方式进行贡献：文档改进:提高项目的文档质量，包括示例代码、API说明等。代码贡献
多查询分析中的并发处理实践 FADxafs python
在进行查询分析时，某些技术可能会生成多个查询。在这种情况下，我们需要记得执行所有查询并合并结果。本文将通过一个简单的示例（使用模拟数据）展示如何实现这一点。技术背景介绍在数据分析和信息检索领域，查询分析技术能够帮助我们生成和优化查询以提高搜索效率。然而，当同时生成多个查询时，处理这些查询并有效地合并结果就显得尤为重要。本次我们将使用langchain库来演示如何处理多查询情况。核心原理解析通过生成
C++设计模式——Decorator装饰器模式程序员与背包客_CoderZ C/C++设计模式 c++设计模式装饰器模式开发语言 c语言 linux
一，装饰器模式简介装饰器模式是一种结构型设计模式，它允许在不改变现有对象的情况下，动态地将功能添加到对象中。装饰器模式是通过创建具有新行为的对象来实现的，这些对象将原始对象进行了包装。装饰器模式遵循开放/关闭原则，允许开发者在不修改现有代码的情况下添加新的装饰器。日常开发中常用的装饰器属于类装饰器，通过继承父类来实现。二，装饰器模式的结构1.抽象组件(Component)：被装饰的对象，声明了对外
为AI聊天工具添加一个知识系统之40 总纲领和整体设计之2 三种簿册(账簿/电话簿/户口簿) 一水鉴天人工语言软件智能智能制造人工智能
本文要点前面给出的是项目式开发的项目“口号”，有点像包治百病的“万金油”。但在原型（原型式开发的一个原型口号）上分别有三个口号--注意：它们的表达和项目口号完全不同。逻辑上：所有模型model都是错的，但某些模型是有用的。数学上：所有程序prcedure严格来讲都是不精确的，但是有些程序非常接近用户的预期；语言上：所有表达expression都是含糊的，但任何语言都具有巨大的表达力。现在剩下的就是
为AI聊天工具添加一个知识系统之33 通用项目文档模板：语言无关/实现无关/符号无关的纯粹的符号学原型一水鉴天人工语言软件智能智能制造人工智能 cocoa
本文要点要点提取本项目文档的三个部分（Part1公理化&个性化，Part2形式化&结构化，Part3自动化&智能化）应该给出三种限界上下文--分别确定了语言自由交流用户与访问上下文（语言）、敏捷开发上下文（程序）和稳固核心上下文（数据）。限界上下文是解决边缘模糊的对策--通过分界。它不同于为计算机分类和人类理解两个目的而分别设计的上下文映射和通用语言。但即使是这个扩大了的范围仍然是领域驱动设计DD
智能工厂的设计软件应用场景的一个例子：为AI聊天工具添加一个知识系统之14 方案再探之5：知识树三类节点对应的三种网络形式及其网络主机一水鉴天人工语言智能制造软件智能人工智能
本文要点前面讨论过（前面有错这里做了修正），三种簿册归档对应通过不同的网络形式（分布式、对等式和去中心式）。每种网络主机上分别提供：分布式控制脚本、对等式账本和备记手本通过以上讨论，div模型已经涵盖以下内容：从内容提供者（某个AI聊天工具，特定接口）到知识树及其三种节点（通用接口）到网络主机及其三种网络形式（节点专属操作接口）的要求。后面需要进一步为三者设计一个能实现耦合和解耦的程序需要特别说明
Elixir语言的软件工程十二日后包罗万象 golang 开发语言后端
Elixir语言的软件工程引言在当今的软件工程领域，选择编程语言和技术栈是一个至关重要的决策。随着分布式系统、实时应用和高并发场景的需求日益增加，Elixir语言应运而生。Elixir是一种基于Erlang虚拟机（BEAM）的编程语言，兼具了Erlang的并发特性和灵活性，同时增加了现代编程语言的一些优雅和简洁的特性。本文将深入探讨Elixir语言在软件工程中的应用，包括其核心特性、生态系统、最佳
Ruby语言的循环实现 2501_90183952 包罗万象 golang 开发语言后端
Ruby语言的循环实现深入探讨在程序设计中，循环是一种常见的控制结构，用于重复执行某些代码块。不同的编程语言提供了不同类型的循环结构，以满足不同的需求。Ruby是一种灵活且易于使用的编程语言，其循环实现方式独具一格，本文将深入探讨Ruby语言的循环结构，包括while循环、until循环、for循环、以及使用each方法的迭代器，帮助读者更好地理解循环在Ruby中的应用。一、循环的基本概念在开始讨
C++重要类型：string类不是吧啊喂 C++c++开发语言蓝桥杯
目录前言一、头文件二、定义与赋值1、定义一个空的string对象。2、用一个字符串常量初始化string对象。3、通过复制另一个string对象来初始化。三、访问字符四、内置函数前言在C++中，string类是标准库的一部分，用于处理字符串。它提供了一种更方便、更安全的方式来操作文本数据，相比于C风格的字符串（以char*和一组相关的函数来处理）有很多优势。一、头文件在使用string作为变量类型
HCIA笔记7 小白咋了笔记网络智能路由器
VLAN（一）VLAN相关介绍（1）LAN——局域网WAN——广域网WLAN——无线局域网VLAN——虚拟局域网（2）VLAN：交换机和路由器协同工作后，将原先的一个广播域，逻辑上切分为多个虚拟的广播域。（3）VID——vlanID——用来区分和标定不同的vlan编号=12位二进制构成范围0-40950和4095作为保留值可用范围1-4094（1）基于端口的vlan将vid配置映射到交换机的接口，
告别重启！Vue CLI 动态代理配置实战：实现热更新与灵活配置前端
在前端开发中，代理配置是解决跨域问题的常见手段。尤其是在使用VueCLI进行开发时，我们经常需要通过devServer.proxy来配置代理。然而，传统的代理配置通常是静态的，修改后需要重启开发服务器，这在频繁调整代理配置的场景下显得非常不便。本文将介绍一种动态代理配置的解决方案，通过监听配置文件的变化，实现代理配置的热更新，无需重启开发服务器。同时，我们将代理配置从JSON文件改为JavaScr
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa