2401_84185145

最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml import Pipeline


### 创建 SparkSession 对象


Spark 2.0 以上版本的 spark-shell 在启动时会自动创建一个名为 spark 的 SparkSession 对象。


当需要手工创建时, SparkSession 可以由其伴生对象的 builder 方法创建出来。

spark = SparkSession.builder.master(“local[*]”).appName(“spark”).getOrCreate()


### 使用 Spark 构建 DataFrame 数据 (Optional)


当数据量较小时, 可以使用该方法手工构建 DataFrame 数据。


构建数据行 Row (以前 3 行为例):

Row(Date=“2015-12-31”, Code=“'000422”, Open=“7.93”, High=“7.95”, Low=“7.76”, Close=“7.77”, Pre_Close=“7.93”, Change=“-0.020177”, Turnover_Rate=“0.015498”, Volume=“13915200”, MA5=“7.86”, MA10=“7.85”)
ROW(Date=“2015-12-30”, Code=“'000422”, Open=“7.86”, High=“7.93”, Low=“7.75”, Close=“7.93”, Pre_Close=“7.84”, Change=“0.011480”, Turnover_Rate=“0.018662”, Volume=“16755900”, MA5=“7.90”, MA10=“7.85”)
Row(Date=“2015-12-29”, Code=“'000422”, Open=“7.72”, High=“7.85”, Low=“7.69”, Close=“7.84”, Pre_Close=“7.71”, Change=“0.016861”, Turnover_Rate=“0.015886”, Volume=“14263800”, MA5=“7.90”, MA10=“7.81”)


将构建好的数据行 Row 加入列表 (以前 3 行为例):

Data_Rows = [
Row(Date=“2015-12-31”, Code=“'000422”, Open=“7.93”, High=“7.95”, Low=“7.76”, Close=“7.77”, Pre_Close=“7.93”, Change=“-0.020177”, Turnover_Rate=“0.015498”, Volume=“13915200”, MA5=“7.86”, MA10=“7.85”),
ROW(Date=“2015-12-30”, Code=“'000422”, Open=“7.86”, High=“7.93”, Low=“7.75”, Close=“7.93”, Pre_Close=“7.84”, Change=“0.011480”, Turnover_Rate=“0.018662”, Volume=“16755900”, MA5=“7.90”, MA10=“7.85”),
Row(Date=“2015-12-29”, Code=“'000422”, Open=“7.72”, High=“7.85”, Low=“7.69”, Close=“7.84”, Pre_Close=“7.71”, Change=“0.016861”, Turnover_Rate=“0.015886”, Volume=“14263800”, MA5=“7.90”, MA10=“7.81”)
]


生成 DataFrame 数据框 (以前 3 行为例):

SDF = spark.createDataFrame(Data_Rows)


输出 DataFrame 数据框 (以前 3 行为例):

print(“[Message] Builded Spark DataFrame:”)
SDF.show()


输出:

±---------±------±—±—±—±----±--------±--------±------------±---------±—±—+
| Date| Code|Open|High| Low|Close|Pre_Close| Change|Turnover_Rate| Volume| MA5|MA10|
±---------±------±—±—±—±----±--------±--------±------------±---------±—±—+
|2015-12-31|'000422|7.93|7.95|7.76| 7.77| 7.93|-0.020177| 0.015498| 1.39152E7|7.86|7.85|
|2015-12-30|'000422|7.86|7.93|7.75| 7.93| 7.84| 0.01148| 0.018662| 1.67559E7|7.90|7.85|
|2015-12-29|'000422|7.72|7.85|7.69| 7.84| 7.71| 0.016861| 0.015886| 1.42638E7|7.90|7.81|
±---------±------±—±—±—±----±--------±--------±------------±---------±—±—+


### 使用 Spark 读取 CSV 数据


调用 SparkSession 的 .read 方法读取 CSV 数据:


其中 .option 是读取文件时的选项, 左边是 “键(Key)”, 右边是 “值(Value)”, 例如 .option(“header”, “true”) 与 {header = “true”} 类同。

SDF = spark.read.option(“header”, “true”).option(“encoding”, “utf-8”).csv(“file:///D:\HBYH_000422_20150806_20151231.csv”)


输出 DataFrame 数据框:

print(“[Message] Readed CSV File: D:\HBYH_000422_20150806_20151231.csv”)
SDF.show()


输出:

[Message] Readed CSV File: D:\HBYH_000422_20150806_20151231.csv
±---------±------±—±—±—±----±--------±--------±------------±-------±—±—+
| Date| Code|Open|High| Low|Close|Pre_Close| Change|Turnover_Rate| Volume| MA5|MA10|
±---------±------±—±—±—±----±--------±--------±------------±-------±—±—+
|2015-12-31|'000422|7.93|7.95|7.76| 7.77| 7.93|-0.020177| 0.015498|13915200|7.86|7.85|
|2015-12-30|'000422|7.86|7.93|7.75| 7.93| 7.84| 0.011480| 0.018662|16755900|7.90|7.85|
|2015-12-29|'000422|7.72|7.85|7.69| 7.84| 7.71| 0.016861| 0.015886|14263800|7.90|7.81|
|2015-12-28|'000422|8.03|8.08|7.70| 7.71| 8.03|-0.039851| 0.030821|27672800|7.91|7.78|
|2015-12-25|'000422|8.03|8.05|7.93| 8.03| 7.99| 0.005006| 0.021132|18974000|7.93|7.78|
|2015-12-24|'000422|7.93|8.16|7.87| 7.99| 7.92| 0.008838| 0.026487|23781900|7.85|7.72|
|2015-12-23|'000422|7.97|8.11|7.88| 7.92| 7.89| 0.003802| 0.042360|38033600|7.80|7.69|
|2015-12-22|'000422|7.86|7.93|7.76| 7.89| 7.83| 0.007663| 0.026929|24178700|7.73|7.68|
|2015-12-21|'000422|7.59|7.89|7.56| 7.83| 7.63| 0.026212| 0.030777|27633600|7.66|7.67|
|2015-12-18|'000422|7.71|7.74|7.57| 7.63| 7.74|-0.014212| 0.024764|22234900|7.62|7.71|
|2015-12-17|'000422|7.58|7.75|7.57| 7.74| 7.55| 0.025166| 0.028054|25188400|7.59|7.77|
|2015-12-16|'000422|7.57|7.62|7.53| 7.55| 7.55| 0.000000| 0.020718|18601600|7.58|7.79|
|2015-12-15|'000422|7.63|7.66|7.52| 7.55| 7.62|-0.009186| 0.025902|23256600|7.64|7.78|
|2015-12-14|'000422|7.40|7.64|7.36| 7.62| 7.51| 0.014647| 0.021005|18860100|7.68|7.76|
|2015-12-11|'000422|7.65|7.70|7.41| 7.51| 7.67|-0.020860| 0.020477|18385900|7.80|7.73|
|2015-12-10|'000422|7.78|7.87|7.65| 7.67| 7.83|-0.020434| 0.019972|17931900|7.95|7.69|
|2015-12-09|'000422|7.76|8.00|7.75| 7.83| 7.77| 0.007722| 0.025137|22569700|8.00|7.68|
|2015-12-08|'000422|8.08|8.18|7.76| 7.77| 8.24|-0.057039| 0.036696|32948200|7.92|7.66|
|2015-12-07|'000422|8.12|8.39|7.94| 8.24| 8.23| 0.001215| 0.064590|57993100|7.84|7.64|
|2015-12-04|'000422|7.85|8.48|7.80| 8.23| 7.92| 0.039141| 0.100106|89881900|7.65|7.58|
±---------±------±—±—±—±----±--------±--------±------------±-------±—±—+
only showing top 20 rows


### 转换 Spark 中 DateFrame 各列数据类型


通常情况下, 为了避免计算出现数据类型的错误, 都需要重新转换一下数据类型。

转换 Spark 中 DateFrame 数据类型。

SDF = SDF.withColumn(“Date”, col(“Date”).cast(DateType()))
SDF = SDF.withColumn(“Open”, col(“Open”).cast(DoubleType()))
SDF = SDF.withColumn(“High”, col(“High”).cast(DoubleType()))
SDF = SDF.withColumn(“Low”, col(“Low”).cast(DoubleType()))
SDF = SDF.withColumn(“Close”, col(“Close”).cast(DoubleType()))
SDF = SDF.withColumn(“Pre_Close”, col(“Pre_Close”).cast(DoubleType()))
SDF = SDF.withColumn(“Change”, col(“Change”).cast(DoubleType()))
SDF = SDF.withColumn(“Turnover_Rate”, col(“Turnover_Rate”).cast(DoubleType()))
SDF = SDF.withColumn(“Volume”, col(“Volume”).cast(IntegerType()))
SDF = SDF.withColumn(“MA5”, col(“MA5”).cast(DoubleType()))
SDF = SDF.withColumn(“MA10”, col(“MA10”).cast(DoubleType()))

输出 Spark 中 DataFrame 字段和数据类型。

print(“[Message] Changed Spark DataFrame Data Type:”)
SDF.printSchema()


输出:


### 将 Spark 的 DateFrame 和 Spark RDD 互相转换并计算数据


**编写 “向 spark.sql 的 Row 对象添加字段和字段值” 函数**:

def MapFunc_SparkSQL_Row_Add_Field(SrcRow:pyspark.sql.types.Row, FldName:str, FldVal:object) -> pyspark.sql.types.Row:

"""

[Require] import pyspark

[Example] >>> SrcRow = Row(Date=datetime.date(2023, 12, 1), Clerk=‘Bob’, Incom=5432.10)

NewRow = MapFunc_SparkSQL_Row_Add_Field(SrcRow=SrcRow, FldName=‘Weekday’, FldVal=SrcRow[‘Date’].weekday())
print(NewRow)
Row(Date=datetime.date(2023, 12, 1), Clerk=‘Bob’, Incom=5432.10, Weekday=4)
“”"

# Convert Obj "pyspark.sql.types.Row" to Dict. 
# ----------------------------------------------
Row_Dict = SrcRow.asDict()

# Add a New Key in the Dictionary With the New Column Name and Value.
# ----------------------------------------------
Row_Dict[FldName] = FldVal

# Convert Dict to Obj "pyspark.sql.types.Row". 
# ----------------------------------------------
NewRow = pyspark.sql.types.Row(\*\*Row_Dict)

# ==============================================
return NewRow


**编写 “判断股票涨跌” 函数**:

def MapFunc_Stock_Judgement_Rise_or_Fall(ChgRate:float) -> int:

if (ChgRate >= 0.0): return 1
if (ChgRate <  0.0): return 0

# ==============================================
# End of Function.


**编写 “判断股票短期均线和长期均线关系” 函数**:

def MapFunc_Stock_Judgement_Short_MA_and_Long_MA_Relationship(Short_MA:float, Long_MA:float) -> int:

if (Short_MA >= Long_MA): return  1
if (Short_MA == Long_MA): return  0
if (Short_MA <= Long_MA): return -1

# ==============================================
# End of Function.


**编写 “返回星期几(中文)” 函数**:

def DtmFunc_Weekday_Return_String_CN(SrcDtm:datetime.datetime) -> str:

"""

[Require] import datetime

[Explain] Python3 中 datetime.datetime 对象的 .weekday() 方法返回的是从 0 到 6 的数字 (0 代表周一, 6 代表周日)。
“”"

Weekday_Str_Chinese:list = ["周一", "周二", "周三", "周四", "周五", "周六", "周日"]

# ==============================================
return Weekday_Str_Chinese[SrcDtm.weekday()]


**在 Spark 中将 DataFrame 转换为 Spark RDD 并调用自定义函数**:

在 Spark 中将 DataFrame 转换为 RDD。

CalcRDD = SDF.rdd

--------------------------------------------------

调用自定义函数: 提取星期索引。

CalcRDD = CalcRDD.map(lambda X: MapFunc_SparkSQL_Row_Add_Field(X, “Weekday(Idx)”, X[“Date”].weekday()))

…

调用自定义函数: 返回星期几(中文)。

CalcRDD = CalcRDD.map(lambda X: MapFunc_SparkSQL_Row_Add_Field(X, “Weekday(CN)”, DtmFunc_Weekday_Return_String_CN(X[“Date”])))

…

调用自定义函数: 判断股票涨跌。

CalcRDD = CalcRDD.map(lambda X: MapFunc_SparkSQL_Row_Add_Field(X, “Rise_Fall”, MapFunc_Stock_Judgement_Rise_or_Fall(X[“Change”])))

…

判断股票短期均线和长期均线关系。

CalcRDD = CalcRDD.map(lambda X: MapFunc_SparkSQL_Row_Add_Field(X, “MA_Relationship”, MapFunc_Stock_Judgement_Short_MA_and_Long_MA_Relationship(Short_MA=X[“MA5”], Long_MA=X[“MA10”])))

显示计算好的 RDD 前 5 行。

print(“[Message] Calculated RDD Top 5 Rows:”)
pprint.pprint(CalcRDD.take(5))


输出:

[Message] Calculated RDD Top 5 Rows:
[Row(Date=datetime.date(2015, 12, 31), Code=“'000422”, Open=7.93, High=7.95, Low=7.76, Close=7.77, Pre_Close=7.93, Change=-0.020177, Turnover_Rate=0.015498, Volume=13915200, MA5=7.86, MA10=7.85, Weekday(Idx)=3, Weekday(CN)=‘周四’, Rise_Fall=0, MA_Relationship=1),
Row(Date=datetime.date(2015, 12, 30), Code=“'000422”, Open=7.86, High=7.93, Low=7.75, Close=7.93, Pre_Close=7.84, Change=0.01148, Turnover_Rate=0.018662, Volume=16755900, MA5=7.9, MA10=7.85, Weekday(Idx)=2, Weekday(CN)=‘周三’, Rise_Fall=1, MA_Relationship=1),
Row(Date=datetime.date(2015, 12, 29), Code=“'000422”, Open=7.72, High=7.85, Low=7.69, Close=7.84, Pre_Close=7.71, Change=0.016861, Turnover_Rate=0.015886, Volume=14263800, MA5=7.9, MA10=7.81, Weekday(Idx)=1, Weekday(CN)=‘周二’, Rise_Fall=1, MA_Relationship=1),
Row(Date=datetime.date(2015, 12, 28), Code=“'000422”, Open=8.03, High=8.08, Low=7.7, Close=7.71, Pre_Close=8.03, Change=-0.039851, Turnover_Rate=0.030821, Volume=27672800, MA5=7.91, MA10=7.78, Weekday(Idx)=0, Weekday(CN)=‘周一’, Rise_Fall=0, MA_Relationship=1),
Row(Date=datetime.date(2015, 12, 25), Code=“'000422”, Open=8.03, High=8.05, Low=7.93, Close=8.03, Pre_Close=7.99, Change=0.005006, Turnover_Rate=0.021132, Volume=18974000, MA5=7.93, MA10=7.78, Weekday(Idx)=4, Weekday(CN)=‘周五’, Rise_Fall=1, MA_Relationship=1)]


**计算完成后将 Spark RDD 转换回 Spark 的 DataFrame**:

在 Spark 中将 RDD 转换为 DataFrame。

NewSDF = CalcRDD.toDF()

print(“[Message] Convert RDD to DataFrame and Filter Out Key Columns for Display:”)
NewSDF.select([“Date”, “Code”, “High”, “Low”, “Close”, “Change”, “MA5”, “MA10”, “Weekday(CN)”, “Rise_Fall”, “MA_Relationship”]).show()


输出:

[Message] Convert RDD to DataFrame and Filter Out Key Columns:
±---------±------±—±—±----±--------±—±—±----------±--------±--------------+
| Date| Code|High| Low|Close| Change| MA5|MA10|Weekday(CN)|Rise_Fall|MA_Relationship|
±---------±------±—±—±----±--------±—±—±----------±--------±--------------+
|2015-12-31|'000422|7.95|7.76| 7.77|-0.020177|7.86|7.85| 周四| 0| 1|
|2015-12-30|'000422|7.93|7.75| 7.93| 0.01148| 7.9|7.85| 周三| 1| 1|
|2015-12-29|'000422|7.85|7.69| 7.84| 0.016861| 7.9|7.81| 周二| 1| 1|
|2015-12-28|'000422|8.08| 7.7| 7.71|-0.039851|7.91|7.78| 周一| 0| 1|
|2015-12-25|'000422|8.05|7.93| 8.03| 0.005006|7.93|7.78| 周五| 1| 1|
|2015-12-24|'000422|8.16|7.87| 7.99| 0.008838|7.85|7.72| 周四| 1| 1|
|2015-12-23|'000422|8.11|7.88| 7.92| 0.003802| 7.8|7.69| 周三| 1| 1|
|2015-12-22|'000422|7.93|7.76| 7.89| 0.007663|7.73|7.68| 周二| 1| 1|
|2015-12-21|'000422|7.89|7.56| 7.83| 0.026212|7.66|7.67| 周一| 1| -1|
|2015-12-18|'000422|7.74|7.57| 7.63|-0.014212|7.62|7.71| 周五| 0| -1|
|2015-12-17|'000422|7.75|7.57| 7.74| 0.025166|7.59|7.77| 周四| 1| -1|
|2015-12-16|'000422|7.62|7.53| 7.55| 0.0|7.58|7.79| 周三| 1| -1|
|2015-12-15|'000422|7.66|7.52| 7.55|-0.009186|7.64|7.78| 周二| 0| -1|
|2015-12-14|'000422|7.64|7.36| 7.62| 0.014647|7.68|7.76| 周一| 1| -1|
|2015-12-11|'000422| 7.7|7.41| 7.51| -0.02086| 7.8|7.73| 周五| 0| 1|
|2015-12-10|'000422|7.87|7.65| 7.67|-0.020434|7.95|7.69| 周四| 0| 1|
|2015-12-09|'000422| 8.0|7.75| 7.83| 0.007722| 8.0|7.68| 周三| 1| 1|
|2015-12-08|'000422|8.18|7.76| 7.77|-0.057039|7.92|7.66| 周二| 0| 1|
|2015-12-07|'000422|8.39|7.94| 8.24| 0.001215|7.84|7.64| 周一| 1| 1|
|2015-12-04|'000422|8.48| 7.8| 8.23| 0.039141|7.65|7.58| 周五| 1| 1|
±---------±------±—±—±----±--------±—±—±----------±--------±--------------+


### 字符串索引化 (StringIndexer) 演示 (Only Demo)


StringIndexer (字符串-索引变换) 是一个估计器, 是将字符串列编码为标签索引列。索引位于 `[0, numLabels)`, 按标签频率排序, 频率最高的排 0, 依次类推, 因此最常见的标签获取索引是 0。

使用 StringIndexer 转换 Weekday(CN) 列。

MyStringIndexer = StringIndexer(inputCol=“Weekday(CN)”, outputCol=“StrIdx”)

拟合并转换数据。

IndexedSDF = MyStringIndexer.fit(NewSDF).transform(NewSDF)

筛选 Date, Weekday(Idx), Weekday(CN), StrIdx 四列, 输出 StringIndexer 效果。

print(“[Message] The Effect of StringIndexer:”)
IndexedSDF.select([“Date”, “Weekday(Idx)”, “Weekday(CN)”, “StrIdx”]).show()


输出:

[Message] The Effect of StringIndexer:
±---------±-----------±----------±-----+
| Date|Weekday(Idx)|Weekday(CN)|StrIdx|
±---------±-----------±----------±-----+
|2015-12-31| 3| 周四| 3.0|
|2015-12-30| 2| 周三| 1.0|
|2015-12-29| 1| 周二| 2.0|
|2015-12-28| 0| 周一| 0.0|
|2015-12-25| 4| 周五| 4.0|
|2015-12-24| 3| 周四| 3.0|
|2015-12-23| 2| 周三| 1.0|
|2015-12-22| 1| 周二| 2.0|
|2015-12-21| 0| 周一| 0.0|
|2015-12-18| 4| 周五| 4.0|
|2015-12-17| 3| 周四| 3.0|
|2015-12-16| 2| 周三| 1.0|
|2015-12-15| 1| 周二| 2.0|
|2015-12-14| 0| 周一| 0.0|
|2015-12-11| 4| 周五| 4.0|
|2015-12-10| 3| 周四| 3.0|
|2015-12-09| 2| 周三| 1.0|
|2015-12-08| 1| 周二| 2.0|
|2015-12-07| 0| 周一| 0.0|
|2015-12-04| 4| 周五| 4.0|
±---------±-----------±----------±-----+
only showing top 20 rows


### 提取 标签(Label)列 和 特征向量(Features)列


在创建特征向量(Features)列时, 将会用到 VectorAssembler 模块, VectorAssembler 将多个特征合并为一个特征向量。


**提取 标签(Label) 列**:

将 Rise_Fall 列复制为 Label 列。

NewSDF = NewSDF.withColumn(“Label”, col(“Rise_Fall”))


**创建 特征向量(Features) 列**:

VectorAssembler 将多个特征合并为一个特征向量。

FeaColsName:list = [“High”, “Low”, “Turnover_Rate”, “Volume”, “Weekday(Idx)”, “MA_Relationship”]
MyAssembler = VectorAssembler(inputCols=FeaColsName, outputCol=“Features”)

拟合数据 (可选, 如果在模型训练时使用 Pipeline, 则无需在此步骤拟合数据, 当然也就无法在此步骤预览数据)。

AssembledSDF = MyAssembler.transform(NewSDF)


**输出预览**:

print(“[Message] Assembled Label and Features for RandomForestClassifier:”)
AssembledSDF.select([“Date”, “Code”, “High”, “Low”, “Close”, “Change”, “MA5”, “MA10”, “Weekday(CN)”, “Rise_Fall”, “MA_Relationship”, “Label”, “Features”]).show()


预览:

[Message] Assembled for RandomForestClassifier:
±---------±------±—±—±----±--------±—±—±----------±--------±--------------±----±-------------------+
| Date| Code|High| Low|Close| Change| MA5|MA10|Weekday(CN)|Rise_Fall|MA_Relationship|Label| Features|
±---------±------±—±—±----±--------±—±—±----------±--------±--------------±----±-------------------+
|2015-12-31|'000422|7.95|7.76| 7.77|-0.020177|7.86|7.85| 周四| 0| 1| 0|[7.95,7.76,0.0154…|
|2015-12-30|'000422|7.93|7.75| 7.93| 0.01148| 7.9|7.85| 周三| 1| 1| 1|[7.93,7.75,0.0186…|
|2015-12-29|'000422|7.85|7.69| 7.84| 0.016861| 7.9|7.81| 周二| 1| 1| 1|[7.85,7.69,0.0158…|
|2015-12-28|'000422|8.08| 7.7| 7.71|-0.039851|7.91|7.78| 周一| 0| 1| 0|[8.08,7.7,0.03082…|
|2015-12-25|'000422|8.05|7.93| 8.03| 0.005006|7.93|7.78| 周五| 1| 1| 1|[8.05,7.93,0.0211…|
|2015-12-24|'000422|8.16|7.87| 7.99| 0.008838|7.85|7.72| 周四| 1| 1| 1|[8.16,7.87,0.0264…|
|2015-12-23|'000422|8.11|7.88| 7.92| 0.003802| 7.8|7.69| 周三| 1| 1| 1|[8.11,7.88,0.0423…|
|2015-12-22|'000422|7.93|7.76| 7.89| 0.007663|7.73|7.68| 周二| 1| 1| 1|[7.93,7.76,0.0269…|
|2015-12-21|'000422|7.89|7.56| 7.83| 0.026212|7.66|7.67| 周一| 1| -1| 1|[7.89,7.56,0.0307…|
|2015-12-18|'000422|7.74|7.57| 7.63|-0.014212|7.62|7.71| 周五| 0| -1| 0|[7.74,7.57,0.0247…|
|2015-12-17|'000422|7.75|7.57| 7.74| 0.025166|7.59|7.77| 周四| 1| -1| 1|[7.75,7.57,0.0280…|
|2015-12-16|'000422|7.62|7.53| 7.55| 0.0|7.58|7.79| 周三| 1| -1| 1|[7.62,7.53,0.0207…|
|2015-12-15|'000422|7.66|7.52| 7.55|-0.009186|7.64|7.78| 周二| 0| -1| 0|[7.66,7.52,0.0259…|
|2015-12-14|'000422|7.64|7.36| 7.62| 0.014647|7.68|7.76| 周一| 1| -1| 1|[7.64,7.36,0.0210…|
|2015-12-11|'000422| 7.7|7.41| 7.51| -0.02086| 7.8|7.73| 周五| 0| 1| 0|[7.7,7.41,0.02047…|
|2015-12-10|'000422|7.87|7.65| 7.67|-0.020434|7.95|7.69| 周四| 0| 1| 0|[7.87,7.65,0.0199…|
|2015-12-09|'000422| 8.0|7.75| 7.83| 0.007722| 8.0|7.68| 周三| 1| 1| 1|[8.0,7.75,0.02513…|
|2015-12-08|'000422|8.18|7.76| 7.77|-0.057039|7.92|7.66| 周二| 0| 1| 0|[8.18,7.76,0.0366…|
|2015-12-07|'000422|8.39|7.94| 8.24| 0.001215|7.84|7.64| 周一| 1| 1| 1|[8.39,7.94,0.0645…|
|2015-12-04|'000422|8.48| 7.8| 8.23| 0.039141|7.65|7.58| 周五| 1| 1| 1|[8.48,7.8,0.10010…|
±---------±------±—±—±----±--------±—±—±----------±--------±--------------±----±-------------------+
only showing top 20 rows


### 训练 随机森林分类器(RandomForestClassifier) 模型


**将数据集划分为 “训练集” 和 “测试集”**:

(TrainingData, TestData) = AssembledSDF.randomSplit([0.8, 0.2], seed=42)


**创建 随机森林分类器(RandomForestClassifier)**:

RFC = RandomForestClassifier(labelCol=“Label”, featuresCol=“Features”, numTrees=10)


**创建 Pipeline (可选)**:

创建 Pipeline, 将特征向量转换和随机森林模型组合在一起

注意: 如果要使用 Pipeline, 则在创建特征向量(Features)列的时候不需要拟合数据, 否则会报 “Output column Features already exists.” 的错误。

MyPipeline = Pipeline(stages=[MyAssembler, RFC])


**训练 随机森林分类器(RandomForestClassifier) 模型**:


如果在创建 特征向量(Features)列 的时候已经拟合数据:

训练模型 (普通模式)。

Model = RFC.fit(TrainingData)


如果在创建 特征向量(Features)列 的时候没有拟合数据:

训练模型 (Pipeline 模式)。

Model = MyPipeline.fit(TrainingData)


### 使用 随机森林分类器(RandomForestClassifier) 模型预测数据

在测试集上进行预测。

Predictions = Model.transform(TestData)

删除不需要的列 (以免列数太多, 结果显示拥挤, 不好观察)。

Predictions = Predictions.drop(“Open”)
Predictions = Predictions.drop(“High”)
Predictions = Predictions.drop(“Low”)
Predictions = Predictions.drop(“Close”)
Predictions = Predictions.drop(“Pre_Close”)
Predictions = Predictions.drop(“Turnover_Rate”)
Predictions = Predictions.drop(“Volume”)
Predictions = Predictions.drop(“Weekday(Idx)”)
Predictions = Predictions.drop(“Weekday(CN)”)

print(“[Message] Prediction Results on The Test Data Set for RandomForestClassifier:”)
Predictions.show()


输出:

[Message] Prediction Results on The Test Data Set for RandomForestClassifier:
±---------±------±--------±—±—±--------±--------------±----±-------------------±-------------------±-------------------±---------+
| Date| Code| Change| MA5|MA10|Rise_Fall|MA_Relationship|Label| Features| rawPrediction| probability|prediction|
±---------±------±--------±—±—±--------±--------------±----±-------------------±-------------------±-------------------±---------+
|2015-08-10|'000422| 0.034105| 8.2|7.92| 1| 1| 1|[8.58,8.18,0.0412…|[3.83333333333333…|[0.38333333333333…| 1.0|
|2015-08-14|'000422| 0.009479|8.43|8.24| 1| 1| 1|[8.65,8.43,0.0411…|[6.33333333333333…|[0.63333333333333…| 0.0|
|2015-08-18|'000422|-0.095455|8.39|8.32| 0| 1| 0|[8.86,7.92,0.0561…|[4.83333333333333…|[0.48333333333333…| 1.0|
|2015-08-25|'000422|-0.099424|7.52|7.96| 0| -1| 0|[6.77,6.25,0.0294…|[1.24468211527035…|[0.12446821152703…| 1.0|
|2015-09-02|'000422|-0.053412|6.73|6.91| 0| -1| 0|[6.88,6.3,0.02228…|[2.39316696375519…|[0.23931669637551…| 1.0|
|2015-09-10|'000422|-0.031161|6.76|6.74| 0| 1| 0|[7.01,6.76,0.0174…|[2.40476190476190…|[0.24047619047619…| 1.0|
|2015-09-18|'000422| 0.0|6.39|6.62| 1| -1| 1|[6.58,6.3,0.01662…|[4.22700534759358…|[0.42270053475935…| 1.0|
|2015-09-28|'000422| 0.009464|6.48|6.47| 1| 1| 1|[6.42,6.25,0.0088…|[3.83333333333333…|[0.38333333333333…| 1.0|
|2015-10-19|'000422|-0.007062|6.94|6.72| 0| 1| 0|[7.13,6.92,0.0312…|[1.44220779220779…|[0.14422077922077…| 1.0|
|2015-10-20|'000422| 0.008535|6.98|6.81| 1| 1| 1|[7.09,6.94,0.0244…|[2.59069264069264…|[0.25906926406926…| 1.0|
|2015-10-21|'000422|-0.062059|6.96|6.85| 0| 1| 0|[7.11,6.61,0.0393…|[3.42857142857142…|[0.34285714285714…| 1.0|
|2015-10-23|'000422| 0.054412|6.95|6.93| 1| 1| 1|[7.22,6.81,0.0471…|[2.47857142857142…|[0.24785714285714…| 1.0|
|2015-10-27|'000422| 0.033426|7.04|7.01| 1| 1| 1|[7.48,7.08,0.0576…|[2.81190476190476…|[0.28119047619047…| 1.0|
|2015-11-02|'000422|-0.027548|7.23| 7.1| 0| 1| 0|[7.26,7.05,0.0168…|[1.62402597402597…|[0.16240259740259…| 1.0|
|2015-11-11|'000422| 0.005284|7.54|7.37| 1| 1| 1|[7.64,7.52,0.0261…|[3.29902597402597…|[0.32990259740259…| 1.0|
|2015-11-20|'000422| 0.002635|7.52|7.53| 1| -1| 1|[7.71,7.53,0.0282…|[5.74068627450980…|[0.57406862745098…| 0.0|
|2015-12-02|'000422| 0.009511|7.37|7.49| 1| -1| 1|[7.48,7.2,0.01596…|[7.54901960784313…|[0.75490196078431…| 0.0|
±---------±------±--------±—±—±--------±--------------±----±-------------------±-------------------±-------------------±---------+


### 使用 BinaryClassificationEvaluator 评估模型性能

使用 BinaryClassificationEvaluator 评估模型性能。

MyEvaluator = BinaryClassificationEvaluator(labelCol=“Label”, metricName=“areaUnderROC”)
auc = MyEvaluator.evaluate(Predictions)

print(“Area Under ROC (AUC):”, auc)


输出:

Area Under ROC (AUC): 0.15714285714285714


### 完整代码

#!/usr/bin/python3

Create By GF 2024-01-07

在这个例子中, 我们使用 VectorAssembler 将多个特征列合并为一个特征向量, 并使用 RandomForestClassifier 构建随机森林模型。

最后, 我们使用 BinaryClassificationEvaluator 评估模型性能, 通常使用 ROC 曲线下面积 (AUC) 作为评估指标。

请根据你的实际数据和问题调整特征列, 标签列以及其他参数。在实际应用中, 你可能需要进行更多的特征工程, 调参和模型评估。

import datetime
import pprint

--------------------------------------------------

import pyspark

--------------------------------------------------

from pyspark.sql import Row, SparkSession
from pyspark.sql.functions import col
from pyspark.sql.types import DateType, IntegerType, DoubleType

--------------------------------------------------

from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml import Pipeline

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

from pyspark.sql.types import DateType, IntegerType, DoubleType

--------------------------------------------------

[外链图片转存中…(img-KE2uJaMJ-1715808496685)]
[外链图片转存中…(img-R9SElBOi-1715808496685)]

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

你可能感兴趣的:(大数据,面试,学习)

xmind使用教程神秘剑客_CN xmind xmind
xmind使用教程前言xmind版本信息“xmind使用教程”的xmind思维导图前言首先xmind是什么？XMind是一款思维导图和头脑风暴工具，用于帮助用户组织和可视化思维、创意和信息。它允许用户通过图形化的方式来创建、整理和分享思维导图，可以用于项目管理、学习笔记、计划制定等。XMind提供了多种不同的模板和布局，帮助用户清晰地展示复杂的想法和关系。之前一直对这种类似的思维导图的软件不太感兴
零信任赋予安全牙齿，AI促使它更锋利零信任Enlink_Young 零信任网络安全 AI ai 网络安全
距离上次写关于安全的文字已经过去了很久很久，久到上次看到的AI还停留在TTS、ASR等最初的语音交互+搜索类似的各种智能音箱以及通过关键字匹配的基于知识库的聊天的机器人。之后的几年各种视觉识别遍地开花，AI四小龙在人脸识别上成熟应用，再然后到大热的机器学习、深度学习，对于AI一直都有关注，但商业价值均没有得到有效发挥，大部分都停在科研和实验室阶段。19年ChatGPT横空处世，直到ChatGPT通
12.言语理解与表达-中心理解题-特殊问法上岸学堂行测百日上岸计划行测小白到上岸 -言语理解与表达服务器 linux java 数据库经验分享学习 python
中心理解题-特殊问法中心理解题除了常规的"这段文字主要说明了什么"、"这段文字主要讨论了什么"等问法外，还有一些特殊的问法形式。本节我们来学习这些特殊问法的解题技巧。一、特殊问法类型1.目的类问题常见问法:“文中举XX例子是为了说明什么”“这段文字主要用来说明/反驳/论证什么”“研究人员最主要的实验目的是”解题技巧:抓住文段论证的核心观点分析例子与观点之间的关系选项要与文段主旨保持一致2.问题类问
3大绝招：.NET Core gRPC 拦截器如何让你的服务通信更智能？墨瑾轩 C#乐园 .netcore java 服务器
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要聊聊一个让服务通信变得更聪明、更安全的法宝——gRPC拦截器。想象一下，如果你能像电影里的超级英雄那样，在每一次请求和响应之间施展魔法，那会是什么样的体验？没错，通过.NETCore中的gRPC拦截器，我们真的可以做到这一点！那么，问题
DeepSeek- R1 原理介绍 kcarly 大模型知识乱炖杂谈 DeepSeek R1 原理介绍
DeepSeek-R1是由DeepSeek公司推出的一款基于强化学习（RL）的开源推理模型，其核心原理和特点如下：1.核心技术与架构强化学习驱动：DeepSeek-R1是首个完全通过强化学习训练的大型语言模型，无需依赖监督微调（SFT）或人工标注数据。它采用组相对策略优化（GRPO）算法，通过奖励机制和规则引导模型生成结构化思维链（CoT），从而提升推理能力。多阶段训练流程：模型采用冷启动阶段、强
2024年最全Doris：读取Doris数据的N种方法_访问 doris，阿里大牛教你自己写大数据开发第三方库 2401_84181108 程序员大数据
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！arrow-memory-netty${arrow.v
leetcode字节面试高频题思路总结（二叉树专栏） hust_yrh leetcode 算法面试二叉树
leetcode刷题，一个好的思路很重要，刷leetcode不如就只看好的解题思路，记下来关键思路然后面试的时候就会容易很多。自己的算法思路可能就会有很多冗余代码，跟好的算法思路比起来差距很大，并且看了很多题解就不会出现有没有一点思路的情况。举例：顺时针打印数组，寻找重复数lc287，k个一组翻转链表。(乱序)顺时针打印：先第一行，然后消去，再最后一列，然后消去，最下一行，然后消去…287：给定一
python实例化类的存储内存地址_【JVM之内存与垃圾回收篇】对象实例化内存布局与访问定位... 学姐吖
对象实例化内存布局与访问定位从各自具体的内存分配上来讲new的对象放在堆中对象所属的类型信息是放在方法区的方法当中的局部变量放在栈空间这new的对象怎么把三块粘合到一起就是这章的内容了对象实例化面试题美团：对象在JVM中是怎么存储的？对象头信息里面有哪些东西？蚂蚁金服：二面Java对象头有什么？从对象创建的方式和步骤开始说对象创建方式new：最常见的方式，单例类中调用getInstance的静态类
PyTorch动态计算图:如何灵活构建复杂模型 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PyTorch动态计算图:如何灵活构建复杂模型关键词：PyTorch、动态计算图、自动微分、反向传播、神经网络、模型构建、计算图优化文章目录PyTorch动态计算图:如何灵活构建复杂模型1.背景介绍1.1深度学习框架的发展1.2静态图与动态图的对比1.3PyTorch的崛起及其优势2.核心概念与联系2.1PyTorch中的张量(Tensor)2.2自动微分(Autograd)机制2.3动态计算图的
深度学习框架PyTorch原理与实践 AI天才研究院 AI实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.简介2.背景介绍3.基本概念和术语3.1PyTorch简介3.2PyTorch的特点1）自动求导机制2）GPU加速3）模型部署4）数据管道5）代码阅读友好4.核心算法原理4.1神经网络结构4.2神经网络层4.3激活函数5.实际案例——MNIST手写数字识别数据准备模型定义训练测试整体代码1.简介Deeplearning(DL)hasbeenanincreas
Databricks 开源 LLM，训练只需三个小时唐城 AI-毕业设计全套 spring log4j postgresql 数据库 java
大数据分析公司DatabricksInc近日也加入了生成式AI领域的竞争之中，发布了一个名为Dolly的开源大型语言模型，将模型命名为Dolly是为了向第一只克隆羊多莉致敬。像ChatGPT和Bard这样的生成式AI，它们使用的数据通常来自于在成千上万不同网站，使用的数据量十分惊人，而且想要使用这些数据训练AI还需要数以千计的强大GPU在背后提供支持。Databricks希望通过开源Dolly及其
Paddle进阶实战系列（三）：基于SVTR算法的手写英文单词识别 GoAI 深入浅出OCR 深入浅出AI 计算机视觉 OCR paddle 深度学习人工智能
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️链接加群。专栏推荐：➡️
Python第三阶段学习 Django day08 MetalTrader Tude-Py django python
《DjangoWeb框架教学笔记》目录文章目录《DjangoWeb框架教学笔记》目录文件上传Django中的用户认证(使用Django认证系统)auth基本模型操作:auth扩展字段电子邮件发送项目部署uWSGI网关接口配置(ubuntu18.04配置)nginx及反向代理配置nginx配置静态文件路径404/500界面邮件告警文件上传文件上传必须为POST提交方式表单中文件上传时必须有带有enc
MySQL学习Day26——事务基础知识糖JL是我儿 MySQL学习 mysql 学习数据库
一、数据库事务概述:事务是数据库区别于文件系统的重要特性之一，事务会让数据始终保持一致性，能通过事务机制恢复到某个时间点，可以保证提交到数据库的修改不会因为系统崩溃而丢失1.查看引擎支持事务的情况:只有InnoDB存储引擎支持事务SHOWENGINES;2.基本概念:事务:一组逻辑操作单元，使数据从一种状态变换到另一种状态事务处理的原则:保证所有事务都作为一个工作单元来执行，即使出现了故障，都不能
【笔记】架构上篇Day9b 六张图，带你回顾架构师的六条生存法则 gikod 系统架构笔记架构
六张图，带你回顾架构师的六条生存法则简介：包含模块一架构师的六大生存法则-模块小结：这些生存法则的逻辑是什么？&六张图，带你回顾架构师的六条生存法则2024-08-2922:40:12你好，我是辰洋，是《郭东白的架构课》的负责人。这是我们在这个专栏的第一次正式会面，你可能会觉得与我有些陌生。不过从我的眼光来看，对于专栏里的每一行字、每一个案例，对于在认真学习、留言打卡的你，我都太熟悉了。好了，感性
Hadoop3.2.1安装-单机模式和伪分布式模式花菜回锅肉大数据 hadoop hdfs 大数据 linux
Hadoop入门篇概述Hadoop是使用Java编写的，是为了解决大数据场景下的两大问题，分布式存储和分布式处理而诞生的，包含很多组件、套件。需要运行在Linux系统下。主要包括HDFS和MapReduce两个组件。下载安装下载下载地址https://archive.apache.org/dist/hadoop/common/选择合适自己的tar.gz版本下载,该文档选择V3.2.1。Hadoop
Spark3.1.2单机安装部署花菜回锅肉大数据 spark 大数据 hadoop
spark3.1.2单机安装部署概述Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析，而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种：复杂的批量数据处理基于历史数据的交
【JVM学习】对象实例化内存布局与访问定位 Kaiz‘s Blog JVM jvm java 编程语言
文章目录一、对象实例化1.1对象创建方式1.2创建对象的步骤（1）判断对象对应的类是否加载、链接、初始化（2）为对象分配内存（3）处理并发问题（4）初始化分配到的内存（5）设置对象的对象头（6）执行init方法进行初始化二、对象内存布局（1）对象头三、对象的访问定位3.1对象访问的两种方式（1）句柄访问（2）直接指针（HotSpot采用）一、对象实例化1.1对象创建方式new：常见的使用new关键
R语言环境下载和RStudio安装教程 CyberXZ r语言开发语言 R语言
R语言环境下载和RStudio安装教程R语言是一种广泛应用于统计计算和数据分析的编程语言。它提供了丰富的统计和图形功能，被广泛用于数据科学、机器学习和数据可视化等领域。本教程将向您介绍如何下载和安装R语言环境以及RStudio集成开发环境。步骤1：下载R语言环境首先，您需要下载R语言环境。请按照以下步骤进行操作：在您的Web浏览器中打开R官方网站（https://www.r-project.org
每日 Java 面试题分享【第 16 天】一只蜘猪【2025最新版】Java 基础面试题 java 开发语言面试
欢迎来到每日Java面试题分享栏目！订阅专栏，不错过每一天的练习今日分享3道面试题目！评论区复述一遍印象更深刻噢~目录问题一：Java运行时异常和编译时异常之间的区别是什么？问题二：什么是Java中的继承机制？问题三：什么是Java的封装特性？问题：Java运行时异常和编译时异常之间的区别是什么？面试官考察点异常分类理解：对Java异常体系（Throwable、Error、Exception、Ru
每日 Java 面试题分享【第 20 天】一只蜘猪【2025最新版】Java 基础面试题 java 开发语言面试 IO
欢迎来到每日Java面试题分享栏目！订阅专栏，不错过每一天的练习今日分享3道面试题目！评论区复述一遍印象更深刻噢~目录问题一：什么是BIO、NIO、AIO？问题二：什么是Channel？问题三：什么是Selector？问题一：什么是BIO、NIO、AIO？面试官视角拆解：这个问题考察对JavaI/O模型的体系化理解，以及不同场景下的技术选型能力。回答要体现三个层次：基础概念对比（核心特征+工作机制
自动驾驶系列—深度剖析自动驾驶芯片SoC架构：选型指南与应用实战学步_技术自动驾驶自动驾驶架构人工智能 SoC 芯片
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
HTML+CSS面试题 KangJinXuan html css chrome
1.XHTML和HTML有什么区别HTML是一种基本的WEB网页设计语言，XHTML是一个基于XMl的置标语言最主要的不同XHTML元素必须被正确地嵌套。XHTML元素必须被关闭标签名必须用小写字母XHTMl文档必须拥有根元素2.什么是语义化的HTML？直观的认识标签对于搜索引擎的抓取有好处，用正确的标签做正确的事情！HTML语义化就是让页面的内容结构化，便于对浏览器，搜索引擎解析；在没有样式cs
Python进阶——项目构建、Python 项目结构。只存在于虚拟的King python 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、模块二、模块搜索路径三、导入模块四种方法四、包五、发布模块1.创建setup.py2.构建模块3.生成发布压缩包六、发布模块1.创建setup.py2.构建模块3.生成发布压缩包六、项目结构关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python
设计模式学习(二) linwq8 设计模式学习 java
结构型适配器模式定义它允许将一个类的接口转换成客户端期望的另一个接口。适配器模式通常用于使不兼容的接口能够一起工作。适配器模式的角色目标接口（Target）：客户端期望的接口。适配者（Adaptee）：需要被适配的类或接口。适配器（Adapter）：将适配者的接口转换成目标接口的类。//目标接口interfacePrinter{voidprint();}//适配者类classLegacyPrint
13款Scratch游戏源码：学习与实践芦苇毛
本文还有配套的精品资源，点击获取简介：Scratch是MIT开发的图形化编程工具，帮助儿童通过拖拽积木式的编程块来创建各种项目，如互动故事、动画和游戏。本压缩包含13款适合初学者，特别是小朋友的游戏源代码。通过学习和分析这些源码，孩子们可以在实践中掌握编程基础，提高逻辑思维能力。游戏包括贪吃蛇、大鱼吃小鱼、打砖块、走迷宫、格斗游戏和飞机大战等经典游戏，涵盖了运动控制、碰撞检测、分数计算、对象创建与
DeepSeek R1 AI 论文翻译老马啸西风 java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
Zynq UltraScale+ MPSoC 在linux系统运行R5 裸机程序 remoteproc - R5 愧莫佳话 linux arm
参考文章：ultrascale学习笔记之remoteproc启动R5ZYNQUltraScale+MPSoCLinux+ThreadXAMP玩法ZynqUltraScale+MPSoC包含Cortex™-A53处理器和Cortex™-R5实时处理单元。移植完Linux系统，在系统上同时运行A53和R5应用程序，重点是修改R5程序的起始地址。vitis创建A53应用程序可以参考之前的文章R5程序可以
构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统由数入道分布式强化学习智能体
1.问题背景与建模：从自治调度到POMDP1.1自治调度问题与多智能体环境在实际应用中（例如生产调度、资源分配等），多个自治决策单元（智能体）需要在一个共享的环境中协同工作，每个智能体只能获取局部信息（例如自身状态或部分环境观测），但它们的行为会相互影响。传统的单智能体强化学习（RL）模型难以直接适用于这种场景，因此需要多智能体强化学习（MARL）的方法。1.2将问题转化为部分可观测马尔可夫决策过
学习笔记-UE4创建地形以及混合地形材质 y18679399101 ue4 学习材质
做前须知使用版本为4.26.2切为中文版一，创建地形1.选择‘模式’下的‘地形’，设置好你想要的参数，点击‘创建’2.‘世界大纲视图’里选择你创建好的地形，选择‘材质’赋予给‘地形’下的‘地形材质’（记得退出地形模式）二，混合地形材质1.准备你的‘纹理贴图’3.右键新建一个‘材质’球，把你需要的‘纹理贴图’拖进刚刚创建的‘材质’球里，并创建一个地形混合节点（LandscapeLayerBlend）
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划

转换 Spark 中 DateFrame 数据类型。

输出 Spark 中 DataFrame 字段和数据类型。

在 Spark 中将 DataFrame 转换为 RDD。

--------------------------------------------------

调用自定义函数: 提取星期索引。

…

调用自定义函数: 返回星期几(中文)。

…

调用自定义函数: 判断股票涨跌。

…

判断股票短期均线和长期均线关系。

显示计算好的 RDD 前 5 行。

在 Spark 中将 RDD 转换为 DataFrame。

使用 StringIndexer 转换 Weekday(CN) 列。

拟合并转换数据。

筛选 Date, Weekday(Idx), Weekday(CN), StrIdx 四列, 输出 StringIndexer 效果。

将 Rise_Fall 列复制为 Label 列。

VectorAssembler 将多个特征合并为一个特征向量。

拟合数据 (可选, 如果在模型训练时使用 Pipeline, 则无需在此步骤拟合数据, 当然也就无法在此步骤预览数据)。

创建 Pipeline, 将特征向量转换和随机森林模型组合在一起

注意: 如果要使用 Pipeline, 则在创建 特征向量(Features)列 的时候不需要拟合数据, 否则会报 “Output column Features already exists.” 的错误。

训练模型 (普通模式)。

训练模型 (Pipeline 模式)。

在测试集上进行预测。

删除不需要的列 (以免列数太多, 结果显示拥挤, 不好观察)。

使用 BinaryClassificationEvaluator 评估模型性能。

Create By GF 2024-01-07

在这个例子中, 我们使用 VectorAssembler 将多个特征列合并为一个特征向量, 并使用 RandomForestClassifier 构建随机森林模型。

最后, 我们使用 BinaryClassificationEvaluator 评估模型性能, 通常使用 ROC 曲线下面积 (AUC) 作为评估指标。

请根据你的实际数据和问题调整特征列, 标签列以及其他参数。在实际应用中, 你可能需要进行更多的特征工程, 调参和模型评估。

--------------------------------------------------

--------------------------------------------------

--------------------------------------------------

--------------------------------------------------

你可能感兴趣的:(大数据,面试,学习)

注意: 如果要使用 Pipeline, 则在创建特征向量(Features)列的时候不需要拟合数据, 否则会报 “Output column Features already exists.” 的错误。