初淅沥以萧飒

Pyspark让pandas特征工程代码在集群上飞起来——天猫复购率baseline

- 环境与数据准备
- 导包
- 创建spark应用
- 第一种特征工程方式：pyspark.pandas.dataframe
- 第二种特征工程方式：pyspark.dataframe
- 第三种特征工程方式：spark-SQL
- 模型
- 吐槽
- 结语

环境与数据准备

环境：CentOS 7、Spark 3.1.2
注：Spark环境搭建借鉴黑马程序员给的资料
数据：来自阿里云天池

导包

import pandas as pd
import numpy as np
import pyspark.pandas as ps
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType, StringType
import pyspark.sql.functions as func

创建spark应用

# 以yarn模式新建spark应用，并指定driver、executor参数，压榨集群性能
spark = SparkSession.builder.appName('天猫复购率').master('yarn').config('spark.num.executors', '8').config(
    'spark.executor.memory',
    '6g').config('spark.executor.cores',
                 '1').config(
    'spark.driver.memory', '10g').config("spark.default.parallelism", 8).getOrCreate()

第一种特征工程方式：pyspark.pandas.dataframe

该方式极易上手，和pandas几乎一模一样的代码，前提是需要安装spark3版本，如果不到3版本可以跳过看第二种特征工程。

#*****************通过jdbc读取mysql表（生产环境中大多在数据库中）*****************
# 需要有mysql驱动，放到java_home\jre\lib\ext目录下，host需要修改，此处脱敏了
url = 'jdbc:mysql://192.***.***.***:3306/tiaomao_Repurchase?useSSL=false&useUnicode=true'
auth_mysql = {"user": "root", "password": "123456"}
df_train = spark.read.jdbc(url=url, table='train_format1', properties=auth_mysql)
# 转换为pyspark.pandas.dataframe方便调用pandas API 注意此处并非pandas的dataframe是两个不同的概念
df_train = df_train.pandas_api()
df_test = spark.read.jdbc(url=url, table='test_format1', properties=auth_mysql)
df_test = df_test.pandas_api()
# *****************通过hive读取*****************
# 前提是需要配置spark集成hive（当然得装好hive）
# df_test = spark.sql('select * from tiaomao_Repurchase.test_format1')
# df_test = df_test.pandas_api()
user_info = spark.read.jdbc(url=url, table='user_info_format1', properties=auth_mysql)
user_info = user_info.pandas_api()
#*****************以CSV文件读取*****************
# 读取方式1 （因为是以yarn模式运行，需要上传到hdfs，否则集群其他节点无法读取文件）借用pandasAPI进行读取
user_log = ps.read_csv('hdfs:///competiton/tiaomao/user_log_format1.csv')
# 也可将master('yarn')改为master('loacl[*]')模式读取linux本地的csv文件
# user_log = ps.read_csv('./competiton/tiaomao/user_log_format1.csv')
# 读取方式2，先读为pyspark.dataframe再转换为pyspark.pandas.dataframe
# user_log = spark.read.options(header='True', inferSchema='True', delimiter=',').csv("hdfs:///competiton/tiaomao/user_log_format1.csv")
# user_log = user_log.pandas_api()

# *****************数据探查*****************
# 以下实际跑过一次了，先注释掉，因为在没有添加spark缓存的情况下每一次print都会让spark重头运行一遍
# print(df_test.shape, df_train.shape)
# print(user_info.shape)
# print(user_log.shape)
# print(user_info.info())
# print(user_info.head(10))
# print(user_log.isnull().sum(axis=0))
# *****************特征工程*****************
# 处理空值
user_info['age_range']=user_info['age_range'].replace(0.0, -1)# 不能加inplace=True参数
user_info['gender']=user_info['gender'].replace(2.0, -1)
user_info['age_range']=user_info['age_range'].fillna(-1)
user_info['gender']=user_info['gender'].fillna(-1)

# age_range,gender特征添加
df_train = ps.merge(df_train, user_info, on="user_id", how="left")

# total_logs特征添加
total_logs_temp = user_log.groupby([user_log["user_id"], user_log["seller_id"]]).count().reset_index()[
    ["user_id", "seller_id", "item_id"]]
total_logs_temp.rename(columns={"seller_id": "merchant_id", "item_id": "total_logs"}, inplace=True)
df_train = ps.merge(df_train, total_logs_temp, on=["user_id", "merchant_id"], how="left")

# unique_item_ids特征添加
# 根据"user_id", "seller_id", "item_id"维度去重
unique_item_ids_temp = user_log.groupby([user_log["user_id"], user_log["seller_id"], user_log["item_id"]]).count().reset_index()[
    ["user_id", "seller_id", "item_id"]]
unique_item_ids_temp1 = unique_item_ids_temp.groupby(
    [unique_item_ids_temp["user_id"], unique_item_ids_temp["seller_id"]]).count().reset_index()
unique_item_ids_temp1.rename(columns={"seller_id": "merchant_id", "item_id": "unique_item_ids"}, inplace=True)
df_train = ps.merge(df_train, unique_item_ids_temp1, on=["user_id", "merchant_id"], how="left")

#categories特征构建
# 根据"user_id", "seller_id", "cat_id"维度去重
categories_temp = user_log.groupby([user_log["user_id"], user_log["seller_id"], user_log["cat_id"]]).count().reset_index()[
    ["user_id", "seller_id", "cat_id"]]
categories_temp1 = categories_temp.groupby(
    [categories_temp["user_id"], categories_temp["seller_id"]]).count().reset_index()
categories_temp1.rename(columns={"seller_id":"merchant_id","cat_id":"categories"},inplace=True)
df_train = ps.merge(df_train, categories_temp1, on=["user_id", "merchant_id"], how="left")

# browse_days特征构建
# 根据"user_id", "seller_id", "time_stamp"维度去重
browse_days_temp = user_log.groupby([user_log["user_id"], user_log["seller_id"], user_log["time_stamp"]]).count().reset_index()[
    ["user_id", "seller_id", "time_stamp"]]
browse_days_temp1 = browse_days_temp.groupby(
    [browse_days_temp["user_id"], browse_days_temp["seller_id"]]).count().reset_index()
browse_days_temp1.rename(columns={"seller_id": "merchant_id", "time_stamp": "browse_days"}, inplace=True)
df_train = ps.merge(df_train, browse_days_temp1, on=["user_id", "merchant_id"], how="left")

# one_clicks、shopping_carts、purchase_times、favourite_times特征构建
one_clicks_temp = user_log.groupby([user_log["user_id"], user_log["seller_id"], user_log["action_type"]]).count().reset_index()[
    ["user_id", "seller_id", "action_type", "item_id"]]
one_clicks_temp.rename(columns={"seller_id": "merchant_id", "item_id": "times"}, inplace=True)
one_clicks_temp["one_clicks"] = one_clicks_temp["action_type"] == 0
one_clicks_temp["one_clicks"] = one_clicks_temp["one_clicks"] * one_clicks_temp["times"]
one_clicks_temp["shopping_carts"] = one_clicks_temp["action_type"] == 1
one_clicks_temp["shopping_carts"] = one_clicks_temp["shopping_carts"] * one_clicks_temp["times"]
one_clicks_temp["purchase_times"] = one_clicks_temp["action_type"] == 2
one_clicks_temp["purchase_times"] = one_clicks_temp["purchase_times"] * one_clicks_temp["times"]
one_clicks_temp["favourite_times"] = one_clicks_temp["action_type"] == 3
one_clicks_temp["favourite_times"] = one_clicks_temp["favourite_times"] * one_clicks_temp["times"]
four_features = one_clicks_temp.groupby(
    [one_clicks_temp["user_id"], one_clicks_temp["merchant_id"]]).sum().reset_index()
four_features = four_features.drop(["action_type", "times"], axis=1)
df_train = ps.merge(df_train, four_features, on=["user_id", "merchant_id"], how="left")
df_train=df_train.to_pandas()# 最后可以直接转回pandas直接塞入模型，值得注意的是，会占用driver较大的内存，需调大driver的内存配置，如内存不够则直接入库或者csv存储

第二种特征工程方式：pyspark.dataframe

学习成本比较高，但可以更深入掌握spark，解决一些棘手的问题，并且企业中可能只有spark2用不了pyspark.pandas.dataframe

# *****************通过jdbc读取mysql表（生产环境中大多在数据库中）*****************
url = 'jdbc:mysql://192.***.***.***:3306/tiaomao_Repurchase?useSSL=false&useUnicode=true'
auth_mysql = {"user": "root", "password": "123456"}
df_train = spark.read.jdbc(url=url, table='train_format1', properties=auth_mysql)
df_test = spark.read.jdbc(url=url, table='test_format1', properties=auth_mysql)
user_info = spark.read.jdbc(url=url, table='user_info_format1', properties=auth_mysql)
# *****************以CSV文件读取*****************
user_log = spark.read.options(header='True', inferSchema='True', delimiter=',').csv(
    "hdfs:///competiton/tiaomao/user_log_format1.csv")

# 使用udf+withColumn替代pandas中的apply(lambda x:f(x))
def replace_value1(x):
    if x == 0:
        return -1
    else:
        return x
# 此处封装udf时指定数据类型
replace_UDF1 = udf(lambda z: replace_value1(z), IntegerType())

def replace_value2(x):
    if x == 2:
        return -1
    else:
        return x

replace_UDF2 = udf(lambda z: replace_value1(z), IntegerType())

user_info=user_info.withColumn("age_range", replace_UDF1(col("age_range")))
user_info=user_info.withColumn("gender", replace_UDF2(col("gender")))
user_info = user_info.fillna({'age_range': -1, 'gender': -1})
# age_range,gender特征添加
df_train = df_train.join(user_info, df_train.user_id == user_info.user_id, 'left')

# total_logs特征添加
# total_logs_temp = user_log.groupby(["user_id", "seller_id"]).agg({'user_id': 'count'}) # 这写法不好重命名列
total_logs_temp = user_log.groupby(["user_id", "seller_id"]).agg(func.count('item_id').alias('total_logs'))
total_logs_temp = total_logs_temp.withColumnRenamed('seller_id', 'merchant_id')
df_train = df_train.join(total_logs_temp, on=["user_id", "merchant_id"], how="left")

# unique_item_ids特征添加
# 根据"user_id", "seller_id", "item_id"维度去重
unique_item_ids_temp = user_log.select('user_id', 'seller_id', 'item_id').dropDuplicates()
unique_item_ids_temp1 = unique_item_ids_temp.groupby(["user_id", "seller_id"]).agg(
    func.count('item_id').alias('unique_item_ids'))
unique_item_ids_temp1 = unique_item_ids_temp1.withColumnRenamed('seller_id', 'merchant_id')
df_train = df_train.join(unique_item_ids_temp1, on=["user_id", "merchant_id"], how="left")

# categories特征构建
# 根据"user_id", "seller_id", "cat_id"维度去重
categories_temp = user_log.select('user_id', 'seller_id', 'cat_id').dropDuplicates()
categories_temp1 = categories_temp.groupby(["user_id", "seller_id"]).agg(func.count('cat_id').alias('categories'))
categories_temp1 = categories_temp1.withColumnRenamed('seller_id', 'merchant_id')
df_train = df_train.join(categories_temp1, on=["user_id", "merchant_id"], how="left")

# browse_days特征构建
# 根据"user_id", "seller_id", "time_stamp"维度去重
browse_days_temp = user_log.select('user_id', 'seller_id', 'time_stamp').dropDuplicates()
browse_days_temp1 = browse_days_temp.groupby(["user_id", "seller_id"]).agg(
    func.count('time_stamp').alias('browse_days'))
browse_days_temp1 = browse_days_temp1.withColumnRenamed('seller_id', 'merchant_id')
df_train = df_train.join(browse_days_temp1, on=["user_id", "merchant_id"], how="left")

# one_clicks、shopping_carts、purchase_times、favourite_times特征构建

one_clicks_temp = user_log.groupby(["user_id", "seller_id", "action_type"]).agg(
    func.count('item_id').alias('times'))
one_clicks_temp = one_clicks_temp.withColumnRenamed('seller_id', 'merchant_id')

def udf_func1(times, action_type, action_type_value):
    if action_type == action_type_value:
        return times
    else:
        return 0

# 此处借用rdd进行map操作，顺便熟悉一下rdd，个人感觉这个map更好记一些
one_clicks_temp_rdd = one_clicks_temp.rdd.map(lambda x: (
x['user_id'], x['merchant_id'], udf_func1(x['times'], x['action_type'], 0),
udf_func1(x['times'], x['action_type'], 1), udf_func1(x['times'], x['action_type'], 2),
udf_func1(x['times'], x['action_type'], 3)))
one_clicks_temp = spark.createDataFrame(one_clicks_temp_rdd, ['user_id', 'merchant_id','one_clicks','shopping_carts','purchase_times','favourite_times'])
# 或者还是用udf+withColumn来处理
# udf1 = udf(udf_func1, IntegerType())
# one_clicks_temp = one_clicks_temp.withColumn('action_type_value0', func.lit(0))
# one_clicks_temp = one_clicks_temp.withColumn('action_type_value1', func.lit(1))
# one_clicks_temp = one_clicks_temp.withColumn('action_type_value2', func.lit(2))
# one_clicks_temp = one_clicks_temp.withColumn('action_type_value3', func.lit(3))
#
# one_clicks_temp = one_clicks_temp.withColumn('one_clicks',udf1(col('times'), col('action_type'), col('action_type_value0')))
# one_clicks_temp = one_clicks_temp.withColumn('shopping_carts',udf1(col('times'), col('action_type'), col('action_type_value1')))
# one_clicks_temp = one_clicks_temp.withColumn('purchase_times',udf1(col('times'), col('action_type'), col('action_type_value2')))
# one_clicks_temp = one_clicks_temp.withColumn('favourite_times',udf1(col('times'), col('action_type'), col('action_type_value3')))

four_features = one_clicks_temp.groupby(["user_id", "merchant_id"]).agg(
    func.sum('one_clicks').alias('one_clicks'), func.sum('shopping_carts').alias('shopping_carts'),
    func.sum('purchase_times').alias('purchase_times'), func.sum('favourite_times').alias('favourite_times'))
df_train = df_train.join(four_features, on=["user_id", "merchant_id"], how="left")
df_train=df_train.to_pandas()

第三种特征工程方式：spark-SQL

此处没有学习的必要，因为都是些简单处理，数据量并不大，可以直接在hive/mysql里写SQL，spark-SQL反而可能会有一些语法上不支持的小缺陷，这种方式适用于一些特定的场景进行快速开发。
比如：需要多次跑同一段SQL，但每次跑的时候都会动态调整SQL语句。以及需要自定义一些udf函数，并且结合rdd算子一起使用。

模型

模型这边就没有继续往下做了，想要快速测试直接LightGBM就可以了，本篇文章的重点在于如何借用Spark计算框架快速运算特征工程，尽可能贴近企业实战。当我接触几十亿甚至几百亿数据的时候，我不希望自己是束手无策的。

吐槽

我在虚拟机搭的spark环境，本以为就算虚拟机也是并行的Spark肯定比windows 本地的pandas快，然后pandas比spark快了3倍。但是集群中的spark是真的快！！！

结语

接下来准备在window本地装一下Pyspark，据说Polars和阿里云的mars性能也不错，不过毕竟spark含金量更高一些，大多云数据库也都支持spark，比如阿里云的Maxcompute。

在入门spark的时候建议先学理论再实践，如果忽视它运行机制很容易坑里，一直报错还只是小问题，万一没有报错并且没有发现那会引发极大的问题！！！一下可能整崩好几亿的生产数据。

人生重开模拟器 -deepseek版 Cccc吃吃吃 python 开发语言
人生重开模拟器是一个有趣的文字类游戏，玩家可以通过选择不同的选项来体验不同的人生轨迹。下面是一个简单的Python实现，模拟了人生重开的过程。玩家可以通过输入数字来选择不同的选项，游戏会根据选择生成不同的人生结局。```pythonimportrandomdefprint_intro():print("欢迎来到人生重开模拟器！")print("你将重新开始你的人生，通过不同的选择体验不同的人生轨迹
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
PTA天梯赛Python7-52 古风排版胡同Alley python
中国的古人写文字，是从右向左竖向排版的。本题就请你编写程序，把一段文字按古风排版。输入格式：输入在第一行给出一个正整数N（<100），是每一列的字符数。第二行给出一个长度不超过1000的非空字符串，以回车结束。输出格式：按古风格式排版给定的字符串，每列N个字符（除了最后一列可能不足N个）。输入样例：4Thisisatestcase输出样例：asaTstihetsices代码长度限制16KB时间限制
详细介绍 Jupyter nbconvert 工具及其用法：如何将 Notebook 转换为 Python 脚本源代码杀手 python使用技巧 python jupyter ide
nbconvert是Jupyter提供的一个非常强大的工具，允许用户将JupyterNotebook文件（.ipynb）转换成多种格式，包括Python脚本（.py）、HTML、PDF、LaTeX等。你可以通过命令行来运行nbconvert，也可以在JupyterNotebook中通过一些自定义的设置来实现转换。安装nbconvert通常情况下，nbconvert会随Jupyter一起安装，因此不
python -- assert函数我不是程序员‍ python知识 python
一、assert函数在Python中，assert语句用于调试和测试代码。它用于检查某个条件是否为真。如果条件为假，assert语句会抛出一个AssertionError异常，并可以选择性地附加一条错误消息。assert语句的基本语法是：assertcondition,optional_messagecondition:一个布尔表达式。如果结果为True，程序继续执行。如果为False，会触发As
CTF杂项挑战：使用已知字典破解ZIP文件密码 0dayNu1L Web安全 CTF web安全网络安全
在CTF比赛中，杂项挑战通常包含一些非传统的题目，其中破解ZIP文件密码是一个常见的任务。本文将介绍两种在已知密码字典文件的情况下，破解ZIP文件密码的方法：一种是使用Python脚本进行暴力破解，另一种是通过zip2john和john命令结合进行破解。0dayNu1L-CSDN博客请一键三连吧！！！❤❤❤目录方法一：使用Python脚本进行暴力破解步骤方法二：使用zip2john和john命令结
文本转语音的Python库（pyttsx3）数产第一混子 python库 python
一、pyttsx3的概述pyttsx3isatext-to-speechconversionlibraryinPython.pyttsx3是Python中的文本到语音转换库。二、pyttsx3的安装pipinstallpyttsx3三、小试牛刀importpyttsx3engine=pyttsx3.init()engine.say("Iwillspeakthistextrightnow")engi
区块链赋能：用Python开发去中心化投票系统 Echo_Wish Python！实战！区块链 python 去中心化
区块链赋能：用Python开发去中心化投票系统在这个互联网迅猛发展的时代，投票系统不仅仅停留在政务领域，它已成为社区治理、企业决策甚至区块链DAO（去中心化自治组织）中重要的机制。然而，传统投票系统往往集中化，存在信任和数据安全问题。区块链技术以其不可篡改性和透明性为去中心化投票提供了理想的解决方案。在这篇文章中，我将通过Python语言，结合区块链智能合约，教你如何从零开发一个去中心化的投票系统
Python助力区块链互通——跨链桥接的实现与实践 Echo_Wish Python！实战！区块链 python 开发语言
Python助力区块链互通——跨链桥接的实现与实践区块链技术的繁荣发展带来了巨大的生态创新，但也因各链之间的割裂局面限制了它们的潜力。例如，你或许想在以太坊上使用来自比特币的资产，却因两条链不互通而不得不求助于中心化交易所。要打破“链间壁垒”，跨链桥接（Cross-chainBridge）应运而生。今天，我以Echo_Wish的视角，通过Python代码实践，带你深入了解跨链桥接的工作原理，技术实
python pyttsx3文本转语音_python 利用pyttsx3文字转语音木大木大本太 python pyttsx3文本转语音
#-*-coding:utf-8-*-importpyttsx3f=open("all.txt",'r')line=f.readline()engine=pyttsx3.init()whileline:line=f.readline()print(line,end='')engine.say(line)engine.runAndWait()f.close()importwin32com.clien
技术沙龙 | 从高并发架构到企业级区块链探索零售创新 weixin_33984032 区块链 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>伴随消费新理念的不断升级和技术创新发展，零售业逐渐被推到风口浪尖，对此京东曾表示，推动“无界零售”时代的到来理念，倡导实现成本、效率、体验的升级才是终极目标。此概念一出，零售行业的侧重点开始由销售端向技术端倾斜，趁着一年一度618来临之际，京东云特别在上海举办了主题为"从高并发架构到企业级区块链，探索无界零售的数字化创新"的技术沙龙活动。本次活
Python Pyttsx3模块墨水云烟 Python python 开发语言
大家有没有让电脑“说话”的欲望，如果我说可以帮大家实现这个愿望的话，大家肯定会说我又要用print函数，但是今天我们就可以真的让电脑说话。让电脑说话其实很简单，使用python第三方库pyttsx3模块就行了。使用之前还需要安装pyttsx3模块，安装方法：python终端或cmd输入：pipinstallpyttsx3然后就是导入pyttsx3模块：importpyttsx3后面就是使用这个模块
使用python seaborn创建配对图：从核心概念到实战案例梦想画家数据分析工程 #python 人工智能 python 机器学习
Seaborn的配对图（Pairplot）是一种用于探索多变量数据关系的可视化工具，尤其适合分析数据集中多个特征之间的相关性、分布模式或异常值。本文介绍如何生成数据集数值变量之间的配对图，并通过参数设置色系。配对图的核心作用矩阵式可视化生成一个N×N的网格图（N为特征数），每个单元格展示两列特征之间的关系。默认对角线显示单变量分布（直方图或KDE曲线），非对角线显示散点图或其他关系图。快速发现模式
如何用Python和Selenium实现表单的自动填充与提交？字节王德发 python python selenium 开发语言
在今天的数字化时代，自动化工具可以极大地提高工作效率。很多人可能会觉得填表单是个繁琐的任务，不过你知道吗？用Python和Selenium可以轻松解决这一问题！本文将带你走进如何利用这两个强大的工具，实现表单的自动填充和提交，让你省去不少时间。什么是Selenium？Selenium是一个广泛使用的自动化测试工具，它能够模拟用户在浏览器中的操作。通过它，我们可以自动化执行诸如点击按钮、输入文本、选
使用 Python 的 pyttsx3 库进行文本转语音 Bingjia_Hu python 开发语言 pyttsx3
1.什么是pyttsx3？1.1pyttsx3是一个Python库，它可以将文本转换为语音。与其他文本转语音库（如gTTS）不同，pyttsx3不依赖于网络服务，它使用本地的TTS（Text-to-Speech）引擎，这使得它在离线状态下也能正常工作1.2pyttsx3支持多平台（Windows、Linux和macOS），且可以对语音的音量、语速以及语音类型等进行控制2.安装pyttsx3要使用p
如何在 Python 中将语音转换为文本无水先生语音处理人工智能综合 python xcode 开发语言
一、说明学习如何使用语音识别Python库执行语音识别，以在Python中将音频语音转换为文本。想要更快地编码吗？我们的Python代码生成器让您只需点击几下即可创建Python脚本。现在就现在试试！二、语言AI库2.1相当给力的转文字库语音识别是计算机软件识别口语中的单词和短语并将其转换为人类可读文本的能力。在本教程中，您将学习如何使用SpeechRecognition库在Python中
Python赋能区块链溯源系统：从技术实现到应用落地 Echo_Wish Python！实战！python 区块链开发语言
Python赋能区块链溯源系统：从技术实现到应用落地在供应链管理、食品安全、药品追踪等多个领域，产品的来源和流通过程正成为消费者和企业关注的重点。传统溯源系统往往缺乏数据透明性和不可篡改性，而区块链技术的引入解决了这些痛点，将溯源信息永久记录在分布式账本上，实现全流程可追溯。那么问题来了：如何用Python这把“瑞士军刀”构建一个高效的区块链溯源系统？本文将围绕这一主题，深入探讨Python在区块
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
python-flask复习(一) 胖虎是只mao python-web python函数 python python flask
一、Python现阶段三大主流Web框架Django、Tornado、Flask对比Django主要特点是大而全，集成了很多组件（例如Models、Admin、Form等等）,不管你用得到用不到，反正它全都有，属于全能型框架，通常用于大型Web应用，由于内置组件足够强大所以使用Django开发可以一气呵成，优点是大而全，缺点也就暴露出来了，这么多的资源一次性全部加载，肯定会造成一部分的资源浪费；T
python pip报错：Preparing metadata (pyproject.toml) ... error 我有一个魔盒其他 python pip 开发语言
环境：win11（Python3.9.13）原因：想安装低版本python，结果安装成了32位的，但是依赖包基本都是64位的。解决办法：重装64位python（可能还需要VisualStudio内安装“使用C++的桌面开发”）异常报错：Collectingmatplotlib~=3.0(fromgradio)Usingcachedhttps://pypi.tuna.tsinghua.edu.cn/
python安装scipy库出错_解决scipy安装（pip install scipy）失败,以及其他问题 weixin_39663933
解决scipy安装(pipinstallscipy)失败,以及其他问题解决：1.在scipy官方库中并没有适合Windows的python3.6相关版本，故需要在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy下载适合的版本，下载如：scipy‑0.19.1‑cp36‑cp36m‑win32.whl2.Windows中scipy安装成功后，还会存
Python 安装scipy失败 _不二_ python python
在使用pip安装scipy时会报错OSError:[Errno13]Permissiondenied:'/usr/local/lib/python2.7/dist-packages/scipy'网上查了，说是由于墙的原因，但我已经翻了墙的，任然报这个错误，下载速度特别慢，到11%或者27%就挂啦，最后很无赖，直接手动安装吧。先去官网搜索scipy选择合适的版本如下图下载完成后pipinstalls
win7下python3.6通过pip安装scipy报错的解决办法青松一夏 python
一、问题描述通过pip方式安装了numpy和sklearn，但是sklearn需要依赖于scipy，但当通过pip方式安装scipy时，报错：numpy.distutils.system_info.NotFoundError:nolapack/blasresourcesfound按照网上的教程，并没有找到真正的解决办法，后来我是通过如下方式解决的。二、我的解决方案（1）首先卸载numpypipun
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
numpy学习笔记10：arr *= 2向量化操作性能优化宁宁可可 #机器学习 #Python基础与进阶 numpy 学习笔记
numpy学习笔记10：arr*=2向量化操作性能优化在NumPy中，直接对整个数组进行向量化操作（如arr*=2）的效率远高于显式循环（如foriinrange(len(arr)):arr[i]*=2）。以下是详细的解释：1.性能差异的原理(1)底层实现不同显式循环（错误示范）：Python的for循环是解释执行的，每次迭代需要动态解析变量类型、执行函数调用等操作。对每个元素的操作会触发多次Py
Python前端开发 PITSU 正则表达式 html css3 mysql
Python前端开发1.前端三剑客（HTML，CSS和JavaScript）1.1HTML1.1.1HTML简介HyperTextMark-upLanguage,指的是超文本标记语言；html是开发网页的语言；html中的标签大多数都是成对出现的,格式:1.1.2HTML结构第一行是文档声明部分HTML：分为页头，页身和页脚。标签大部分是成对出现1.1.3第一行文档声明部分HTML在vscode中
AIGC与教育行业的邂逅--其在数学领域的应用与实现想成为高手499 AIGC
引言在数学教学中，教师往往需要大量的时间准备练习题和答案解析，而学生则需要定制化的练习来满足不同的学习需求。AIGC技术可以通过自动生成数学题目、定制化学习内容、即时反馈等方式，极大地提升数学学习的效率与质量。本文将深入探讨AIGC在数学领域的几种应用场景，并通过Python代码展示具体实现方式。1.自动生成数学题目与解析数学题目生成是AIGC在数学教学中的主要应用之一。通过生成不同难度和类型的题
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
python中strip()，lstrip()，rstrip()函数的讲解使用方法高质量海王哦 python python
在Python中，strip()、lstrip()和rstrip()是用于处理字符串的三个常用方法，它们的作用都是去除字符串两端的空白字符或指定字符，但它们的去除位置有所不同。下面是它们的详细讲解：1.strip()方法strip()方法用于去除字符串两端的空白字符（默认情况下，包括空格、换行符、制表符等），或者去除指定的字符序列。语法：string.strip([chars])chars：可选参
疯狂python讲义学习日志06——异常处理静笃归心方得平和心气 Python学习日志异常处理 python学习 python笔记 python速成
疯狂python讲义学习日志06——异常处理引言1异常处理机制1.1使用try...except处理异常1.2异常类的继承体系1.3多异常捕获1.4访问异常信息1.5else块1.6使用finally回收资源2使用raise处理异常2.1引发异常2.2自定义异常类2.3except和raise同时使用3.python的异常传播轨迹4.异常处理规则4.1不要过度使用异常4.2不要忽略异常引言异常机制
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

Pyspark让pandas特征工程代码在集群上飞起来——天猫复购率baseline