桑榆嗯

实验手册 - 第8周DataFrame API/Spark SQL

目录标题

实验1
- 实验内容
- 绘制散点图
- 将数据保存到MySQL

# import os
# os.getcwd()
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

实验1

实验内容

通过DataFrame API或者Spark SQL对数据源进行修改列类型、查询、排序、去重、分组、过滤等操作。

实验1: 已知SalesOrders\part-00000是csv格式的订单主表数据，它共包含4列，分别表示：订单ID、下单时间、用户ID、订单状态

(1) 以上述文件作为数据源，生成DataFrame，列名依次为：order_id, order_date, cust_id, order_status，列类型依次为：int, timestamp, int, string。然后并查看其前10行数据（列数据不能被截断）和表结构

from pyspark.sql.types import TimestampType
# 生成DataFrame
dfs = spark.read.csv(r"file:\D:\juniortwo\spark\Spark2023-02-20\SalesOrders\part-00000",\
                     header = False,inferSchema = True)
# 修改列名
dfs = dfs.withColumnRenamed('_c0','order_id')\
         .withColumnRenamed('_c1','order_date')\
         .withColumnRenamed('_c2','cust_id')\
         .withColumnRenamed('_c3','order_status')
# 修改列类型
dfs = dfs.withColumn('order_date',dfs['order_date'].cast("timestamp"))
# 查看前10行和表结构
dfs.printSchema()
dfs.show(10,truncate=False)

root
 |-- order_id: integer (nullable = true)
 |-- order_date: timestamp (nullable = true)
 |-- cust_id: integer (nullable = true)
 |-- order_status: string (nullable = true)

+--------+-------------------+-------+---------------+
|order_id|order_date         |cust_id|order_status   |
+--------+-------------------+-------+---------------+
|1       |2013-07-25 00:00:00|11599  |CLOSED         |
|2       |2013-07-25 00:00:00|256    |PENDING_PAYMENT|
|3       |2013-07-25 00:00:00|12111  |COMPLETE       |
|4       |2013-07-25 00:00:00|8827   |CLOSED         |
|5       |2013-07-25 00:00:00|11318  |COMPLETE       |
|6       |2013-07-25 00:00:00|7130   |COMPLETE       |
|7       |2013-07-25 00:00:00|4530   |COMPLETE       |
|8       |2013-07-25 00:00:00|2911   |PROCESSING     |
|9       |2013-07-25 00:00:00|5657   |PENDING_PAYMENT|
|10      |2013-07-25 00:00:00|5648   |PENDING_PAYMENT|
+--------+-------------------+-------+---------------+
only showing top 10 rows

(2) 仅显示(1)中DataFrame的order_status列，并对该列去重、降序排序（注意检查结果对不对）

方法一：使用DataFrame API：select(), distinct(), orderBy()

# 去重
dfs2 = dfs.select('order_status').distinct()
# 降序排序
dfs2 = dfs2.orderBy('order_status', ascending = False)
dfs2.show()

+---------------+
|   order_status|
+---------------+
|SUSPECTED_FRAUD|
|     PROCESSING|
|PENDING_PAYMENT|
|        PENDING|
| PAYMENT_REVIEW|
|        ON_HOLD|
|       COMPLETE|
|         CLOSED|
|       CANCELED|
+---------------+

方法二：使用Spark SQL

from pyspark.sql.functions import col
dfs.createOrReplaceTempView('dfs_view')
dfs2_2 = spark.sql("select distinct order_status from dfs_view \
                    order by order_status desc")
# dfs2_2.orderBy(col('order_status').desc()).show()
dfs2_2.show()

+---------------+
|   order_status|
+---------------+
|SUSPECTED_FRAUD|
|     PROCESSING|
|PENDING_PAYMENT|
|        PENDING|
| PAYMENT_REVIEW|
|        ON_HOLD|
|       COMPLETE|
|         CLOSED|
|       CANCELED|
+---------------+

(3) 将(1)中DataFrame的order_id列更改为string类型，然后查看其Schema是否更改成功

方法一：使用DataFrame API：withColumn()

from pyspark.sql.types import StringType
dfs3 = dfs.withColumn('order_id',dfs['order_id'].cast(StringType()))
dfs3.printSchema()

root
 |-- order_id: string (nullable = true)
 |-- order_date: timestamp (nullable = true)
 |-- cust_id: integer (nullable = true)
 |-- order_status: string (nullable = true)

方法二：使用Spark SQL

dfs.createOrReplaceTempView("dfs3_view")
dfs3_2 = spark.sql("select cast(order_id as string) from dfs3_view")
dfs3_2.printSchema()

root
 |-- order_id: string (nullable = true)

(4) 找出(1)中DataFrame的order_id大于10，小于20的行，并通过show()方法显示

方法一：使用DataFrame API：filter()

dfs4 = dfs.filter("order_id>10").filter("order_id<20")
dfs4.show()

+--------+-------------------+-------+---------------+
|order_id|         order_date|cust_id|   order_status|
+--------+-------------------+-------+---------------+
|      11|2013-07-25 00:00:00|    918| PAYMENT_REVIEW|
|      12|2013-07-25 00:00:00|   1837|         CLOSED|
|      13|2013-07-25 00:00:00|   9149|PENDING_PAYMENT|
|      14|2013-07-25 00:00:00|   9842|     PROCESSING|
|      15|2013-07-25 00:00:00|   2568|       COMPLETE|
|      16|2013-07-25 00:00:00|   7276|PENDING_PAYMENT|
|      17|2013-07-25 00:00:00|   2667|       COMPLETE|
|      18|2013-07-25 00:00:00|   1205|         CLOSED|
|      19|2013-07-25 00:00:00|   9488|PENDING_PAYMENT|
+--------+-------------------+-------+---------------+

方法二：使用Spark SQL

dfs.createOrReplaceTempView("dfs4_view")
dfs4_2 = spark.sql("select order_id,order_date,cust_id,order_status from dfs4_view\
                    where order_id>10 and order_id<20")
dfs4_2.show()

+--------+-------------------+-------+---------------+
|order_id|         order_date|cust_id|   order_status|
+--------+-------------------+-------+---------------+
|      11|2013-07-25 00:00:00|    918| PAYMENT_REVIEW|
|      12|2013-07-25 00:00:00|   1837|         CLOSED|
|      13|2013-07-25 00:00:00|   9149|PENDING_PAYMENT|
|      14|2013-07-25 00:00:00|   9842|     PROCESSING|
|      15|2013-07-25 00:00:00|   2568|       COMPLETE|
|      16|2013-07-25 00:00:00|   7276|PENDING_PAYMENT|
|      17|2013-07-25 00:00:00|   2667|       COMPLETE|
|      18|2013-07-25 00:00:00|   1205|         CLOSED|
|      19|2013-07-25 00:00:00|   9488|PENDING_PAYMENT|
+--------+-------------------+-------+---------------+

(5) 根据(1)中DataFrame, 找出order_status等于COMPLETE或者CLOSED的订单，并分组统计这两种状态的订单数量。通过show()方法显示

方法一：使用DataFrame API：filter(), groupBy()

dfs.filter("order_status in ('COMPLETE','CLOSED')")\
   .groupBy('order_status').count().show()

+------------+-----+
|order_status|count|
+------------+-----+
|    COMPLETE|22899|
|      CLOSED| 7556|
+------------+-----+

方法二：使用Spark SQL

dfs.createOrReplaceTempView("dfs5_view")
spark.sql("select order_status, count(order_status) as count from dfs5_view \
          where order_status == 'COMPLETE' or order_status == 'CLOSED' \
          group by order_status").show()

+------------+-----+
|order_status|count|
+------------+-----+
|    COMPLETE|22899|
|      CLOSED| 7556|
+------------+-----+

(6) 根据(1)中DataFrame, 分别统计2013年和2014年的订单数量

方法一：使用DataFrame API：withColumn(), groupBy(), count()

# dfs.show(1000)

from pyspark.sql.functions import year
dfs.withColumn('order_date',year('order_date'))\
   .groupBy('order_date').count().show()

+----------+-----+
|order_date|count|
+----------+-----+
|      2013|30662|
|      2014|38221|
+----------+-----+

dfs.printSchema()

root
 |-- order_id: integer (nullable = true)
 |-- order_date: timestamp (nullable = true)
 |-- cust_id: integer (nullable = true)
 |-- order_status: string (nullable = true)

方法二：使用Spark SQL

dfs.createOrReplaceTempView("dfs6_view")
spark.sql("select year(order_date) as order_date, count(year(order_date)) \
            as count from dfs6_view\
           group by year(order_date)").show()

+----------+-----+
|order_date|count|
+----------+-----+
|      2013|30662|
|      2014|38221|
+----------+-----+

(7) 根据(1)中DataFrame, 找出下单次数最多的前10个客户ID

方法一：使用DataFrame API

from pyspark.sql.functions import col
dfs.withColumn('cust_id',col('cust_id'))\
   .groupBy('cust_id').count()\
   .orderBy('count',ascending = False).show(10)

+-------+-----+
|cust_id|count|
+-------+-----+
|    569|   16|
|  12431|   16|
|   5897|   16|
|   6316|   16|
|  12284|   15|
|   5654|   15|
|   5283|   15|
|    221|   15|
|   4320|   15|
|   5624|   15|
+-------+-----+
only showing top 10 rows

方法二：使用Spark SQL

dfs.createOrReplaceTempView("dfs7_view")
spark.sql("select cust_id,count(cust_id) as count from dfs7_view \
           group by cust_id order by count desc").show(10)

+-------+-----+
|cust_id|count|
+-------+-----+
|    569|   16|
|  12431|   16|
|   5897|   16|
|   6316|   16|
|  12284|   15|
|   5654|   15|
|   5283|   15|
|   4320|   15|
|    221|   15|
|   5624|   15|
+-------+-----+
only showing top 10 rows

(8) 根据(1)中DataFrame的order_date列，创建一个新列，该列数据是order_date距离今天的天数

方法一：使用DataFrame API

from pyspark.sql.functions import current_date,datediff
dfs.withColumn('days',datediff(col('order_date'),current_date())).show()

+--------+-------------------+-------+---------------+-----+
|order_id|         order_date|cust_id|   order_status| days|
+--------+-------------------+-------+---------------+-----+
|       1|2013-07-25 00:00:00|  11599|         CLOSED|-3542|
|       2|2013-07-25 00:00:00|    256|PENDING_PAYMENT|-3542|
|       3|2013-07-25 00:00:00|  12111|       COMPLETE|-3542|
|       4|2013-07-25 00:00:00|   8827|         CLOSED|-3542|
|       5|2013-07-25 00:00:00|  11318|       COMPLETE|-3542|
|       6|2013-07-25 00:00:00|   7130|       COMPLETE|-3542|
|       7|2013-07-25 00:00:00|   4530|       COMPLETE|-3542|
|       8|2013-07-25 00:00:00|   2911|     PROCESSING|-3542|
|       9|2013-07-25 00:00:00|   5657|PENDING_PAYMENT|-3542|
|      10|2013-07-25 00:00:00|   5648|PENDING_PAYMENT|-3542|
|      11|2013-07-25 00:00:00|    918| PAYMENT_REVIEW|-3542|
|      12|2013-07-25 00:00:00|   1837|         CLOSED|-3542|
|      13|2013-07-25 00:00:00|   9149|PENDING_PAYMENT|-3542|
|      14|2013-07-25 00:00:00|   9842|     PROCESSING|-3542|
|      15|2013-07-25 00:00:00|   2568|       COMPLETE|-3542|
|      16|2013-07-25 00:00:00|   7276|PENDING_PAYMENT|-3542|
|      17|2013-07-25 00:00:00|   2667|       COMPLETE|-3542|
|      18|2013-07-25 00:00:00|   1205|         CLOSED|-3542|
|      19|2013-07-25 00:00:00|   9488|PENDING_PAYMENT|-3542|
|      20|2013-07-25 00:00:00|   9198|     PROCESSING|-3542|
+--------+-------------------+-------+---------------+-----+
only showing top 20 rows

方法二：使用Spark SQL

dfs.createOrReplaceTempView("dfs8_view")
spark.sql("select order_id,order_date,cust_id,order_status,datediff(order_date,\
            current_date) as days from dfs8_view").show()

+--------+-------------------+-------+---------------+-----+
|order_id|         order_date|cust_id|   order_status| days|
+--------+-------------------+-------+---------------+-----+
|       1|2013-07-25 00:00:00|  11599|         CLOSED|-3542|
|       2|2013-07-25 00:00:00|    256|PENDING_PAYMENT|-3542|
|       3|2013-07-25 00:00:00|  12111|       COMPLETE|-3542|
|       4|2013-07-25 00:00:00|   8827|         CLOSED|-3542|
|       5|2013-07-25 00:00:00|  11318|       COMPLETE|-3542|
|       6|2013-07-25 00:00:00|   7130|       COMPLETE|-3542|
|       7|2013-07-25 00:00:00|   4530|       COMPLETE|-3542|
|       8|2013-07-25 00:00:00|   2911|     PROCESSING|-3542|
|       9|2013-07-25 00:00:00|   5657|PENDING_PAYMENT|-3542|
|      10|2013-07-25 00:00:00|   5648|PENDING_PAYMENT|-3542|
|      11|2013-07-25 00:00:00|    918| PAYMENT_REVIEW|-3542|
|      12|2013-07-25 00:00:00|   1837|         CLOSED|-3542|
|      13|2013-07-25 00:00:00|   9149|PENDING_PAYMENT|-3542|
|      14|2013-07-25 00:00:00|   9842|     PROCESSING|-3542|
|      15|2013-07-25 00:00:00|   2568|       COMPLETE|-3542|
|      16|2013-07-25 00:00:00|   7276|PENDING_PAYMENT|-3542|
|      17|2013-07-25 00:00:00|   2667|       COMPLETE|-3542|
|      18|2013-07-25 00:00:00|   1205|         CLOSED|-3542|
|      19|2013-07-25 00:00:00|   9488|PENDING_PAYMENT|-3542|
|      20|2013-07-25 00:00:00|   9198|     PROCESSING|-3542|
+--------+-------------------+-------+---------------+-----+
only showing top 20 rows

# dfs.show()

绘制散点图

(9) 根据(1)中DataFrame, 利用散点图显示各个订单状态（order_status）的订单个数

# 统计各个状态的个数
dfs9 = dfs.withColumn('order_status',col('order_status'))\
          .groupBy('order_status').count()

# 将Spark DataFrame转变到Pandas DataFrame
pandasDF = dfs9.toPandas()     
pandasDF

	order_status	count
0	PENDING_PAYMENT	15030
1	COMPLETE	22899
2	ON_HOLD	3798
3	PAYMENT_REVIEW	729
4	PROCESSING	8275
5	CLOSED	7556
6	SUSPECTED_FRAUD	1558
7	PENDING	7610
8	CANCELED	1428

# 绘制散点图
import pandas as pd
import matplotlib.pyplot as plt
# pandasDF.plot(x = 'order_status', y = 'count') #折线图
plt.scatter(x = pandasDF['order_status'], y = pandasDF['count'], c = 'red')
# plt.xticks(x = pandasDF['order_status'], rotation='vertical') # vertical垂直
plt.xticks(x = pandasDF['order_status'], rotation=60) #旋转60度
plt.show()

import os
os.getcwd()

'D:\\juniortwo\\spark'

将数据保存到MySQL

(10) 将(1)中DataFrame数据保存到MySQL中

本实验，需要把本地Hadoop安装目录中etc/hadoop/core-site.xml中的添加的代码注释掉，否则就会在读取文件的相对路径前面添加hdfs的路径。如果需要提交到yarn时，再把这里的注释去掉。

这里注释掉之后，保存或者读取文件时可以使用相对路径，否则都需要使用绝对路径，不然就会报错，或者jupyter notebook长时间没有反应。

# 导包
import pandas as pd
import findspark
findspark.init()
from pyspark.sql import SparkSession

# 重启内核后再执行
spark = SparkSession \
    .builder \
    .config("spark.driver.extraClassPath", "mysql-connector-java-8.0.27.jar") \
    .getOrCreate()
#这里采用的绝对路径，相对路径容易出错
dfs = spark.read.csv(r"file:\D:\juniortwo\spark\Spark2023-02-20\SalesOrders\part-00000",\
                      header = False,inferSchema = True)
#把已有数据列改成和目标mysql表的列的名字相同
# 将Spark DataFrame转变到Pandas DataFrame
df_1 = dfs.toDF("order_id","order_date","cust_id","order_status")
print(df_1.show())

+--------+--------------------+-------+---------------+
|order_id|          order_date|cust_id|   order_status|
+--------+--------------------+-------+---------------+
|       1|2013-07-25 00:00:...|  11599|         CLOSED|
|       2|2013-07-25 00:00:...|    256|PENDING_PAYMENT|
|       3|2013-07-25 00:00:...|  12111|       COMPLETE|
|       4|2013-07-25 00:00:...|   8827|         CLOSED|
|       5|2013-07-25 00:00:...|  11318|       COMPLETE|
|       6|2013-07-25 00:00:...|   7130|       COMPLETE|
|       7|2013-07-25 00:00:...|   4530|       COMPLETE|
|       8|2013-07-25 00:00:...|   2911|     PROCESSING|
|       9|2013-07-25 00:00:...|   5657|PENDING_PAYMENT|
|      10|2013-07-25 00:00:...|   5648|PENDING_PAYMENT|
|      11|2013-07-25 00:00:...|    918| PAYMENT_REVIEW|
|      12|2013-07-25 00:00:...|   1837|         CLOSED|
|      13|2013-07-25 00:00:...|   9149|PENDING_PAYMENT|
|      14|2013-07-25 00:00:...|   9842|     PROCESSING|
|      15|2013-07-25 00:00:...|   2568|       COMPLETE|
|      16|2013-07-25 00:00:...|   7276|PENDING_PAYMENT|
|      17|2013-07-25 00:00:...|   2667|       COMPLETE|
|      18|2013-07-25 00:00:...|   1205|         CLOSED|
|      19|2013-07-25 00:00:...|   9488|PENDING_PAYMENT|
|      20|2013-07-25 00:00:...|   9198|     PROCESSING|
+--------+--------------------+-------+---------------+
only showing top 20 rows

None

spark = SparkSession \
    .builder \
    .config("spark.driver.extraClassPath", "mysql-connector-java-8.0.27.jar") \
    .getOrCreate()

df_1.write.format("jdbc").options(
    url="jdbc:mysql://127.0.0.1:3306/dftest",
    driver="com.mysql.cj.jdbc.Driver",
    dbtable="sale_order",
    user="root",
    password="123456").mode('overwrite').save()

(11) 将(1)中DataFrame数据根据order_status列值的不同进行划分，并保存为parquet格式

dfs.write.parquet(r"file:\D:\juniortwo\spark\parquet_result01.parquet",\
                  partitionBy="order_status", mode="overwrite")

(12) 根据(11)的输出，读取order_status=CANCELED文件夹中的parquet文件内容并显示

dfs12 = spark.read.parquet(r"file:\D:\juniortwo\spark\parquet_result01.parquet")

dfs12.printSchema()

root
 |-- order_id: integer (nullable = true)
 |-- order_date: timestamp (nullable = true)
 |-- cust_id: integer (nullable = true)
 |-- order_status: string (nullable = true)

dfs12.filter("order_status='CANCELED'").show()

+--------+-------------------+-------+------------+
|order_id|         order_date|cust_id|order_status|
+--------+-------------------+-------+------------+
|      50|2013-07-25 00:00:00|   5225|    CANCELED|
|     112|2013-07-26 00:00:00|   5375|    CANCELED|
|     527|2013-07-28 00:00:00|   5426|    CANCELED|
|     552|2013-07-28 00:00:00|   1445|    CANCELED|
|     564|2013-07-28 00:00:00|   2216|    CANCELED|
|     607|2013-07-28 00:00:00|   6376|    CANCELED|
|     649|2013-07-28 00:00:00|   7261|    CANCELED|
|     667|2013-07-28 00:00:00|   4726|    CANCELED|
|     716|2013-07-29 00:00:00|   2581|    CANCELED|
|     717|2013-07-29 00:00:00|   8208|    CANCELED|
|     738|2013-07-29 00:00:00|  10042|    CANCELED|
|     753|2013-07-29 00:00:00|   5094|    CANCELED|
|     929|2013-07-30 00:00:00|   8482|    CANCELED|
|     955|2013-07-30 00:00:00|   8117|    CANCELED|
|     962|2013-07-30 00:00:00|   9492|    CANCELED|
|    1013|2013-07-30 00:00:00|   1903|    CANCELED|
|    1169|2013-07-31 00:00:00|   3971|    CANCELED|
|    1186|2013-07-31 00:00:00|  11947|    CANCELED|
|    1190|2013-07-31 00:00:00|  12360|    CANCELED|
|    1313|2013-08-01 00:00:00|   3471|    CANCELED|
+--------+-------------------+-------+------------+
only showing top 20 rows

你可能感兴趣的:(spark,spark,sql,大数据)

Python 大数据分析（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/5058e6970bd2a8d818ecc1f7f8fef74a译者：飞龙协议：CCBY-NC-SA4.0第六章：第五章处理缺失值和相关性分析学习目标到本章结束时，你将能够：使用PySpark检测和处理数据中的缺失值描述变量之间的相关性计算PySpark中两个或多个变量之间的相关性使用PySpark创建相关矩阵在本章中，我们将使用Iris数据集处理
mysql数据库底层逻辑
一、数据加载在MySQL中，数据持久化存储在磁盘上，但为了高效访问，MySQL会智能地将数据加载到内存中。Mysql在内存中构建缓冲池,当查询需要访问数据时，MySQL首先检查缓冲池,若数据不在缓冲池：1.从磁盘读取目标页（16KB单位）2.将页加载到缓冲池的空闲页（FreeList）3.将页添加到LRUList的OldSublist头部(LRU分为两个区域：NewSublist（5/8）：最近频
Django基础(七)———模型常用Field以及Meta配置
前言上篇文章给大家介绍类Django和MySQL数据库的综合使用，以及框架中的ORM模型。这篇文章将继续讲述ORM模型当中常用的Field以及Meta配置一、模型常用Field在Django中，定义了一些Field来与数据库表中的字段类型来进行映射。以下将介绍那些常用的字段类型。1.AutoField映射到数据库中是int类型，可以有自动增长的特性。一般不需要使用这个类型，如果不指定主键，那么模型
mysql索引和查询优化 Itzel_yuki mysql mysql索引 mysql查询优化高性能mysql 总结
BTree索引：1、对于组合索引，如果查询中有某个列是范围查询，则其右边所有列都无法使用索引优化查询2、高性能索引，索引的列不能是表达式的一部分，也不能是函数的参数。应该养成简化where查询的习惯，始终将索引列单独放在符号的一侧。3、前缀索引和索引的选择性：在创建前缀索引时，选择选择性更丰富的前缀长度。4、mysql无法使用前缀索引做orderBy和groupby，也无法使用前缀索引做覆盖扫描。
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
批量插入技巧：减少事务提交次数的性能提升
一、事务提交成本分析每次事务提交触发‌磁盘I/O同步‌（WAL机制）、‌日志写入‌和‌锁资源释放‌操作，高频独立提交会产生指数级开销‌。实验表明：MySQL提交1万次单条插入比单次批量插入‌慢20倍以上‌‌。高频提交还加剧锁竞争与死锁风险，导致事务队列膨胀‌。二、核心优化方案‌合并事务提交‌关闭自动提交（autocommit=0），单事务内完成批量操作后统一COMMIT，减少日志刷盘次数‌。示例代
【EF Core】 EF Core 原生SQL查询深度解析
文章目录前言一、基于实体的SQL语句查询1.1通过FromSql实现基于实体的SQL语句查询1.2通过FromSql实现基于实体的储存过程/视图查询1.3FromSql在底层做了些什么1.4参数化的好处1.5LINQ组合1.6FromSqlInterpolated与FromRaw二、执行非查询SQL三、查询标量（非实体）类型的SQL语句总结前言在EFCore中使用原生SQL执行查询本身不是一种常见
2023-08-19 余則徐
2023.8.19.达视津气象2023.8.19.达视津气象阴晴不定朋友们早上好！今天是2023.8.19.星期六，农历七月初四的6:41；这个时间的干支历法是癸卯年庚申月己酉日丁卯时。气象预报不准，是常态；以前不准，现在有了超级计算机进行大数据运算了，还是不准：超级计算机运算，不如老农民抬头看天。而老农民却说，我不但要抬头看天，还要低头看河滩哪里有王八蛋。原来王八是可以预测每年有没有水患的！如果
重塑未来：AI如何重新定义全栈开发熊猫钓鱼>_> 人工智能
在传统认知中，全栈开发者被誉为技术界的“全能选手”。——他们需要精通前端界面构建（HTML/CSS/JavaScript）、后端业务逻辑实现（Python/Java/Node.js）、数据库设计优化（MySQL/MongoDB）以及服务器部署运维（Linux/Docker）。这种“一人包打天下”的能力模型长期被视为高效开发的黄金标准，尤其受到创业公司和小型团队的青睐，因为它能大幅减少沟通成本，加速
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
Mysql 事务乔治大叔
为什么要有事务？事务广泛的运用于订单系统、银行系统等多种场景。如果有以下一个场景：A用户和B用户是银行的储户。现在A要给B转账500元。那么需要做以下几件事：检查A的账户余额>500元；A账户扣除500元；B账户增加500元；正常的流程走下来，A账户扣了500，B账户加了500，皆大欢喜。那如果A账户扣了钱之后，系统出故障了呢？A白白损失了500，而B也没有收到本该属于他的500。以上的案例中，隐
用SQL语句查看Oracle数据表的结构信息 bboy枫亭 Oracle oracle
文章目录获取所有表的列表查看表结构查看某表的注释查看某表的字段注释获取所有表的列表相知道相应用户下有哪些表，可以通过以下SQL语句进行查询selecttable_namefromuser_tables;//当前用户的表selecttable_namefromall_tables;//所有用户的表selecttable_namefromdba_tables;//包括系统表selecttable_na
第13天 | openGauss逻辑结构：表管理1 yBmZlQzJ openGauss oracle 数据库
接着昨天继续学习openGauss,今天是第13天了。今天学习内容是学习openGauss表的创建、搜索路径和访问方法。老规矩，先登陆墨天轮为我准备的实训实验室root@modb:~#su-ommomm@modb:~$gsql-r作业要求1.创建一个表（默认，不指定模式），查看该表在那个模式下omm=#createtabletesttable(colvarchar(100));omm=#CREAT
软件测试面试题：SQL注入漏洞产生的原因？如何防止？
SQL注入漏洞产生的原因？如何防止？SQL注入产生的原因：程序开发过程中不注意规范书写sql语句和对特殊字符进行过滤，导致客户端可以通过全局变量POST和GET提交一些sql语句正常执行。防止SQL注入的方式：开启配置文件中的magic_quotes_gpc和magic_quotes_runtime设置执行sql语句时使用addslashes进行sql语句转换Sql语句书写尽量不要省略双引号和单引
了解B/S架构 Ashman.se 计算机语言架构
一.B/S的概念B/S（Brower/Server,浏览器/服务器）模式又称B/S结构，是Web兴起后的一种网络结构模式。Web浏览器是客户端最主要的应用软件。这种模式统一了客户端，将系统功能实现的核心部分集中到服务器上，简化了系统的开发、维护和使用；客户机上只需要安装一个浏览器，服务器上安装SQLServer,Oracle,MySql等数据库；浏览器通过WebServer同数据库进行数据交互。二
Apache Ignite 索引（Indexes）定义和使用 lang20150928 其他 apache Ignite
这段内容是关于ApacheIgnite中如何定义和使用索引（Indexes）的说明。下面我将为你逐段解释这段内容的含义，并帮助你理解ApacheIgnite中SQL索引机制的核心概念。一、索引的定义原文：InadditiontocommonDDLcommands,suchasCREATE/DROPINDEX,developerscanuseIgnite’sSQLAPIstodefineindexe
Oracle修改表结构的基本sql语句
--修改字段名称altertable表名renamecolumn现在的字段名to新字段名;--修改表名altertable表名renameto新表名;--修改字段数据类型altertable表名modify字段名新数据类型(长度);--在表中新增字段altertable表名add新字段名新数据类型(长度)[约束,例如:notnull等]comment'comment是添加字段描述,可加可不加';-
拼多多SQL面试题：连续3次为球队得分的球员名单
连续3次为球队得分的球员名单1.数据准备createtabletb_score(team_nameVARCHAR(50)COMMENT'球队名称',player_idINTCOMMENT'球员ID',player_nameVARCHAR(50)COMMENT'球员姓名',scoreINTCOMMENT'得分',score_timeDATETIMECOMMENT'得分时间');INSERTINTOt
python-读写mysql(操作mysql数据库)
importpymysqlimportpandasaspdimporttimeonly_time=time.localtime(time.time())time_now=time.strftime('%Y-%m-%d%H:%M:%S',only_time)dt=time.strftime('%Y%m%d',only_time)t=time.time()tt=int(t)parentId=''sta
python读写mysql cavin_2017 Python 学习
目前用到的连接数据库，主要实现连个功能：1.根据sql查询2.将dataframe数据通过pandas包写入mysql数据库中1.根据sql查询：通常我们通过sql查询mysql中的表，分三步1.连接数据库2.数据查询3.关闭连接，如果需要查询的步骤较多，将查询封装成函数，通过参数传递sql代码会省事很多。##定义连接数据库函数defmy_db(host,user,passwd,db,sql,po
oracle查询数据结构滤涉及的sql语句胡斌附体 oracle sql 数据结构
背景：去客户数据库查询表数据。了解表结构以及表字段及索引等信息oracle数据库SELECTt.OWNERAS"用户名",t.TABLE_NAMEAS"表名",c.COMMENTSAS"表说明"FROMALL_TABLEStLEFTJOINALL_TAB_COMMENTScONt.OWNER=c.OWNERANDt.TABLE_NAME=c.TABLE_NAMEANDc.TABLE_TYPE='T
mysql学习记录7.22 woshishui68892
记录一下在学习mysql时避免忘记的内容。日期计算MySQL提供了一些函数，可用于对日期执行计算，例如，计算年龄或提取部分日期。要确定您的每只宠物几岁，请使用该TIMESTAMPDIFF()功能。它的参数是要表示结果的单位，以及两个日期之间的差值。以下查询为每只宠物显示出生日期，当前日期和年龄（以年为单位）。一个别名（age）是用来制造最终输出列标签更有意义。SELECTname,birth,CU
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
mysql+explain怎么看_MySQL学习----explain查看一条sql 的性能安123
在开发的过程中,对于我们写的sql语句，我们有时候会考虑sql语句的性能，那么explain就是首选。Explain命令在解决数据库性能上是第一推荐使用命令，大部分的性能问题可以通过此命令来简单的解决，Explain可以用来查看SQL语句的执行效果，可以帮助选择更好的索引和优化查询语句，写出更好的优化语句。Explain语法：explainselect…from…[where...]例如：expl
Navicat 连接不上阿里云服务器中安装的宝塔面板中的Mysql服务器一只程序熊阿里云服务器云计算
项目场景：就今天在做宝塔的时候遇到一个新问题，在之前的阿里云服务器中都没有发现过这个问题！特此记录解决方案：本地连接不上云服务器主要是这几个原因：1.云服务器官方的安全组问题(安全组是否放行目标端口)2.云服务器内部的服务端口问题(服务器内部端口是否向外部开放)但是今天我又在云服务器安全组内部发现了一个新的问题：3.云服务器中设置了仅本机访问的ipv6的地址，但是仍然访问不了。可能是因为navic
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
MySQL学习----Explain 典孝赢麻崩乐急 mysql 学习数据库
使用Explain可以查看sql的性能瓶颈信息，并根据结果进行sql的相关优化。当使用Explain分析SQL查询时，MySQL会返回一个包含多个字段的结果集，每个字段都提供了查询执行计划的重要信息。主要输出字段详解（1）id含义：SELECT标识符作用：表示查询中SELECT子句的执行顺序值说明：id相同：执行顺序从上到下id不同：从大到小执行id为NULL：表示结果集，如UNION结果（2）s
MySQL入门学习-查询优化.EXPLAIN
在MySQL中，'EXPLAIN'命令用于获取查询执行计划的信息。一、关于'EXPLAIN'的一些常见查询优化方面的特点、使用方法、与其他比较及高级应用：1.特点：-提供查询执行计划的详细信息，帮助了解查询的执行方式。-可以用于优化查询性能，找出潜在的性能问题。-适用于各种类型的查询，包括简单查询和复杂查询。2.使用方法：-在查询语句前添加'EXPLAIN'关键字，例如：'EXPLAINSELEC
Mysql编译 Neng_Miao mysql adb 数据库
Mysql编译1、编译环境硬件环境：香橙派5aarch64架构软件环境：Ubuntu22.04.3LTS编译版本：mysql-5.7.43.tar.gz编译目录：/data/make_test/mysql_for_make/mysql-5.7.43#根据需要调整，本次测试使用2、编译操作（1）、获取源码包wgethttps://dev.mysql.com/get/Downloads/MySQL-5
MYSQL操作简单易懂
一、安装mysql（rocky9为例）实例1、下载并安装mysql官方仓库wgethttps://repo.mysql.com//mysql80-community-release-el9-1.noarch.rpm2、下载安装的仓库sudorpm-ivhmysql80-community-release-el9-1.noarch.rpm3、使用sudo命令和yum命令安装MySQL8：sudoyu
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1