Evangelion-02

pyspark-02 DataFrame语法

基本概念

DataFrame 是一个由 Row 对象组成的 RDD，附带包含每列数据类型的结构信息
具有分布式、不可变、惰性计算等特性
不可变：修改DataFrame只能通过转换操作生成新的DataFrame
spark的DataFrame，也是使用pyspark的做数据处理的基操
sparkSQL，sparkDataset和sparkDataFrame关系
1. 可以把DataFrame注册成表，然后用写SQL计算，只是sparkSQL返回的也是sparkDataFrame
2. sparkDataFrame是Dataset(row)， Dataset本身每行数据可以是其它类型

基本语法

初始化spark环境

创建spark的上下文环境, 然后就可以调用不同的函数进行操作

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

进行一些基础配置的环境创建

spark = SparkSession\
        .builder\
        .appName(app_name) \
        .config("spark.master", "yarn") \
        .config('spark.driver.memory', '8g')\
        .config("spark.executor.instances", 60) \
        .config('spark.executor.cores', 4)\
        .config('spark.executor.memory', '8g')\
        .getOrCreate()

spark.driver.memory：driver端内存
spark.executor.instances：executor数量
spark.executor.cores：每个executor的进程数
spark.executor.memory：每个executor的内存

一般上面4个参数就可以控制整个程序的资源大小

自定义python环境

有些executer可能python环境不一致，或者某些包也没有安装，需要在整个任务统一python环境。

# 1. 打包本地python环境
tar -zcvf py36.tar.gz /home/worker/envs/py36

# 2. 上传hdfs
hadoop fs -put py36.tar.gz hdfs://path1/path2/pyenv/

# 3. spark初始化指定环境
spark = SparkSession\
        .builder\
        .appName(app_name) \
        .config('spark.driver.memory', '8g')\
        .config('spark.executor.cores', 4)\
        .config('spark.executor.memory', '8g')\
        .config("spark.yarn.dist.archives", "hdfs://path1/path2/pyenv/py36.tar.gz#python3env")\
        .config("spark.pyspark.python", "./python3env/py36/bin/python")\
        .getOrCreate()

常用语法

记录一些常用语法

DataFrame操作

create dataframe

from pyspark.sql import SparkSession
import pyspark.sql.functions as F
import pyspark.sql.types as T
from pyspark.sql.functions import udf

rdd = spark.sparkContext.parallelize([
    (1, 2., 'sdsd|sdsd:sdsd', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (1, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (2, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (2, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (2, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (2, 3., '20202_19001', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (3, 4., '', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
])
df = spark.createDataFrame(rdd, 
                           schema=['a', 'b', 'c', 'd', 'e'])
df.show()

+---+---+--------------+----------+-------------------+
|  a|  b|             c|         d|                  e|
+---+---+--------------+----------+-------------------+
|  1|2.0|sdsd|sdsd:sdsd|2000-01-01|2000-01-01 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  2|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  2|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  2|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  2|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  3|4.0|              |2000-03-01|2000-01-03 12:00:00|
+---+---+--------------+----------+-------------------+

创建的方式有很多种，具体可以参见官网：https://spark.apache.org/docs/latest/api/python/getting_started/quickstart_df.html
建议固定一种自己熟悉的，可以经常快速创建进行调试
工作中一般是读取hive数据形成DataFrame，具体要看各个公司本身如何做的安全规范来读取数据

select/filter/fillna/sample



sdf = df.select(['a', 'b'])  # 选择指定列
sdf = df.select([F.col('a').alias('new_a'), 'b'])  # 选择指定列并重命名
sdf = df.select([F.col('a').cast('string'), 'b'])  # 选择指定列并指定类型

sdf.drop('a', 'b')  # 删除多列


# 去重
sdf = sdf.drop_duplicates(subset=['a'])

# 根据条件过滤
sdf.filter(F.col('a').isNotNull() | F.col('b').isNotNull())

# 填充空值，注意类型要一致
sdf.fillna(0, subset=['adcode'])  # 对指定的字段填充
sdf.fillna({'adcode': 0, 'name': '缺失'})  # 传一个dict进去，对指定的字段分别填充

# 抽样
sdf.sample(withReplacement=True, fraction=0.1)  # 有放回随机抽样10%
sdf.sampleBy('id', fractions=0.1)  # 根据id列分层抽样10%

# 建立索引
# F.monotonically_increasing_id()函数只能保证生成的索引是单调递增且唯一的，
# 但不能保证索引的连续性和确定性（即每次运行时为每行生成的索引不保证相同），
# 这是因为对于分区存储的DataFrame，spark无法获得全局的宏观顺序，
# 该函数是通过DataFrame的分区ID来为每个分区内的数据生成一段连续单调递增的索引，但不同分区之间不能保证连续性，
# 所以该函数最多支持十亿个分区
df.select(F.monotonically_increasing_id().alias('index'), 
          'a',
          'b').show()
+-----------+---+---+
|      index|  a|  b|
+-----------+---+---+
|25769803776|  1|2.0|
|51539607552|  1|3.0|
|77309411328|  3|4.0|
+-----------+---+---+


# pyspark dataframe 转为 pandas dataframe
df_pd = df.toPandas()

split

指定分隔符划分后, 取不同的元素，一般用于统计分布后取top3的结果

df = spark.createDataFrame(data=[(1, '食品,上装,玩偶,潮玩'), 
                                       (2, '上装,裤袜,球鞋,居家'), 
                                       (3, '居家,球鞋,酒水饮料,潮玩')], 
                                 schema=['id', 'type'])

df.show()
+---+-----------------------+
| id|                   type|
+---+-----------------------+
|  1|    食品,上装,玩偶,潮玩|
|  2|    上装,裤袜,球鞋,居家|
|  3|居家,球鞋,酒水饮料,潮玩|
+---+-----------------------+

# split
df = df.withColumn('new_type', F.split('type', ','))
df = df.withColumn('type1', F.col('new_type').getItem(0))
df = df.withColumn('type2', F.col('new_type').getItem(1))
df = df.withColumn('type3', F.col('new_type').getItem(2))
df.show()

+---+-----------------------+----------------------------+-----+-----+--------+
| id|                   type|                    new_type|type1|type2|   type3|
+---+-----------------------+----------------------------+-----+-----+--------+
|  1|    食品,上装,玩偶,潮玩|    [食品, 上装, 玩偶, 潮玩]| 食品| 上装|    玩偶|
|  2|    上装,裤袜,球鞋,居家|    [上装, 裤袜, 球鞋, 居家]| 上装| 裤袜|    球鞋|
|  3|居家,球鞋,酒水饮料,潮玩|[居家, 球鞋, 酒水饮料, 潮玩]| 居家| 球鞋|酒水饮料|
+---+-----------------------+----------------------------+-----+-----+--------+

explode

针对一个list类型的列，把里面每一个元素转为一行

df1 = df.select('id', 'new_type')
df1.show()
+---+----------------------------+
| id|                    new_type|
+---+----------------------------+
|  1|    [食品, 上装, 玩偶, 潮玩]|
|  2|    [上装, 裤袜, 球鞋, 居家]|
|  3|[居家, 球鞋, 酒水饮料, 潮玩]|
+---+----------------------------+

df1.select('id', F.explode('new_type').alias('new_type_explode')).show()
+---+----------------+
| id|new_type_explode|
+---+----------------+
|  1|            食品|
|  1|            上装|
|  1|            玩偶|
|  1|            潮玩|
|  2|            上装|
|  2|            裤袜|
|  2|            球鞋|
|  2|            居家|
|  3|            居家|
|  3|            球鞋|
|  3|        酒水饮料|
|  3|            潮玩|
+---+----------------+

列操作

对列操作一般用 .withColumn(col_name, func)函数
可以是新增一列，也可以是在原来的列上进行操作
要进行什么操作，主要看F.出来的函数

df = df.withColumn('c', F.regexp_replace('c',  r'[\||:]', '_'))  # 正则替换
df.show()
+---+---+--------------+----------+-------------------+
|  a|  b|             c|         d|                  e|
+---+---+--------------+----------+-------------------+
|  1|2.0|sdsd_sdsd_sdsd|2000-01-01|2000-01-01 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  1|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  2|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  2|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  2|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  2|3.0|   20202_19001|2000-02-01|2000-01-02 12:00:00|
|  3|4.0|              |2000-03-01|2000-01-03 12:00:00|
+---+---+--------------+----------+-------------------+


# if-else判断
# F.lit()是定义一个常量
sdf_new = sdf.withColumn('type', F.when(F.col('b') < 130000, '直辖市').\
                                   when(F.col('b') >= 710000, '特别行政区').\
                                   otherwise(F.lit('常规省份')))

# 保留2位小数
df.withColumn('new_b', F.format_number(F.col('b'), 2))

# 进行split
df = df.withColumn('new_c', F.split(F.col('c'), '_'))

# 基础运算
df = df.withColumn("a", F.col('b')/F.col('c'))

Join操作

sdf.join(sdf2, on=['id', 'name'], how='left')  # 多字段join
sdf.join(sdf2, sdf.id == sdf2.adcode, how='left')  # 混合字段join
sdf.join(sdf2, [sdf.id == sdf2.adcode, sdf.name == sdf2.region], how='left')  # 多字段混合字段join


# 小表关联
# 将该小表广播(broadcast)到所有executor中再进行连接，
sdf.join(F.broadcast(sdf2), on='id', how='left')

# 笛卡尔连接
sdf1.crossJoin(sdf2)

# 并集
sdf.union(sdf1).union(sdf2)

# 差集，
sdf1.subtract(sdf2)

# 交集
sdf1.intersect(sdf2)

聚合操作

# 聚合统计
temp_df = df.groupby('a').agg(F.count('c').alias('c_count'),
							  F.max('c').alias('c_max'),
							  F.min('c').alias('c_min'))

# 聚合成list
temp_df = df.groupby('a').agg(F.collect_list('c').alias('c_list'),
							  F.collect_set('c').alias('c_set'))


# 多列应用同一个聚合函数（根据a聚合，分别求b和c的最大值）
expressions = [F.max(col).alias('%s_max'%(col)) for col in ['b','c']]
df.groupby('a').agg(*expressions)

Window操作

分组排序，对用户按登录时间排序，然后取每个用户最近一条登录记录

df = spark.createDataFrame(data=[(1, 20220101), 
                                 (1, 20220102), 
                                 (1, 20220103), 
                                 (1, 20220104), 
                                 (2, 20220102), 
                                 (2, 20220107),
                                 (3, 20220101), 
                                 (3, 20220103)], 
                                 schema=['id', 'login_date'])

df.show()
+---+----------+
| id|login_date|
+---+----------+
|  1|  20220101|
|  1|  20220102|
|  1|  20220103|
|  1|  20220104|
|  2|  20220102|
|  2|  20220107|
|  3|  20220101|
|  3|  20220103|
+---+----------+

from pyspark.sql import Window
win_func = Window.partitionBy('id').orderBy(F.desc('login_date'))

df = df.withColumn('rn', F.row_number().over(win_func))
df = df.filter(F.col('rn') == 1)
df.show()
+---+----------+---+
| id|login_date| rn|
+---+----------+---+
|  1|  20220104|  1|
|  2|  20220107|  1|
|  3|  20220103|  1|
+---+----------+---+

分区

pyspark有2个方式提供分区，

coalesce()，不shuffle，生成新分区，主要用于减少分区，会加剧数据倾斜
repartition()，shuffle分区，比较耗时

df.coalesce(100)  # 不shuffle生成100个分区
df.reparation(100)  # shuffle生成100个分区
df.reparation(100, 'id')  # shuffle后根据id列的hash值生成100个分区
df.repartitionByRange(100, 'id')  # shuffle后根据id列的取值生成100个分区

读写hdfs

# save
df.coalesce(1).write.option("sep", "#").option("header", "true").csv('demo_data',mode='overwrite')

# read
df = spark. \
     read.format('csv') \
     .option('delimiter', '#') \
     .load(hdfs_data_path, header=False, inferSchema="true")

python实现二分查找（对新手友好，内容通俗易懂） dlage python 列表 python 数据结构
python实现二分查找二分查找又名折半查找。优点：查询速度快，性能好。缺点：要求查询的表为有序表原理：将表中间位置（mid）的数字与待查数字（data）做比较，如果相等：返回true，结束。如果不相等：则使用中间位置的记录将表分为前后两个子表。若data>mid则进一步查找后一个表。若datadata:last=mid-1elifalist[mid]data:last=mid-1elifalis
零基础程序员如何快速学会python Java进阶营菌程序员职场 Python python 开发语言后端 pycharm 程序人生
学会Python能做的事情也很多，常见的就有网络爬虫，数据分析，前端开发，机器学习，都能很好地提高工作效率，往任何一个领域发展，工作前景是非常不错的。接下来我从基本的软件安装开始，仔细的给大家分析新手入门应该怎样学习Python吧，如果有讲得不到位的地方也欢迎大家指正，我会及时进行修改。一、软件的安装和选择1、配置环境关系到实操，所以在选择资料的同时，你还需要安装好Python需要的软件，软件版本
新手0基础路由器刷机（小米WR30U） frank_double 路由器刷机智能路由器
准备工作：登陆恩山论坛搜237去下载刷路由器别人已经备好的各种包目录一、#######开SSH###########1、进小米路由系统设置“启用与智能网关的无线配置同步”为开启、再DHCP为自动配置DNS，最后设置wan口为第一个端口。2、将笔记本电脑与wan1口用网线连接，笔记本进入控制面板-网络管理-无线网卡-右键无线网卡属性，将网络共享给WR30U。3、CMD运行python.exeserv
一文搞懂Python的yield关键字（新手友好）蜘蛛侠在写码 python python 开发语言
在python中，yield是一个不好理解的概念，Up初学Python时看了一些教程，但还是似懂非懂。今天，Up尝试用通俗易懂的语言说清楚yield的用法和原理。想要更好的理解yield，需要先理解Python的迭代器，墙裂建议先看一下Up上一期的文章：一文搞懂Python迭代器注：本文长期有效，持续迭代完善，建议收藏。提前划重点为什么yield难理解口诀一：调用时不要看成return口诀二：ne
Python实现三维空间中的RRT避障路径规划算法 C_mony 机械臂 python 算法机器人
文章目录前言一、算法原理二、代码实现1.定义节点2.碰撞检测3.RRT算法4.完整代码运行结果前言基于快速随机搜索树（Rapidly-exploringRandomTree,RRT）的优化算法，通过对状态空间中的采样点进行碰撞检测，避免了对空间的建模，能够有效地解决高维空间和复杂约束的路径规划问题，在机械臂路径规划与避障中扮演着关键角色。RRT算法通过随机生成的树状结构来探索高维空间，尤其适合于解
Oracle表删除大量数据后查询变慢问题 1910260505 Oracle性能 oracle
变慢原因Oracle表删除大量数据后，即使表中只有几行记录，但用selectcount(*)fromtable来查询发觉都不会马上出来，原因是该表的空间大了，查询起来很慢。解决的方法是把该表所占用的表空间缩小，或者说释放表空间。altertableXXXXmove;这样处理后就释放了表空间了。但是释放表空间后，表的行号rowid会发生变化，而基于rowid的索引则会变成无效。因此该操作后必须重建索
爬虫实战分享：高效爬取汽车官方销售排行榜的技术方案威哥说编程 python 网络爬虫
随着大数据技术的飞速发展，爬虫技术在各行各业中得到了广泛应用。汽车行业作为一个信息密集型行业，销售数据、排行榜和车型趋势等内容成为了汽车公司、市场研究者和消费者关注的重点。爬虫技术为这些数据的收集和分析提供了强有力的支持。本文将介绍如何通过爬虫技术高效爬取某汽车官方销售排行榜，并讨论常见的技术难点与解决方案。1.目标与需求分析我们的目标是从某汽车官方网站上高效地爬取官方销售排行榜。爬取内容包括：销
Python中的__slots__ 李星星BruceL 问题集 python
在Python中，__slots__的用途是什么？以及在哪些情况下应避免使用它？简而言之（TL;DR）：特殊属性__slots__允许你明确声明对象实例应该具有的实例属性，并带来以下预期效果：更快的属性访问。节省内存空间。内存节省来自于：将值引用存储在__slots__中，而不是在__dict__中。如果父类禁止创建__dict__和__weakref__，并且你声明了__slots__，则会阻止
DeepSeek应用场景及其解决的问题杏花春雨江南自然语言处理
DeepSeek是一种基于深度学习的智能技术，能够处理复杂的非结构化数据（如文本、图像、语音等），并在企业级应用开发中发挥重要作用。以下是DeepSeek在企业级应用开发中的典型应用场景及其解决的问题：1.企业知识管理与智能搜索场景：企业拥有大量的文档、报告、邮件、会议记录等非结构化数据，员工需要快速找到相关信息。DeepSeek的作用：通过语义搜索和自然语言处理（NLP），DeepSeek可以理
【datetime】Python datetime模块常用用法晨风_Chenfeng python
1.datetime模块中的主要类date:处理日期（年、月、日）。time:处理时间（时、分、秒、微秒）。datetime:处理日期和时间。timedelta:处理时间间隔（两个日期或时间之间的差）。tzinfo:处理时区信息。2.date类date类用于表示日期（年、月、日）。2.1创建date对象fromdatetimeimportdate#使用年、月、日创建date对象d=date(202
学习笔记分享-进阶数据结构与算法-图-并查集-优化 -暮倦- #学习笔记分享-数据结构与算法学习笔记
前言图片上面的personal表示只有图片上面的一行语句是解释图片内容的、local表示这个图片所在标题下的所有语句都是解释图片内容的、global表示有多个标题下的所有语句都是解释图片内容的我是一名大二的学生，学了差不多一年java技术栈了，想记录一下自己对知识点的心得，目前还是个小白，期望大佬们可以指出我笔记中的不足之处、对知识点的认知错误、笔记结构的混乱等这些图片内容都是在观看黑马课程时的视
编程入门难？Python 十大核心知识点，手把手教你！编程咕咕gu- Python基础 python 开发语言 Python教程网络爬虫
如果你对编程感兴趣，但又不知道从哪里开始，那么Python会是你的好选择。它简单易学，是初学者学习编程的好帮手。这篇文章会用轻松的方式，带你了解Python的十个重要概念，一步步帮助你从零开始！1.Python文件与扩展名学习Python的第一步是创建一个Python文件。Python文件的名字后面都会加上.py作为扩展名。例如，你可以创建一个名为main.py的文件，这就是一个Python脚本。
使用 nodejs 和 ElasticSearch 快速搭建全文检索 dbLenis 数据库 java 编程语言大数据 linux
点击蓝色“有关SQL”关注我哟加个“星标”，天天与10000人一起快乐成长上次群友问我，Python怎么学，我说四个小时足够了，你们不信。这次，我用2个小时，仅仅用Google，快速搭建了一个nodejs+Elasticsearch的小Demo.足可见，在有搜索的年代，快速上手一门技术，已经不是什么难事。1安装1.1下载地址https://nodejs.org/en/download提供windo
MATLAB基础应用精讲-【数模应用】主成分(pca)分析（附python代码实现）林聪木 matlab 人工智能大数据
目录前言知识储备降维概述算法原理什么是PCAPCA降维过程PCA算法数学步骤选择主成分个数（即k的值）sklearn中参数的解释数学模型协方差协方差矩阵编辑编辑原理推导编辑编辑编辑编辑实际操作主成分分析的计算方法方法1.协方差+特征值分解方法2：奇异值分解对比不同方法计算效率物理意义算法步骤SPSSAU主成分(pca)分析说明1、信息浓缩2、权重计算3、综合得分【综合竞争力】疑难解惑成分得分后用于
谈谈 ES 6.8 到 7.10 的功能变迁（6）- 其他 INFINI Labs elasticsearch jenkins 大数据
这是ES7.10相较于ES6.8新增内容的最后一篇，主要涉及算分方法和同义词加载的部分。自定义算分：script_score2.0Elasticsearch7.0引入了新一代的函数分数功能，称为script_score查询。这一新功能提供了一种更简单、更灵活的方式来为每条记录生成排名分数。script_score查询由一组函数构成，包括算术函数和距离函数，用户可以根据需要混合和匹配这些函数，以构建
基于Python的网络漏洞扫描系统的设计与实现毕设工作室_wlzytw python论文项目 python 网络开发语言 django tornado dash pygame
摘要随着互联网不断发展、贴近生活，电子化的生活安全依赖着网络安全。在漏洞泛滥的今天，网络安全状态不容乐观，许多机构都因没有及时处理漏洞导致被恶意入侵，若网络安全保护不当，将会影响现实安全。中小型网络运维人员常因为外部因素影响难以开展网络安全行动。为了应对这一问题，本文研究尝试用Python语言尝试做一个集成漏洞扫描系统的设计与实现。运用以Python为基础的DjangoWeb框架实现快速的业务开发
基于 Python 的漏洞扫描工具的设计与实现计算机毕业设计指导 python 开发语言信息安全
引言随着信息技术的快速发展，网络安全问题成为了各类组织和个人面临的重要挑战之一。漏洞是网络安全中的一个重要问题，黑客和恶意攻击者往往通过利用这些漏洞来侵入系统，窃取敏感信息或进行其他恶意行为。因此，及时发现和修复漏洞是确保网络安全的重要手段。本项目旨在设计和实现一个基于Python的漏洞扫描工具，帮助用户快速发现系统中的潜在漏洞，并提供修复建议。该工具将包括对Web应用程序、操作系统、服务等的漏洞
MySQL数据库（触发器，视图，函数）可儿可爱数据库 mysql database
触发器视图函数分配用户和权限以及远程登录索引三大范式1.触发器Trigger触发器：数据库中的一个对象，相当于JS中的监听器，触发器可以监听增删改三个动作比如说我想监听一张表，只要我增删改了这张表中的数据，我就可以触发这个触发器，去往另外一张表中记录一下日志。语法：DELIMITER$$CREATETRIGGER`mytestdb`.`myTriger`BEFORE/AFTERINSERT/UPD
python代码实现支持神经网络对鸢尾花分类邀_灼灼其华机器学习及概率统计 python 神经网络分类 sklearn
1、导入支持向量机模型，划分数据集fromsklearnimportdatasetsfromsklearnimportsvmiris=datasets.load_iris()iris_x=iris.datairis_y=iris.targetindices=np.random.permutation(len(iris_x))iris_x_train=iris_x[indices[:-10]]iri
mysql8.0.12安装_mysql 8.0.12 安装配置图文教程梦醒马亡
记录了mysql8.0.12下载安装教程，分享给大家。下载如图下载以后将安装包解压到任意文件夹，我这里解压到E盘。安装1、解压以后有E:\mysql\mysql-8.0.12-winx64，里面建立一个空文件夹data，如果已经有这个文件夹就不用进行这一步2、建立一个my.ini文件，用记事本打开，复制以下代码进去[mysqld]#设置3306端口port=3306#设置mysql的安装目录bas
2025前端最新面试题-网络篇大麦大麦前端网络面试网络安全网络协议
1.现代浏览器为何要禁用第三方cookie为了用户的安全(安全和隐私是浏览器永恒的话题)第三方cookie会记录用户的行为和数据,方便做广告有些浏览器默认禁止,Chrome增加了SameSite(谷歌有广告)cookie可以实现不同域共享吗同一主域名下的子域名，cookie可以共享2.实现心跳检验-用于断线重连functionHeartbeaet(){lettimer=0functionfn(){
RabbitMQ复习 SJLoveIT rabbitmq 分布式
消息中间件的作用：（1）异步处理（2）应用解耦（3）流量削峰消息中间件的缺点：引入了新的东西，也就增加了新的故障点。比如消息中间件挂了，影响系统的可用性。两种框架：JMS和AMQP最大的区别是JMS是是javaapi,对跨平台的支持较差，但在纯java技术栈内首选。AMQP是跨平台的，序列化方式选json，不管你是java，php，C/C++,python,都能处理RabbitMQ实现的事AMQP
完整的 Python 数据分析案例：在线游戏玩家付费预测萧十一郎@ python 机器学习人工智能
目录1.案例背景代码实现2.主要的代码难点解析2.1数据清洗-缺失值处理2.2特征工程-新特征计算与独热编码2.3特征选择2.4模型训练与评估2.5数据可视化3.可能改进的代码3.1数据清洗与特征工程改进3.2模型改进3.3可视化改进1.案例背景在在线游戏行业中，准确预测玩家是否会付费以及付费金额，对于游戏运营商制定营销策略、优化游戏设计和提高盈利能力至关重要。本案例将基于玩家的游戏行为数据（如游
利用Python实现企业微信发送文件消息林_胖 python 企业微信自动化文件 OA
最近领导希望做一个小的招标信息爬取系统，每日以邮件以及企业微信的方式进行推送。所以记录一下如何使用Python实现企业微信发送文件。第一步：登录企业微信后台，需要用有管理员权限的微信进行扫码登录。第二步：获取AgentId和Secret，获取路径：应用管理-创建应用，创建应用后即可看到。第三步：确认需要接收信息的userid，获取路径：通讯录-选择需要发送的人员-账号。第四步：获取公司ID，获取路
My SQL笔记党和人民笔记 mysql
数据库的使用主要功能：查询数据(SELECT):从一个或多个表中检索数据。插入数据(INSERT):向表中添加新记录。更新数据(UPDATE):修改现有记录。删除数据(DELETE):移除记录。定义数据库结构(CREATE,DROP):创建、修改或删除数据库对象（如表、索引等）。创建数据库创建数据库是通过SQL语句来完成的，通常使用createdatabase语句常用数据类型：整型(int)：用于
PyCharm极速安装指南：3分钟掌握Python开发环境三流搬砖艺术家 python python pycharm ide
目录为什么选择PyCharm？️准备工具步骤一：下载安装包⚙️步骤二：安装配置步骤三：首次启动配置步骤四：创建第一个项目效率优化技巧❗常见问题排雷社区版vs专业版为什么选择PyCharm？✅智能代码补全：媲美IDE的语法高亮与提示✅跨平台支持：Windows/macOS/Linux全兼容✅插件生态丰富：支持Web开发、数据分析等场景✅社区版免费：无功能限制，个人开发者首选️准备工具操作系统：Win
OpenCV Python 版使用教程（三）摄像头读取延迟解决方法 tianchengwang opencv opencv python 人工智能
文章目录一、上篇回顾二、产生原因三、解决方法1.cap.grab()方法2.多线程法总结一、上篇回顾在上一篇中，简单介绍了如何使用OpenCV操作摄像头，本期来讲在摄像头读取时，可能会出现画面延迟的解决方法。二、产生原因OpenCV在读取的时候，会将视频流放在缓冲区中，然后每次调用的时候，会从缓冲区内读取视频帧。虽然说大多数情况难以出现写入缓冲区远大于读取缓冲区的速度，但是当设备出现性能瓶颈，尤其
入门Apache Spark：基础知识和架构解析 juer_0001 java spark
介绍ApacheSparkSpark的历史和背景ApacheSpark是一种快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发，于2010年首次推出。它最初设计用于支持分布式计算框架MapReduce的交互式查询，但逐渐发展成为一种更通用的数据处理引擎，能够处理数据流、批处理和机器学习等工作负载。Spark的特点和优势Spark是一种快速、通用、可扩展的大数据处理框架，
【Python爬虫(95)】Python爬虫进阶：构建大型垂直领域爬虫系统奔跑吧邓邓子 Python爬虫 python 爬虫开发语言垂直领域系统
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、项目需求分析1.1确定垂直领域1.2业务需求分析1.3用户需求
Python 文本处理神器：textwrap 模块深度解析 tekin Python 编程秘籍库 python Python 文本处理神器 textwrap 模块深度解析
Python文本处理神器：textwrap模块深度解析在Python编程中，处理文本是一项常见任务，比如自动换行、填充文本、缩短文本等。textwrap模块就像是一个贴心助手，专门用来解决这些问题。本文将带你深入了解textwrap模块的各种功能，通过丰富的示例代码和清晰的讲解，让你轻松掌握它的使用技巧，提升文本处理能力。文章目录Python文本处理神器：textwrap模块深度解析一、`text
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag