太原浪子

数据分析工具--pandas

一、简介

1.1定义

Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。

Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。

1.2 优势

$\bullet$ 处理浮点与非浮点数据里的缺失数据，表示为 NaN；
$\bullet$ 大小可变：插入或删除 DataFrame 等多维对象的列；
$\bullet$ 自动、显式数据对齐：显式地将对象与一组标签对齐，也可以忽略标签，在 Series、 DataFrame 计算时自动与数据对齐；
$\bullet$ 强大、灵活的分组（group by）功能：拆分-应用-组合数据集，聚合、转换数据；
把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象；
$\bullet$ 基于智能标签，对大型数据集进行切片、花式索引、子集分解等操作；
$\bullet$ 直观地合并（merge）、**连接（join）**数据集；
$\bullet$ 灵活地重塑（reshape）、**透视（pivot）**数据集；
$\bullet$ 轴支持结构化标签：一个刻度支持多个标签；
$\bullet$ 成熟的 IO 工具：读取文本文件（CSV 等支持分隔符的文件）、Excel 文件、数据库等来源的数据，利用超快的 HDF5 格式保存 / 加载数据；
$\bullet$ 时间序列：支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能
$\bullet$ 它是专门为了处理表格和混杂数据设计的

二、series对象

1.1定义

它是一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。

1.2 Series对象属性

# 属性一：index
s.index  # Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')
s.index=='B' 
# array([False,  True, False, False, False, False, False, False, False,False])


# 属性二：values
s.values  # array([23, 29, 24, 22, 25,  6, 28, 20, 28, 14])
s.values==23 # array([ True, False, False, False, False, False, False, False, False,False])
s.values<25  # array([ True, False,  True,  True, False,  True, False,  True, False,True])


# 属性三：size
s.size   # 10，返回元素的个数


# 属性四：shape
s.shape  # (10,)，获取形状

# 属性五：name
s.name = 'age'
s.index.name = 'gender'

1.3 生成series对象

格式：

     pd.Series(data=None,index=None,dtype=None,name=None,copy=False,fastpath=False)
     参数描述：index默认从0开始也可以自定义，可以为非整型。
               name为表的名字
               copy为复制输入的数据

创建series对象的两种方式：

$\bullet$ 列表元组等生成series对象
$\bullet$ 字典生成Series对象

直接传入一个字典

data = {'name':'tyl','age':25}
info = pd.Series(data)
info          #   name  tyl
                   age  25

传入排好序字典的键以改变顺序

index1 = ['age','name','gender']
info1 = pd.Series(data,index=index1)
info1     #  age  25
             name tyl
             gender nan

$\bullet$ array数组生成series对象

两者区别：
列表方式是生成一个副本，而array数组是引用。

在数据中使用np.nan表示空值

1.4 索引

$\bullet$ 显式索引

s=pd.Series(data=np.random.randint(1,30,size=10),index=list('ABCDEFGHIJ'))     # A    23
                                                                                 B    29
                                                                                 C    24
                                                                                 D    22
                                                                                 E    25
                                                                                 F     6
                                                                                 G    28
                                                                                 H    20
                                                                                 I    28
                                                                                 J    14
                                                                                 dtype: int32

通过索引的方式选取Series对象中的一组值或者单个值
s['C']    # 24

s[['A','G']] # A  23
               G  28
               
s.loc['C'] # 24
# 使用loc取多个值,可以放重复的索引
s.loc[['A','D','J']]  # A    23
                        D    22
                        J    14
                        dtype: int32
# 可以使用bool列表取值，但是bool列表长度需要和s对象元素个数一致
s.loc[[True,False,False,True,False,False,True,False,False,True]]  # A    23
                                                                    D    22
                                                                    G    28
                                                                    J    14
                                                                    dtype: int32
                                                                    
 使⽤NumPy函数或类似NumPy的运算（如根据布尔型数组进⾏过滤、标量乘法、应⽤数学函数等）都会保留索引值的链接
 s[s>25]  ->  s[['B','G','I']]   #  B 29
                                    G 28
                                    I 28

$\bullet$ 隐式索引

默认从0开始

s[0]   # 23
s[8]   # 28
s.iloc[8] # 28
s.iloc[[8,0,5]]   # I    28
                    A    23
                    F     6
                    dtype: int32

s.loc和s.iloc返回值都是Series类型

$\bullet$ 修改索引

就地赋值修改索引：s.index = [‘a’,‘b’,‘c’…]

1.5 切片

$\bullet$ 显式索引与列表等的切片基本一致，但是顾左也顾右。
$\bullet$ 隐式索引顾左不顾右

1.6 Series对象方法

s1 = pd.Series(data=np.random.randint(1,10,size=6),index=list('ABCDEF'))  # A    4
                                                                            B    2
                                                                            C    3
                                                                            D    8
                                                                            E    3
                                                                            F    2
                                                                            dtype: int32

# 方法一：head（n） 获取前n个元素
s.head(2)  # A    23
             B    29
             dtype: int32

# 方法二：tail（n）获取后n个元素
s.tail(2)  # I    28
             J    14
             dtype: int32

# 方法三：检测空值
s.isnull()
s.notnull()
pd.isnull(obj)
pd.notnull(obj)

# 方法四：排序
s1.sort_values() # B    2
                   F    2
                   C    3
                   E    3
                   A    4
                   D    8
                   dtype: int32

s1.sort_index()  # A    4
                   B    2
                   C    3
                   D    8
                   E    3
                   F    2
                   dtype: int32

# 方法五：值的个数统计
s1.value_counts() # 3    2
                    2    2
                    4    1
                    8    1
                    dtype: int64

# 方法六：对值进行去重
s1.unique()  # array([4, 2, 3, 8])

# 方法七：any() 判断整个数组中是否至少有一个符合条件。
# 方法八：all() 判断整个数组中是否全部满足条件。

# 方法七：丢弃指定轴的数据
s1.drop(['A','C'])

1.7 运算

Series兼容numpy array的运算
Series最重要的⼀个功能是，它会根据运算的索引标签⾃动对⻬数据

s2 = pd.Series(data=np.random.randint(1,10,size=5))  # 0    1
                                                       1    1
                                                       2    3
                                                       3    6
                                                       4    2
                                                       dtype: int32
s3 = pd.Series(data=np.random.randint(1,10,size=5))  # 0    8
                                                       1    8
                                                       2    2
                                                       3    3
                                                       4    1
                                                       dtype: int32
#进行运算时，是相同的索引对应的值进行运算
s2+s3   # 0    9
          1    9
          2    5
          3    9
          4    3
          dtype: int32

s2-s3   # 0   -7
          1   -7
          2    1
          3    3
          4    1
          dtype: int32

s2*s3    # 0     8
           1     8
           2     6
           3    18
           4     2
           dtype: int32

# 广播机制
s2 +1    # 0    2
           1    2
           2    4
           3    7
           4    3
           dtype: int32

两个Series对象可以进行基本的运算，不用形状相同
Series对象和ndarray形状相同可以进行运算

s4 = s2+5   #  0     6
               1     6
               2     8
               3    11
               4     7
               dtype: int32
s4<10       # 0     True
              1     True
              2     True
              3    False
              4     True
              dtype: bool

s4.values<10  # array([ True,  True,  True, False,  True])

# 获取值小于10的项
s4.loc[s4<10]
s4.loc[s4.values<10]

三、DataFrame

2.1 定义

DataFrame 是由多种类型的列构成的二维标签数据结构，类似于 Excel 、SQL 表，或 Series 对象构成的字典。DataFrame 是最常用的 Pandas 对象，与 Series 一样，DataFrame 支持多种类型的输入数据：

2.2 DataFrame属性

d.index   #  RangeIndex(start=0, stop=3, step=1)
d.index.name = ''
d.values #  array([[100,  48,  88],
                   [ 50,  69,  47],
                   [ 60,  40,  95]], dtype=int64)
d.columns  # Index(['python', 'java', 'php'], dtype='object')
d.colums.name = ''
d.dtypes  # python    int64
            java      int64
             php       int64
            dtype: object

2.3 创建DataFrame对象

格式：

pd.DataFrame(data=None,index=None,columns=None,dtype=None,copy=False)

如果传入的列在数据中找不到，会自动用NAN补齐

# 方式一：通过numpy的array对象创建

p = pd.DataFrame(data=np.random.randint(40,100,size=(5,3)),index=('a','b','c','d','e'),columns=('python','java','php'))

# 
   python java	php
a	47	49	98
b	82	56	42
c	56	87	99
d	49	41	78
e	58	41	62

# 方法二： 通过字典创建

dict1 = {'python':[100,50,60],
         'java':[48,69,40],
         'php':[88,47,95]}
d = pd.DataFrame(data=dict1)  
# 	python	java	php
0	100	48	88
1	50	69	47
2	60	40	95
#  此方式字典的values必须为一维array数组、列表、series一维数组

嵌套字典传给DataFrame，pandas就会被解释为：外层字典的键作为列，内层键则作为⾏索引

# 方法三：通过传递一个 numpyarray，时间索引以及列标签来创建一个DataFrame
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

2.4 索引和切片

# 索引
d2 = pd.DataFrame(data=np.random.randint(1,100,size=(4,3)),columns=('python','java','php'),index=('lucy','tony','jack','mark'))
#  
    python	java php
lucy	6	99	89
tony	46	5	58
jack	67	28	3
mark	61	19	79

# 获取某列
d2['python']
d2.python  这种方式不适用于所有的列
           它返回Series对象，并且拥有原DataFrame对象的索引，并且name也被设为python
# 获取某几列
d2[['python','php']]
d2.loc[:,['python','php']]
# 获取某几行某几列
d2.loc[['lucy','jack'],['python','php']]
# 获取一个元素
d2.loc['mark','php']
# bool列表的访问
d2.loc[[True,False,False,False]]  # 获取第一行
d2.drop(['tony','jack','mark'])
d2[[True,False,False,False]]      # 获取第一行
d2.loc[:,[True,False,True]]       #  获取一三列

# 切片
d2[0:2]    # 获取第一二行
d2.iloc[0:2]  # 获取第一二行

# Index 对象

index对象是不可变的，可以使Index对象在多个数据结构之间安全共享
Index的功能也类似⼀个固定⼤⼩的集合
pandas的Index可以包含重复的标签

2.5 运算

# 与一个数的运算，运用广播机制
d2+1   # 所有数+1

# 与numpy array数组的运算
arr = np.ones(3,dtype=int)  # [1,1,1]
arr+d2 
# 	 python	java php
lucy	7	100	90
tony	47	6	59
jack	68	29	4
mark	62	20	80

# 与Series对象运算
s = pd.Series(data=[1,2,3],index=['python','java','php'])
d2+s
# 	python	java	php
lucy	7	101	92
tony	47	7	61
jack	68	30	6
mark	62	21	82

默认情况下，DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列，然后沿着⾏⼀直向下⼴播
如果你希望匹配⾏且在列上⼴播，则必须使⽤算术运算⽅法

2.6 DataFrame对象方法

方法名	描述
df.describe()	数据的快速统计汇总
df.T	数据的转置
df.sort_index()	按轴进行排序
df.sort_values()	按值进行排序
df.reindex(index,method,fill_value)	创建一个数据符合新索引的新对象
df.drop()	丢弃指定轴的数据
df.add(df1,fill_value)	将两个df对象相加，缺失值用指定数代替
df.sub()	两个df对象之差
df.apply(f)	将函数应⽤到由各列或⾏所形成的⼀维数组上

2.7 从文件中读取数据创建DataFrame对象

逐块读取文件：

读取几行可以使用nrows参数

逐块读取需要指定chunksize参数，返回一个TextParse对象，用于迭代。它有一个get_chunk方法，使我们可以读取任意大小的数据块

2.8 数据库访问

import pymysql
conn = pymysql.connect(host='127.0.0.1',port=3306,user='tyl',password='tyl',db='mydb')
sql='select * from department'
pd.read_sql(sql,conn)
conn.close()

2.9 分组

2.9.1 分组操作格式：

分组的一般模式：

               df.groupby(分组依据)[数据来源].使用操作

多维度分组(根据列名分组 )

              df.groupby(['分组依据1','分组依据2'，...])[数据来源].使用操作

根据复杂逻辑分组：

              df.groupby(condition)[数据来源].使用操作

查看分组类别：

              df.drop_duplicates()

2.9.2 groupby对象

改对象本身不会返回什么，只有调用方法后才会起作用

属性：

属性名	描述
ngroups	查看分组个数
groups	返回组名映射到组索引列表的字典
size	统计每个组的元素个数
ngroups	返回组数

方法：

方法名	描述
get_group(name, obj=None)	获取该组所在的行即，使用提供的名称从组构造DataFrame。
head()	返回每个组的前几行
first()	返回以分组为索引的每组的第一个分组信息

2.9.3 分组三大操作‘

聚合函数：

根据返回标量值原则，常见的聚合函数有：

max、min、mean、median中位数、count不统计NAN值、size统计元素个数，包含NAN值、all、any、idxmax、idxmin、mad、nunique去重再计数、skew、quantile、sum、std、var、sem、prod

agg方法：

groupby对象其他函数的缺点：

$\bullet$ 无法同时使用多个函数
$\bullet$ 无法对特定的列使用特定的聚合函数
$\bullet$ 无法使用自定义的聚合函数
$\bullet$ 无法对结果的列名在聚合前进行自定义命名

agg方法克服了上述的四个缺点：

① 使用多个函数

                  gb.agg(['函数1','函数2','函数3',.....])

此时返回的列索引为多级索引，第一层为数据源，第二层为聚合函数

② 对特定的列使用特定的聚合函数

                  gb.agg({'列1':'聚合函数1','列2':['聚合函数2','聚合函数3']})

通过向agg方法的参数中传入字典实现，字典的键为列名，值为聚合函数

③ 使用自定义函数

                  gb.agg(lambda 变量:条件)

需要注意传入函数的参数是之前数据源的列，逐列计算

④ 聚合结果重命名

                  gb.agg([('新名字','聚合函数1'),('新名字','聚合函数2')])

变换：

返回一个Series对象，与原序列同长度

常用的内置变换函数为累计函数：cumsum、cumcount、cumprod、cummax、rank

自定义变换使用transform方法，参数为自定义函数还可以为聚合函数

过滤：
fliter函数

filter函数是用来筛选某些组的（务必记住结果是组的全体），因此传入的值应当是布尔标量

2.9.4 跨列分组

四、pandas函数

函数名	描述
cut( )	将值归为离散间隔。

Python——生成AIGC图像朱剑君 AIGC 人工智能 python
文章目录一、背景介绍二、效果图展示三、完整代码四、分步解释五、实用建议1）提示词技巧2）性能优化3）常见问题处理4）扩展功能建议六、注意事项1.硬件要求2.法律合规3.模型安全一、背景介绍AIGC（AI-GeneratedContent），即由人工智能生成的内容，涵盖了文本、图像、音频、视频等各种形式。通过深度学习、生成对抗网络（GAN）和扩散模型等技术，AIGC能够生成高度逼真、具有艺术性的内容
python：实现简易FTP服务(附完整源码) 源代码大师 Python实战教程 python 开发语言
python：实现简易FTP服务importsocket,threading,os,sys,timeimporthashlib,platform,statlisten_ip="localhost"listen_port=21conn_list=[]root_dir
Python爬虫 +数据采集分析：淘宝商品评论页面数据接口代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
Python爬虫+数据采集分析：淘宝商品评论页面数据接口一、引言在当今数字化商业时代，电商平台的数据蕴含着巨大的价值。淘宝作为全球知名的电商平台，其商品评论数据能反映消费者的真实反馈、偏好和需求，对于商家优化产品、制定营销策略，以及研究人员进行市场分析等都具有重要意义。然而，直接从淘宝商品评论页面采集数据并非易事，淘宝有严格的反爬机制。为了高效、合法地获取这些数据，利用数据接口是一种可行的解决方案
python工具——pypinyin 汉字转换拼音 xiaoming0018 python python list
把汉字转成拼音后可以进行深度学习分类，做内容识别1.安装pipinstallpypinyin将汉字转换为拼音并生成slug字符串importpypinyinfrompypinyinimportStylecontent=pypinyin.slug('汉语拼音')print(content)#E:\python\>pythonpinyin.py#han-yu-pin-yin修改分隔字符串importp
Leetcode Day6 (图论I, dfs, bfs) 比起村村长 leetcode 深度优先 leetcode 图论
创建一个visited的模版#mxn大小的矩阵m=len(matrix)n=len(matrix[0])visited=[[Falsefor_inrange(n)]for_inrange(m)]foriinrange(m):forjinrange(n):blablabla#DFS模版```python200岛屿数量classSolution:defnumIslands(self,grid:List
Python爬虫实战：爬取贝壳网二手房成交数据，将数据存入Excel。马虎的程序猿 python 爬虫 excel
importrequests,refromlxmlimporthtmlaaa=['heping','nankai','hexi','hebei','hedong','hongqiao','xiqing','beichen','dongli','jinnan','tanggu','kaifaqutj','wuqing','binhaixinqu','baodi','jizhou','jinghai'
BeautifulSoup爬取贝壳网成都二手房源信息（附：完整源代码）进击的SB 爬虫 python 大数据爬虫
BeautifulSoup爬取贝壳网成都二手房源信息最近想出一套二手房，刚好在学习爬虫，那就顺手爬一下贝壳上成都各区二手房信息了解一下行情，本篇先介绍数据爬取，数据分析稍后有时间再写。仅用于技术交流，请勿商业应用，如有侵权，联系删除。1.开发环境：python3.8.3；bs4,pandas,requests；存为csv,excel文件；个人比较喜欢用bs4,比较简洁，xpath也有优势，虽然路径
实战：用Spring Boot构建电商系统中的API接口 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1998年，在经历了无数的创新革命之后，互联网成为科技界最重要的分支之一。随着时间的推移，互联网已经成为人类信息化革命的源头。如今的电子商务网站数量达到数百亿，这些网站都具有大规模的用户群体、丰富的内容、高频的交易、海量数据等特征。电商行业近几年有了很多变革，比如大数据分析、物流管理、供应链管理、订单评价、信用卡支付等等。其中API接口开发对于电商系统而言尤其重
【Python爬虫(44)】分布式爬虫：筑牢安全防线，守护数据之旅奔跑吧邓邓子 Python爬虫 python 爬虫分布式开发语言安全
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、防范分布式爬虫遭受DDoS攻击2.1设置防火墙2.2使
Python 汉字转拼音库 pypinyin, 附：汉字拼音转换工具 tboqi1 python 拼音汉字拼音转换
一、初衷：一些开源软件的配置文件中识别区分的部分用英文，那么我们在批量生成配置文件的时候，可以从CMDB导入汉字(idc_name)，然后将它转换成拼音，再或者拼接上IP地址，以便更准确的识别。例如：Smokeping的Targets配置文件，如下：正在上传…重新上传取消+telcommenu=中国电信title=telcom++yunfuxinxingshuangxian-01-61menu=云
【Python】探索PyPinyin 库：Python 中的中文拼音转换工具音乐学家方大刚 Python 爬虫 python 开发语言
花未全开月未圆，半山微醉尽余欢。何须多虑盈亏事，终是小满胜万全。——《对抗路—吕布》PyPinyin是一个功能强大的Python库，用于将中文文本转换为拼音。它提供了丰富的功能，能够满足各种中文文本处理的需求。在本文中，我们将介绍PyPinyin库的基本用法，并给出三个实用案例。1.安装PyPinyin首先，我们需要通过pip安装PyPinyin：pipinstallpypinyin2.使用案例一
【华为OD技术面试手撕真题】109、长度为 K 子数组中的最大和 | 手撕真题+思路参考+代码解析（C & C++ & Java & Python & JS） KJ.JK 华为OD技术面试手撕真题华为od 面试 c语言华为od机试真题华为od机试E卷长度为 K 子数组中的最大和
文章目录一、题目题目描述样例1二、代码参考C语言思路C语言代码C++语言思路C++代码Java语言思路Java代码Python语言思路Python代码JS语言思路JS代码作者：KJ.JK个人博客首页：KJ.JK专栏介绍：本专栏更新每年华为OD机试的高频手撕代码题，每个题目都会使用五种语言进行解答（C&C++&Java&Python&JS），思路分析都非常详细，争取实现最低的时间复杂度和高通过率，每
一周学会Flask3 Python Web开发-post请求与参数获取 java1234_小锋 Flask3视频教程 python 开发语言 flask flask3
锋哥原创的Flask3PythonWeb开发Flask3视频教程：2025版Flask3Pythonweb开发视频教程(无废话版)玩命更新中~_哔哩哔哩_bilibili@app.route装饰器默认只支持get请求。假如我们要让绑定的视图函数支持其他请求方式，我们可以在methods属性里配置下即可。@app.route('/login',methods=['GET','POST'])我们通过一
谁掌握了体育数据的密码就是胜利者翱翔的猪脑花服务器运维前端
体育数据分析正在重塑现代竞技体育的面貌。从NBA的投篮热区图到足球比赛中的跑动距离统计，数据已经渗透到体育领域的每个角落。职业球队每年投入数百万美元用于数据分析系统的建设，教练团队中数据分析师的比例持续上升。这种转变不仅改变了球队的训练和比赛策略，更深刻地影响着体育产业的发展方向。一、数据采集：竞技体育的数字化基础现代体育数据的采集已经形成了完整的生态系统。在NBA赛场上，每块场地安装的6个追踪摄
AI如何预测比赛结果：体育预测技术全解析翱翔的猪脑花人工智能
利用人工智能技术构建一个完整的体育预测系统，涵盖数据收集、模型构建到部署应用的完整流程。一、系统架构设计1.整体架构数据采集层数据处理层模型训练层预测服务层应用展示层2.技术选型Python3.8+TensorFlow/PyTorchScikit-learnPandas/NumpyFlask/FastAPI二、数据收集与处理1.数据源集成python复制importrequestsimportpa
Python常见面试题的详解16 ylfhpy Python基础 python 开发语言面试
1.如何强行关闭客户端和服务器之间的连接？在网络编程中，有时需要强行中断客户端和服务器之间的连接。对于基于TCP协议的连接，由于其面向连接的特性，需要采取特定的步骤来确保连接被正确关闭；而UDP是无连接协议，处理方式相对简单。服务器端（TCP）pythonimportsocket#创建TCP套接字server_socket=socket.socket(socket.AF_INET,socket.S
Java技术栈 —— RabbitMq入门 CS-Polaris Java技术栈 java-rabbitmq java rabbitmq
Java技术栈——RabbitMq入门一、Linux中安装RabbitMq二、RabbitMQ文档三、Spring中与RabbitMq通信四、Python中与RabbitMq通信一、Linux中安装RabbitMq不推荐物理安装RabbitMq，复杂，成本高，不划算，推荐docker安装参考文章或视频链接[1]InstallingonDebianandUbuntu-rabbitmq[2]Linux
Chrome webdriver下载-避坑 m0_74825502 java
WebDriver以原生的方式驱动浏览器，不需要调整环境变量。一、window版1.chrome和chromedriver下载地址：ChromeforTestingavailability我下载的是如下两个安装包，解压即可。2.导包pipinstallselenium然后用python代码引用即可二、Linux版1.chrome和chromedriver下载地址：ChromeforTestinga
Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_79856539 javaweb 大数据 python spark
本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化，实现客流量预测模型的部署和应用，通过系统界面展示预测结果。对预测模型进行评估和验证，并提出改进方案。设计步骤使用Python语言编写爬虫程序采集数据，并对原始数据集进行预处理；使用Pyt
Django项目开发的网站展示来自fasta文件的蛋白质名称和序列的可视化表格 go5463158465 算法前端 django 数据库 sqlite
1.项目初始化首先，确保你已经安装了Django。然后创建一个新的Django项目和应用：django-adminstartprojectprotein_projectcdprotein_projectpythonmanage.pystartappprotein_app在protein_project/settings.py中，将protein_app添加到INSTALLED_APPS列表中：IN
Python基础训练100题（带答案）乔代码嘚 python 开发语言算法
文末有彩蛋！！！Python3100例实例001：数字组合题目有四个数字：1、2、3、4，能组成多少个互不相同且无重复数字的三位数？各是多少？程序分析遍历全部可能，把有重复的剃掉。total=0foriinrange(1,5):forjinrange(1,5):forkinrange(1,5):if((i!=j)and(j!=k)and(k!=i)):print(i,j,k)total+=1pri
网站变更检测自动化：Python + Selenium 实现 DOM 差异对比与邮件预警系统西攻城狮北 python 开发语言实战案例爬虫
引言随着互联网的飞速发展，网站每天都在发生变化。为了能够及时发现和响应这些变化，自动化的网站变更检测工具显得尤为重要。本文将详细介绍如何使用Python和Selenium实现基于DOM（文档对象模型）差异对比的网站变更检测系统，并通过邮件的方式进行预警。一、需求分析在开始之前，我们需要明确需求。假设用户希望监控某个网站的特定页面（例如，一个电商网站的商品页面），当页面中的某些元素（如价格、产品描述
Ubuntu 24.04 安装 Poetry：Python 依赖管理的终极指南 engchina LINUX ubuntu python linux Poetry 虚拟环境
Ubuntu24.04安装Poetry：Python依赖管理的终极指南1.更新系统包列表2.安装Poetry方法1：使用官方安装脚本方法2：使用Pipx安装3.配置环境变量4.验证安装5.配置Poetry（可选）设置虚拟环境位置配置镜像源6.创建和管理项目创建新项目安装依赖添加依赖激活虚拟环境7.卸载Poetry（可选）总结在Python开发中，依赖管理是一个非常重要的环节。Poetry是一个现代
Github 2024-06-30开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-06-30统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量C#项目1Python项目1PowerShell项目1JavaScript项目1JupyterNotebook项目1TypeScript项目1PHP项目1C++项目1Swift项目1Rust项目1shadcn/ui:开源组件集合创建周期：393天开发
python-爬虫-图片的下载保存丧尸啃脖子啦 python 爬虫开发语言
在使用爬虫是面对页面上的图片有三种处理方法第一种使用request方法下载图片首先创建了一个名为"images"的文件夹用于保存图片。然后，通过发送HTTPGET请求来获取图片的数据。如果请求成功（状态码为200），则将图片数据保存到本地的文件中。保存图片时需要以二进制写入的方式打开文件，然后将请求返回的内容response.content写入文件中。需要注意的是，上面的示例只适用于单张图片的下载
Python Linter Ruff是开源和Rust的胜利 christ pan rust 开发语言后端
2022年，CharlieMarsh用Rust编写了一个快速开源Python代码检查器。如今，Ruff每周下载量达数百万次，Marsh也体会到了开源的力量。译自ThePythonLinterRuffIsaWinforOpenSource—andRust，作者DavidCassel。AstralSoftware描述其使命为“为Python生态系统提供高性能的开发人员工具，从Ruff开始，这是一个用R
python下载图片并保存_下载并保存图片Python2.7 weixin_39590566 python下载图片并保存
#!/usr/bin/envpython#-*-encoding:utf-8-*-importurllib2importosdefsave_img(img_url,file_name,file_path='img'):#保存图片到磁盘文件夹file_path中，默认为当前脚本运行目录下的book\img文件夹try:ifnotos.path.exists(file_path):print'文件夹'
Ai阅读各种需求文档需求文档小赖同学啊人工智能自动化测试(app pc API)test Technology Precious 人工智能 c#开发语言
让AI阅读不同格式需求文档的方法在软件项目开发中，需求文档通常以多种格式存储，如Word、Figma、蓝湖和Axure。要让AI阅读这些文档，需针对不同格式采用特定的处理方式。一、Word文档格式转换：可利用Python的python-docx库将Word文档转换为纯文本。示例代码如下：importdocxdefdocx_to_text(file_path):doc=docx.Document(f
python 包管理rye开启uv与软链接symlink csq镜子的月亮 python uv 开发语言 rye
简说：uv的引入，使得当前使用rye的体验得到了极大的提升，特别是reysnyc漫长的等待可以得到缓解了，一个字：爽！uv简介uv，一个用Rust开发的高性能的Python包解析器和安装器。uv作为单一的静态二进制文件发布，能够替代pip、pip-tools和virtualenv。uv没有直接的Python依赖。uv在没有缓存的情况下比pip和pip-tools快8-10倍，而在有热缓存的情况下（
python核心编程之开门见山，带你了解Python后的大背景进击的雷神 python 开发语言
目录一、什么是Python二、起源三、特点1、高级2、面向对象3、可升级4、可扩展5、可移植性6、易学7、易读8、易维护9、健壮性10、高效的快速原型开发工具11、内存管理器12、解释性和(字节)编译性核心笔记:文件扩展名四、下载和安装Python1、Windows/DOS系统2、自己动手编译Python五、运行Python1、命令行上的交互式解释器Unix衍生系统(Linux，MacOSX，So
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

数据分析工具--pandas

一、简介

1.1定义

1.2 优势

二、series对象

1.1定义

1.2 Series对象属性

1.3 生成series对象

1.4 索引

1.5 切片

1.6 Series对象方法

1.7 运算

三、DataFrame

2.1 定义

2.2 DataFrame属性

2.3 创建DataFrame对象

2.4 索引和切片

2.5 运算

2.6 DataFrame对象方法

2.7 从文件中读取数据创建DataFrame对象

2.8 数据库访问

2.9 分组

四、pandas函数

你可能感兴趣的:(数据分析,python,数据分析,numpy)