snailshaw

DataFrame的基本使用

定义

DataFrame类似于二维数组（表格）, 由一组数据（类似于二维numpy对象）及两组标签（行索引，列索引）组成

创建方法

DataFrame(可迭代二维数据 [, index=行索引链表[, columns=列索引链表 [, dtype=数据类型]]])

注：可迭代对象可以使用二维链表，二维numpy对象，字典（使用字典时，字典的value为一维链表，columns对应字典的key），可迭代对象必须是二维，否则报错：Data must be 2-dimensional

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

print(DataFrame(np.arange(6).reshape([2, 3])))
print("#" * 30)
print(DataFrame(np.arange(6).reshape([2, 3]), index=["row1", "row2"], columns=["col1", "col2", "col3"], dtype=float))

   0  1  2
0  0  1  2
1  3  4  5
##############################
      col1  col2  col3
row1   0.0   1.0   2.0
row2   3.0   4.0   5.0

属性

DataFrame对象的属性有：dtype, index, values, name

dtype属性在创建时可以指定，但是直接打印会报错，必须通过对象的dtype属性重新指定以后才能打印属性值

name属性在创建时不可以指定，直接打印会报错，必须通过对象的name属性重新指定以后才能打印属性值

df0 = DataFrame(np.arange(6).reshape([2, 3]), index=["row1", "row2"], columns=["col1", "col2", "col3"], dtype=float)

# print(df0.dtype) # 'DataFrame' object has no attribute 'dtype'
df0.dtype = int
print(df0.dtype)

print("##############################")
print(df0.index)

print("##############################")
print(df0.values) # numpy对象

print("#" * 30)
# print(df0.name) # 'DataFrame' object has no attribute 'name'
df0.name = "first dataframe"
print(df0.name)

print(df0.index.name)
df0.index.name = "idx"
print("##############################")
print(df0)


##############################
Index(['row1', 'row2'], dtype='object')
##############################
[[ 0.  1.  2.]
 [ 3.  4.  5.]]
##############################
first dataframe
None
##############################
      col1  col2  col3
idx                   
row1   0.0   1.0   2.0
row2   3.0   4.0   5.0

增删改查

普通查询

1、DataFrame默认从列取值，如果想从行开始取值，使用ix
注意：直接取值不能使用序号，也不能使用[xx, xx]，使用 ix属性可以使用序号
只有直接取值为先列后行
2、loc属性中，第一个位置为行索引，第二个位置为列索引
注意：loc属性只能用关键字，不能使用序号
iloc属性中，第一个位置为行索引，第二个位置为列索引，不可以使用索引名称
3、快速获取指定位置的值
df对象.iat[行序号, 列序号] 先行后列

df1 = DataFrame({"语文": [80, 87, 76], "数学": [98, 94, 97]}, index=["小李", "小张", "小红"])
print("df1: \n", df1)

print("#" * 30)
print("df1['语文']: \n", df1['语文']) # Series对象

# print("#" * 30)
# print("df1[0]: \n", df1[0]) # KeyError: 0

print("#" * 30)
print("df1.ix['小红', '语文']: \n", df1.ix['小红', '语文']) # Series对象

print("#" * 30)
print("df1.ix[2, 1]: \n", df1.ix[2, 1]) # Series对象

print("#" * 30)
print("df1.loc['小张']: \n", df1.loc['小张'])

print("#" * 30)
print("df1.iloc[1]: \n", df1.iloc[1])

print("#" * 30)
print("df1.iat[0, 0]: \n", df1.iat[0, 0])

df1: 
     数学  语文
小李  98  80
小张  94  87
小红  97  76
##############################
df1['语文']: 
 小李    80
小张    87
小红    76
Name: 语文, dtype: int64
##############################
df1.ix['小红', '语文']: 
 76
##############################
df1.ix[2, 1]: 
 76
##############################
df1.loc['小张']: 
 数学    94
语文    87
Name: 小张, dtype: int64
##############################
df1.iloc[1]: 
 数学    94
语文    87
Name: 小张, dtype: int64
##############################
df1.iat[0, 0]: 
 98

切片查询

1、对于切片操作，无论是否加ix，都是从行进行取值
注意：1、直接取值不能使用序号，使用 ix属性可以使用序号
2、使用序号是前开后闭，但是使用索引是闭区间

2、loc属性中，第一个位置为行索引，第二个位置为列索引；两个位置均为切片返回DataFrame对象；仅有一个位置为切片，另一个位置为值，返回Series对象；两个位置均为值，返回值。
注意：loc属性使用切片或索引只能用关键字，不能使用序号
区别：通过索引取值是闭区间，通过索引序号取值是前闭后开的

df1 = DataFrame({"语文": [80, 87, 76], "数学": [98, 94, 97]}, index=["小李", "小张", "小红"])
print("df1: \n", df1)

print("#" * 30)
print("df1['小张':'小红']: \n", df1["小张":"小红"]) # DataFrame对象

print("#" * 40)
print('df1[1:2]: \n', df1[1:2]) # DataFrame对象

print("#" * 40)
print("df1.ix['小张':'小红']: \n", df1.ix["小张":'小红', '数学'])

print("#" * 40)
print("df1.ix[1:]: \n", df1.ix[1:, 0])

np2 = np.random.random([5, 4])
df2 = DataFrame(np2, index=['idx1', 'idx2', 'idx3', 'idx4', 'idx5'], columns=['col1', 'col2', 'col3', 'col4'])
print("df2: \n", df2, "\n")
print("df2.loc['idx2': 'idx4', ['col3']]: \n", df2.loc['idx2': 'idx4', ["col3"]], "\n") # DataFrame对象
print("df2.loc['idx4', ['col3']]: \n", df2.loc['idx4', ["col3"]], "\n") # Series对象
print("df2.loc['idx4', 'col3']: \n", df2.loc['idx4', "col3"], "\n") # 值

print("#" * 30)
print(df2.iloc[2])
print(df2.iloc[1:3])
print(df2.iloc[1:3, 1:3])

df1: 
     数学  语文
小李  98  80
小张  94  87
小红  97  76
##############################
df1['小张':'小红']: 
     数学  语文
小张  94  87
小红  97  76
########################################
df1[1:2]: 
     数学  语文
小张  94  87
########################################
df1.ix['小张':'小红']: 
 小张    94
小红    97
Name: 数学, dtype: int64
########################################
df1.ix[1:]: 
 小张    94
小红    97
Name: 数学, dtype: int64
df2: 
           col1      col2      col3      col4
idx1  0.075806  0.946859  0.039281  0.319763
idx2  0.725321  0.588884  0.297942  0.218208
idx3  0.664639  0.750553  0.666202  0.401805
idx4  0.588873  0.679760  0.463870  0.016034
idx5  0.794644  0.337072  0.804746  0.734267 

df2.loc['idx2': 'idx4', ['col3']]: 
           col3
idx2  0.297942
idx3  0.666202
idx4  0.463870 

df2.loc['idx4', ['col3']]: 
 col3    0.46387
Name: idx4, dtype: float64 

df2.loc['idx4', 'col3']: 
 0.463869942466 

##############################
col1    0.664639
col2    0.750553
col3    0.666202
col4    0.401805
Name: idx3, dtype: float64
          col1      col2      col3      col4
idx2  0.725321  0.588884  0.297942  0.218208
idx3  0.664639  0.750553  0.666202  0.401805
          col2      col3
idx2  0.588884  0.297942
idx3  0.750553  0.666202

条件查询

1、列过滤

2、整体过滤

3、df.isin()过滤

print("df2: \n", df2, "\n")
print("df2[df2.col1>0.6]: \n", df2[df2.col1>0.6])
print("df2[df2 > 0.6]: \n", df2[df2 > 0.6], '\n')
print("df2[df2.col3.isin([0.666202: 0.804746])]: \n", df2[df2.col3.isin([0.666202, 0.804746])])

df2: 
           col1      col2      col3      col4
idx1  0.075806  0.946859  0.039281  0.319763
idx2  0.725321  0.588884  0.297942  0.218208
idx3  0.664639  0.750553  0.666202  0.401805
idx4  0.588873  0.679760  0.463870  0.016034
idx5  0.794644  0.337072  0.804746  0.734267 

df2[df2.col1>0.6]: 
           col1      col2      col3      col4
idx2  0.725321  0.588884  0.297942  0.218208
idx3  0.664639  0.750553  0.666202  0.401805
idx5  0.794644  0.337072  0.804746  0.734267
df2[df2 > 0.6]: 
           col1      col2      col3      col4
idx1       NaN  0.946859       NaN       NaN
idx2  0.725321       NaN       NaN       NaN
idx3  0.664639  0.750553  0.666202       NaN
idx4       NaN  0.679760       NaN       NaN
idx5  0.794644       NaN  0.804746  0.734267 

df2[df2.col3.isin([0.666202: 0.804746])]: 
 Empty DataFrame
Columns: [col1, col2, col3, col4]
Index: []

新增

添加一列操作：df[new_col] = value，这里value为0维或1维对象（长度必须匹配）

df1["英语"] = 1 
print(df1)

数学  语文  英语
小李  98  80   1
小张  94  87   1
小红  97  76   1

缺失值处理

reindex()方法对指定轴上的索引进行增删改

注意：使用该方法时，行列索引的数据类型不能改变，否则全部变成了NaN

np4 = np.random.random([5, 4])
df4 = DataFrame(np4, index=['idx1', 'idx2', 'idx3', 'idx4', 'idx5'], columns=['col1', 'col2', 'col3', 'col4'])
print("df4: \n", df4, "\n")
df5 = df4.reindex(index=[i for i in range(5)], columns=(list(df4.columns)+['other'])) # 行索引都改成了数字，返回全为NaN
print("df5: \n", df5, "\n")
df5 = df4.reindex(index=['idx1', 'idx2', 'idx3', 'idx4', 'idx5', 'idx6'], columns=list(df4.columns)+["other"]) # 行索引都改成了数字，返回全为NaN
print("df5: \n", df5, "\n")

df4: 
           col1      col2      col3      col4
idx1  0.904730  0.083906  0.355150  0.158472
idx2  0.173810  0.902371  0.795704  0.302842
idx3  0.875474  0.940805  0.772010  0.909598
idx4  0.338701  0.384996  0.397991  0.673116
idx5  0.607232  0.821274  0.885462  0.590894 

df5: 
    col1  col2  col3  col4  other
0   NaN   NaN   NaN   NaN    NaN
1   NaN   NaN   NaN   NaN    NaN
2   NaN   NaN   NaN   NaN    NaN
3   NaN   NaN   NaN   NaN    NaN
4   NaN   NaN   NaN   NaN    NaN 

df5: 
           col1      col2      col3      col4  other
idx1  0.904730  0.083906  0.355150  0.158472    NaN
idx2  0.173810  0.902371  0.795704  0.302842    NaN
idx3  0.875474  0.940805  0.772010  0.909598    NaN
idx4  0.338701  0.384996  0.397991  0.673116    NaN
idx5  0.607232  0.821274  0.885462  0.590894    NaN
idx6       NaN       NaN       NaN       NaN    NaN

对包含np.NaN的值进行处理

1、去除包含np.NaN的行 df对象.dropna(how=‘any’ or ‘all’)

2、对np.NaN进行填充 df对象.fillna(value=‘XX’) ，此外参数value还可以使用字典，对不同列np.nan填充不同的值

3、对np.NaN进行boolean填充

df5 = DataFrame(np.array(
    [
        [1,np.nan,2,3],
        [2,3,4,np.nan],
        [3, 4, 5, 6]
    ]
))
df51 = df5.dropna(how='any')
print("df5.dropna(how='any'): \n", df51)
df52 = df5.dropna(how='all') # 该行所有值均为nan才删除
print("df5.dropna(how='all'): \n", df52)

df5.dropna(how='any'): 
      0    1    2    3
2  3.0  4.0  5.0  6.0
df5.dropna(how='all'): 
      0    1    2    3
0  1.0  NaN  2.0  3.0
1  2.0  3.0  4.0  NaN
2  3.0  4.0  5.0  6.0

df5 = DataFrame(np.array(
    [
        [1,np.nan,2,3],
        [2,3,4,np.nan],
        [3, 4, 5, 6]
    ]
))
df53 = df5.fillna(value=0)
print("df5.fillna(value=0): \n", df53)
df54 = df5.fillna(value={1:1, 3:2})
print("df5.fillna(value={1:1, 3:2}): \n", df54)

df5.fillna(value=0): 
      0    1    2    3
0  1.0  0.0  2.0  3.0
1  2.0  3.0  4.0  0.0
2  3.0  4.0  5.0  6.0
df5.fillna(value={1:1, 3:2})
     0    1    2    3
0  1.0  1.0  2.0  3.0
1  2.0  3.0  4.0  3.0
2  3.0  4.0  5.0  6.0

print("df5.isnull(): \n", df5.isnull())
print("df5.notnull(): \n", df5.notnull())

df5.isnull(): 
        0      1      2      3
0  False   True  False  False
1  False  False  False   True
2  False  False  False  False
df5.notnull(): 
       0      1     2      3
0  True  False  True   True
1  True   True  True  False
2  True   True  True   True

对数据进行统计

注意：df.sort_values()函数的参数by必须是索引名称，不能是序号

np2 = np.random.random((6, 4))
df2 = DataFrame(np2)
print("df2.head(): \n", df2.head())
print("df2.tail(): \n", df2.tail())
print("df2.describe(): \n", df2.describe())
df2.columns = ['a','c','d','b']
print("df2: \n", df2)
print("df2.T: \n", df2.T)
df2 = df2.sort_index(axis=1, ascending=True)
print("df2.sort_index(axis=1, ascending=True): \n", df2)

print("df2.sort_values(by='b', ascending=True, axis=0): \n", df2.sort_values(by='b', ascending=True, axis=0)) 

df2.index = ['idx1', 'idx2', 'idx3', 'idx4', 'idx5', 'idx6']
print("df2.sort_values(by='idx3', ascending=True, axis=1): \n", df2.sort_values(by='idx3', ascending=True, axis=1))

df2.head(): 
           0         1         2         3
0  0.713102  0.809143  0.511408  0.671801
1  0.344587  0.866291  0.332197  0.526176
2  0.661047  0.016959  0.391796  0.038333
3  0.437430  0.527497  0.506293  0.949712
4  0.096558  0.413851  0.572861  0.257213
df2.tail(): 
           0         1         2         3
1  0.344587  0.866291  0.332197  0.526176
2  0.661047  0.016959  0.391796  0.038333
3  0.437430  0.527497  0.506293  0.949712
4  0.096558  0.413851  0.572861  0.257213
5  0.718657  0.023692  0.722784  0.459101
df2.describe(): 
               0         1         2         3
count  6.000000  6.000000  6.000000  6.000000
mean   0.495230  0.442905  0.506223  0.483723
std    0.248941  0.368390  0.137655  0.317681
min    0.096558  0.016959  0.332197  0.038333
25%    0.367797  0.121232  0.420420  0.307685
50%    0.549238  0.470674  0.508850  0.492638
75%    0.700088  0.738731  0.557498  0.635394
max    0.718657  0.866291  0.722784  0.949712
df2: 
           a         c         d         b
0  0.713102  0.809143  0.511408  0.671801
1  0.344587  0.866291  0.332197  0.526176
2  0.661047  0.016959  0.391796  0.038333
3  0.437430  0.527497  0.506293  0.949712
4  0.096558  0.413851  0.572861  0.257213
5  0.718657  0.023692  0.722784  0.459101
df2.T: 
           0         1         2         3         4         5
a  0.713102  0.344587  0.661047  0.437430  0.096558  0.718657
c  0.809143  0.866291  0.016959  0.527497  0.413851  0.023692
d  0.511408  0.332197  0.391796  0.506293  0.572861  0.722784
b  0.671801  0.526176  0.038333  0.949712  0.257213  0.459101
df2.sort_index(axis=1, ascending=True): 
           a         b         c         d
0  0.713102  0.671801  0.809143  0.511408
1  0.344587  0.526176  0.866291  0.332197
2  0.661047  0.038333  0.016959  0.391796
3  0.437430  0.949712  0.527497  0.506293
4  0.096558  0.257213  0.413851  0.572861
5  0.718657  0.459101  0.023692  0.722784
df2.sort_values(by='b', ascending=True, axis=0): 
           a         b         c         d
2  0.661047  0.038333  0.016959  0.391796
4  0.096558  0.257213  0.413851  0.572861
5  0.718657  0.459101  0.023692  0.722784
1  0.344587  0.526176  0.866291  0.332197
0  0.713102  0.671801  0.809143  0.511408
3  0.437430  0.949712  0.527497  0.506293
df2.sort_values(by='idx3', ascending=True, axis=1): 
              c         b         d         a
idx1  0.809143  0.671801  0.511408  0.713102
idx2  0.866291  0.526176  0.332197  0.344587
idx3  0.016959  0.038333  0.391796  0.661047
idx4  0.527497  0.949712  0.506293  0.437430
idx5  0.413851  0.257213  0.572861  0.096558
idx6  0.023692  0.459101  0.722784  0.718657

df6 = DataFrame(np.array(
    [
        [1,np.nan,2,3],
        [2,3,4,np.nan],
        [3, 4, 5, 6]
    ]
), columns=['col1', 'col2', 'col3', 'col4'])
print("df6.mean(): \n", df6.mean(axis=0)) # 默认axis=0
print("df6.apply(np.cumsum): \n", df6.apply(np.cumsum))
print("df6.apply(lambda x: x.max()-x.min()): \n", df6.apply(lambda x: x.max()-x.min()))

df6.mean(): 
 col1    2.000000
col2    3.500000
col3    3.666667
col4    4.500000
dtype: float64
df6.apply(np.cumsum): 
    col1  col2  col3  col4
0   1.0   NaN   2.0   3.0
1   3.0   3.0   6.0   NaN
2   6.0   7.0  11.0   9.0
df6.apply(lambda x: x.max()-x.min()): 
 col1    2.0
col2    1.0
col3    3.0
col4    3.0
dtype: float64

series7 = Series(np.random.randint(0, 7, size=10))
print("series7: \n", series7)
print("series7.value_counts(): \n", series7.value_counts()) # 返回Series对象

series7: 
 0    3
1    3
2    5
3    5
4    4
5    4
6    3
7    4
8    1
9    5
dtype: int32
series7.value_counts(): 
 5    3
4    3
3    3
1    1
dtype: int64

网络安全态势感知：企业数字化转型的 “安全密钥” 知白守黑V 安全运营网络安全态势感知网络
在数字经济飞速发展的当下，网络安全已经成为企业平稳运营的关键所在。从大型企业的数据泄露事故，到中小企业遭遇的各类网络攻击，网络安全威胁无处不在。而网络安全态势感知产品，作为应对复杂网络威胁的关键技术，正逐渐成为企业守护数字资产的“智慧大脑”。一、态势感知：全景掌控，精准防御你可以把网络安全态势感知想象成企业网络的“超级侦察兵”。它借助大数据分析、机器学习这些先进技术，就像是拥有了超级强大的“洞察力
基于Python的豆瓣电影爬虫数据分析可视化设计与实现计算机软件程序设计 Python爬虫 Python程序设计数据分析 python 爬虫
【1】系统介绍1.研究背景随着互联网的快速发展，电影产业已经成为全球文化产业的重要组成部分。观众对电影的需求和兴趣日益增长，而在线电影平台如豆瓣电影（DoubanMovie）成为了用户获取电影信息、发表评论和评分的主要渠道之一。豆瓣电影不仅提供了丰富的电影资料，还拥有庞大的用户群体，这些用户生成的内容（UGC）为电影市场分析提供了宝贵的数据资源。然而，尽管豆瓣电影平台提供了大量的公开数据，但这些数
周报管理系统大霸王龙行业+领域+业务场景=定制 python microsoft ascii 文本处理
代码仓库产品名称：智汇周报管理系统主要功能：自动化报告生成：智汇周报管理系统能够自动收集项目进展、任务完成情况、团队成员工作日志等关键数据，基于预设模板或用户自定义模板，一键生成周报。支持多格式导出（如Word、PDF、Excel），满足不同场景下的报告需求。智能数据分析与可视化：系统内置强大的数据分析引擎，能够自动对收集到的数据进行统计分析，如任务完成率、进度延误情况、成员工作负荷等，并通过图表
怎么利用商品详情 API 接口实现数据获取与应用？前端后端运维数据挖掘api
在电商蓬勃发展的时代，数据成为了驱动业务增长的关键要素。对于电商从业者、开发者以及数据分析爱好者而言，获取商品详情数据并加以有效应用，是实现精准营销、优化用户体验、提升运营效率的重要途径。商品详情API接口就像是一把钥匙，为我们打开了获取海量商品数据的大门。本文将深入探讨如何利用商品详情API接口实现数据的获取与应用，并通过丰富的代码示例，帮助大家更好地理解和实践。一、理解商品详情API接口API
【2024校招总结帖】数据分析、面试经验、心得体会分享 huaxinjiayou java
首航新能源，一进来就开始大批裁员工作节奏比较快，公司对员工的加班要求也比较严格，而且没有加班费，缺乏福利待遇。另外，公司裁员频繁，而阿里国际一面面经吹爆阿里国际面试官，比某些自以为是的面试官好太多了，面试还不开摄像头。写题的时候，我问他要开摄像头吗鼠人传（第五十二集，2024/4/30）刷题：补昨天的C、MinimizingtheSum，定义dp[i][j]为长度i，使用最多j次可2024西山居S
【Python】红旗超市线下缴电费用户数据分析及可视化（pandas+pyecharts）风度78 百度人工智能 python 机器学习数据分析
场景分析：一部分用户习惯在红旗超市线下进行缴电费，电力公司希望了解哪些用户喜欢到线下缴费，具体分布在哪里，才能有针对性地宣传掌上电力app引导用户体验更高效的线上缴费方式，提升用户满意度。需求分析：首先要拿到红旗超市线下缴费清单数据，对所有数据进行隐私化处理，数据预览如图所示：可以看出台区名称为本项目的核心字段，通过台区匹配到经纬度信息，然后利用经纬度信息进行线下缴费热力图展示。同时可以提供分析报
ECharts：数据可视化的魔法师，偶尔也会“皮”一下 Python私教 Web 使用Vue3进行前端开发 Vue 信息可视化 echarts 前端
在数据爆炸的时代，如何从海量数据中提取有价值的信息，并将其清晰易懂地呈现出来，成为了各行各业面临的共同挑战。数据可视化作为一种有效的信息传递手段，应运而生，并逐渐成为数据分析领域不可或缺的一部分。而在众多数据可视化工具中，ECharts凭借其强大的功能、灵活的配置和丰富的图表类型，脱颖而出，成为了众多开发者的首选利器。一、ECharts：数据可视化的利器ECharts是一个由百度开源的可视化图表库
电商商业平台技术架构系列教程之：电商平台系统架构设计 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍1.1电商背景简介电商俗称网上购物，是一种通过网络直接进行商品交易的一种服务方式。在电商平台的运作中，消费者可以选择浏览、搜索和购买自己需要的产品或服务。通过平台发布的产品及其信息，用户可以方便地找到相关的产品和服务，从而提高效率和效益。而电商平台则是提供交易平台、管理后台、销售数据分析等功能。1.2电商系统架构概述电商平台通常由后端服务（API服务）、数据
python处理excel的具体操作若木胡 tools python
安装相关库openpyxl库：用于读取和写入Excel文件（.xlsx/.xlsm）。可以使用pipinstallopenpyxl命令进行安装。pandas库：提供了高效的数据结构和数据分析工具，它对openpyxl进行了封装，使操作Excel文件更加方便。安装命令是pipinstallpandas。使用openpyxl读取Excel文件打开工作簿：首先要导入openpyxl库，然后使用load_
wps2019数据分析加载项_怎样用Excel做数据分析（电商案例） weixin_39907939 wps2019数据分析加载项
一、数据分析步骤明确问题：知道你要研究什么问题，从而有目地的查找数据理解数据：寻找与问题相关的数据；从数据中你能得出的信息；理解字段信息数据清洗（数据预处理）：选择子集；列名重命名；删除重复值；缺失值处理；一致化处理；数据排序；异常值处理数据分析或构建模型：数据透视表；在Excel安装数据分析功能（安装步骤：文件～选项～加载项～Excel加载项转到～分析工具库，注意！这是MicrosoftExce
动态规划详解-最小路径和问题【python】数据分析螺丝钉 LeetCode刷题与模拟面试动态规划算法 leetcode python 数据结构
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级1.问题介绍和应用场景最小路径和问题是一个常见的动态规划问
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
spss因子分析过程中，旋转载荷平方和累积有点低咋办怎么调整 xiamu_CDA python
SPSS因子分析过程中，旋转载荷平方和累积有点低咋办？怎么调整？在数据分析领域，因子分析是一项重要的统计技术，尤其在心理学、社会学、市场营销等领域中应用广泛。它通过将多个变量简化为少数几个潜在因子，帮助研究者理解变量之间的内在结构。然而，在实际操作过程中，我们常常会遇到一些棘手的问题，比如旋转载荷平方和累积值偏低。这不仅会影响模型的解释力，还可能导致研究结果的可靠性大打折扣。那么，当我们在使用SP
构建自动化网页内容监控系统：使用Python 爱你不会累
本文还有配套的精品资源，点击获取简介：网页监控更新工具是一个由Python开发的软件，用于检测和记录网页内容的变化。该工具利用Python在Web抓取和数据分析方面的优势，包括利用requests,BeautifulSoup,lxml,和diff-match-patch等库来获取网页内容、解析HTML文档及计算文本差异。工具支持在Windows7及Python2.7.3环境下运行，并允许用户设定监
mysql之group by语句程序研 mysql mysql 数据库
MySQL的GROUPBY语句详细介绍在MySQL数据库中，GROUPBY子句用于将查询结果按照一个或多个列进行分组。这在数据分析和报表生成中非常有用，因为它允许我们对数据进行汇总和聚合，从而提取有价值的信息。本文将详细介绍GROUPBY语句的用法、注意事项以及通过多个代码例子来演示其功能。1.基本概念GROUPBY子句通常与聚合函数（如COUNT、SUM、AVG、MAX、MIN等）一起使用，以便
用Java提取Word文档表格数据
Word文档作为一种广泛使用的文件格式，常常承载着丰富的表格信息，这些信息可能涉及到财务报表、项目规划、实验数据记录等多方面内容。将这些表格数据提取出来，能够方便进行数据分析以及内容再创作等场景。通过使用Java实现Word文档表格数据的提取，可以确保数据处理的一致性和准确性，同时大大减少所需的时间和成本。本文将介绍如何使用Java提取Word文档中的表格数据。用Java提取Word文档表格到文本
python面试情景题_50道python笔试面试真题大集合我是史迪仔 python面试情景题
Python爬虫人工智能100GBweb爬虫数据分析人工智能视频免费领题目后面有50道题答案领取方式哦1、一行代码实现1--100之和利用sum()函数求和2、如何在一个函数内部修改全局变量利用global修改全局变量3、列出5个python标准库os：提供了不少与操作系统相关联的函数sys:通常用于命令行参数re:正则匹配math:数学运算datetime:处理日期时间4、字典如何删除键和合并两
数据分析变异系数やっはろ数据分析数据分析数据挖掘
目录变异系数的应用场景包括：特点：注意事项：np.nanvar——方差，np.sanstd标准差简单来讲就是平均值/标准差变异系数（CoefficientofVariation,CV）是一种相对量的变异指标，常用于衡量数据的离散程度。它通过标准差与均值的比值来表示，消除了单位差异的影响，使得不同量纲、均值不同的数据之间可以直接比较其离散程度。一般来说，变量值平均水平高，其离散程度的测度值越大，反之
C# 与.NET 日志变革：JSON 让程序“开口说清话” 步、步、为营 c#.net json
一、引言：日志新时代的开启在软件开发的漫长旅程中，日志一直是我们不可或缺的伙伴。它就像是应用程序的“黑匣子”，默默地记录着程序运行过程中的点点滴滴，为我们在调试、排查问题以及性能优化时提供关键线索。在早期，文本日志是我们最常用的记录方式，它简单直接，就像我们随手写下的日记，记录着事件发生的时间、内容等基本信息。然而，随着软件系统规模的不断扩大，架构日益复杂，尤其是在微服务、大数据分析以及云原生应用
python方差分析误差棒_一文讲透，带你学会用Python绘制带误差棒的柱状图和条形图... 加勒比考斯 python方差分析误差棒
Python数据可视化，作为数据常用的必备技能，是目前大数据和数据分析的一个热门，而matplotlib库作为Python中最为常用和经典的二维绘图库，受到了很多人的青睐，最近已经和大家共同探讨了多种类型的图表的绘制，其中关于误差棒图，咱们已经在上次一起讨论过了，今天咱们继续深入研究误差棒图相关的知识。那今天咱们聊点什么呢？咱们一起探讨一下如何在Python中绘制带误差棒的柱状图和条形图吧！首先，
Apache Doris主要应用场景和一些实际案例临水逸 apache
ApacheDoris是一个现代化的分布式分析型数据库，具备高性能、实时性和高并发性等特点，被广泛应用于多种场景。以下是Doris的主要应用场景和一些实际案例。应用场景1.实时数据分析数据流处理：Doris可以实时ingest（引入）和分析数据流，适用于监控系统、实时用户行为分析等场景。实时仪表盘：Doris适用于构建实时可视化仪表盘，为运营和业务决策提供实时数据支持。2.数据仓库OLAP（在线分
Python绘制数据地图-MovingPandas 懒大王爱吃狼 Python数据可视化 python 信息可视化开发语言 Python基础 python学习
MovingPandas是一个用于时空数据分析的Python库，它扩展了Pandas和GeoPandas，使得处理和分析带有时间戳的地理数据变得更加方便。虽然MovingPandas本身不直接提供数据可视化功能，但你可以结合其他库如matplotlib、folium或plotly来绘制数据地图。以下是一个简单的示例，展示如何使用MovingPandas和matplotlib来绘制带有时间戳的地理数
镜舟科技荣登《2024 中国大数据产业年度「国产化」优秀代表厂商》榜单！数据库软件数据分析
在近日于上海成功举办的“释放×数效应·共创智+未来”2024第七届金猿&魔方论坛上，镜舟科技凭借其在数据分析领域的卓越贡献和国产化技术实力，入选《2024中国大数据产业年度「国产化」优秀代表厂商》榜单，展现了其在国产化、信创道路上的成果。镜舟科技自2022年成立以来，始终致力于帮助中国企业建立卓越的数据分析系统，形成自身的“数据护城河”。基于开源项目StarRocks进行深度研发，镜舟科技推出2款
高成长、高潜力、高社区影响！镜舟科技入选 2024 中国新锐技术先锋企业数据库开源数据分析
2024年12月4日，中国技术先锋年度评选|2024中国新锐技术先锋企业榜单正式发布。作为中国领先的新一代开发者社区，SegmentFault思否依托上千万开发者用户数据分析，各科技企业在国内技术领域的行为及影响力指标，最终评选出30家新锐技术先锋企业，镜舟科技作为领先的数据技术企业，入选30强之列。2024中国新锐技术先锋企业榜隶属于中国技术先锋年度评选，旨在挖掘信奉技术力量、敢于技术创新、践行
【Python】Numpy详解 frimiku python numpy 开发语言大数据人工智能
Numpy详解相关教程【Python】Numpy详解【Python】Pandas详解【Python】Matplotlib详解一、Numpy介绍数据分析三剑客之一的Numpy，是一个用于处理数组的Python包【基于数组对象的科学计算库】。其全名为“NumericPython”，是一款开源的Python库。Numpy相当于Python中的列表（List），但只能存放相同的数据类型。引入Numpy的目
python dash框架时雨h 数学建模 python 信息可视化 dash 数据分析
Dash是一个用于创建数据分析型web应用的Python框架。它由Plotly团队开发，并且可以用来构建交互式的web应用程序，这些应用能够包含图表、表格、地图等多种数据可视化组件。Dash的特点：易于使用：Dash使用Python语法，对于熟悉Python的用户来说很容易上手。交互性：Dash支持用户交互，例如点击事件、下拉列表选择等。服务器端渲染：Dash应用程序在服务器端渲染，然后将结果发送
pandas介绍 June � 可视化 python 数据分析大数据机器学习
本文的主要内容是基于中国大学mooc（慕课）中的“Python数据分析与可视化”课程进行整理和总结。pandas是python第三方库，是基于Numpy的一种工具，经常与numpy与matplotlib一起使用，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是
Google广告数据分析与优化总结奔跑的栀子计算广告广告计算广告数据分析数据可视化 google
一、概述广告优化师虽属于广告行业，但在实际的优化过程中无不考验着优化师的数据分析能力。不同的计划在不同时期情况不一样，具体的优化应当以当时的状态跟所处情形来进行，因此对于这个行业来讲没有百分之百奏效的优化方式，广告优化师能做的就是根据自己的经验分析和判断可能是什么原因导致了计划出现问题，以及通过尝试去改变效果不好的现状。以下是我曾经优化比较成功的案例之一，下面将分日期对计划所处的状态、猜测结果出现
第17篇：python进阶：详解数据分析与处理猿享天开 python从入门到精通 python 开发语言
第17篇：数据分析与处理内容简介本篇文章将深入探讨数据分析与处理在Python中的应用。您将学习如何使用pandas库进行数据清洗与分析，掌握matplotlib和seaborn库进行数据可视化，以及处理大型数据集的技巧。通过丰富的代码示例和实战案例，您将能够高效地进行数据处理、分析和可视化，为数据驱动的决策提供有力支持。目录数据分析与处理概述什么是数据分析与处理数据分析的流程使用pandas进行
Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

DataFrame的基本使用