little亮_

数据处理之pandas的学习

1.pandas中的几种数据结构

更多内容同步更新与个人博客系统:数据处理之pandas的学习

import pandas as pd
import numpy as np

# 数据结构
'''
pandas中一共有三种数据结构,分别为:Series,DataFrame和MultiIndex
其中Series是一维数据结构,DataFrame是二维数据表结构,MultiIndex是三维数据结构
'''

# 1.Series
'''
Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如浮点,整数等
主要由一组数据和与之相关联的索引两部分组成

API:
    pd.Series(data=None,index=None,dtype=None)
    参数:
        .data:传入的数据,可以是ndarray,list等
        .index:索引,必须是唯一的,且与数据的长度保持一致,如果没有传入索引参数,
         则会默认创建一个0~N的整数索引
        .dtype:数据类型

Series的属性
    Series.index:获取索引
    Series.values:获取数据值
    
'''

a = [i for i in range(10, 1000, 10)]

# 通过数组数据创建
a_series = pd.Series(a, )
print(f'a={a}]\na_Series=\n{a_series}')

# 通过字典数据创建
a_dict = {'a': 1, 'b': 2, 'c': 3}
a_dict_Series = pd.Series(a_dict)
print(f'a_dict={a_dict}\na_dict_Series=\n{a_dict_Series}')

# 获取索引
a_dict_index = a_dict_Series.index
print(f'a_dict_index={a_dict_index}')

# 获取数据值
a_dict_values = a_dict_Series.values
print(f'a_dict_values={a_dict_values}')

# 通过索引获取值
print(a_dict_Series['a'])

# 2.DataFrame
'''
DataFrames是一个类似于二维数组或表格的对象,既有行索引,也有列索引
.行索引,表名不同行,横线索引,叫index,0轴,axis=0
.列索引,表名不同列,纵向索引,加columns,1轴,axis=1

API:
    pd.DataFrame(data=None,index=None,columns=None)
    参数:
        .index:行标签,如果没有传入索引参数,则会自动创建一个从0~N的整数索引
        .columns:列标签,如果没有传入索引参数,则会自动创建一个从0~N的整数索引

属性:
    DataFrame.shape:返回[index,columns]
    DataFrame.index:返回行索引
    DataFrame.columns:返回列索引
    DataFrame.values:返回数据值
    DataFrame.T:转置,行列互换
    DataFrame.head(n=5):显示前n行,如果不输入n,默认显示前5行
    DataFrame.tail(n=5):显示后n行,如果不输入n,默认显示后5行

索引操作:
    修改索引:
        DataFrame.index=newIndex
        注:索引必须整体进行修改,不能只修改其中某一个索引
        DataFrame.index[3]=newItemIndex(错误!!!)
        
        1.设置索引
        DataFrame.reset_index(drop=False)
        参数:
            drop:默认为False,不删除原来的索引,如果为True则删除,即用新索引替换
                 旧索引
                 
        2.以某列值设为新的索引
        DataFrame.set_index(keys,drop=True)
        参数:
            .keys:列索引名称或列索引名称列表
            .drop:默认删除原来的列

'''

b = np.random.randn(3, 3)  # 3*3的数组
b_DataFrame = pd.DataFrame(b)
print(f'b=\n{b}\nb_DataFrame=\n{b_DataFrame}')
print(f'b_DataFrame.shape={b_DataFrame.shape}')
print(f'b_DataFrame.index={b_DataFrame.index}')
print(f'b_DataFrame.columns={b_DataFrame.columns}')
print(f'b_DataFrame.values=\n{b_DataFrame.values}')
b_DataFrame_T = b_DataFrame.T
print(f'转置后的:\n{b_DataFrame_T}')
print(f'显示前2行:\n{b_DataFrame.head(2)}')
print(f'显示后2行:\n{b_DataFrame.tail(2)}')

data_test = np.array(
    [
        [2010, 1, 120],
        [2010, 2, 124],
        [2010, 3, 123],
        [2010, 4, 121],
        [2012, 5, 167],
        [2012, 6, 18],
        [2013, 7, 20],
        [2013, 8, 120],

    ]
)

data_test_index = [f'行{i}' for i in range(8)]
data_test_columns = ['年', '月', '数']
data_test_DataFrame = pd.DataFrame(data_test, index=data_test_index, columns=data_test_columns)

print(f'data_test_DataFrame=\n{data_test_DataFrame}')

# 将年这一列的数据设为索引 同时不删除原来的列
year_index = data_test_DataFrame.set_index('年', drop=False)
print(f'year_index=\n{year_index}')

# MultiIndex
'''
MultiIndex是三维的数据结构,多级索引(也称层次化索引),是pandas的重要功能,可以在
Series.DataFrame对象上拥有2个以及2个以上的索引
'''

# 创建MultiIndex
test_array = [[1, 2, 3], ['r', 'g', 'b']]
multiLndex = pd.MultiIndex.from_arrays(test_array,names=('num','col'))
print(multiLndex)

## 2.DataFrame的运算
import pandas as pd

# 读取数据
data = pd.read_csv('demo.csv')

# 算术运算
# 加法
print(data['序号'].head())
print(data['序号'].head().add(10))  # 给序号这一列的所有数据都加10
print(data['序号'].head() + 10)

# 逻辑运算
# 例 筛选出序号值大于560195290043的数据
print('*' * 50)
data2 = data[(data['序号'] > 560195290043) & (data['店铺的url'] != '空')].head()
print(data2)

# 逻辑运算函数
print('*' * 100)
data3 = data.query("序号>560195290043 & 店铺的url!='空'").head()  # 筛选结果同上
print(data3)

print('*' * 100)
# isin
data4 = data['价格'].isin([576, '576', 380]).head()
print(data4)

# 统计运算
print(data.describe())

print('*' * 100)
# 统计函数
print(data['序号'].sum())  # sum求和
print(data['序号'].mean())  # mean平均值
print(data['序号'].median())  # median中位数
print(data['序号'].min())  # min最小值
print(data['序号'].max())  # max最大值
print(data['序号'].mode())  # mode众数
print(data['序号'].abs())  # abs绝对值
print('乘积', data['序号'].prod())  # prod乘积
print(data['序号'].std())  # std标准差
print(data['序号'].var())  # var方差
print(data['序号'].idxmax())  # idxmax最大值的索引值
print(data['序号'].idxmin())  # idxmin最小值的索引值

# 对于单个函数进行统计的时候,坐标轴还是按默认"Columns"(axis=0,default) 如果要对行"index"需要指定axis=1
## 3.累计统计函数
import pandas as pd
import matplotlib.pyplot as plt
from pprint import pprint
data=pd.read_csv('demo.csv')


#计算前n个数的和 cumsum
data2=data['序号'].cumsum()
print(data2)

data2.plot()
plt.show()

#cummax 计算前n个数的最大值
#cummin 计算前n个数的最小值
#cumprod #计算前n个数的乘积

#自定义函数
''':cvar
语法:
apply(func,axis=0)
    .func:自定义的函数
    .axis:默认是列,axis=1指定为行
'''
#例:定义一个对列求最大值-最小值的函数
def max_min(x):
    # return x.max(x)-x.min(x)
    return x*2

data['2*序号']=data['序号'].apply(lambda x:max_min(x),0)
pprint(f'data=\n{data}')

## 4.文件的读取和存储
import pandas as pd


#读取csv文件
data=pd.read_csv('demo.csv',usecols=['名称','价格']) #usecols指定要读取的列
print(data)

#写入文件
''':cvar
to_csv(path_or_buf=None,sep=",",columns=None,header=True,index=True,mode="w",encoding=None)
    path_or_buf:文件路径
    sep:分隔符,默认使用","隔开
    columns:选择需要的列索引
    header:是否写进列索引值
    index:是否写进行索引值
    mode:文件写入的方式 w:重写 a:追加
    encoding:编码方式
'''

#会发现将索引存入文件当中,变成单独的一列数据,如果需要删除,可以指定参数index=False即可
data[:10].to_csv('demo2.csv',columns=['名称','价格'],index=False)

## hdf5文件的存储
import pandas as pd

''':cvar
HDF5文件的读取和存储需要指定一个键,值为要存储的DataFrame
pandas.read_hdf(path_or_buf,key=None,**kwargs)

    从h5文件中读取数据
    .path_or_buf:文件路径
    .key:读取的键
'''

#一般情况下 读取hdf5文件需要依赖tables库 可以先提前安装好 pip install tables

data=pd.read_hdf('')

#存储文件
data.to_hdf(path_or_buf='',key='123')

#再次读取的时候,需要指定键的名字
new_data=pd.read_hdf('',key='123')


#注意:
'''
优先选择使用hdf5文件存储
.hdf5在存储的时候支持压缩,使用的方式是blosc,这个是速度最快也是pandas默认支持的
.使用压缩可以提高磁盘的利用率,节省空间
.hdf5还是跨平台的,可以轻松迁移到Hadoop上面

'''

## json文件的存储
import pandas as pd

'''
pandas.read_json(path_or_buf=None,orient=None,typ='frame',lines=False)
    orient
'''

# 读取json
data = pd.read_json('data.json', orient='records', lines=False)
print(data)

# 保存json orient:指定json文件的存储格式,可选参数有:split records index columns values
data.to_json('demo3.json', orient='records', lines=True)
#lines:是否存储在多行 默认lines=False是存储在一行


## 5.缺失值的处理
import pandas as pd
import numpy as np
#处理缺失值的方法
'''
.获取缺失值的表示方式(NaN或者其他标记方式)
.如果缺失值的标记方式是NaN
    判断数据中是否包含NaN:
        pd.isnull(df)
        pd.notnull(df)
    
    存在缺失值:
        1.删除存在的缺失值:dropna(axis='rows') #默认删除存在缺失值的行
            注:不会修改原数据,需要接受返回值
        2.替换缺失值:fillna(value,inplace=True) 无返回值
            value:替换成的值
            inplace:True:会修改原数据,False:不替换修改原数据,生成新的对象
.如果缺失值没有使用NaN标记,比如使用"?"
    先替换"?"为np.nan,然后继续处理


'''

data=pd.read_csv('demo2.csv')

print(type(data))

#判断有误缺失值
isNull=np.any(pd.isnull(data)) #isnull:如果有一个缺失值就会返回True
isNull2=np.all(pd.notnull(data)) #notnull:如果有一个缺失值就会返回False
print(pd.isnull(data))
print(pd.notnull(data))
print(isNull)
print(isNull2)

#删除缺失项
# data2=data.dropna(axis=1) #axis=0:默认删除这一行 axis=1删除这一列
# print(data2)

#替换缺失值 例:用平均值替换掉缺失值
price_mean=data['价格'].mean()
data.fillna(price_mean,inplace=True)
print(data.index)

for i in data.columns:
    print(data[i])
  
  ## 6.数据离散化
  import pandas as pd

#API:pd.qcut(data,q)
'''
对数据进行分组,一般会与value_counts搭配使用,统计每组的个数
'''

#API:pd.cut(data,bins)
'''
自定义区间分组
'''

#API:Series.value_counts()
'''
计算分到每个组数据个数
'''

#读取数据
df=pd.read_csv('stock_day.csv')

#使用turnover列的数据
turnover=df['turnover']

#自动分组(均匀分组)
auto_cut=pd.qcut(turnover,10)
#查看每组的数量
bins_count=auto_cut.value_counts()
print(bins_count)

#自定义分组
bins=[0,1,3,5,7,9]
hand_cut=pd.cut(turnover,bins)
#查看每组的数量
bins_count2=hand_cut.value_counts()
print(bins_count2)

#one-hot编码
#把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1,其又别称为热编码
#API:pd.get_dummies(data,prefix=None)
'''
参数:
    data:array-like,Series,DataFrame
    prefix:分组名字
'''

dummies=pd.get_dummies(turnover,prefix='turnover')
print(dummies.head())


## 7.数据合并
import pandas as pd

# 如果数据是有多张表组成,那么有时候需要将不同的内容合并在一起分析


# API:pd.concat([data1,data2],axis=1)
'''
    .data1,data2:需要合并的数据
    .axis:合并方向默认为行索引
'''

data1 = pd.read_csv('stock_day.csv')
data2 = pd.read_csv('demo2.csv')

data = pd.concat([data1, data2], axis=1)  #
print(data)

# API:pd.merge(left,right,how='inner',on=None)
'''
可以指定按照两组数据的共同键值对合并或者左右各自
参数:
    left:DataFrame
    right:另一个FataFrame
    on:指定的共同键
    how:按照什么方式连接
'''

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

# 左连接
left_connect = pd.merge(left, right, how='left', on=['key1', 'key2'])
print(left_connect)

# 右连接
right_connect = pd.merge(left, right, how='right', on=['key1', 'key2'])
print(right_connect)

# 内连接 默认连接方式是内连接
inner_connect = pd.merge(left, right, how='inner', on=['key1', 'key2'])
print(inner_connect)
# 外连接
outer_connect = pd.merge(left, right, how='outer', on=['key1', 'key2'])
print(outer_connect)

## 8.交叉表和透视表
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 交叉表
'''
交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表)
API:
    pd.crosstab(value1,value2)

'''

# 透视表
'''
透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚合函数
'''

df = pd.read_csv('stock_day.csv')

print(df.index)

# 将数据的列索引转化成对应的日期之后再转换成星期
week = pd.to_datetime(df.index).weekday
df['week'] = week
print(df['p_change'])

# 把p_change按照分为大于0和小于0的
p_n_data = np.where(df['p_change'] > 0, 1, 0)
df['p_n']=p_n_data
print(df)



#使用透视表实现 方法1
per_count2=df.pivot_table(['p_n'],index='week')
print(per_count2)


#方法2
#通过交叉表寻找两列数据的关系
count=pd.crosstab(week,p_n_data)
print(count)

#计算每个星期各自的总和 axis=1指定为行 astype转换为浮点型
sum_count=count.sum(axis=1).astype(np.float32)
print(sum_count)

#求百分比
per_count=count.div(sum_count,axis=0)
print(per_count)



#图片显示 stacked=True:堆积显示
per_count.plot(kind='bar',stacked=True)
plt.show()


## 9.分组与聚合
import pandas as pd

# 分组API
'''
df.groupby(key,as_index=False)
    参数:
        key:分组的列数据,可以多个
        as_index:时候保留原列的数据,默认不保存


'''

col = pd.DataFrame(
    {'color': ['white', 'red', 'green', 'red', 'green'], 'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
     'price1': [5.56, 4.20, 1.30, 0.56, 2.75], 'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})

print(col)
# 方法1 按照color进行分组 分别求每组color下其他各列对应的最大值
df1 = col.groupby(['color'],as_index=True).max()

# 方法2 object进行分组 分别求每组object下price1下的最小值
df2 = col['price1'].groupby(col['object']).min()
print(df1)
print(df2)

## 10.案例一(星巴克)
import pandas as pd
import matplotlib.pyplot as plt

data=pd.read_csv('directory.csv')
# print(data.head())
# print(data.columns.values)

#统计各个国家的星巴克数量
country_count=data.groupby(['Country']).count()['Brand']

country_count.plot(kind='bar',figsize=(20,8),)
plt.xlabel('country')
plt.ylabel('num')
plt.title('country-number')
plt.show()

#统计各个省份/州的星巴克数量
province_count=data.groupby(['Country','State/Province']).count()['Brand']
province_count.plot(kind='bar',figsize=(200,8))
plt.show()


## 11.案例二(电影)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#读取数据
data=pd.read_csv('IMDB-Movie-Data.csv')
print(data.head().columns)

#1.获取所有电影的平均分
Rating_mean=data['Rating'].mean()
print(f'平均分:{Rating_mean}')

#导演的总人数
director_num=np.unique(data['Director']).size
print(f'导演的总人数:{director_num}')

#查看每个导演的作品数量
director_work_num=data.groupby(['Director']).count()['Title'].sort_values()
director_work_num.plot(kind='bar',figsize=(200,8))
plt.show()


#获取Rating和runtime的分布情况
rating_num=data['Rating']
runtime_num=data['Runtime (Minutes)']
plt, axes=plt.subplots(2,1,figsize=(20,8))

axes[0].hist(rating_num.values,bins=20)
axes[1].hist(runtime_num.values,bins=20)

#修改刻度
min_=data['Rating'].min()
max_=data['Rating'].max()
xticks=np.linspace(min_,max_,num=21)
axes[0].set_xticks(xticks)
min_=data['Runtime (Minutes)'].min()
max_=data['Runtime (Minutes)'].max()
xticks=np.linspace(min_,max_,num=21)
axes[1].set_xticks(xticks)

#标题
axes[0].set_title('Rating-hist')
axes[1].set_title('Runtime-hist')

#增加网格
axes[0].grid(linestyle='--',alpha=0.5)
axes[1].grid(linestyle='--',alpha=0.5)

plt.show()

#统计电影分类情况
genre=[i.split(',') for i in data['Genre'].values]
print(genre)
genre_unique=np.unique([i for j in genre for i in j])
print(genre_unique)

zeros=np.zeros((1000,genre_unique.size))
#创建一个DataFrame对象

genDF=pd.DataFrame(zeros,index=data['Title'].values,columns=genre_unique)
print(genDF.head())

print(np.unique(data.index.values).size)
for i in range(1000):
    for k in genre[i]:
        title=data['Title'][i]
        genDF[k][title]=1

gen_sum=genDF.sum().sort_values(ascending=False)
gen_sum.plot(kind='bar',figsize=(20,8),colormap='cool',fontsize=16)
plt.show()

分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
Pyhton 基础 368. python python 开发语言
初识PythonPython是一种解释型语言Python使用缩进对齐组织代码执行，所以没有缩进的代码，都会在载入时自动执行数据类型：整形int无限大浮点型float小数复数complex由实数和虚数组成Python中有6个标准的数据类型：Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionart(字典)其中不可变得数据：Number(数字)St
基于python+django+mysql的小区物业管理系统源码+运行步骤冷琴1996 Python系统设计 python 开发语言
该系统是基于python+django开发的小区物业管理系统。适用场景：大学生、课程作业、毕业设计。学习过程中，如遇问题可以在github给作者留言。主要功能有：业主管理、报修管理、停车管理、资产管理、小区管理、用户管理、日志管理、系统信息。源码学习技术。演示地址http://wuye.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https:/
用Python修改Word文档字体
在数字化办公场景中，Word文档作为主流文件格式承载着大量商务文书与学术资料。传统手动调整字体格式的操作模式存在显著局限性：当面对批量文档处理、动态内容生成或企业级模板维护时，逐一手工修改不仅效率低下，更难以保障格式规范的统一性。通过Python实现文档字体的程序化控制，能够有效构建自动化处理流程，在确保排版精准度的同时，显著提升文档批量化操作能力。本文将介绍如何使用Python修改Word文档段
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
freecad嵌入工作台黄河里的小鲤鱼软件开发建模 python
1Introduction导言FreeCADcanbeimportedasaPythonmoduleinotherprogramsorinastandalonePythonconsole,togetherwithallitsmodulesandcomponents.It’sevenpossibletoimporttheFreeCADuserinterfaceasapythonmodulebutwi
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

数据处理之pandas的学习

1.pandas中的几种数据结构

你可能感兴趣的:(数据处理,python,pandas)