weixin_39764212

python做面板数据_用Python做数据分析的基本步骤（持续修改更新）

一、环境搭建

数据分析最常见的环境是Anaconda+Jupyter notebook

二、导入包

2.1数据处理包导入

import numpy as np

import pandas as pd

注：numpy是Numerical Python的简称，是一个科学计算的包，可用来矩阵运算，处理线性代数的常见问题。

pandas是panel data和data analysis的组合词，原来是用来处理计量经济学面板数据的工具，可以用来数据对齐、切割、取片、查重、去空等一系列操作。

2.2画图包导入

import matplotlib.pyplot as plt

import missingno as msno

import seaborn as sns

sns.set()

sns.set_style('whitegrid', {'font.sans-serif':['simhei', 'Arial']})

注：matplotlib是常见的绘制图表的工具，seaborn是它的加强版，missingno是缺失值可视化处理的工具，sns.set()设置画图空间为 Seaborn 默认风格。后面的代码为处理中文字体。

2.3日期处理包导入

import calendar

from datetime import datetime

2.4jupyter notebook绘图设置

%matplotlib inline

%config InlineBackend.figure_format="retina"

注：%matplotlib inline是jupyter notebook里的命令，意思是将那些用matplotlib绘制的图显示在页面里而不是弹出一个窗口。

在分辨率较高的屏幕(例如 Retina 显示屏)上，notebook 中的默认图像可能会显得模糊，可用%config InlineBackend.figure_format="retina"来呈现分辨率较高的图片。

三、读取数据

data = pd.read_csv(r"D:\0工作\数据集\train_users_2.csv ")

data = pd.read_excel(r" D:\0工作\excel\6.xlsx ")

注：读取csv格式选第一种，读取excel表选第二种，“”内填文件所在位置。Excel只能存储十万多行数据，而csv(逗号分隔值文件格式)则能存储上亿行数据，所以数据分析中多以csv格式保存数据。

文件地址在文件的属性的对象名称中。

四、数据预览

1.数据集大小

Data.shape #输出列和行

2.查看随便几行或前几行或后几行

data.sample(5)

data.head(5)

data.tail(5)

3.查看数据类型

data.dtypes #会输出字段和字段类型

4.查看数据的数量、无重复值、平均值、最小值、最大值等

data.describe()

data. describe(include='object')

5.查看字段名、类型、空值数为多少

data.info()

五、数据处理

在数据的处理过程中，一般都需要进行数据清洗工作，如数据集是否存在重复，是否存在缺失，数据是否具有完整性和一致性，数据中是否存在异常值等。

1.把需要的字段挑选出来。

data.columns #看一下数据集的所有字段

data.iloc[50] #随便挑一行看看数据的大致情况，以决定取舍哪些字段

sample_data=['city', 'fields.comment', 'fields.discountPrice']

data = data[col_keep] #选取想要的字段

2.数据类型转换

使用astype()函数

data['fields.discountPrice'] =data['fields.discountPrice'].astype(float)

data['fields.price']=data['fields.price'].astype(float)

data['fields.soldRecentNum']=data['fields.soldRecentNum'].astype(int)

3.日期段数据处理。

如果给的数据是2020-01-01 05：20：15格式，那么可以采取下面的代码从"datetime"字段中，提取date、hour、weekday、month。

3.1提取“date”

data["date"] = data.datetime.apply(lambda x: x.split()[0])

注：就是把它按空格切成两段，然后取第一段。

lambda函数也叫匿名函数，即没有具体名字的函数，它允许快速定义单行函数，用在任何需要函数的地方，这区别于def。

apply函数，返回括号中的参数。

split(sep)，sep表示用于分割的字符。它通过指定字符进行切片。

3.2提取"hour"

data["hour"]=data.datetime.apply(lambda x: x.split()[1].split(":")[0])

注：就是先把它按空格切成两段取第二段，再按分号切，取第一段。

3.3提取"weekday"

datestr=data.datetime[1].split()[0]

data["weekday"]=data.date.apply(lambda datestr:calendar.day_name[datetime.strptime(datestr,"%Y-%m-%d").weekday()])

注：按空格把时间分成两段取第一段，把它变成合适的时间格式，得出是星期几

通过datetime.strptime()函数把字符串转化为datetime格式

%Y 四位数的年份表示(000-9999)%m 月份(01-12)%d 月内中的一天(0-31)

weekday()函数返回的是当前日期所在的星期数。

3.4提取"month"

data["month"]=data.date.apply(lambda datestr:calendar.month_name[datetime.strptime(datestr,"%Y-%m-%d").month])

4.变量映射处理

数据集中"season"，"weather"字段属于定性变量，将定性变量的数值取值，做映射处理，转化为描述性取值。

例如季节映射处理：

data[“season_label”]=data.season.map({1:”Spring”,2:”Summer”})

5.重复值处理

data.duplicated() #按行查看缺失值

data.duplicated().sum() #缺失值总数

data.duplicated([‘a’]) #查看a列是否有重复值

any(data.duplicated())

data.drop_duplicates() #去掉重复值

df.drop(col_names_list, axis=1, inplace=True) #删除不需要的某列

data.drop_duplicates(‘a’)

6.缺失值处理

6.1使用missingno可视化地查看缺失值

msno.matrix(data,figsize=(12,5)) #matrix是矩阵的意思

msno.bar(data) #条形图

msno.heatmap(data,figsize=(16,7))

#heatmap热度图，当变量1和变量2的系数都是1，代表当变量1缺失，变量2也缺失。

6.2使用isnull()函数继续查看缺失值

data.isnull() #查看所有值是否为空值

data.city.isnull() #查看city行是否为空值

data.isnull().any() #判断各个列是否为空值

data[data.isnull().values==True] #可以只显示缺失值的行列，判断缺失值的位置

data.isnull().sum().sort_values(ascending=False) #将各个字段的空值总数统计出来,倒序排列

data.isnull().any(axis=1).sum()/data.shape[0] #缺失值所占比例

6.3缺失值处理的方法

缺失值处理的三种方法：直接使用含有缺失值的特征；删除含有缺失值的特征(该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时才是有效的)；缺失值补全。

6.3.1删除法

data.dropna(axis=0, how='any', subset=None, inplace=False)

注：axis：表示轴向。默认为0，表示删除所有含有空值的行。

how：表示删除的方式。默认为any。为any的时候，表示只要存在缺失值就删除。为all的时候，表示全部是缺失值才能删除。

subset：表示删除的主键，默认为全部。

inplace：表示是否对原数据进行操作。默认为False，不对原数据操作。

6.3.2定值替换法

data.fillna(value=None,method=None,axis=None,limit=None)

value：表示传入的定值。可为某一个值，dict,Series,DataFrame。无默认。

method：此参数存在，则不传入value。表示使用前一个非空值或后一个非空值进行缺失值填补。无默认。

axis：表示轴向。

limit：表示插补多少次。默认全量插补。

data.fillna(1111) #所有空值都填入1111

data.fillna({'一班':-60,'二班':-70,'三班':-80}) # 分别填补

data.fillna(df.mean()) # 将每一列的空值插补为该列的均值

data.fillna(method = 'ffill') # 用上一个数值进行填补

6.3.3插补法

删除法简单易行，但是会引起数据结构变动，样本减少；而替换法使用难度较低，但是会影响数据的标准差，导致信息量变动。在面对数据缺失问题时，除了这两种方法之外，还有一种常用的方法——插值法。

常见的缺失值补全方法：均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、压缩感知和矩阵补全。

线性插值是一种相对来说较为简单的插值方法，它针对已知的值求出线性方程，通过求解线性方程得到缺失值。

from scipy.interpolate import interp1d # 注意这里是数字1，不是l

num = df['一班'][df['一班'].notnull()] # 不为空的数据

LinearInsValue1 = interp1d(linear.index, linear.values, kind='linear')

LinearInsValue1(df['一班'][df['一班'].isnull()].index)

五、可视化

5.1相关性分析，画热力图

correlation=data[["a1","a2","a3""a4","a5"]].corr()

注：corr()函数，分析这data数据集中这几个变量之间的相关关系，得到相关矩阵。应先把非数值型字段通过映射处理转换为数值型字段

DataFrame.corr(method='pearson', min_periods=1)

参数说明：method：可选值为{‘pearson’,‘kendall’,‘spearman’}

pearson：Pearson相关系数来衡量两个数据集合是否在一条线上面，即针对线性数据的相关系数计算，针对非线性数据便会有误差。

kendall：用于反映分类变量相关性的指标，即针对无序序列的相关系数，非正太分布的数据。

spearman：非线性的，非正太分析的数据的相关系数

min_periods：样本最少的数据量

返回值：各类型之间的相关系数DataFrame表格。

mask = np.array(correlation) #将关系矩阵存入数组中

mask[np.tril_indices_from(mask)] = False #返回下三角的索引

fig,ax= plt.subplots() #将plt.subplots()函数的返回值赋值给fig和ax两个变量，fig即figure

fig.set_size_inches(20,10) #设置图形尺寸

sns.heatmap(correlation, mask=mask,vmax=.8, square=True,annot=True)

plt.show()

5.2箱型图

箱形图最大的优点就是不受异常值的影响(异常值也称为离群值)，可以以一种相对稳定的方式描述数据的离散分布情况。

基本代码如下：

fig=plt.figure(figsize=(6,4)) #设置画布

sns.boxplot(data=data1['count']) #设置箱型图数据

plt.title('This is my title')

plt.ylabel('aaaaaa') #设置y坐标轴

sns.despine(bottom=True)

5.3多个直方图对比分析

直方图(Histogram)，又称质量分布图，是一种统计报告图，由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型，纵轴表示分布情况。

直方图是数值数据分布的精确图形表示。这是一个连续变量(定量变量)的概率分布的估计，并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。为了构建直方图，第一步是将值的范围分段，即将整个值的范围分成一系列间隔，然后计算每个间隔中有多少值。这些值通常被指定为连续的，不重叠的变量间隔。间隔必须相邻，并且通常是(但不是必须的)相等的大小。

可以先看某变量的所占比例，如某件商品购买的男女比例。

np.round(fans_num/fans_num.sum()*100,2)

代码示例如下：

ax =plt.subplot(221) #布局在第一行的左图

data1=data.price

plt.hist(data1,color='indianred') #设置直方图要填入的数据和颜色

ax.set_title("民宿总体价格分布") #设置标题

ax=plt.subplot(222) #布局在第一行的右图

data2 = data[data['review_scores_rating']>90].price

plt.hist(data2,color='indianred')

ax.set_title("评分高于90分的民宿价格分布")

ax=plt.subplot(223) #布局在第二行的左图

data3 = data[(data['review_scores_rating']<90)

&(data['review_scores_rating']>80)].price

plt.hist(data3,color='blue')

ax.set_title("评分80-90的民宿价格分布")

ax=plt.subplot(224) #布局在第二行的右图

data4 = data[data['review_scores_rating']<=80].price

plt.hist(data4,color='green')

ax.set_title("评分低于80的民宿价格分布")

plt.tight_layout() # tight_layout会自动调整子图参数，使之填充整个图像区域。

5.4地图分析

Folium是Python中功能强大的数据可视化库，主要用于帮助人们可视化地理空间数据。使用Folium，只要知道其纬度和经度值，就可以创建世界上任何位置的地图。此外，Folium创建的地图本质上是交互式的，因此可以在渲染地图后放大和缩小，这是一个非常有用的功能。

代码示例如下：

import folium #导入库，可使用anaconda安装

latitude =39.87 #设置所在城市的维度，这里是北京的维度

longitude =116.51 #设置经度

limit=20

data =data.iloc[0:limit,:] #iloc是位置索引，取出前20行

incidents =folium.map.FeatureGroup() #FeatureGroup会处理来自子图层的鼠标事件和自定义事件

for lat,lng,in zip(data.latitude,data.longitude): #for x ,y in zip(listx,listy): x和y会组成一个元组，一起运行

incidents.add_child(

folium.CircleMarker( #为地图添加圆圈标记部件

[lat, lng],

radius=10, #圆圈半径

color='white', #用于控制圆圈的颜色，默认为蓝色

fill=True, #当为True时，圆圈内部将被填充上色彩，默认不填充

fill_color='red', #圆圈内部的填充色

fill_opacity=0.4 #圆圈内部透密度

)

#有些时候我们希望我们的地图不光是死板的展示信息，

#还能根据鼠标的点击事件，来唤起更多的信息展示内容，

#即为地图添加更多的子内容，我们使用add_child()来完成各种子内容的添加

san_map = folium.Map(location=[latitude, longitude], zoom_start=10)

san_map.add_child(incidents)

官方示例：https://nbviewer.jupyter.org/github/python-visualization/folium/tree/master/examples/nbviewer.jupyter.org

未完，待修改

注：部分代码取材于半砚墨：python数据分析实例：共享单车租用影响因素探索zhuanlan.zhihu.comShaoZC/Financial-report-acquisition-and-data-processing-with-Pythongithub.comhttps://github.com/Alfred1984/interesting-python/blob/master/KrisWu/KrisWu.ipynbgithub.com

深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
heidisql连接远程数据库_【已解决】HeidiSQL连接（登录）MySQL数据库报错10061问题... weixin_39589511 heidisql连接远程数据库
windows核心编程---第六章线程的调度每个线程都有一个CONTEXT结构,保存在线程内核对象中.大约每隔20mswindows就会查看所有当前存在的线程内核对象.并在可调度的线程内核对象中选择一个,将其保存在CONTEXT结构的值载入c...【转】SQLite提示databasediskimageismalformed的解决方法SQLite有一个很严重的缺点就是不提供Repair命令.导致死
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
YOLOv8 Pose使用RKNN进行推理い不靠譜︶朱Sir 实用项目部署 YOLO 人工智能 python linux pip
关注微信公众号：朱sir的小站，发送202411081即可免费获取源代码下载链接一、简单介绍YOLOv8-Pose是一种基于YOLOv8架构的姿态估计模型，能够识别图像中的关键点位置，这些关键点通常表示人体的关节、特征点或其他显著位置。该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地
分布式数据库解析 qcidyu 文章归档数据分片高可用架构云数据库共识算法全球一致性分布式事务 CAP定理
title:分布式数据库解析date:2025/2/20updated:2025/2/20author:cmdragonexcerpt:通过金融交易、社交平台、物联网等9大真实场景，结合GoogleSpanner跨洲事务、DynamoDB毫秒级扩展等38个生产级案例，揭示分布式数据库的核心原理与工程实践。内容涵盖CAP定理的动态权衡策略、Paxos/Raft协议的工程实现差异、TrueTime时钟
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
java竞赛优化输入输出效率 px不是xp 蓝桥准备 java 开发语言
在编程竞赛中，输入输出效率至关重要。Java的`Scanner`和`System.out.println`虽然简单，但在处理大规模数据时会严重拖慢速度。以下是**竞赛专用输入输出模板**及其原理详解，助你轻松应对高频I/O场景。---###⚡竞赛级输入输出模板（Java）importjava.io.*;importjava.util.*;publicclassMain{ publicstatic
快速复制A库表数据前10000行到B库 musk1212 数据库 sql mysql
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录应用场景一、存储过程，快速复制A库表数据前10000行到B库二、使用优化点说明结构优化性能调整错误处理增强安全改进调用示例应用场景表结构可预先存在或不存在mysql5.7快速复制A库表数据前10000行到B库一、存储过程，快速复制A库表数据前10000行到B库/*设置自定义分隔符以处理存储过程中的分号*/DELIMITER$$
OpenLayers总结3 Super毛毛穗 WebGIS开发 OpenLayers GIS WebGIS
一、静态测距1.原理静态测距主要是针对地图上已有的矢量要素（如线要素），利用OpenLayers提供的几何计算函数来获取其长度。在实际操作中，先加载包含几何要素的GeoJSON数据到矢量图层，当鼠标指针移动到要素上时，获取该要素的几何信息，再调用getLength函数计算其长度。2.代码实现步骤及注释//引入必要的模块importVectorLayerfrom"ol/layer/Vector.js
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
探索HeidiSQL：一款强大的数据库管理工具夏庭彭Maxine
探索HeidiSQL：一款强大的数据库管理工具HeidiSQLHeidiSQL:是一个免费且强大的SQL编辑器和数据库管理工具，支持MySQL、PostgreSQL、SQLite等多种数据库。适合数据库管理员和开发者使用HeidiSQL管理数据库和查询数据。项目地址:https://gitcode.com/gh_mirrors/he/HeidiSQL项目介绍HeidiSQL是一款开源的图形化数据库
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
位图（BitMap）实现小猫猫猫◍˃ᵕ˂◍ bitmap 算法
位图（BitMap）实现1.位图简介位图（BitMap）是一种高效的数据结构，用于存储和操作位（bit）数据。每个位可以表示一个布尔值（0或1），常用于去重、排序、快速查找等场景。2.核心功能⚙️设置位（Set）：将某一位设置为1。清除位（Clear）：将某一位设置为0。获取位（Get）：检查某一位是否为1。打印位图（Print）：以二进制形式打印位图。3.代码实现packageMyStruct;
TCP 握手数据包分析 inquisiter tcp/ip 网络 linux
一、客户端数据分析：spu@spu:~/code/pcap$tcpdump-rclient_all.pcap-Xreadingfromfileclient_all.pcap,link-typeEN10MB(Ethernet)17:58:56.346748IP192.168.1.178.55814>192.168.1.117.socks:Flags[S],seq2615205588,win64240
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
网络安全常识网络安全Ash web安全网络安全
一、网络安全常识什么是网络安全？网络安全是指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或者恶意的原因而遭到破坏、更改、泄露，系统可以连续可靠正常地运行，网络服务不被中断。什么是计算机病毒？计算机病毒（ComputerVirus）是指编制者在计算机程序中插入的破坏计算机功能或者破坏数据，影响计算机使用并且能够自我复制的一组计算机指令或者程序代码。什么是木马？木马是一种带有恶意性质的远程
SQL 注入攻击黄亚磊11 数据库
SQL注入攻击了解吗？攻击者在HTTP请求中注入恶意的SQL代码，服务器使用参数构建数据库SQL命令时，恶意SQL被一起构造，并在数据库中执行。用户登录，输入用户名lianggzone,密码123or1=1,如果此时使用参数构造的方法，就会出现select*fromuserwherename='lianggzone'andpassword='123'or'1'='1';不管用户名和密码是什么内容，
MVCC（多版本并发控制）机制讲解十五001 基础 oracle 数据库 mysql
MVCC（Multi-VersionConcurrencyControl，多版本并发控制）这是一个在数据库管理系统中非常重要的技术，尤其是在处理并发事务时。别担心，我会用简单易懂的方式来讲解，让你轻松掌握它的原理和作用。1.什么是MVCC？定义MVCC是一种数据库技术，用于通过保留数据的多个版本来提高并发性能，同时避免事务之间的冲突。简单来说，它允许数据库在读取和写入操作时，同时存在多个版本的数据
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
SQL面试题集：累计值与1000差值最小的记录数星星的阿波罗 Sql能力通关 sql 算法数据库数据仓库大数据数据分析面试
一、题目描述司机累计收入首次接近目标值的订单定位，滴滴平台计划优化司机奖励策略的触发机制，需精准识别司机在接单过程中累计收入首次接近特定目标值1000元的订单节点。该分析用于动态调整奖励发放规则，提升司机接单积极性。样例数据假设表t_sales结构如下：driver_idorder_idincomeorder_time11012002025-02-1909:00:0011023002025-02-
青龙面板京东cookies工具 zhiyi_1 学习人工智能
新增了一些功能，主要是有些老版本的适配，解决原先的bug更新方式，替换文件，config文件可以不替换，则保留配置使用方式：1.运行JD_Get.exe2.登录京东3.点击获取获取到cookie会在右侧显示4.点击发送到青龙面板（如果配置了青龙参数）下载地址：夸克网盘分享
B4158 [BCSP-X 2024 小学高年级组] 质数补全 wwjjjww 算法数据结构
题目描述Alice在纸条上写了一个质数，第二天再看时发现有些地方污损看不清了。在大于1的自然数中，除了1和它本身以外不再有其他因数的自然数称为质数请你帮助Alice补全这个质数，若有多解输出数值最小的，若无解输出−1。例如纸条上的数字为1∗（∗代表看不清的地方），那么这个质数有可能为11,13,17,19，其中最小的为11。输入格式第一行1个整数t，代表有t组数据。接下来t行，每行1个字符串s代表
【自然语言处理|迁移学习-08】：中文语料完型填空爱学习不掉头发深度学习自然语言处理（NLP）自然语言处理迁移学习人工智能
文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax进行单标签多分类2数据集加载及处理数据介绍：数据文件有三个train.csv，test
2025年2月9日（数据分析_2） Mason Lin Python学习数据分析数据挖掘
散点图frommatplotlibimportpyplotaspltfrommatplotlibimportfont_manager#字体相关#字体font_path=r"C:\Windows\Fonts\msyh.ttc"my_font=font_manager.FontProperties(fname=font_path)x=list(range(31))x2=list(range(31,62
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
Mybatisplus更新某个字段为null 辉夜姬想环游世界日常记录 java spring 开发语言
使用@TableField(updateStrategy=FieldStrategy.IGNORED)注解要更新的字段。@TableField注解是Mybatisplus框架中提供的一个注解，主要用于实体类（Entity）的字段上，帮助开发者更灵活地映射Java对象属性与数据库表字段之间的关系主要功能：1、字段映射：当实体类和数据库字段不一致时，可以是使用value属性指定数据库字段名@Table
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

python做面板数据_用Python做数据分析的基本步骤（持续修改更新）

你可能感兴趣的:(python做面板数据)