Eastmount

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

前面几篇文章采用的案例的方法进行介绍的，这篇文章主要介绍Python常用的扩展包，同时结合数据挖掘相关知识介绍该包具体的用法，主要介绍Numpy、Pandas和Matplotlib三个包。目录：
一.Python常用扩展包
二.Numpy科学计算包
三.Pandas数据分析包
四.Matplotlib绘图包

前文推荐：
【Python数据挖掘课程】一.安装Python及爬虫入门介绍
【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍
【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化
【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析
【Python数据挖掘课程】五.线性回归知识及预测糖尿病实例

绘图强推：http://python.jobbole.com/85106/

希望这篇文章对你有所帮助，尤其是刚刚接触数据挖掘以及大数据的同学，这些基础知识真的非常重要。如果文章中存在不足或错误的地方，还请海涵~
部分截图参考张良均的《Python数据分析与挖掘实战》，推荐大家购买阅读。

一. Python常用扩展包

参考张良均的《Python数据分析与挖掘实战》，下图展示了常见的Python扩展包。

常用的包主要包括：
1.Numpy
Python没有提供数组，列表（List）可以完成数组，但不是真正的数据，当数据量增大时，，它的速度很慢。所以Numpy扩展包提供了数组支持，同时很多高级扩展包依赖它。例如：Scipy、Matplotlib、Pandas。

2.Scipy
该包提供矩阵支持，以及矩阵相关的数值计算模块。如果说Numpy让Python有了Matlab的味道，那么Scipy就让Python真正地成为二半个Matlib。因为涉及到矩阵内容，而课程中主要使用数组，所以不再介绍。

3.Pandas
Pandas是面板数据（Panel Data）的简写。它是Python最强大的数据分析和探索工具，因金融数据分析工具而开发，支持类似SQL的数据增删改查，支持时间序列分析，灵活处理缺失数据，后面详细介绍。

4.Scikit-Learn
Scikit-Learn是一个基于python的用于数据挖掘和数据分析的简单且有效的工具，它的基本功能主要被分为六个部分：分类(Classification)、回归(Regression)、聚类(Clustering)、数据降维(Dimensionality Reduction)、模型选择(Model Selection)、数据预处理(Preprocessing)，前面写的很多文章算法都是出自该扩展包。
详见官网：http://scikit-learn.org/stable/

5.Matplotlib
该包主要用于绘图和绘表，强大的数据可视化工具，做图库，语法类似MATLAB。同时，Seaborn也是数据可视化的工具包。
注意：这些包在Anaconda集成环境中已经存在，可以直接使用，最早我是通过Python2.7来编写代码的，安装过程通过pip install numpy，而且安装顺序非常讲究，容易出错，所以推荐大家使用该集成包。

二. Numpy科学计算包

NumPy（Numeric Python）系统是Python的一种开源的数值计算扩展，一个用python实现的科学计算包。它提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。
推荐学习：http://old.sebug.net/paper/books/scipydoc/numpy_intro.html
下面通过这段代码详细讲解这个包在数据分析中的常见用法：

1.一维数组处理

#导入包并重命名
import numpy as np

#定义一维数组
a = np.array([2, 0, 1, 5, 8, 3])
print u'原始数据:', a

#输出最大、最小值及形状
print u'最小值:', a.min()
print u'最大值:', a.max()
print u'形状', a.shape

#数据切片
print u'切片操作:'
print a[:-2]
print a[-2:]
print a[:1]

#排序
print type(a)
a.sort()
print u'排序后:', a

输出结果如下所示：

原始数据: [2 0 1 5 8 3]
最小值: 0
最大值: 8
形状 (6L,)
切片操作:
[2 0 1 5]
[8 3]
[2]
<type 'numpy.ndarray'>
排序后: [0 1 2 3 5 8]

核心代码：
代码通过np.array定义了一个数组[2, 0, 1, 5, 8, 3]，其中min计算最小值，max计算最大值，shape表示数组的形状，因为是一维数组，故6L（6个数字）。
最重要的一个知识点是数组的切片操作，因为在数据分析过程中，通常会对数据集进行"80%-20%"或"70%-30%"的训练集和测试集划分，通常采用的方法就是切片。
a[:-2]表示从头开始获取，"-2"表示后面两个值不取，结果：[2 0 1 5]
a[-2:]表示后往前数两个数字，获取数字至结尾，即获取最后两个值[8 3]
a[:1]表示从头开始获取，获取1个数字，即[2]

2.二维数组处理
注意的是定义二维数组括号不要弄错，正确的应该是：[[1,2,3],[4,5,6]]
同时计算机的存储下标都是从0开始计算的。

代码如下：

#定义二维数组
import numpy as np
c = np.array([[1, 2, 3, 4],[4, 5, 6, 7], [7, 8, 9, 10]])

#获取值
print u'形状:', c.shape
print u'获取值:', c[1][0]
print u'获取某行:'
print c[1][:]
print u'获取某行并切片:'
print c[0][:-1]
print c[0][-1:]

#获取具体某列值
print u'获取第3列:'
print c[:,np.newaxis, 2]

#调用sin函数
print np.sin(np.pi/6)
print type(np.sin(0.5))

#范围定义
print np.arange(0,4)
print type(np.arange(0,4))

代码输出结果如下所示：

形状: (3L, 4L)
获取值: 4
获取某行:
[4 5 6 7]
获取某行并切片:
[1 2 3]
[4]
获取第3列:
[[3]
 [6]
 [9]]
0.5
<type 'numpy.float64'>
[0 1 2 3]
<type 'numpy.ndarray'>

需要注意：
（1）获取二维数组中的某行，如第2行数据[4,5,6,7]，采用方法是：c[1][:]；
（2）获取二维数组中的某列，如第2列数据[[3] [6] [9]]，c[:,np.newaxis, 2]。因为通常在数据可视化中采用获取某列数据作为x或y坐标，同时多维数据也可以采用PCA降低成两维数据，再进行显示。
最后希望读者自己去阅读该段代码。

三. Pandas数据分析包

Pandas是面板数据（Panel Data）的简写。它是Python最强大的数据分析和探索工具，因金融数据分析工具而开发，支持类似SQL的数据增删改查，支持时间序列分析，灵活处理缺失数据。
注意：首先声明改包功能非常强大，我只是学习了它的非常小的一部分，后面随着学习深入会写更多它的用法，同时建议读者自行学习，不喜勿喷。

约定俗成的导入惯例：
from pandas import Series, DataFrame
import pandas as pd

1.常见用法：读写文件
这里读文件最常用的是两种方法：

#写入excel文件：
df.to_excel('foo.xlsx', sheet_name='Sheet1')
#从excel文件中读取：
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])
#写入csv文件：
df.to_csv('foo.csv')
#从csv文件中读取：
pd.read_csv('foo.csv')
#写入HDF5存储：
df.to_hdf('foo.h5','df')
#从HDF5存储中读取：
pd.read_hdf('foo.h5','df')

下面通过一个具体的案例来讲解该包，这里读取的数据是张良均的《Python数据分析与挖掘实战》的第六章的电力用户数据集，missing_data.xls文件。内容如下，共3列数据，分别是用户A、用户B、用户C，共21行，对应21天的用电量，其中包含缺失值。

235.8333	324.0343	478.3231
236.2708	325.6379	515.4564
238.0521	328.0897	517.0909
235.9063		514.89
236.7604	268.8324	
	404.048	486.0912
237.4167	391.2652	516.233
238.6563	380.8241	
237.6042	388.023	435.3508
238.0313	206.4349	487.675
235.0729		
235.5313	400.0787	660.2347
	411.2069	621.2346
234.4688	395.2343	611.3408
235.5	344.8221	643.0863
235.6354	385.6432	642.3482
234.5521	401.6234	
236	409.6489	602.9347
235.2396	416.8795	589.3457
235.4896		556.3452
236.9688		538.347

部分Excel文件数据截图如下所示：

具体代码如下所示：

#读取数据 header设置Excel无标题头
import pandas as pd
data = pd.read_excel("missing_data.xls", header=None) 
print data

#计算数据长度
print u'行数', len(data)

#计算用户A\B\C用电总和
print data.sum()

#计算用户A\B\C用点量算术平均数
mm = data.sum()
print mm

#输出预览前5行数据
print u'预览前5行数据'
print data.head()

#输出数据基本统计量
print u'输出数据基本统计量'
print data.describe()

输出结果如下所示：

           0         1         2
0   235.8333  324.0343  478.3231
1   236.2708  325.6379  515.4564
2   238.0521  328.0897  517.0909
3   235.9063       NaN  514.8900
4   236.7604  268.8324       NaN
5        NaN  404.0480  486.0912
6   237.4167  391.2652  516.2330
7   238.6563  380.8241       NaN
8   237.6042  388.0230  435.3508
...
行数 21
0    4488.9899
1    6182.3265
2    9416.3276
dtype: float64
0    4488.9899
1    6182.3265
2    9416.3276
dtype: float64
预览前5行数据
          0         1         2
0  235.8333  324.0343  478.3231
1  236.2708  325.6379  515.4564
2  238.0521  328.0897  517.0909
3  235.9063       NaN  514.8900
4  236.7604  268.8324       NaN
输出数据基本统计量
                0           1           2
count   19.000000   17.000000   17.000000
mean   236.262626  363.666265  553.901624
std      1.225465   57.600529   67.707729
min    234.468800  206.434900  435.350800
25%           NaN         NaN         NaN
50%           NaN         NaN         NaN
75%           NaN         NaN         NaN
max    238.656300  416.879500  660.234700

其中data.describe()输出数据的基本信息统计，其方法参考前面的图，包括count计数、std、max等函数。同时因为Excel表格中存在空值，故Python显示为NaN（Not a Number）表示空。

2.Series
Series是一维标记数组，可以存储任意数据类型，如整型、字符串、浮点型和Python对象等，轴标一般指索引。
Series、Numpy中的一维array 、Python基本数据结构List区别：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。

from pandas import Series, DataFrame

#通过传递一个list对象来创建Series，默认创建整型索引；
a = Series([4, 7, -5, 3])
print u'创建Series:'
print a

#创建一个带有索引来确定每一个数据点的Series ;
b = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print u'创建带有索引的Series:'
print b

#如果你有一些数据在一个Python字典中，你可以通过传递字典来创建一个Series；
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
c = Series(sdata)
print u'通过传递字典创建Series:'
print c
states = ['California', 'Ohio', 'Oregon', 'Texas']
d = Series(sdata, index=states)
print u'California没有字典为空:'
print d

输出如下所示：

创建Series:
0    4
1    7
2   -5
3    3
dtype: int64
创建带有索引的Series:
d    4
b    7
a   -5
c    3
dtype: int64
通过传递字典创建Series:
Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64
California没有字典为空:
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Series的一个重要功能是在算术运算中它会自动对齐不同索引的数据。

3.DataFrame
DataFrame是二维标记数据结构，列可以是不同的数据类型。它是最常用的pandas对象，像Series一样可以接收多种输入：lists、dicts、series和DataFrame等。初始化对象时，除了数据还可以传index和columns这两个参数。
注意：
(1) 在pandas中用函数 isnull 和 notnull 来检测数据丢失：pd.isnull(a)、pd.notnull(b)。
Series也提供了这些函数的实例方法：a.isnull()。
(2) Pandas提供了大量的方法能够轻松的对Series，DataFrame和Panel对象进行各种符合各种逻辑关系的合并操作。如：Concat、Merge （类似于SQL类型的合并）、Append （将一行连接到一个DataFrame上）。
(3) DataFrame中常常会出现重复行，DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行；还有一个drop_duplicated方法，它返回一个移除了重复行的DataFrame。
总之，Pandas是非常强大的一个数据分析包，很多功能都需要我自己去慢慢摸索。

四. Matplotlib画图包

Matplotlib是一个Python的图形框架，类似于MATLAB和R语言。它是python最著名的绘图库，它提供了一整套和matlab相似的命令API，十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件，嵌入GUI应用程序中。
补充两张图，原自《Python数据分析与挖掘实战》，对大家绘图很有帮助。

最常用的画图函数是plot，同时常用的设置样式方法见下图。

这里主要使用前面第三部分Pandas读取的电力数据绘制图形，主要是柱状图和饼图。

1.绘制柱状图

# -*- coding: utf-8 -*-
"""
Created on Mon Nov 14 04:06:01 2016

@author: yxz15
"""

#导入数据集
import pandas as pd
data = pd.read_excel("missing_data.xls", header=None) 
mm = data.sum()
print u'计算用电量总数:'
print mm

#绘制图形
import numpy as np
import matplotlib.pyplot as plt
#中文字体显示
plt.rc('font', family='SimHei', size=13)
N = 3
#3个用户 0 1 2
ind = np.arange(N)  # the x locations for the groups 
print ind
#设置宽度
width = 0.35        
x = [u'用户A', u'用户B', u'用户C']
#绘图
plt.bar(ind, mm, width, color='r', label='sum num')
plt.xlabel(u"用户名")
plt.ylabel(u"总耗电量")
plt.title(u'电力窃漏电用户自动识别--总耗电量')
plt.legend()
#设置底部名称
plt.xticks(ind+width/2, x, rotation=40) #旋转40度
plt.show()

输出如下所示：

2.绘制饼图

import matplotlib.pyplot as plt

fracs = [45, 30, 25]             #每一块占得比例，总和为100
n = mm[0]+mm[1]+mm[2]
a = (mm[0]*1.0*100/n)
b = (mm[1]*1.0*100/n)
c = (mm[2]*1.0*100/n)
print a, b, c, n
fracs = [a, b, c]

explode=(0, 0, 0.08)             #离开整体的距离，看效果
labels = 'A', 'B', 'C'           #对应每一块的标志

plt.pie(fracs, explode=explode, labels=labels,
                autopct='%1.1f%%', shadow=True, startangle=90, colors = ("g", "r", "y"))
                                 # startangle是开始的角度，默认为0，从这里开始按逆时针方向依次展开

plt.title('Raining Hogs and Dogs')   #标题

plt.show()

输出如下所示：

3.柱状图及比例显示

import matplotlib.pyplot as plt
import numpy as np
plt.rc('font', family='SimHei', size=13)

num = np.array([13325, 9403, 9227, 8651])
ratio = np.array([0.75, 0.76, 0.72, 0.75])
men = num * ratio
women = num * (1-ratio)
x = [u'聊天',u'支付',u'团购\n优惠券',u'在线视频']

width = 0.5
idx = np.arange(len(x))
plt.bar(idx, men, width, color='red', label=u'男性用户')
plt.bar(idx, women, width, bottom=men, color='yellow', label=u'女性用户')
plt.xlabel(u'应用类别')
plt.ylabel(u'男女分布')
plt.xticks(idx+width/2, x, rotation=40)
plt.legend()
plt.show()

输出如下所示（PS：该部分参考百度知道，网址忘记了，望提醒）。

当然该包可以绘制更多的图形，希望读者自己去学习。比如线性回归：

代码部分详解，引用前面自己写的第三篇文章：
matplotlib.pyplot是用来画图的方法，matplotlib是可视化包。
import matplotlib.pyplot as plt

绘制散点图（scatter），横轴为x，获取的第1列数据；纵轴为y，获取的第2列数据；c=y_pred对聚类的预测结果画出散点图，marker='o'说明用点表示图形。
  plt.scatter(x, y, c=y_pred, marker='o')

表示图形的标题为Kmeans-heightweight Data。
  plt.title("Kmeans-Basketball Data")

表示图形x轴的标题。
  plt.xlabel("assists_per_minute")

表示图形y轴的标题。
  plt.ylabel("points_per_minute")

设置右上角图例。
  plt.legend(["Rank"])

表示显示图形。
  plt.show()

最后希望文章对你有所帮助，上课内容还需要继续探索，但enjoy myself~
同时周末监考两天回来，确实挺累的，事情堆了很多，浪费15个小时，发现这份工作，赚点外块真不容易啊！甚至比程序猿累多了。
当老师难，当好老师更难，当贵州的好老师难上难。希望还能坚持自己的梦想，做个财大信院的扫地僧吧，但每每和学生一起还是非常享受的。同时，这次熬夜写文到深夜4点半，旁边也坐着一个自己的学生，在调试Struts、Json代码，所以说，还真不是这边的学生差，你懂得，但也并不是没有好老师，只是相对较少。fighting~
最后补充学生冯Y的一首朋友圈感言：
把握现在，活在当下。
不以物喜，不以己悲。
闲看花开花落，
静观云卷云舒。
顺其自然，随遇而安。
我也希望自己有朝一日能达到这种心境~
对这份工作、事业、校园、办公还是得看淡点。
(By:Eastmount 2016-11-14 中午4点半 http://blog.csdn.net/eastmount/ )

写一个新的Python微信机器人程序员
前言之前写的Python微信机器人系列，看数据倒是有一些人关注，交流群也有两百多人，但是真正使用的没几个，而会去看文章学习原理的没有一个。Python其实并不适合做hook，注入Python去实现hook和主动调用甚至都不如frida，因为注入特征太明显，Python会将所有的dll都会加载到目标进程，而frida只会加载一个dll到目标进程。当然，注入Python在实现和写代码上是比frida要
《Python实战进阶》第38集：机器学习模型优化与调参——Grid Search 与 Hyperopt 带娃的IT创业者 Python实战进阶 python 机器学习开发语言
第38集：机器学习模型优化与调参——GridSearch与Hyperopt摘要在机器学习项目中，超参数的设置对模型性能至关重要。本集聚焦于如何通过网格搜索（GridSearch）和Hyperopt这两种超参数优化方法，提升模型的性能。我们将从理论入手，介绍超参数搜索的核心概念，并通过两个对比实战案例展示如何使用这两种方法优化支持向量机（SVM）和XGBoost模型。最后，我们还将探讨自动化调参工具
《Python实战进阶》第39集：模型部署——TensorFlow Serving 与 ONNX 带娃的IT创业者 Python实战进阶 python tensorflow neo4j
第39集：模型部署——TensorFlowServing与ONNX摘要在机器学习项目中，训练好的模型需要被部署到生产环境中才能发挥实际价值。本集聚焦于如何将模型高效地部署到生产环境，涵盖TensorFlowServing和ONNX两种主流工具的使用方法。我们将从理论入手，介绍模型部署的核心概念，并通过实战案例展示如何使用TensorFlowServing部署图像分类模型，以及如何利用ONNX实现跨
YOLOv8--绘制中文标签耗时优化你的陈某某跑通YOLOv8 YOLO YOLOv8 中文标签绘制
设备：RTX4080运行环境：Python=3.8（要求>=3.8），torch1.12.0+cu113（要求>=1.8）问题：ultralytics代码绘制中文标签乱码，以及其他网上中文绘制推理脚本进行中文可视化时，绘制时间较长（甚至远大于推理时间），尤其目标数量100+时，可视化时间可能上百毫秒，对要求实时推理需求很不友好。本文方法：CPU/GPU上中文绘制耗时几乎忽略不计，接口代码可以集成到
labelimg 打框就闪退 TypeError: setValue(self, int): argument 1 has unexpected type ‘float‘ Jackyyy1go python 数学建模
问题详情：解决办法：1.将canvas.py文件526、530、531行的float改为int。2.在报错文件labelImg.py第965行将float改为int。具体办法：一、更改canvas.py文件文件地址：x:\xxxxx\python-310\Lib\site-packages\libs\canvas.py第526行p.drawRect(left_top.x(),left_top.y(
python的基本数据类型心愿王 python 开发语言
一.数值类型数值类型主要包括整数、浮点数和复数1.整数（int）整数类型用于表示没有小数部分的数值x=10y=-5z=0特点：可以是正数、负数或零在Python3中，整数不受大小限制，仅受内存限制2.浮点数（float）浮点数类型用于表示带小数部分的数值a=3.14b=-2.718c=0.0特点：表示实数，可以包括小数部分使用64位双精度表示3.复数（complex）复数类型用于表示复数，包含实部
思维链在环境污染源追踪中的新角色 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 ai
《思维链在环境污染源追踪中的新角色》关键词：环境污染源追踪，思维链，人工智能，数据挖掘，环境监测摘要：随着全球环境污染问题的日益严峻，如何有效地追踪环境污染源已成为当前环保领域的重要任务。本文将探讨思维链这一新兴技术手段在环境污染源追踪中的应用，分析其理论基础、组成结构、核心概念及其在实际操作中的应用。通过对环境污染源追踪问题的背景介绍、核心概念与联系的分析、算法原理的讲解以及系统分析与架构设计的
《Python Web部署应知应会》No2：如何基于FastAPI 和 OLLAMA 架构实现高并发 AI 推理服务带娃的IT创业者 Python Web部署应知应会 python fastapi 架构 flask
《PythonWeb部署应知应会》No2：如何基于FastAPI和OLLAMA架构实现高并发AI推理服务（上）摘要：在FastAPI和OLLAMA架构中实现高并发AI推理服务，并优化性能指标采集和缓存策略，可以充分利用asyncio的异步I/O操作来提升吞吐量和响应速度。以下是一个详细的解决方案，分为基础实现架构概述、实现步骤、性能指标采集、结合FastAPI和OLLAMA、优化方案详细实现（批量
关于matlab和python谁快的问题小蜗笔记 matlab学习笔记 matlab python 算法
关于matlab和python谁快的问题，python比matlab在乘法上快10倍，指数计算快4倍，加减运算持平，略慢于matlab。或许matlab只适合求解特征值。importtorchimporttimen=50000#矩阵规模M=torch.rand(n,31)start_time=time.time()F_M=torch.exp(M)#将矩阵M映射到其指数值end_time=time.
python 桌面程序开发一醉千秋 WebGL 3D python+银河麒麟 python 开发语言
作为python新手，通过编写代码，与java、nodejs相比较，差别还有的。环境配置：IDE：VisualStudioCodePyInstaller:5.13.2Python:3.7.0Platform:Windows-10-10.0.22621-SP0功能描述：编写带UI界面的桌面程序，读取终端设备历史轨迹数据，采用多线程高并发，模拟终端设备实时定位发送，检测服务端程序的性能。1.线程写锁l
PYTHON 桌面开发 iteye_9973 杂七杂八 Python WinForm wxPython Delphi Eclipse
充分体验到知识循环再用的好处，原本对Python、wxWidgets没有接触的，天黑天亮之间，已经作了一个半成品的桌面程序出来。1.选型通常选型之后，都会迫切的告诉别人自认为正确的原因，这时候路过的人就比较不幸了。我选Python和wxWidgets，是因为.......因为是发布到网上的小程序，要它很小，Java和.Net这两个还算当红但要装虚拟机的笨家伙最先out了，而Python在py2ex
pywebview中文文档穿透云 python
pywebview是一个轻量级的BSD许可证下的跨平台webview组件。它允许在自身原生GUI窗口中显示HTML内容。它让您可以在桌面应用程序中使用WEB技术，同时隐藏GUI依赖浏览器的事实。pywebview集成了内置HTTP服务器、Python中的DOM支持以及窗口管理功能。pywebview中文文档安装pipinstallpywebview根据您所使用的平台，可能需要安装其他库。请参阅安装
告别传统GUI：用FastAPI + PyWebView + 现代前端技术打造Python应用界面 Ktovoz python fastapi 前端 python
告别传统GUI：用FastAPI+PyWebView+现代前端技术打造Python应用界面引言在Python应用程序开发中，GUI（图形用户界面）的实现一直是一个痛点。传统的GUI库如PySide6、Tkinter、wxPython等虽然功能强大，但开发复杂、样式定制困难，且难以适应现代前端技术的快速发展。此外，像Kivy这样的库虽然支持跨平台和丰富的交互效果，但其学习曲线较陡，且对现代Web技术
LeetCode Hot100 刷题路线（Python版）熬夜造bug LeetCode Hot100刷题笔记 leetcode 算法职场和发展
目录1.LeetCodeHot100刷题笔记（1）——哈希、双指针、滑动窗口2.LeetCodeHot100刷题笔记（2）——子串、普通数组、矩阵3.LeetCodeHot100刷题笔记（3）——链表4.LeetCodeHot100刷题笔记（4）——二叉树、图论-CSDN博客5.LeetCodeHot100刷题笔记（5）——回溯-CSDN博客6.LeetCodeHot100刷题笔记（6）——栈、堆
Python自动化办公：开启高效工作新时代 CodeJourney. 人工智能 python excel
一、引言在当今数字化时代，办公效率的提升对于个人和企业的发展至关重要。传统的手动办公方式不仅耗时费力，还容易出现人为错误。Python作为一种功能强大、简单易学的编程语言，正逐渐成为实现自动化办公的得力工具。它拥有丰富的库和模块，能够轻松处理各种办公任务，如数据处理、文档编辑、报表生成等，让繁琐的办公流程变得高效、精准。本文将深入探讨Python自动化办公的应用场景、实用技巧以及实战案例，帮助读者
python之selenium中的窗口切换满满呀 selenium 测试工具
前提：触发一个事件打开一个新的窗口1，先获取所有的句柄：handles=driver.window+handlers2，获取当前窗口cururl=driver.current_url3，循环遍历所有句柄forhandleinhandles:driver.switch_to.window(handle)ifcururl=='目标窗口'break方式二：1，获取当前句柄driver.current_w
Python,Selenium京东扫码登录保存cookie并爬取完整实例吃数据的崽 python selenium 开发语言
Python,Selenium京东扫码登录cookie完整实例前言1.安装下载对应版本的selenium.最新chrome驱动网址（先查看本机浏览器版本号，再下载对应的驱动版本）https://googlechromelabs.github.io/chrome-for-testing/#最新的edge驱动网址（先查看本机浏览器版本号，再下载对应的驱动版本）https://developer.mic
Selenium库详解：Python实现模拟登录与反爬限制的进阶指南小白学大数据 python selenium python 测试工具
一、Selenium库简介Selenium是一个开源的自动化测试框架，广泛应用于Web自动化测试和爬虫开发。它支持多种编程语言（如Python、Java、C#等）和主流浏览器（如Chrome、Firefox、Safari等）。通过Selenium，开发者可以模拟用户的各种操作，例如点击按钮、填写表单、滚动页面等，从而实现对网页的自动化控制。在爬虫开发中，Selenium特别适合处理动态加载的内容（
conda create --prefix 命令安装虚拟环境到指定路径报错 Javy Wang Python conda python 虚拟环境路径
安装conda虚拟环境到指定路径时，很多教程介绍如下命令condacreate--prefix=/usr/local/py36python=3.6但是我在两台不同的ubuntu服务器上使用上述命令却出现了不同的结果，一台成功安装，另一台报错。最后试了很多次，发现使用condacreate--p命令成功了，如下所示百思不得解就去看了一些官方文档，发现正确的命令是condacreate-p，p就表示p
基于Selenium的IEEE Xplore论文数据爬取实战指南帅小柏声音的未来：语音识别文献解读 selenium 测试工具深度学习语音识别人工智能
基于Selenium的IEEEXplore论文数据爬取实战指南一、项目背景与目标IEEEXplore作为全球知名的学术资源平台，收录了大量高质量科技文献。本教程将演示如何通过Python的Selenium库实现：自动化获取指定领域论文列表（以"构音障碍"为例）完整提取论文标题、摘要、收录日期等核心信息智能处理分页和动态加载内容结构化存储至CSV文件完整项目代码已托管至GitHub仓库，链接在文章末
Python只读取Excel文件的一部分数据，比如特定范围的行和列？自不量力的A同学 python excel 开发语言
如何只读取Excel文件的一部分数据，比如特定范围的行和列？在Python中，如果你只想读取Excel文件的特定范围，可以使用以下方法：pandas:Pandas是一个强大的数据处理库，它有一个内置函数read_excel()用于读取Excel文件。你可以通过指定sheet_name参数选择特定的工作表，并通过iloc或loc（基于行和列标签）来选择特定的行和列。例如：Pythonimportpa
python---linux系统CPU、内存、磁盘监控，钉钉告警大眼、不聚光 python python linux 钉钉
使用以下公式生成签名：importtimeimporthmacimporthashlibimportbase64timestamp=str(int(time.time()*1000))secret='你的加签密钥'string_to_sign=timestamp+"\n"+secrethmac_code=hmac.new(secret.encode('utf-8'),string_to_sign.
【数据可视化应用】绘制类别插值地图（附Python代码）文宇肃然可视化工具数据分析实战应用 python 机器学习 sklearn
sklearn.KNeighborsClassifier()终于这篇推文将机器学习和可视化完美的结合起来，即：机器学习处理数据，数据可视化技术展现、美化数据（以后的深度学习部分也会延续这个风格，只不过比重不同而已）。首先，我们给出我们今天的数据：散点数据和四川省的地图文件，python读取操作如下：import pandas as pdimport numpy as npfrom sklearn.
Python二维列表的使用 sunshine8426 python
1.直接定义二维列表verse=[['千','山','鸟','飞','绝'],['万','径','人','踪','灭'],['孤','舟','蓑','笠','翁'],['独','钓','寒','江','雪']]print(verse)print(verse[0][0])#表示二维列表的第一行，第一列元素。print(verse[1][0])#表示二维列表的第二行，第一列元素。print(verse
python中的pickle *Major*
python中的picklepython中的picklepython中的picklepickle模块是对Python对象结构进行二进制序列化和反序列化的协议实现.pickle可以把字典、列表等结构化数据存到本地文件，读取后返回的还是字典、列表等结构化数据importpicklea={'name':'Major','age':22}withopen('text.txt','wb')asfile:pi
python和c中作用域的差异 m0_55576290 python c++python c语言开发语言
好的，我将详细列举Python和C语言在作用域规则上的主要差异，并为每种差异提供具体的代码示例，以便更清晰地理解它们之间的不同。1.块级作用域（BlockScope）C语言在C语言中，任何用{}包裹的代码块（如if语句、for循环等）都会创建一个新的作用域。示例#includeintmain(){intx=10;//局部变量，作用域为整个main函数if(x>5){inty=20;//局部变量，作
python3.12 搭建MinerU 环境遇到的问题解决多云几多 python 人工智能 linux
报错：AttributeError:module'pkgutil'hasnoattribute'ImpImporter'.Didyoumean:'zipimporter'?ERROR:Exception:Traceback(mostrecentcalllast):File"D:\ipa_workspace\MinerU\Lib\site-packages\pip\_internal\cli\bas
[python]MinerU的python接口使用例子 FL1623863129 Python python windows linux
参考官方例子：mineru.readthedocs.io/en/latest/user_guide/quick_start/to_markdown.html本地文件例子：importosfrommagic_pdf.data.data_reader_writerimportFileBasedDataWriter,FileBasedDataReaderfrommagic_pdf.config.make
使用Python爬虫抓取地理信息并生成热力图展示不同地区情况 Python爬虫项目 2025年爬虫实战项目 python 爬虫信息可视化开发语言人工智能搜索引擎
引言地理信息热力图在数据可视化中被广泛应用，它通过颜色的渐变来展示不同地区的数值变化，帮助我们更直观地理解空间数据的分布情况。在实际应用中，热力图通常被用于展示城市分布、气候变化、交通流量、人口密度等信息。对于数据分析师来说，地理信息的抓取与分析能力是非常重要的技能。本文将介绍如何使用Python爬虫抓取地理信息数据，并生成热力图，展示不同地区的情况。我们将使用最新的Python技术栈，包括爬虫、
Python 基础语法二维列表 HASHMOTO 编程 python 开发语言
目录1.序幕2.前期回顾3.创建一个二维列表4.二维列表的宏观层面4.1.二维列表的值4.2.二维列表的数据类型4.3.二维列表的长度5.二维列表的微观层面5.1.二维列表元素的值5.2.二维列表元素的数据类型5.3.二维列表元素的索引6.二维列表的遍历6.1.单层循环遍历6.2.双层循环遍历7.练习题1.序幕上一次给大家分享了关于一维列表的一些有趣的东西，今天要为大家带来的是二维列表，一维列表的
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

一. Python常用扩展包

二. Numpy科学计算包

三. Pandas数据分析包

四. Matplotlib画图包

你可能感兴趣的:(python,数据挖掘,pandas,matplotlib,numpy)