JasmineFeng

Pandas学习（一）——预备知识（Python基础NumPy基础）

第一次参加DataWhale的组队学习，哈哈哈，期待满满！
1.1.1、语法糖
两个比较实用的语法糖是列表（字典）推导式和条件赋值

这个例子举得很好，把两个语法糖结合在一起展现了。
我自己还尝试了一个。我现在想把这个字典里的所有的键值对拼接成一个字符串。
没学语法糖的时候我是这么做的。

dict1 = {
     'a':1,'b':3,'c':2}
s = ''
for key, val in dict1.items():
	s = s + key + '_' + str(val) + '_'
print(s)  # a_1_b_3_c_2_

但是学了语法糖后，我可以用一行搞定：

s = '_'.join([key + '_' + str(val) for key, val in dict1.items()])
print(s)  # a_1_b_3_c_2

注意到这边打印结果少了一个下划线。字符串join方法作用是把下划线插入到可迭代对象之间。

1.1.2、zip函数，压缩与解压

这个压缩和解压看起来还是挺有意思的，zip作用是把不同序列对应元素取出来再打包，*操作符可以把压缩好的序列解压缩（只解压最外一层）。
BTW还有个**操作符，其作用是对字典解压缩，这个在输入函数关键字参数kwargs的时候有用

1.2.1、Numpy数组构造

我以前学NumPy的时候从来没发现字符也可以作为ndarray的元素，有被惊到。
这边链接在这
U是Unicode的意思，原来如此~长知识了

np.tile, np.full方法的对比
两个方法都接受两个参数，第一个是shape，第二个是数组或数值；区别是tile的第一个参数是原数组，第二个参数才是shape，并且是把数组当作一个整体去填充的，故返回的数组与传入数组shape常常不一致，而full返回的数组shape就是指定的shape。tile跟MATLAB中的repmat是很像的~

a = np.array([1,2,3])
b = np.full((2,3), a)
c = np.tile(a, (2,3))
print('from full')
print(b)
print('from tile')
print(c)

1.2.2、array合并
除了教程里的np.c_和np.r_,其实还有np.hstack,np.vstack,np.dstack,np.concatenate可以拼接数组，这两者之间的主要区别就是，后面四种是函数，必须用()，而前面两种不是，要用[]，看例子：

a = np.array([1,2,3])
b = np.array([2,3,4])
x = np.r_[a,b]
y = np.c_[a,b]
print(x)  # [1 2 3 2 3 4]
print(y) #  [[1 2]
		#	 [2 3]
		#	 [3 4]]
m = np.hstack((a,b))
n = np.vstack((a,b))
print(m)  # [1 2 3 2 3 4]
print(n)  # [[1 2 3]
 		  #  [2 3 4]]

注意：hstack和vstack只能接受一个参数也就是一个tuple,所以使用这两个函数必须得有双重括号，这也是我经常犯的一个错误。
可以从首字母联想记忆，r–>row按行拼接，c–>column,按列拼接，h–>horizontal,水平拼接，v–>vertical,垂直拼接，d–>deep,按深度（页）拼接，concatenate–>任意拼接，需指定axis。
真好，边学Python边背单词~
1.2.2、array变形
reshape可以指定按C（C语言）还是按F（Fortran）顺序读原数组且填充新的数组，注意，读取和写入都是按照这个order，F跟MATLAB的顺序是一样的，不过我一般不指定这个关键字参数。
这里拓展一下，总结一下numpy中把数组拉平（变一维）和扩充维度的方法。

拉平方法：array.flatten(), array.reshape(-1), array.ravel()

a = np.array([[1,2,3,4]])
print(a)  # [[1,2,3,4]]
print(a.flatten())  # [1,2,3,4]
print(a.reshape(-1))  # [1,2,3,4]
print(a.ravel()) # [1,2,3,4]

扩维方法: array.reshape, np.expand_dims, np.newaxis

a = np.arange(8).reshape(2,4)
print(a)
print('*'*50)
print(a.reshape((2,1,4)))
print('*'*50)
print(np.expand_dims(a,axis=1))
print('*'*50)
print(a[:,np.newaxis,:])

打印结果：（新数组两页，每页是1×4）

1.2.3、切片与索引
布尔索引可以用np.ix_，欸，这个我倒是没用过，有点意思
74行输入意思是第0个维度取第0、2个，第1个维度取第0、2个，所以最后得到的数有2×2=4个，位置分别在(0,0),(0,2),(2,0),(2,2)。

一个想提的但教程里没说的是对与布尔值构成的数组取非是不能用not的，会报错，应该用取补运算符~。ndarray[~np.isnan(ndarray)]

1.2.4、常用函数

np.where,作用有两个，一个只给condition作参数，那么找出数组中满足给定condition的元素，返回其索引；另一个是给condition、两种操作（一共三个参数），对数组中满足和不满足给定condition的元素分别进行不同的操作，并返回处理后的新数组（跟map函数有点像哦？）

a = np.arange(8).reshape(2,4)
b = np.where(a>4,a**2,0)
print(a)  # [[0 1 2 3]
		  #	 [4 5 6 7]]
print(b)  # [[0 0 0 0]
		  #	 [0 25 36 49]]

这边把大于四的数变成平方，否则置零。

a = np.arange(8).reshape(2,4)
c = np.where(a>4)
print(c)  # (array([1, 1, 1], dtype=int64), array([1, 2, 3], dtype=int64))

返回一个元组，元组由两个arrays构成，第0个是行索引构成的array，第1个是列索引构成的array。
顺便比较一下np.argwhere:

d = np.argwhere(a>4)
print(d)  # [[1 1]
	      #  [1 2]
           # [1 3]]

argwhere返回的也是一个索引，不过更直观一些，可以理解为返回坐标值，相当于是where返回的压缩zip（知识串起来了有木有！）

np.diff与np.grad对比
教程里貌似只提了diff也就是向前（后）差分，但我个人更喜欢用gradient梯度，因为gradient返回的数组元素个数是与原数组相同的。gradient时，第一个用向后差分，最后用向前差分，其余用中心差分。

a = np.array([1,2,4,8,16])
print(np.diff(a))  # [1 2 4 8]
print(np.gradient(a))  # [1.  1.5 3.  6.  8. ]

注意gradient返回数组的dtype是float(默认float64)

np.nan一类函数

这个以前也没注意过，如果数组里有NaN的话，应该用nan开头的一类统计函数。
BTW, NaN != NaN
np.quantile这个pandas库里也有，numpy里就不细说了~
np.corrcoef & np.cov

直接调用这两个方法当然可以，但也可以自己用NumPy编一个函数~

def my_cov(a, b):
    m = a.shape[0]
    x = np.c_[a, b]
    x = x - x.mean(axis=0)  # 0中心化
    cov = x.T.dot(x) / (m-1)  # 分母是样本数-1
    return cov


def my_corr_coef(a,b):
    cov = my_cov(a,b)
    a_cov = cov[0, 0]
    b_cov = cov[1, 1]
    ab_cov = np.sqrt(a_cov * b_cov)
    y = np.array([[a_cov, ab_cov], [ab_cov, b_cov]])
    r = cov / y
    return r


a = np.array([1,3,5,9])
b = np.array([1,5,3,-9])
print(my_cov(a,b))
print(my_corr_coef(a,b))

打印结果与教程一样的，这里不展示了~

然后就是axis的问题，很多初学者这边都会踩坑，我当时也是用了很久才想明白，我觉得记行还是列不太好，容易混淆，我自己的记忆方法是这样的：

首先我们得弄明白shape，行与列永远是shape的最后两个数，且最后一个一定是列，倒数第二个一定是行，然后我们把行与列构成的二维数组看作一个整体。如果shape一共有三个数(a,row,col)，那么第0维是a的话就代表有a页二维(row×col)数组；同样地如果shape一共有四个数，(a,b,row,col)，那么就代表有a个{b页的二维(row×col)}数组。
axis与shape中的每个数是一一对应的，axis=0,1,2分别对应shape的第0,1,2维。比方说求均值吧，我们得把每个值加起来，假设x的shape(4,2),你可以想象执行相加操作的时候有一个类似于指针的东西在移动，那么x.sum(axis=0)意味着第1维不动，第0维在动，也就是说指针先在1的位置，然后3、5、7。

这些统计函数中还有一个容易踩坑的地方是keepdims关键字，比方说在0中心化的时候，这个关键字是很有用的。这个关键字从字面意思上理解就是保持维数不变，什么意思呢，比方说我上面这个(4,2)的数组，按理说在sum或者mean以后会变成(1,2)这个形状，但其实你不指定keepdims的话（缺省值False），numpy会进一步对(1,2)进行压缩，最终输出的形状是(2,)

x = np.arange(1,9).reshape((4,2))
print(x)
s1 = x.mean(axis=0)
print(s1)  # [4. 5.]
print(s1.shape)  # (2,)

这种情况问题还不大，毕竟NumPy有广播机制。但是下面这种情况问题就出现了，我想对每一行做0中心化（去均值），因此减去每一行的均值（有个指针在每一列上从左向右移动）：

x = np.arange(1,9).reshape((4,2))
print(x)
mu = x.mean(axis=1)
x_0center = x - mu
print(mu)
print(mu.shape)
print(x_0center)

这时，弹出一条error:
ValueError: operands could not be broadcast together with shapes (4,2) (4,)
什么意思呢，就是我做完mean后得到的mu是从(4,1)被压缩成(4,)，这个时候没办法广播！
所以这个时候就必须指定keepdims为真了：

x = np.arange(1,9).reshape((4,2))
print(x)
mu = x.mean(axis=1,keepdims=True)
x_0center = x - mu
print(mu)
print(mu.shape)
print(x_0center)

打印结果：

1.2.5、广播机制
请注意能够广播的条件是两个数组中必须有一个对应维度是一致的，不对应那也没用，比方说上面的(4,2)和(4,)就不能广播再运算（当然如果有标量那另当别论，标量跟任何数组运算都能广播吧）
P.S.我们应该认为(4,)中的4是最后一个维度而不是第一个维度，所以能不能广播应该检查它与(4,2)中的2是否一致而不是4

1.2.6、向量与矩阵的运算
np.dot既可以做向量内积，又可以做矩阵乘法，如果是做矩阵乘法，与@操作符等价。
np.linalg.norm 对于向量来说，常用范数有L2范数也就是欧几里得范数（平方和再开方），L1范数（绝对值之和），L0范数（非零元素个数），无穷范数（最大绝对值）对矩阵常用的是Frobenius范数，他是L2范数在矩阵的扩充。用order关键字指定。
P.S. 这边linalg全名linear algebra,懂的都懂~

练习题
1.3.1、列表推导式写矩阵乘法
果然我太菜了，我用了两次列表推导式，还用了numpy的reshape。。。

import numpy as np

M1 = np.random.randn(2,3)
M2 = np.random.randn(3,4)
a = [M1[i, k] * M2[k, j] for i in range(M1.shape[0]) for j in range(M2.shape[1]) for k in range(M1.shape[1])]
res = np.array([np.sum(a[m] + a[m + 1] + a[m + 2]) for m in range(0, len(a), M1.shape[1])]).reshape(M1.shape[0],
                                                                                                    M2.shape[1])
print(((res - M1 @ M2)<1e-15).all())  # True

答案：[[sum([M1[i, k]*M2[k,j] for k in range(M1.shape[1])]) for j in range(M2.shape[1])] for i in range(M1.shape[0])]

注意：这里有列表嵌套才能形成(2,4)的形状，我原来就没有考虑到嵌套的问题，所以求得的a是拉平的。
1.3.2、更新矩阵

做我是做出来了，自我感觉也挺高效：B = A * np.sum(1/A,axis=1,keepdims=True)
不过答案我看了好一会儿才看明白，B = A*(1/A).sum(1).reshape(-1,1)
这里确实犯傻了，我一开始还以为A*(1/A)不是应该得到全为1的矩阵吗。。。
.点操作符的运算优先级高于乘法运算符（希望没人跟我一样犯傻），这边先执行sum，再执行reshape，最后才相乘
sum(1)其实就是sum(axis=1)，因为没有指定keepdims=True，所以要reshape一下才能广播~。
1.3.3、卡方统计量

思路很简单，按照公式一步步来就好了

B = np.dot(A.sum(axis=1,keepdims=True),A.sum(axis=0,keepdims=True))/A.sum()  # 我的
B1 = A.sum(0)*A.sum(1).reshape(-1, 1)/A.sum()  # 答案
chi2 = ((A-B)**2/B).sum()

按我的理解，答案这个其实不是广播，小白慎用，反正我是小白。。。老老实实按照dot乘法算吧。

下面分别给出待改进函数、我的改进函数，以及答案的改进。L_res都一样的（这个不用怀疑）
我的思路是既然 $B_i-U_j||_2^2$ 是相减得到的，那我就减呗~，但是不能直接减，因为形状不对，所以我先把B扩维到(m,1,p),U转置为(n,p)，这样减出来的就是(m,n,p)，然后就在axis=-1也就是最后一维上移动我们的指针（还记得我前面那个比喻吗，因为我现在要求的是每一行的L2范数的平方）。
答案用了数学的技巧，（感觉也算不上技巧，无非就是公式的变形而已:) ）

def solution(B=B, U=U, Z=Z):
    L_res = []
    for i in range(m):
        for j in range(n):
            norm_value = ((B[i]-U[:,j])**2).sum()
            L_res.append(norm_value*Z[i][j])
    return sum(L_res)


def my_solution():
    L_res = (np.linalg.norm(np.expand_dims(B, axis=1) - U.T,axis=-1)**2 * Z).sum()


def answer():
    L_res= ((np.ones((m, n)) * (B ** 2).sum(1).reshape(-1, 1) + np.ones((m, n)) * (U ** 2).sum(0) - 2 * B @ U) * Z).sum()

下面来检验一下性能：

t0 = timeit.timeit('solution()' ,'from __main__ import solution',number=300)
t1 = timeit.timeit('my_solution()' ,'from __main__ import my_solution',number=300)
t2 = timeit.timeit('answer()' ,'from __main__ import answer',number=300)
print(t0,'s')  # 11.0360933s
print(t1,'s')  # 1.3576491999999991s
print(t2,'s')  # 0.08481260000000113s

我的改进相比于原方法提升了十倍左右性能，不过答案更绝，性能提升了十几倍。。。我估计，我的时间主要耗在norm的计算上了？

1.3.5、连续整数最大长度

这题扔我我还真没啥思路，真要写只能暴力计算了。。。
答案很巧妙啊（下面代码是在命令行敲的，第三、四行下划线_代表上次输出的结果）

a = np.array([1,2,5,6,7])
np.r_[1,np.diff(a)!=1,1]
# array([1, 0, 1, 0, 0, 1], dtype=int32)
np.nonzero(_)
# (array([0, 2, 5], dtype=int64),)
np.diff(_).max()
3

相当于是在数组的起点与终点分别做了标记，把不连续的点置一，那么连续区间的长度就是相邻标记的差，实在是妙！学到了哈哈

终于把第一章学完了！！无所谓，也有点累:)
大家一起加油鸭~

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
在Ubuntu中编译含有JSON的文件出现报错芝麻糊76 Linux kill_bug linux ubuntu json
在ubuntu中进行JSON相关学习的时候，我发现了一些小问题，决定与大家进行分享，减少踩坑时候出现不必要的时间耗费截取部分含有JSON部分的代码进行展示char*str="{\"title\":\"JSONExample\",\"author\":{\"name\":\"JohnDoe\",\"age\":35,\"isVerified\":true},\"tags\":[\"json\",\"
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

Pandas学习（一）——预备知识（Python基础NumPy基础）

你可能感兴趣的:(pandas,&,numpy,python,numpy)