我愛大泡泡

小数据分析师学 Python 之 Seaborn（二）：定量数据的线性模型（谁知道原文出处告诉我一下谢谢）

今天我开始切入了 Linear models with quantitative data 这一Tutorial, 让seaborn拼图增加了一块大大的领土.

初识lmplot

在之前讲解distribution分布一节中, 主要围绕的是单(双)样本间各自样本的形态, 或者是两个样本间的形态差异. 还未涉及到分析多个样本间的依赖关系. 后者需要借助于更复杂的工具来实现, 比如用线性函数来表达这一关系的线性回归模型, seaborn专门为此制定了强大的lmplot可以解决大多数本原线性模型.

这一节将会对定量数据, 线性模型做一个详尽的讲解.首先是 lmplot (plot for linear model).

lmplot 最简单的 y~x 模型

Visualizing Multiple regression with lmplot()

lmplot, 首先要明确的是:它的输入数据必须是一个Pandas的’DataFrame Like’ 对象, 然后从这个DataFrame中挑选一些参数进入绘图充当不同的身份.观察下面几行代码, 你就能一目了然了:

# 有的时候, 受测试环境制约, 我有可能会把数据从本地导入; 数据集文件同样是来自于seaborn-data tips = pd.read_csv('c:/tips.csv', index_col=False) # tips = sns.load_dataset('tips') # 网络环境正常的话也可以这样直接导入  # 直接作图, 使用我喜欢的xkcd style with plt.xkcd():     sns.color_palette('husl', 8)     sns.set_context('paper')     sns.lmplot(x='total_bill', y='tip', data=tips, ci=65, color='indianred')

参数解释,

在上面的lmplot()中, x, y, data(前三个不可省略)分别表示回归的自变量, 回归变量和数据源;

ci用于描述置信区域(confidential interval)的大小, 往往是65, 97这样的标准差的整数倍取值; color是颜色控制.

有的人可能会看到"线点分离"的效果, 是的, 我在一开始也是抱着这样的想法 — 希望用更突出的颜色来强调回归直线的位置, 而不是将它与scatter群混在一起.

控制散点图和直线的参数分别是 scatter_kws, line_kws先观察下面的代码:

sns.lmplot("total_bill", "tip", tips,            scatter_kws={"marker": ".", "color": "slategray"},            line_kws={"linewidth": 1, "color": "indianred"});  #{scatter, line}_kws : dictionaries, optional #Additional keyword arguments passed to scatter() and plot() for drawing the components of the plot.

解释: 实际上 scatter_kws 与 line_kws 两个参数是来自于 regplot, 因为lmplot是继承于regplot 因此顺利得到这对参数.

第二阶: y~x[d1, d2, …dn] 自变量取离散值的回归

Plotting with discrete predictor variables

x, y均是连续型取值应该是简单情形, 联想到最小二乘, 联想到一个凸优化问题, …, 下面来起讨论x, y二者之一取离散值(descrete int).因为若x, y均是离散水平就是涉及到的离散型卡方检验(Chi-Square Test)/列联表(cross table)之类的范畴了, 非本节讨论范围.

还是利用小费数据集, 这次把total_bill 账单金额替换为size 权当是用餐人数好了.

sns.lmplot(‘size’, ‘tip’, tips)

可以看到, 在代码的结构组成, 与上面的形式看不出任何差异. 不过输出的形式却有很大不同, 而且其难点在于对数据的解读. 这种图形结合到现实的话稍有难度. 现实意义: 人越多小费越多(当然前面的总账单金额和小费的正向关系也是直觉的产物), 但不同人数的权重是否有考虑;是否直线被极端group产生了杠杆导致有偏严重? 这类信息还是很难在图中读取出来.

plt.figure() # 为了进一步查看各size水平下tip的分布, 可能还需要展示更多 sns.lmplot('size', 'tip', tips, x_estimator= np.mean) # 如果说回归直线基本是在各组mean值上下微小浮动, 说明直线并没有受到部分size水平的影响. # 关于 x_estimator 我想不难理解 - > 对拥有相同x水平的y值进行映射

我想对于 y-x 模型中 x连续与x离散的差异性还有很多没有提到的. 这里只是学生的粗浅直觉.

jitter

jitter是个很有意思的参数, 特别是处理靶数据的overlapping过于严重的情况时, 通过增加一定程度的噪声(noise)实现数据的区隔化, 这样原始数据是若干点簇变成一系列密集邻近的点群. 另外, 有的人会经常将 rug 与 jitter 结合使用. 这依人吧.

对于横轴取离散水平的时候, 用x_jitter可以让数据点发生水平的扰动.但扰动的幅度不宜过大, 比如看官可以尝试一下超过0.5会发生什么.

sns.lmplot(‘size’, ‘tip’, tips, x_jitter=.15)

注. jitter 与 estimator参数是冲突的. 不应共同使用.

连续数据离散化

将一个连续型数据映射为有限个(1=2量级的缩小水平)的方法有很多, 对于一维-一维的常用思路是通过一个breaks列表中的各个cut points实现对原始数据的有限切分, 即让原始数据落在目标区间群中唯一的区间中.然后用区间位置作为新的变量. 因为多数情况下是数值型, 所以组标识是离散整数表示, 这样起到离散化,同时保留了Order的知识.

说了这么多, 其实就是想讲lmplot中的这个参数 x_bins

bins = [10, 20, 30, 40]  fig = plt.figure(figsize=(16, 10)) sns.lmplot('total_bill', 'tip', tips, x_bins = bins) plt.xlabel('bins-list')

若 x_bins 换成一个整数? 请你自己试试吧

Facet plot

我明白的另一个事实就是, 现实模型是远比 y~x要复杂的.不过学习还是一点一点深入的过程.

数据的Facet Plot要借助于第三变量, 起到切片/切面的效果.

分组形式1: hue参数

hue是个很重要的参数, 不只出现在lmplot.还是用之前的参数, 以及在本节第一行正式代码的结尾参加这个参数, 记住:要指定一个categorical variable!

hue通过指定一个分组变量, 将原来的y~x关系划分成若干个分组:

y1~x1 | y2~x2 | …

然后再用不同的color将数据统一展示到一张图中.

with plt.xkcd():     sns.lmplot('total_bill', 'tip', data=tips, hue='day')     plt.xlabel('hue = day')

类似的, 你还可以绘制tips数据集中以其它分组变量的图形, 如smoker.

通过比较不同分组的斜率, 还是能得到一些有意思的结论, 比如相同账单金额的水平, 不抽烟的顾客可能给付更高的小费.

hue相关辅助参数

marker, 用于数据点的外观标识
hue_order 控制hue组类别的排序

对于很多情况下的categorical-label类的值, seaborn多能提供一些xxx_order的参数来控制展示的顺序(从左-右, 上-下诸如此类)hue_order但是用来控制hue组类别的排序的. 比如tips中day参数拥有超过2个水平时, 排序问题就应该注意了. (在我看来, 水平为2的情况不須指定排序)

# hue_order g = sns.lmplot("total_bill", "tip", tips, hue="day", palette="Set2", hue_order=["Thur", "Fri", "Sat", "Sun"]) g.set_axis_labels("Total bill (US Dollars)", "Tip"); g.set(xticks=[10, 30, 50], ylim=(0, 10), yticks=[0, 2.5, 5, 7.5, 10]);

为什么要指定顺序呢? 这是因为分组的属性是一周时间内的日期 == 一个明显的order/interval变量, 所以人工指定新的顺序, 不然系统只能用字典排列了.

这里还引用了另一种Handler 句柄化的操作方式.

即sns生成的绘图对象, 然后调用对象的set类函数, 实现对g的局部配置. (上面的set_axis_labels, set(xticks, ylim, yticks))

plt.xkcd() sns.lmplot("total_bill", "tip", tips, hue="smoker", markers=["x", "o"]);

分组形式2: col 参数

如果要将不同水平单独画出来了就可用这个参数, col表示column.

sns.lmplot(‘total_bill’, ‘tip’, data=tips, col=’smoker’)

col与hue共用会产生怎样的效果?

当写完hue col的展示之后, 我不禁产生这样的疑问.于是我也分为两种情况, 第一种比较容易想到, 就是hue = col的取值.

sns.lmplot('total_bill', 'tip', data=tips, col='smoker', hue='smoker')

那如果col指定day, 而hue指定smoker呢?我还是希望自己去试试吧!

lmplot不仅仅能画直线

在研究生期间, 我接触过非线性模型又再次分为本原线性和本原非线性模型, 即通过对x,y进行transform从而得到一个线性模型. 如果是这样的模型也是在广义线性模型的范畴内的.

我也是初识seaborn, 通过文档介绍也发现它也是支持一些简单的非线性模型的.

实际上一个lmplot在一开始的图中能看出就是由简单的scatter图和一条简单的线组成(ci置信区域不妨就当作直线的衍生产物). 因此. 能不能只显示一种?

Non-linear

Polynomial Trends

非线性关系里比较简单的方式是过渡至多项式关系, 一般用2-3次的关系来查看是否比一次线性更好的拟合数据.

sns.set_style('dark') sns.set_context('talk') sns.lmplot('size', 'total_bill', tips, order=2) plt.title('# poly order = 2') plt.figure() sns.lmplot('size', 'total_bill', tips, order=3) plt.title('# poly order = 3')

lowess

LOESS and LOWESS (locally weighted scatterplot smoothing)

对于Lowess不熟悉的人, 可能要事先作一些homework了. 简单的理解是对简单最小二乘作了复杂化.通过分类, 聚集, 计算变换, 加权等方式改变了最小二乘的原始最优问题, 也许看结果会像是指数平滑的结果, 但其机理还要比k-neighbors平滑稍稍麻烦一些.

如果有兴趣, 可以学习一下 wiki, 或者曾记得stanford前老师Ng老师课中有提到.

sns.set_style('dark') sns.lmplot('total_bill', 'tip', tips, lowess=True, line_kws={'color': '.2'}) plt.title('figure with  lowerss=True')   plt.figure() sns.set_style('white') sns.lmplot('total_bill', 'tip', tips, lowess=False, line_kws={'color': '.4'}) plt.title('figure with  lowerss=False')

Logistic 回归

L回归是描述y[0,1] ~ x(连续)的问题注: (y多水平的情况就先… 不考虑了)

首先, 由于原数据tips中没有符合logistics建模条件y变量, 我们先人工计算一个, 计算规则是小费占比是否大于10%.

# make a target Y as logistic predit variable  tips['big_tip'] = (tips['tip'] / tips['total_bill'] ) > .1 print tips.head() sns.lmplot('total_bill' , 'big_tip',y_jitter=.15, data=tips)

依照着之前设置xjitter的方式, 这里设置了yjitter.

# logistic model sns.set_style('whitegrid') sns.lmplot("total_bill", "big_tip", tips, y_jitter=.05, logistic=True);

lmplot 其它参数

fit_reg 这也是来自于 regplot 的参数取值为bool型.

sns.lmplot("total_bill", "tip", tips, hue="time", palette="Set1", fit_reg=False);

n_boost robust

为了减少Outliers对模型整体的影响(outliers的占比应该是很少的, 而不是和其它大众群体一样权重). 如有兴趣搜索bootstrap.

sns.lmplot('total_bill', 'tip', data=tips, robust=True, n_boot=500)

others
- xlabel ylabel 指定标签.
- x_partial y_partial 关于水平垂直的偏量分解我接触不多. 不过在我理解一个主要应用是用来作实验效应, 比如x y如果单纯作图时发现有显著线性相关. 可以如果x y均与 c 有交互效应, 将c作为partial进行分解之后就能看到其实x y 的相关性多是取决于c的. 把c的效应抹去, x y 就未必显著了. 有兴趣尝试这段代码

import seaborn as sns iris = sns.load_dataset("iris") sns.regplot("sepal_length", "sepal_width", data=iris,             x_partial=iris[["petal_length", "petal_width"]])

 - truncate

其它相关的函数

regplot

之前曾经提过lmplot是regplot(regression plot)的上级函数, 很多参数是继承自regplot的.

用下面一个简单例子来演示.

f, (ax1, ax2) = plt.subplots(1, 2, sharey=True) sns.regplot('total_bill', 'tip', data=tips, ax=ax1) sns.boxplot(tips['tip'], tips['size'], color='Blues_r', ax=ax2).set_ylabel("") f.tight_layout()

不同类型的图形,如何组合, 挑选哪样的图形类型, 这其中这也是数据作图的哲学. 我想还得要有大量的经验积累.

residplot

残差图是用来检视一个回归模型优劣的一个快速, 直观的工具.一个回归模型的本质就是为了"提纯", 因为回归模型其前提是我们假定

Y = F(X) + err,

所以回归曲线如果已经描述出Y = F(x)

那么剩下的err 的分布就应是如同white noise一样的分布(随机正态分布, 方差为给定值)

当然这一系列的一厢情愿只是美好的理论层幻想.

为了演示residplot, 需要自建一些测试数据.

说明, multivariate_normal 这是生成多元正态分布的numpy-random 不常用函数(因为生活中更多的还是一维啦). 其中第一位置是指定多元各元的期望均值; 第位置是一个n*n 的协方差矩阵, 然后最后一个位置是sclar型的, 描述多元样本的容量.

# sample data x , y =np.random.multivariate_normal([1, 5], [(2,-.8), (-.8, 2)], 80).T  ax = sns.regplot(x, y , color='slategray') ax.set(xlabel='xxx', ylabel= 'yyy')

能看到x y 之间有较显著的线性关系. 再用残差图来识别此模型.

sns.residplot(x, y , color=’indianred’)

基本没问题, 残差线分布 y = 0 边缘, 几乎重合.

当然了, 残差图的内部也是要考虑x y 之间的关系类型的, 用线性残差图不能很解释二次关系.

y = x + 1.5 * x ** 2 + np.random.randn(len(x))  sns.residplot(x, y, color='indianred') plt.figure() sns.residplot(x, y , color='slategray', lowess=True)

再来看jointplot

在上一节中我曾经提过用jointplot画x, y 两个连续值的分布, 以及用hex(正六边形)的集中色块来突显出x*y 笛卡尔空间中密集的hot area.这一节再次出现jointplot, 也是为了说明这个函数的强大之处.

首先可以先想象一下这段代码的显示结果.

sns.jointplot("total_bill", "tip", tips);

还记得kind参数吗? 如果不指定的话 kind默认是point, 一个点表示一个观测. 上一次用的形式为kind=’hex’ , 现在我们来查看另一个有意思的参数.

为了强调这一部分, 我还找了几种有意思的RGB颜色, 不过我的FF水平比较差, 请见谅.

# 实际上Jointplots 可以画出reg直线来. 多提一句,jointplot调用了JointGrid Layout, 未来若有机会我还打算深入学习关于 SpecLayout等几种 Subplot的高级扩展方式.  sns.jointplot('total_bill', 'tip', data=tips,kind='reg', color='#ddddff')

这是reg回归模块, 同样的 jointplot还支持resid残差模块.

# 类似的, 能把Reg 换成Resid sns.jointplot('total_bill', 'tip', data=tips, kind='resid', color='#774400')

插入, 冷知识 – 德比郡足球俱乐部. 成立于1884年. 2002年开始凋零, 目前在哪徘徊还不清楚.

interactplot()

这个函数我之前没见过, 现在暂时没有完全掌握. 这里不提.

corrplot()

查看数据集中两两相关的程度, 在R中是用correlation matrix plot来实现的.seaborn中使用corrplot.

有缺失值数据
fill/drop 缺失

titanic = sns.load_dataset('titanic')#.dropna() sns.corrplot(titanic)

titanic = sns.load_dataset('titanic').dropna() sns.corrplot(titanic)

比较结果的差异.

基本上corrplot的图形组成分为几部分: 相关系数矩阵被cmap映射后的色块矩阵.主对角线是默认的变量名称. 如果想要隐藏一部分, 要进行相关的参数调整.

demo

# cmap 控制颜色映射帽子  cbar 设置是否显示右边小条 f, ax = plt.subplots(figsize=(10, 10)) cmap = sns.blend_palette(["#00008B", "#6A5ACD", "#F0F8FF",                           "#FFE6F8", "#C71585", "#8B0000"], as_cmap=True) d = np.random.standard_t(20, (100, 30)) sns.corrplot(d, annot=False, diag_names=False, cmap=cmap) ax.grid(False);

了解更多的corrplot可以参见参数说明 corrplot

corrplot在刚一开始对输入变量的colinearity(共线性)的识别还是很有帮助的,

例如下图:

coefplot

在回归模型中, 回归系数是模型结果, 模型评估的重要参考. 对于每个进入到回归模型的 x_i.coefplot 会使用如同R中回归模型中的模型表达式来指定预测变量和自变量, 然后输出各自的系数(以及每个系数估计的置信区间).

sns.coefplot('tip ~ scale(total_bill) + size + time + sex + smoker', tips)

附加参数

coefplot的默认参数列表:

seaborn.coefplot(formula, data, groupby=None, intercept=False, ci=95, palette='husl')

intercept=对于截距项并不是在公式中指定, 默认值False,即回归曲线经过原点, 若要增加常数效应,要用intercept=True来指派.
palette=

色板的设置. 默认Husl, 可用其它Set代替.

sns.coefplot("score ~ center(solutions) * attention", attention, intercept=True, palette="Set1");

你可能感兴趣的:(机器学习,Python,学习数据挖掘进程)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f