Kitty_61777

29期第十一周笔记

Week 11

本周学习主要内容为Python数据学科相关（Matplotlib、Pandas）

学习内容

主要包括：Python数据分析、数据挖掘、机器学习、金融量化等
侧重内容：

数据清洗
数据可视化（画图表）
数据分析、文本挖掘
建模预测：机器学习、集成学习、深度学习
金融量化：策略重现、回测、实盘交易

侧重库：

Pandas：数据处理和数据分析库
Numpy：数值计算库
Matplotlib/PyEcharts：绘图库、数据可视化
scikit-learn：机器学习库
Tensorflow：深度学习库

需要基础：
基础语法即可 – 变量、列表、字典操作，算术比较逻辑运算，分支、循环、函数，基本面向对象、其他相关

Python数据科学和人工智能技术栈

Excel派、SPSS派、MATLAB派、R派、Julia派……

Python派技术栈

环境和工具：Python原生环境/Anaconda/Miniconda
- 包和环境管理器：pip和conda
- 交互式编辑器：Jupyter-Notebook
- 标记语言：Markdown
- 文档工具：GotBook
数据分析
- Pandas：Python数据预处理、可视化和数据分析库（表格容器）
数据可视化
- Matplotlib：Python底层绘图库（多用于数据可视化）
- Echarts/PyEcharts：web数据可视化库，JS库
- Seaborn：Python上层数据可视化库
科学计算
- Numpy：树脂基短裤，第层，基础，N维数组容器
- SymPy：符号计算库，计算机代数系统，(符号计算,用计算机推导和计算数学公式)
- SciPy：科学计算函数库，集成大量科学计算用算法
- statsmodels：统计建模和计量经济学库
文本分析（非格式化数据分析，文本挖掘）
- Jieba：中文分词
- WordCloud：词云
- SnowNLP，TextBlob：情感分析
- Gensim：主题建模，文本相似度度量，词向量，发现文本语义结构
- NLTK：自然语言处理工具包
机器学习
- scikit-learn：Python机器学习库
- xgboost/lightGBM/CatBoost：集成学习库
深度学习
- Tensorflow：Python深度学习库，2016
- Keras：Python深度学习上层库（已被收入Tensorflow）
- PyTorch：Python深度学习库，2017（2018年4月与caffe2合并）
其他相关
- 数据获取：
  - 爬虫相关
- Web展示，模型应用
  - Django：流行的大型Web框架
  - Flask：简洁快速的Web框架
- 数据库相关
  - 关系型数据库：MySQL（SQL非常重要）
  - 非关系型数据库：MongoDB
大数据
- Hadoop
- Spark

Jupyter notebook使用快捷键

数据分析报告书写套路（模板，流水线，pipline）

背景介绍
- 情况介绍（公司情况、接单情况）
- 数据介绍
- 需求（分析什么）
数据载入清洗
数据分析
1. 描述性分析：
- 指标计算
- 数据可视化
- 反复进行
2. 探索性分析（建模预测），战略
结论
- 总结分析结果
- 意见建议

绘图库（Matplotlib）

Python数据可视化学习内容：

Python可视化：Matplotlib、seaborn、Pandas可视化
Web可视化：Echarts、Pyecharts

为何绘图：

一个图表数据的直观分析：

可视化前
可视化后

Matplotlib是最流行的Python二位底层绘图库，主要用作数据可视化图表绘制
模仿MATLAB创建
支持所有2D作图和部分3D作图
生成印刷质量图像

Matplotlib常用图表

折线图

用于显示随时间或有序类别的变化趋势
标记字符：标记线条中的点
- 线条颜色：color
- 线条风格：linestyle
- 线条粗细：linewidth
- 标记风格：marker
- 标记颜色：markercolor
- 标记尺寸：markersize
- 透明度：alpha

散点图/气泡图

但组数据，可以查看数据分布（不常用，最好采用直方图实现
多组数据，可以查看个数据之间是否存在相关性
坐标系中，每个值用一个点（x轴，y轴确定）表示

条形图/柱状图

条形图（横向）
- 粗细属性：height
- 条形图的x、y轴坐标翻转
柱状图（竖向）

为了比较各独立类别下单独数据的大小

饼图/扇形图

用于显示各项相对总和的百分比大小

直方图

直方图是数据离散化的可视化
直方图是表达数据的分布情况的统计图表，一般用来表示同等区间内，某类数值出现的个数或频率（频率=出现次数/总数）
x轴表示分组数据，y轴表示分布情况
从频率分布直方图可以只管估计出：
- 众数：频率分布直方图中最高举行的底边中点的横坐标
- 中位数：吧频率分布直方图分成两个面积相等部分的平行于y轴的直线横坐标
直方图和柱状图的区别：
- 直方图：分区之间连续无间断，表示连续变量；值用矩形面积表示
- 条形图：各柱之间有间隙，表示孤立的、不连续的分类变量；只用矩形长度表示
直方图和柱状图的应用：
柱状图和直方图是数据可视化中最常用的图表
- 少量离散数据比较大小，使用柱状图
- 大量连续数据看分布，使用直方图（一般数据量30以上）

箱线图

又叫盒须图，是一种用作显示一组数据离散情况的统计图表，常用作多组数据的综合统计比较
四分位数的可视化：

第一四分位数（Q1），又叫“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字；
第二四分位数（Q2），又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字；
第三四分位数（Q3），又叫“较大四分位数”，等于该样本中所有数值由小到大派鄂侯第75%的数字。

箱线图主要包括五个统计量（从上到下，由高到低）：

最大非异常值，上边线
Q3，箱体上边缘上四分位数
Q2，中位数线
Q1，箱体下边缘下四分位数
最小非异常值，下边线
除此之外上下边缘外侧可能还有异常值

Q3-Q1即四分位数差
大于Q3 + 1.5 x （Q3-Q1）或小于Q1 - 1.5 x （Q3-Q1）的值称为异常值

众数、中位数、平均数的区别

众数：出现频率最高的数
平均数：对极值非常敏感
中位数：对极值不敏感，95%置信区间

总结：

数据区间范围固定的，一般用平均值
数据区间范围不固定，一般用中位数或者95%置信区间

比赛打分之所以用平均数，利用平均值的敏感（中位数会出现大量的相同分数）
同时为了降低平均值的敏感程度，去掉最高和最低分

热力图

热力图以二维形式来展示数据大小，主要用于数据的重要程度 / 相关度展示

数据分析库：Pandas

Pandas(panel data & Data Analysis):最流行的Python数据分析库
基于numpy，专用于数据预处理和数据分析的Python第三方库，最适合处理大型结构化表格数据
三种常用功能：
- 数据预处理
- 数据分析
- 数据可视化
Pandas两大数据类型：
- Series：一维
- DataFrame：二维

Pandas库学习的内容

数据类型的操作（创建/增/查/改/删）
分组聚合/透视表/交叉表
数据清洗/规整

抽象和维度

维度：观察事物的角度

日常保存数据的数据格式：

0维：单值变量，一大堆字符串
1维：列表，字典（一层括号）
2维：Excel表格，MySQL数据库表
3维或以上：JSON，HTML,Mongodb数据库表

日常见过的数据形式：

表格式数据：Excel，CSV，MySQL数据表
- Pandas表格数据分析
字符串式数据：txt
- 文本分析
图像
音频（时间序列）
视频

Pandas数据类型

Pandas各个数据类型的关系：

0维单值变量 -> 1维Series -> 2维DataFrame ->3维及以上

Pandas - Series数据操作

创建/增/删/改/查

创建

列表创建：默认索引，自定义索引

Series可以存储不同类型的数据;
虽然可以，但建议存储同一类型，因为Series更向表格中的列，列应该是同一类型的;
如果存储数据类型不同，Series会变成所存储的最大类型.

字典创建:
- 索引就是字典的键
- 创建时自定义索引会替换字典索引
其他创建:
- 标量创建
- 序列创建
- Numpy的序列函数创建

查询

整体查询

S.dtype:Series的整体数据类型
S.shape:Series的形状（每个维度的值个数，用元组表示）
- len(S):Series里的元素个数，部分同上
S.count():Series里非空的元素个数
S.value_counts():统计Series里非空元素值出现次数，并自动降序
S.unique():Series里不重复的元素（去重）

查询值（values）和索引（index）

一个Series数据是有两个ndarray数组组成的
查询值
- 根据索引查询值：
  - 切片查询：查询连续多值，切片查询
    - 默认索引，包含起始值不包含结束值
    - 自定义索引，包含起始和结束值;
      原因是自定义索引没有顺序，难以确定索引前后的值
  - 索引查询
    - 查询不连续多值，索引查询（两层中括号）
    - 索引不能混用
      #class1[[‘hua’,3]] 报错
- 根据条件反查索引：
  - 布尔查询（根据值 / 条件反查索引）

类Numpy数组操作和类Python字典操作

Pandans数据可以执行全部Numpy数据操作（因为Pandas底层基于Numpy，所以通用）
也可以执行部分Python原生列表或字典操作（仅限于Pandas实现的操作）
- 保留字in操作：判断某索引是否存在
- 使用.get()方法：判断某索引是否存在，存在直接输出至，不存在输出定义值

修改

修改值，values
修改单个索引,index
正确操作：使用rename方式修改单个索引
修改整体索引，可以直接赋值

Pandas - DataFrame数据结构

DataFrame对象是Pandas最常用的数据类型

DataFrame对象是由多个Series增加一个索引后组成的一种表格类型数据结构

DataFrame对象既有行索引又有列索引

行索引，表明行不同，横向索引，叫index，0轴，axis=0
列索引，表明列不同，纵向索引，叫columns，1轴，axis=1

创建

列表创建：
- ndarray数组创建
字典创建:
- 字典内嵌套列表：要求内部列表等长
- 字典内嵌套几点：内部字典不需要等长
  - 字典内嵌套Series：等同嵌套字典
直接自定义字典或Series自带的行列索引，相当按索引查询（了解）

使用index/columns属性自定义已有索引的DF索引，相当于查询（已有的会查到，没有的缺失值）

原因是：是用字典定义DataFrame，他的行列索引都已经被自定义过了（字典的键），再次修改就相当于查询

查询（整体查询）

属性查询
整体情况查询
内容查询

属性查询

常用属性：

a.shape:表格形状，行数列数

a.dtypes:列数据类型

a.index:行索引

a.columns:列索引

a.values:对象值，二维ndarray数组

整体数据情况

a.info():整体信息，查看数据是否异常，有没有缺失值，列数据类型是否正确
a.describe():整体统计指标
a.head():前五行
a.tail():后五行

整体信息，查看数据是否异常

重要，每次数据分析前先用他查询数据问题

是否有缺失值
列数据类型是否正常

表格快速综合统计指标

用来查看数据整体统计分布情况（兼具发现数据异常功能）

- count，计数（非缺失值）
- mean，平均值
- std，标准差
- 四分位数：min，q1，q2（中位数），q3，max

表头和表尾

直接输出表格，默认输出前三十行和后三十行（列相同）

#注：Pandas默认输出表格前十列和后十列，如想输出更多可以执行：pd.set_option(‘display.max_columns’,500

内容查询

类列表/字典/ndarray数组的查询方式
功能简陋，一般仅用于查询单列

DataFrame原生查询方式（推荐）

上面中括号的索引容易产生歧义（要索引列还是行？），只能应用于非常简单的查询，复杂的要用DaraFrame原生查询方式

查询（专用查询 - 索引和切片）

Pandas专用查询方式（经过优化，推荐）

三种查询方式：

索引
切片
过滤

索引和切片查询，两种查询方式：

a.loc[行,列]，标签索引，自定义索引
a.iloc[行,列]，位置索引，默认索引

参数书写顺序都是先行后列

索引查询： 用于不连续（行列有间隔）行列块区查询
切片查询：用于查询连续的行列块

索引查询和切片查询的区别

索引插片式和查询不连续的行列数据
切片查询适合查询连续行列数据

索引查询可以实现切片查询的所有功能，只是有书写效率问题

用索引查询查连续数据，需要将每个索引都写上，效率低
切片查询连续数据，只要写起始和结束索引即可
- 切片不能查询不连续数据

查询时：优先使用切片拆线呢，无法实现功能时在使用索引查询

查询（专用查询 - 过滤查询）

索引查询和切片查询，都是通过索引查询值

过滤查询（布尔查询）

通过值查询索引

通过布尔值过滤值、筛选数据来查询

过滤查询不通过索引，而是通过值查询
用于结果索引不确定的查询
通过运算所得布尔值对擦汗寻结果进行过滤

类list/类字典查询方式

默认查询列

where过滤方法（了解）

另一种简洁的布尔查询写法

原生布尔查询条件

原生的布尔查询，需要每列单独判断条件，然后用逻辑运算符组合条件，得出最终结果
where过滤法过滤：现将所有需要的判断条件的列抽出来，整体判断，得出最终结果
- 优点：写法简洁
- 缺点：where过滤所有列的判断条件，只能有一个，使用受限

where和mask函数，查询和替换（了解）

where替换较为常用：
a.where(b > 60,c)

当判断条件为True时返回a
但判断条件为False时返回c

Pandas数据操作：其他操作 - 命名和遍历（了解）

Pandas对象的命名：name
Pandas对象的遍历

Pandas对象的命名：name

Sereis和DataFrame对象本身、索引都可以命名

Sereis命名的用处

Series的name会变成DataFrame列索引
Sereis的索引name会变成DataFrame的行索引

Pnadas对象的遍历

Pandas对象一般不需要遍历，偶尔有需求

Pandas数据存取

数据的输入和输出是Pandas的基础操作

Pandas可以存取多种介质类型的数据，常见的有：

文本类数据：CSV，JSON
二进制磁盘数据：Excel，pkl，HDF5
数据库：SQL（略）
Web API数据：HTML
其他：内存

文本类数据文件读入Pandas时会自动推断每列数据类型（类型判断）并转化，
二进制类数据文件会在格式中存储数据类型

对Pandas不能直接支持或不方便使用的数据格式，
可以使用支持软件将其转为CSV或者使用Pandas读写，如SPSS文件

中小型数据（几百M以下的数据），一般存为csv格式
发给别人的数据，一般存为xlsx格式
大型数据（几百M以上的数据），一般存为HDF5格式

什么叫大数据：

个人认为：凡是超过一台电脑处理能力的数据就算大数据
计算机处理数据的大小受限于内存大小
如果需要同时使用一台以上计算机处理数据，使用的技术栈和一台电脑处理数据完全不同
- 超出一台电脑后使用的数据处理技术是大数据技术，不再是单机数据处理技术
- 单机数据技术：Excel，SPSS，Matlib，R，Python，SAS……
- 大数据使用的是Java技术栈：Hadoop，Spark（Scala）……

视图和副本（类似浅拷贝深拷贝）

Pandas对象修改的视图模式和副本模式

视图模式：多个变量指向同一内存数据
- 修改一个变量，另一个变量也会变
- 操作如：将一个对象整体赋值给另一个变量
副本模式：每个变量都指向独立的内存数据
- 修改一个变量，另一个变量值不会变
- 操作如：将一个对象查询的一部分赋值给另一个变量

视图模式：两个变量对应的内存地址相同，秀发i一个变量，另一个变量也会改变
- 当将一个对象整体赋值给另一个变量时
副本模式：修改一个变量不会影响另一个变量
- 当使用copy()将一个对象赋值给另一个变量时
- 或者擦汗寻一个对象的“一部分”（不是整个对象）把结果赋值给另一个变量时
  - 注意赋值用的查询要使用原生loc语法，不宜使用类似列表字典的查询方式，否则修改时会报警告（但能修改成功）

链式调用错误（了解）

整体调用，一步到位，查询效率高，修改不会出错
链式调用，多部操作，查询效率低，修改容易出错

尽量避免使用链式调用方式修改，很容易错误

Pandas存取CSV

CSV（Comma-Seperated Values，逗号分隔值）

以纯文本形式存储表格数据的一种格式

二维表格数据结构

CSV是一种简单、通用的文本格式，常用于在不同程序和环境之间中转表格数据，这些程序本身是在不兼容的格式上进行操作的（往往是私有的和/或无规范的格式），基本所有数据类软件和环境都支持读写CSV文件

CSV：
- 二维数据格式
- 精简，省空间
- 主要用于数据领域
JSON：
- 多维数据格式
- 冗余，费空间
- 主要用于编程、数据交换领域

CSV写入

默认utf-8格式
保存其他格式可以自行设置参数encoding
注意：Excel打开utf-8的csv文件，中文会乱码，建议保存为GBK

CSV读取

注意文本文件编码格式的问题

utf-8，默认支持
其他编码，需要手动设置encoding参数

注意：utf-8格式的csv文件，Excel读取时中文会乱码

读取csv常见设置

关于文本文件编码问题：

计算机内部文件储存基本是两种文件：二进制文件、文本文件
实际只有一种文件格式：二进制
- 文本文件也是二进制格式
- 人们问了能看懂和编辑某些文件，发明了编码，把二进制转换为人能看懂的字符
  - 只有文本文件（非英文字符）有编码问题，纯二进制没有编码
  - 国际编码：Ascii，UTF-8
  - 国内编码：gb2312，gbk，gb18030

a3 = pd.read_csv(
    'data/foo.csv', #读取文件路径
    sep=',', #指定分隔符，csv默认都好，如果是table表格数据一般为 \t
    
    #列索引
#    header=0, #列索引，默认0将第一行设为表头（其他行号也可）
#    header=None, #None不降第一行设为表头（列索引）
#    header=[0,1,2], #[0,1]列表可将多行同时设为表头（层次化索引）
#    names=['x','姓名','性别','年龄','身高','体重','地址','成绩'], #配合header=0，自定义列索引
#    
    #行索引
#    index_col=None, #行索引，默认值None：不使用数据列，而是使用系统自带索引
#    index_col=0, #把第0列作为行索引
#    index_col='name', #（自定义列 作为行索引）
#    index_col=[0,1,2], #默认索引，多列，层次化索引
#    index_col=['name','sex','age'], #自定义索引，多列
#    
    #读取指定的行和列
#    usecols=[0,2,4], #读取指定列，默认索引
#    usecols=['name','address','grade'], #读取指定列，自定义索引
#    nrows=3, #读取前几行
#    skiprows=3, #从表格开始算起，忽略的行
#    skiprows=[2,4], #[2,4]跳过文件第2/4行
#    skipfooter=2, #从表格末尾算起忽略的行，必须配合engine='python'否则会报警告
#    engine='python', #引擎，c更快（默认编码是utf-8），python更完善（默认编码GBK），要设置编码
#    encoding='utf-8', #编码，默认utf-8，隐情史python时需要手动设置，例如GBK
    
    #替换空值
    na_values=['male'], #将csv中某些字符替换为空值
    keep_default_na=False #默认True同时使用系统自带空值替换和自定义空值，如NA，N/A等，False只使用自定义空值
)

合并时间列及自定义某些列为行索引

多用于时间序列，金融数据分析

参数：parse_dates

尝试将数据解析为日期
可以使用列表指定需要解析的一组列名，如果列表元素为字典包含的列表或元组，会将多个列组合到一起在解析日期（如日期和时间分别在两列的情况）

参数：keep_date_col

如果连接多列解析日期，保存参与链接的列，默认False

数据：aaa.csv

注意：使用txt记事本保存csv格式是，注意编码

JSON

JSON（JavaScript Object Notation）是通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一

Json和CSV比较：
- JSON是多位数据文件，SCV是二维数据文件
- JSON数据比较冗余，体积较大，CSV精简，体积小
- JSON多用于WEB数据交互，CSV多用于数据领域不同环境切换的数据交互

如果JSON数据格式维度超过2维，转为DataFrame后，只能将0/1维转为表格，其他维度的JSON会以Python字典格式存入表格单元格

Pandas存取pkl

pkl是Python专有的二进制数据存储格式，可以存储原生的Python数据类型

使用HDF5格式

科学领域大数据存储的通行标准，如天文、物理、地球科学等

XML 和HTML：Web信息收集

网页中有多个表格的，返回列表，可按列表索引逐个输出

有些网站由于网络原因、反爬虫、服务器原因导致无法抓取网页内容，400、500错误，这时可以将网页另存到本地后读取
有些网站的表格HTML结构复杂混乱，导致解析表格结构出错，只能手动处理

Pandas从剪贴板（内存）读取数据

多用于将网页表格内容直接转换为DataFrame

Pandas分组聚合 - 基础（重要）

没有Pandas，Python做不了数据分析
没有分组聚合，Pandas做不了指标计算（描述性分析：指标计算/可视化）

分组聚合（透视表/交叉表）
数据分析阶段：
- 数据规整（清洗）后，下一阶段就是分组聚合
- 对数据集分组并对各组应用一个函数是数据分析中的重要环节
- 一般将数据准备好后，首先就是计算分组统计

sql能够方便的链接、过滤、转换和聚合数据，但sql能执行的分组运算种类有限，Pandas强大灵活的多

数据聚合

一般指应用某些方法（自定义的聚合函数或系统自带Pandas的统计方法等）给数据降维
最常用的聚合函数：
- 平均值：.mean()
- 个数：.size() (交叉表)

单列或多列聚合

对于大数据集，很可能只需要对部分列进行聚合

下列三种写法结果一样：
- 分组聚合参数，传入标量形式的单个列名，返回Series
- 分组聚合参数，传入列表或数组，返回DataFrame（默认传入所有列）

数据分组

分组聚合：groupby()，一般指以下一个或多个操作步骤的集合：

Splitting 分组：将列分割成n组
Applying 应用：将每个分组应用聚合函数
Combining 合并：合并分组和聚合的结果

你可能感兴趣的:(python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，