S1406793

机器学习笔记05——特征工程之特征处理:字典特征提取、文本特征提取

1、类别型特征的处理—特征编码

1.1 处理少量特征

1.2 处理大量的类别特征

1.3 字典特征提取（特征离散化） ⭐

1.4 文本特征提取（英文+中文）⭐

1.4.1 英文数据演示

1.4.2 中文特征提取演示

1.4.3 jieba分词：中文特征提取

1.4.4 Tf-idf文本特征提取

在实际应用中，数据的类型多种多样，比如文本、音频、图像、视频等。而很多机器学习算法要求输入的样本特征是数学上可计算的，因此在机器学习之前需要将不同类型的数据转换为向量表示即数据的特征表示。

特征分类：

对特征进行分类，对于不同的特征应该有不同的处理方法。

根据不同的分类方法，可以将特征分为

(1)Low level特征和High level特征。

Low level特征——较低级别的特征，主要是原始特征，不需要或者需要非常少的人工处理和干预。例如文本特征中的词向量特征，图像特征中的像素点，用户id，商品id等。Low level特征一般维度比较高，不能用过于复杂的模型。
High level特征——经过较复杂的处理，结合部分业务逻辑或者规则、模型得到的特征。例如人工打分，模型打分等特征，可以用于较复杂的非线性模型。
Low level 比较针对性，覆盖面小。长尾样本的预测值主要受high level特征影响。高频样本的预测值主要受low level特征影响。

(2)稳定特征与动态特征。

稳定特征——变化频率(更新频率)较少的特征
例如评价平均分，团购单价格等，在较长的时间段内都不会发生变化。
动态特征——更新变化比较频繁的特征，有些甚至是实时计算得到的特征
例如距离特征，2小时销量等特征。或者叫做实时特征和非实时特征。
针对两类特征的不同可以针对性地设计特征存储和更新方式，例如：
对于稳定特征，可以建入索引，较长时间更新一次，如果做缓存的话，缓存的时间可以较长。
对于动态特征，需要实时计算或者准实时地更新数据，如果做缓存的话，缓存过期时间需要设置的较短。

(3)二值特征、连续型特征、离散型特征、枚举特征。

二值特征——主要是0/1特征，即特征只取两种值：0或者1
例如用户id特征：目前的id是否是某个特定的id，词向量特征：某个特定的词是否在文章中出现等等。
连续型特征——取值为连续实数的特征。比如，身高175.4cm。特征取值为是0~正无穷。
离散性特征——取值为离散实数的特征。离散型特征又可以分为类别型和序列型
- 类别型特征：取离散值，表示没有比较关系的类型。比如，血型有 A 型、B 型、AB 型和 O 型 4 种，它们各自为一个独立类型。
- 序列型特征：取离散值，表示有比较关系的类型。比如，收入划分为为 “高”、“中”、“低”3 种类型，有比较关系。
枚举值特征——主要是特征有固定个数个可能值，例如今天周几，只有7个可能值：周1，周2，…，周日。

模型输入的特征通常需要数值型的，所以需要将非数值型特征转换为数值特征。 如性别、职业、收入水平、国家、汽车使用品牌等。
机器学习模型需要的数据是数字型的，因为只有数字类型才能进行计算，而我么你平时处理到的一些数据是很多是符号的，或者是中文的。所以编码是必要的，对于各种各样的特征值去编码实际上就是一个量化的过程。

1、类别型特征的处理—特征编码

类别特征，见名思义，就是用来表达一种类别或标签。

分类变量的类别通常不是数字，需要使用编码方法将这些非数字类别变为数字。即特征编码

1.1 处理少量特征

1、One-hot 编码
又称独热编码。每个特征取值对应一维特征，从而得到稀疏的特征矩阵。
一个绝对的具有k个可能类别的变量被编码为长度为k的特征向量。
如表1即为对三种水果进行编码：

	e1	e2	e3
apple	1	0	0
banna	0	1	0
grape	0	0	1

独热编码e1,e2,e3限制条件: e1 + e2 + e3 = 1

df = pd.DataFrame({
    'fruit':
    ['apple', 'apple', 'banna', 'banna', 'grape'],
    'Rent': [10, 10, 15, 15, 20]
})
one_hot_df = pd.get_dummies(df, prefix=['fruit'])

优点：

能够处理非数值属性。比如血型、性别等
一定程度上扩充了特征。
编码后的向量是稀疏向量，只有一位是 1，其他都是 0，可以利用向量的稀疏来节省存储空间。
能够处理缺失值。当所有位都是 0，表示发生了缺失。此时可以采用处理缺失值提到的高维映射方法，用第 N+1 位来表示缺失值。

缺点：

1.高维度特征会带来以下几个方面问题：

KNN 算法中，高维空间下两点之间的距离很难得到有效的衡量；
逻辑回归模型中，参数的数量会随着维度的增高而增加，导致模型复杂，出现过拟合问题；
通常只有部分维度是对分类、预测有帮助，需要借助特征选择来降低维度。

2.决策树模型不推荐对离散特征进行独热编码，有以下两个主要原因：

产生样本切分不平衡问题，此时切分增益会非常小。

比如对血型做独热编码操作，那么对每个特征是否 A 型、是否 B 型、是否 AB 型、是否 O 型，会有少量样本是 1 ，大量样本是 0。

这种划分的增益非常小，因为拆分之后：

较小的那个拆分样本集，它占总样本的比例太小。无论增益多大，乘以该比例之后几乎可以忽略。
较大的那个拆分样本集，它几乎就是原始的样本集，增益几乎为零。
影响决策树的学习。

决策树依赖的是数据的统计信息。而独热码编码会把数据切分到零散的小空间上。在这些零散的小空间上，统计信息是不准确的，学习效果变差。

本质是因为独热编码之后的特征的表达能力较差。该特征的预测能力被人为的拆分成多份，每一份与其他特征竞争最优划分点都失败。最终该特征得到的重要性会比实际值低。

2、dummy 编码
又称虚拟编码，一个绝对的具有k个可能类别的变量被编码为长度为k-1的特征向量。
由全零向量表示参考类别.

	e1	e2
apple	1	0
banna	0	1
grape	0	0

dummy_df = pd.get_dummies(df, prefix=['city'], drop_first=True)

3、Effect 编码
一个绝对的具有k个可能类别的变量被编码为长度为k-1的特征向量。
由全负一向量表示参考类别

	e1	e2
apple	1	0
banna	0	1
grape	-1	-1

Effect编码与虚拟编码非常相似，但是在线性回归中更容易被拟合。
独热，虚拟和效果编码非常相似。他们每个人都有优点和缺点。独热编码是多余的，它允许多个有效模型一样的问题。非唯一性有时候对解释有问题。该优点是每个特征都明显对应于一个类别。此外，失踪数据可以编码为全零矢量，输出应该是整体目标变量的平均值。

4、序号编码

序号编码一般用于处理类别间具有大小关系的数据即序列型特征。

比如成绩，可以分为高、中、低三个档次，并且存在“高>中>低”的大小关系，那么序号编码可以对这三个档次进行如下编码：高表示为 3，中表示为 2，低表示为 1，这样转换后依然保留了大小关系。

1.2 处理大量的类别特征

1.对编码不做任何事情。使用便宜的训练简单模型。在许多机器上将独热编码引入线性模型（逻辑回归或线性支持向量机）。

2.压缩编码，有两种方式

对特征进行哈希–在线性回归中特别常见
bin-counting–在线性回归中与树模型都常见

特征哈希
特征哈希
bin-counting
相关介绍

1.3 字典特征提取（特征离散化） ⭐

(1) 什么是特征提取呢？

将任意数据（如文本或图像）转化为可用于机器学习的数字特征

将英文、字母转化成数字
将类别转化为数字，如男女、first，second等转化为010，001

注：特征值化是为了计算机更好的去理解数据

特征值的分类：
- 字典特征提取（特征离散化）
- 文本特征提取
- 图像特征提取（后边深度学习将介绍）基于rgb

特征提取API：sklearn.feature_extraction

对类别型数据进行转化

作用：对字典数据进行特征值化，将类别数据转化为010，001，…

API：

sklearn.feature_extraction.DictVectorizer( sparse=True, …)

首先实例化，再通过fit_transform进行转换

DictVectorizer.fit_transform(X)

X: 字典胡总和包含字典的迭代器返回值

返回sparse矩阵

sparse=True：节省内存，提高读取效率，

DictVectorizer.get_feature_names() 返回类别名称，有时用.get_feature_names_out()

流程分析

实例化类DictVectorizer
调用fit_transform方法输入数据并转换（注意返回格式）

演示：我们对以下数据做特征提取

[{'city': '北京','temperature':100},
{'city': '上海','temperature':60},
{'city': '深圳','temperature':30}]   #城市是一个类别，对其进行数字特征提取

from sklearn.feature_extraction import DictVectorizer

'''
字典特征提取
Return: feature_name , trans_data
'''
def dict_demo():
    data = [{'city': '北京','temperature':100},
            {'city': '上海','temperature':60},
            {'city': '深圳','temperature':30}]
    #字典特征提取
    #1.实例化
    transfer = DictVectorizer(sparse=False)#数据量小时：sparse=False直接给出矩阵，sparse=True给出非零的坐标
    #2.调用fit_transform
    trans_data = transfer.fit_transform(data)
    print('特征名字是：\n',transfer.get_feature_names_out())   #.get_feature_names() 也可以
    print(trans_data)
    
if __name__ == '__main__':
    dict_demo()

输出结果：

特征名字是：
 ['city=上海' 'city=北京' 'city=深圳' 'temperature']
[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]

总结：对于特征中存在类别信息的我们都会做one-hot编码处理

男女、肤色、头发长短等等

1.4 文本特征提取（英文+中文）⭐

作用：对文本数据进行特征值化

注意：

在中文文本特征提取之前，需要对中文句子（文章）进行分词（jieba）
中文、英文里面依旧可以使用停用词，进行词语的限制

API:

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])

stop_words=[]：不需要统计的词

返回词频矩阵

CountVectorizer.fit_transform(X)

X: 文本或者包含文本字符串的可迭代对象

返回值：返回sparse矩阵，但是没有sparse参数

CountVectorizer.get_feature_names() 返回值：单词列表

注意：单个字母和标点符号不做统计

流程分析

实例化类CountVectorizer
调用fit_transform方法输入数据并转换（注意返回格式，利用toarray()进行sparse矩阵转换array数组）

1.4.1 英文数据演示：

对以下数据进行特征提取

['life is short,i like python',
'life is too long,i dislike python']   #统计一下所有值的数目

'''
对文本进行特征提取—英文
return:None
'''
from sklearn.feature_extraction.text import CountVectorizer
 
def english_count_text_demo():
    data = ['life is  is short,i like python',
            'life is too long,i dislike python']
    #1.实例化
    transfer = CountVectorizer(stop_words=['is'])#不统计is次数
    #transfer = CountVectorizer(sparse=False)  #报错，没有sparse参数
    #2.调用fit_transform
    transfer_data = transfer.fit_transform(data)
    
    print('类别名称：\n',transfer.get_feature_names_out())
    print('直接输出数据：\n', transfer_data)
    #不想要看sparse矩阵，怎么办？  没有sparse参数
    print('文本特征抽取结果',transfer_data.toarray())
    
if __name__ == '__main__':
    english_count_text_demo()

输出结果：

类别名称：
 ['dislike' 'life' 'like' 'long' 'python' 'short' 'too']
直接输出数据：
   (0, 1)	1
  (0, 5)	1
  (0, 2)	1
  (0, 4)	1
  (1, 1)	1
  (1, 4)	1
  (1, 6)	1
  (1, 3)	1
  (1, 0)	1
 [[0 1 1 0 1 1 0]
 [1 1 0 1 1 0 1]]

1.4.2 中文特征提取演示：

对以下数据进行特征提取

 '人生 苦短，我 喜欢 python','生活 太长久，我不 喜欢 python'

'''
对文本进行特征提取—中文
return:None
'''
from sklearn.feature_extraction.text import CountVectorizer
 
def chinese_count_text_demo():
    data =  ['人生 苦短,我 喜欢 python','生活 太长久,我不 喜欢 python']
    #1.实例化
    transfer = CountVectorizer(stop_words=[])

    #2.调用fit_transform
    transfer_data = transfer.fit_transform(data)
    
    print('类别名称：\n',transfer.get_feature_names_out())
    print('直接输出数据：\n', transfer_data)
    print('文本特征抽取结果',transfer_data.toarray())
    
if __name__ == '__main__':
    #english_count_text_demo()
    chinese_count_text_demo()

输出结果：

类别名称：
 ['python' '人生' '喜欢' '太长久' '我不' '生活' '苦短']
直接输出数据：
   (0, 1)	1
  (0, 6)	1
  (0, 2)	1
  (0, 0)	1
  (1, 2)	1
  (1, 0)	1
  (1, 5)	1
  (1, 3)	1
  (1, 4)	1
文本特征抽取结果 [[1 1 1 0 0 0 1]
 [1 0 1 1 1 1 0]]

但是中文数据处理时，是按照空格进行划分的，但是在中文的习惯中词之间不加空格，怎么解决呢？如何自动划分词？

1.4.3 jieba分词：中文特征提取

jieba.cut()

返回词语组成的生成器

需要安装下jieba库

如何用jieba对中文字符串进行分词

import jieba

'''
中文分词
'''
def cut_word(sen):
    # print(list(jieba.cut(sen)))  #将对象强制转换为列表，但是应该一句话用空格分开
    text = ' '.join ( list(jieba.cut(sen))) 
    return text
    
if __name__ == '__main__':
    cut_word('我喜欢中国，你喜欢什么国家？')

中文特征提取：使用jieba分词

from sklearn.extraction import CountVectorizer
def text_chinese_count_demo2():
    data = [
        '世上没有白费的努力，也没有碰巧的成功',
        '一切无心插柳，其实都是水到渠成',
        '人生没有白走的路，也没有白吃的苦',
        '跨出去的每一步，都是未来的基石与铺垫'
    ]
    
    list = []
    for temp in data:#循环数据中的每一句话
        #print(temp)
        list.append(cut_word(temp))
    print(list)
    
    #1.实例化
    transfer = CountVectorizer(stop_words=['回复','奶粉'])
    #2.调用fit_transform
    transfer_data = transfer.fit_transform(list)
    
    print(transfer.fit_feature_names_out())
    print(transfer_data.toarray())
    
if __name__ == '__main__':
    text_chinese_count_demo2()

1.4.4 Tf-idf文本特征提取

主要思想：如果某个词或短语在一篇文章中出现的概率高，在其他文章中出现概率少，则认为这个词或者短语具有很好的分类能力，适合用来分类。

TF-IDF的作用：用以评估一字词对于某一个文件集或者一个语料库的其中一份文件的重要程度。

公式：

TF ---- 词频（term frequency）：指某一个给定词语在该文件中出现的频率
IDF ---- 逆向文档频率（inverse document frequency）：是一个词语普遍重要性的度量，某一个特征词语的idf，可以由总文件数除以包含该词语之文件的数目，再将得到的熵取以10为低的对数得到

$TFIDF_{i,j} = TF_{i,j} * IDF_{i}$

举例：

假如某一篇文章中总词语数是100个，“非常”出现了5词，那么词频就是0.05；

而计算文件频率(IDF)的方法是以文件集的总数，除以出现“非常”一词的文件数，所以，如果“非常”在10000份文件中出现过，而文件总数是10，000，000的话，其逆向文件频率就是lg（10，000，000/ 10000） = 3。

最后“非常”对于这篇文档的tf-idf的分数就是0.05 * 3 = 0.15

Tf-idf 重要性

分类机器学习算法进行文章分类中前期数据处理方法

API

sklearn.feature_extraction.text.TfidfVectorizer

在CountVectorizer中能使用的，在TfidfVectorizer中同样适用

4.1 案例

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

def cut_word(text):
    text = ' '.join(list(jieba.cut(text)))
    return text

def text_chinese_tfidf_demo():
    '''对中文进行特征提取'''
    data = [
        '世上没有白费的努力，也没有碰巧的成功',
        '一切无心插柳，其实都是水到渠成',
        '人生没有白走的路，也没有白吃的苦',
        '跨出去的每一步，都是未来的基石与铺垫'
    ]
    
    #将原始数据转化为分好词的形式
    text_list = []
    for sent in data:
        text_list.append(cut_word(sent))
    print(text_list)
    
    #1.实例化一个转换器类
    transfer = TfidfVectorizer(stop_words=['是的'])
    #2.调用fit_transform
    data = transfer.fit_transform(text_list)
    print('文本特征提取的结果：\n', data.toarray())
    print('返回特征名字：\n', transfer.get_feature_names_out())
    
if __name__ == '__main__':
    text_chinese_tfidf_demo()

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

机器学习 笔记05——特征工程之特征处理:字典特征提取、文本特征提取

1、类别型特征的处理—特征编码

1.1 处理少量特征

1.2 处理大量的类别特征

1.3 字典特征提取（特征离散化） ⭐

1.4 文本特征提取（英文+中文）⭐

1.4.1 英文数据演示：

1.4.2 中文特征提取演示：

1.4.3 jieba分词：中文特征提取

1.4.4 Tf-idf文本特征提取

你可能感兴趣的:(机器学习,python)

机器学习笔记05——特征工程之特征处理:字典特征提取、文本特征提取