我爱Python数据挖掘

这9个特征工程的使用技巧，解决90%机器学习问题

特征是什么？为什么需要工程设计？

基本上，所有机器学习算法都是将一些输入数据转化为输出。这些输入数据包括若干特征，通常是以由列组成的表格形式出现。而算法往往要求输入具有某些特性的特征才能正常工作。因此，出现了对特征工程的需求。

特征工程至少有两个目标，

构建适合机器学习算法要求的输入数据。
改善机器学习模型的性能。

根据《福布斯》的一项调查，数据科学家把 80% 左右的时间花在数据收集、清晰以及预处理等数据准备上。

这点显示了特征工程在数据科学中的重要性。因此有必要整理一下特征工程的主要技术。本篇通过 Pandas 和 Numpy 等库来实际操练。

import pandas as pd
import numpy as np

获得特征工程专业知识的最佳方法是对各种数据集试验不同的技术，并观察其对模型性能的影响。

本文主要介绍以下几个方面，内容较多，建议收藏、关注、点赞。文末提供技术交流群。

1、数据插补
2、处理异常值
3、分箱操作
4、对数转换
5、独热编码
6、分组操作
7、特征拆分
8、缩放操作
9、日期处理

1、数据插补

缺失值是为机器学习准备数据时可能遇到的最常见问题之一。缺少值的原因可能是人为错误、数据流中断、隐私问题等。无论是什么原因，缺少值都会影响机器学习模型的性能。

一般来说，机器学习算法不接受包含缺失值的输入，而有一些机器学习平台会自动删除包含缺失值的行，但这样做往往会降低模型性能。

处理缺失值的最简单方案是删除行或整个列。没有最佳的删除阈值，但是可以使用 70％作为阈值，并尝试删除缺失值高于此阈值的行和列。

threshold = 0.7
# Dropping columns with missing value rate higher than threshold
data = data[data.columns[data.isnull().mean() < threshold]]

# Dropping rows with missing value rate higher than threshold
data = data.loc[data.isnull().mean(axis=1) < threshold]

数值插补

缺失值插补法，与缺失值删除法比较起来是一个更好的选择，至少它可以保持数据的规模不变。但是，插补法需要考虑插补什么值。

首先，你可以考虑列中缺失的默认值。例如，你有一列仅有 1 和 nan，行中的 nan 可能就是 0。另一个例子，你有一个列表示上个月客户访问的次数，缺失值可能也是 0。

产生缺失值的另一个原因是在连接大小不同的表时格引入的，此时插补 0 也可能是个合理的做法。

除了用默认值插补缺失值外，还有一个比较有效的做法就是使用列的中位数插补缺失值，而不是平均值，因为中位数比均值更为稳健。

# Filling all missing values with 0
data = data.fillna(0)

# Filling missing values with medians of the columns
data = data.fillna(data.median())

类别插补

用列中出现次数最多的值替换缺失值是处理类别型数据时的一个不错的选择。但是，如果该列中的值是均匀分布的，则使用 Other 类别插补可能更加合理。

# Max fill function for categorical columns
data['column_name'].fillna(data['column_name'].value_counts().idxmax(), inplace=True)

2、处理异常值

在提到如何处理异常值之前，检测异常值的最佳方法是直观地展示数据。所有其他统计方法都容易犯错误，而将异常值可视化则有机会进行高精度的决策。

正如我所提到的，统计方法不够精确，但另一方面，它们却具有优势，而且速度很快。在这里，我将列出两种处理异常值的不同方法。这些将使用标准差和百分位来检测异常值。

基于标准差的异常值检测

如果某个值与平均值的距离大于标准差，则可以将其视为异常值。那么，应该是多少呢？取多少并没有通用的解，但通常来说取到之间的值似乎是可行的。

# Dropping the outlier rows with standard deviation
factor = 3
upper_lim = data['column'].mean () + data['column'].std () * factor
lower_lim = data['column'].mean () - data['column'].std () * factor

data = data[(data['column'] < upper_lim) & (data['column'] > lower_lim)]

此外，可以使用分数代替上面的公式。分数（或标准分数）使用标准差来标准化数据与平均值之间的距离。

基于百分位的异常值检测

检测异常值的另一种统计方法是使用百分位。你可以从顶部或底部划分某些区间中的值作为异常值。这再次需要设置百分比这个阈值，这取决于数据分布。

此外，一个常见的错误是根据数据范围使用百分位。换句话说，如果你的数据范围是 0 到 100，则前 5％的值不是 96 到 100 之间的值。这里的前 5％表示值不在数据量的第 95 个百分点之内。

# Dropping the outlier rows with Percentiles
upper_lim = data['column'].quantile(.95)
lower_lim = data['column'].quantile(.05)

data = data[(data['column'] < upper_lim) & (data['column'] > lower_lim)]

设限与丢弃

处理异常值的另一种方法是将其设置为上限，而不是丢弃。这样做可以保留数据规模，并且对于最终模型性能来说可能会更好。

另一方面，设上限封顶可能会影响数据的分布，因此也不要过于吹捧它。

# Capping the outlier rows with Percentiles
upper_lim = data['column'].quantile(.95)
lower_lim = data['column'].quantile(.05)

data.loc[(df[column] > upper_lim), column] = upper_lim
data.loc[(df[column] < lower_lim), column] = lower_lim

3、分箱

分箱可以应用于类别型数据和数值型数据。

# Numerical Binning Example
Value      Bin       
0-30   ->  Low       
31-70  ->  Mid       
71-100 ->  High

# Categorical Binning Example
Value      Bin       
Spain  ->  Europe      
Italy  ->  Europe       
Chile  ->  South America
Brazil ->  South America

分箱的主要动机是使模型更加健壮并防止过拟合，但同时也会降低性能。每次分箱不仅会牺牲信息，也会使得数据更加规范化。

性能与过拟合之间的权衡是分箱过程的关键。

对于数值型特征，除了一些明显的过拟合的情况外，分箱对于某种算法可能是多余的，因为它对模型性能有影响。
然而，对于类别型特征，低频标签可能会对统计模型的鲁棒性产生负面影响。因此，为这些不太频繁的值分配一般类别有助于保持模型的鲁棒性。例如，数据大小为 100,000 行，则将计数少于 100 的标签合并到Other之类的新类别可能是一个不错的选择。

# Numerical Binning Example
data['bin'] = pd.cut(data['value'], bins=[0,30,70,100], labels=["Low", "Mid", "High"])
   value   bin
0      2   Low
1     45   Mid
2      7   Low
3     85  High
4     28   Low

# Categorical Binning Example
     Country
0      Spain
1      Chile
2  Australia
3      Italy
4     Brazil

conditions = [
    data['Country'].str.contains('Spain'),
    data['Country'].str.contains('Italy'),
    data['Country'].str.contains('Chile'),
    data['Country'].str.contains('Brazil')]

choices = ['Europe', 'Europe', 'South America', 'South America']

data['Continent'] = np.select(conditions, choices, default='Other')
     Country      Continent
0      Spain         Europe
1      Chile  South America
2  Australia          Other
3      Italy         Europe
4     Brazil  South America

4、Log 对数变换

对数变换是特征工程中最常用的数学变换之一，它的好处有，

它有助于处理偏度不为 0 的数据，并且在转换后，分布变得更接近正态分布。
在大多数情况下，数据的数量级在不同范围内是不同的。例如，年龄 15 和 20 之间的数量差异并不等于年龄 65 和 70 之间的数量差异。就年份而言，是的，它们是相同的，但是对于其他方面，年轻年龄的 5 年差异意味着更高的数量差异。这种类型的数据来自乘性过程，对数变换将起到规范化（normalize）数量差异的作用。
由于数量差异的归一化，模型变得更加健壮，因此它也减少了异常值的影响。

需要注意的是，你要应用对数变换的数据必须是正值，否则会出现错误。另外，可以在转换数据之前将 1 加到数据中，用于确保变换后的输出值也是正的。

Log(x+1)

# Log Transform Example
data = pd.DataFrame({'value':[2,45, -23, 85, 28, 2, 35, -12]})
data['log+1'] = (data['value']+1).transform(np.log)

# Negative Values Handling
# Note that the values are different
data['log'] = (data['value']-data['value'].min()+1) .transform(np.log)
   value  log(x+1)  log(x-min(x)+1)
0      2   1.09861          3.25810
1     45   3.82864          4.23411
2    -23       nan          0.00000
3     85   4.45435          4.69135
4     28   3.36730          3.95124
5      2   1.09861          3.25810
6     35   3.58352          4.07754
7    -12       nan          2.48491

5、独热编码

独热编码是机器学习中最常见的编码方法之一。此方法将一列中的值分布到多个标记列，并为其分配 0 或 1。这些二进制值表示类别和编码之间的关系。

该方法将算法难以正确理解的分类型数据更改为数值格式，并使你可以在不丢失任何信息的情况下对类别数据进行分组。

Why 独热编码？

如果该列中有 N 个不同的值，则将它们映射到 N-1 个二进制列就足够了，因为可以从其他列中扣除该缺失值。如果我们手中的所有列都等于 0，则缺失值必须等于 1。这就是为什么将其称为独热编码的原因。但是，我将使用 Pandas 的 get_dummies 函数给出一个示例，此函数将一列映射到多个列。

encoded_columns = pd.get_dummies(data['column'])
data = data.join(encoded_columns).drop('column', axis=1)

6、分组操作

在大多数机器学习算法中，每个实例对应训练数据集中的一行，而不同列对应不同特征。这种形式的数据称为整齐（tidy）数据。

整齐数据集易于操作、建模和可视化，并具有特定的结构: 每个变量是一列，每个观察值是一行，每种类型的观察单位是表格。

诸如涉及事务处理之类的数据集由于一个实例对应多行数据而很少适合整齐数据的定义。在这种情况下，我们按实例对数据进行分组，然后每个实例仅由一行代表。

按操作分组的关键是确定特征的聚合函数。对于数值型特征，平均值和求和函数通常是不错的选择，而对于分类型特征，则较为复杂。

分类特征分组

建议使用三种不同的方式来聚合分类特征：

第一种是选择频率最高的标签。换句话说，这是分类特征的 max 操作，但是普通的 max 函数通常不返回此值，因此你需要自己定义，例如使用 lambda 函数。

data.groupby('id').agg(lambda x: x.value_counts().index[0])

第二种选择是制作数据透视表（pivot table）。这种方法与上一步骤中的编码方法类似，略有不同。代替二值符号，可以将其定义为分组列和编码列之间的值的聚合函数。如果你打算超越二值标记列并将多重特征合并为更有用的聚合特征，那么这将是一个不错的选择。（该方法与 Pandas 中另一个函数 groupby 作用类似，可以结合下图例子来理解这一点。）

# Pivot table Pandas Example
data.pivot_table(index='column_to_group', columns='column_to_encode', values='aggregation_column', aggfunc=np.sum, fill_value = 0)

最后一种分类特征分组方案是在应用独热编码后应用分组函数 group by。此方法将保留所有数据（在上面第一种方案中，会丢失一些数据）。与此同时，还将编码列从分类转换为数值。可以阅读下一部分以了解数值特征分组的说明。

数值特征分组

在大多数情况下，数值特征使用求和以及均值函数分组。根据特征的含义，两者都是可取的。例如，如果要获取比率列，则可以取二值列的平均值。在同一示例中，sum 函数可用于获得总数。

# sum_cols: List of columns to sum
# mean_cols: List of columns to average
grouped = data.groupby('column_to_group')

sums = grouped[sum_cols].sum().add_suffix('_sum')
avgs = grouped[mean_cols].mean().add_suffix('_avg')

new_df = pd.concat([sums, avgs], axis=1)

7、特征拆分

拆分特征是使它们在机器学习中发挥作用的好办法。很多时候，数据集包含一些字符串列，这就违反了整齐数据的原则。通过将列的可用部分提取成新特征，有利于

让机器学习算法能够理解它们。
可以将它们分箱和分组。
通过发掘潜在信息来提高模型性能。

split 函数是一个不错的选择，但是，没有一种适用于拆分所有特征的通用方法。它取决于列的特性以及如何拆分它。让我们通过两个示例对其进行介绍。

首先，一个可用于拆分普通名字列的简单 split 函数，

data.name
0  Luther N. Gonzalez
1    Charles M. Young
2        Terry Lawson
3       Kristen White
4      Thomas Logsdon
# Extracting first names
data.name.str.split(" ").map(lambda x: x[0])
0     Luther
1    Charles
2      Terry
3    Kristen
4     Thomas
# Extracting last names
data.name.str.split(" ").map(lambda x: x[-1])
0    Gonzalez
1       Young
2      Lawson
3       White
4     Logsdon

上面的示例通过仅使用第一个和最后一个词来处理长度超过两个单词的名字，这使该函数在遇到极端情况时具有鲁棒性，在处理此类字符串时应考虑到这一方法。

split 函数的另一个使用场景是提取两个字符之间的字符串部分。以下示例显示了通过在一行代码中连续使用两个 split 函数来实现此情况的方法。

# String extraction example
data.title.head()
0                      Toy Story (1995)
1                        Jumanji (1995)
2               Grumpier Old Men (1995)
3              Waiting to Exhale (1995)
4    Father of the Bride Part II (1995)
data.title.str.split("(", n=1, expand=True)[1].str.split(")", n=1, expand=True)[0]
0    1995
1    1995
2    1995
3    1995
4    1995

8、缩放

在大多数情况下，数据集的数值特征没有特定范围，并且彼此不同。在实际中，如果要求年龄列和收入列具有相同的数值范围肯定会让人觉得没道理。但是如果站在机器学习的角度来看的话，该如何比较这两个数值特征呢？

缩放解决了这个问题。经过缩放过程后，连续特征的范围变得相同。对于许多算法来说，此过程不是强制性的，但应用起来效果可能很好。但是，基于距离计算的算法（例如 k-NN 或 k-Means）需要具有可缩放的连续特征作为模型输入。

有两种基本的数据缩放方式。

归一化

归一化（或 min-max 归一化）在 0 到 1 之间的固定范围内缩放所有值。

此变换不会更改特征的分布，并且由于标准差降低，异常值的影响会增加。因此，建议在该归一化之前处理异常值。

data = pd.DataFrame({'value':[2,45, -23, 85, 28, 2, 35, -12]})

data['normalized'] = (data['value'] - data['value'].min()) / (data['value'].max() - data['value'].min())
   value  normalized
0      2        0.23
1     45        0.63
2    -23        0.00
3     85        1.00
4     28        0.47
5      2        0.23
6     35        0.54
7    -12        0.10

标准化

标准化（或 z-分数规范化）在考虑标准差的同时缩放特征值。如果特征的标准差不同，则它们的范围也将彼此不同。这减少了特征中异常值的影响。

在以下标准化公式中，是平均值，而是标准差。

data = pd.DataFrame({'value':[2,45, -23, 85, 28, 2, 35, -12]})

data['standardized'] = (data['value'] - data['value'].mean()) / data['value'].std()
   value  standardized
0      2         -0.52
1     45          0.70
2    -23         -1.23
3     85          1.84
4     28          0.22
5      2         -0.52
6     35          0.42
7    -12         -0.92

9、提取日期

尽管日期列通常给有关模型目标值提供了很多有用信息，但它们在机器学习学习中往往被忽略。日期可以以多种格式显示，这使得算法很难理解，即使将日期简化为 01-01-2017 之类的格式也是如此。

如果不处理日期列，那么在这些值之间建立序数关系对于机器学习算法来说是非常具有挑战性的。在这里，建议对日期进行三种预处理，

将日期部分提取到不同的列中: 年、月、日等。
根据年、月、日等提取当前日期和这些列之间的时间差。
从日期中提取一些特定特征: 工作日的名称，是否周末、是否休假等。

如果将日期列按上述方法提取出新的列，则它们的信息将会被更合理地表达出来，并且机器学习算法可以轻松地理解它们。

from datetime import date

data = pd.DataFrame({'date':
['01-01-2017',
'04-12-2008',
'23-06-1988',
'25-08-1999',
'20-02-1993',
]})

# Transform string to date
data['date'] = pd.to_datetime(data.date, format="%d-%m-%Y")

# Extracting Year
data['year'] = data['date'].dt.year

# Extracting Month
data['month'] = data['date'].dt.month

# Extracting passed years since the date
data['passed_years'] = date.today().year - data['date'].dt.year

# Extracting passed months since the date
data['passed_months'] = (date.today().year - data['date'].dt.year) * 12 + date.today().month - data['date'].dt.month

# Extracting the weekday name of the date
data['day_name'] = data['date'].dt.day_name()
        date  year  month  passed_years  passed_months   day_name
0 2017-01-01  2017      1             2             26     Sunday
1 2008-12-04  2008     12            11            123   Thursday
2 1988-06-23  1988      6            31            369   Thursday
3 1999-08-25  1999      8            20            235  Wednesday
4 1993-02-20  1993      2            26            313   Saturday

技术交流

欢迎转载、收藏、有所收获点赞支持一下！

目前开通了技术交流群，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号：dkl88191，备注：来自CSDN
方式③、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

python模块os和 importlib实战指南 ivwdcwso 开发运维 python 服务器运维开发 devops
os和importlib是Python中两个非常强大的模块，分别用于与操作系统交互和动态导入模块。本文将通过实际代码示例，展示如何在实际项目中使用这两个模块，帮助你更好地理解它们的用途和应用场景。©ivwdcwso(ID:u012172506)1.os模块实战os模块主要用于与操作系统交互，例如读取环境变量、操作文件路径、执行系统命令等。以下是os模块的常见实战场景。1.1读取环境变量在开发中，我
Django 日志配置实战指南 ivwdcwso django 数据库 sqlite python 开发
日志是Django项目中不可或缺的一部分，它帮助我们记录应用程序的运行状态、调试信息、错误信息等。通过合理配置日志，我们可以更好地监控和调试应用程序。本文将详细介绍如何在Django项目中实现日志文件分割、日志级别控制以及多环境日志配置，并结合最佳实践和代码示例，帮助你全面掌握Django日志的使用。1.日志级别概述Python的日志模块定义了以下日志级别（从低到高）：DEBUG：详细的调试信息，
Django WSGI 异步处理和多线程的实战指南 penmily django python
1.DjangoWSGI的架构和工作原理Django作为Python编程语言中最受欢迎的web框架之一，其WSGI（WebServerGatewayInterface）支持为应用的扩展性和性能优化提供了基础。本章将介绍DjanogWSGI架构的基本组成，阐述其工作原理，并分析它是如何使得Django应用能够与各种web服务器进行交互的。1.1WSGI架构的组成WSGI是Python的一种协议，定义
Python-Django 开源项目实战指南贾蕙梅Wayne
Python-Django开源项目实战指南python-djangoOpenTracinginstrumentationfortheDjangoframework项目地址:https://gitcode.com/gh_mirrors/py/python-django项目介绍Python-DjangoOpenTracing扩展是由OpenTracing社区贡献的一个开源项目，专为Django框架设计
由于直接展示多种编程语言的全套游戏代码会相当冗长，我将为你概述一个简单的小游戏——猜数字游戏，并用几种流行的编程语言（Python, JavaScript, C++, Java）给出其核心逻辑的代码片 IsaacHornby 游戏 python javascript
Python版本ftinc.cnPython版本非常直观，适合初学者。pythonimportrandomdefguess_number_game():number_to_guess=random.randint(1,100)guess=Noneattempts=0print("我想了一个1到100之间的数字，你能猜到是哪个吗？")whileguess!=number_to_guess:try:g
Python数据分析案例教程 kkchenjj 数据挖掘 python 数据分析信息可视化
Python数据分析案例教程Python在数据分析中的应用Python因其简洁的语法、强大的库支持以及广泛的社区资源，已成为数据分析领域的首选语言。它能够处理从数据清洗、数据可视化到机器学习模型构建的整个数据科学流程。本节将深入探讨Python在数据分析中的具体应用，包括但不限于数据清洗、数据探索、统计分析和预测建模。数据清洗数据清洗是数据分析的首要步骤，涉及处理缺失值、异常值、重复数据以及数据类
python中json的用法总结小疯子呀 python基础
一、json的概念json是一种通用的数据类型一般情况下接口返回的数据类型都是json长得像字典，形式也是k-v{}其实json是字符串字符串不能用key、value来取值，所以要先转换为字典才可以使用JSON函数，需要先导入importjson二、json的相关方法1、json.dumps：将Python对象编码成JSON字符串2、json.loads：将已编码的JSON字符串解码为Python
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分长风清留扬最新Python入门基础合集 python 笔记学习异常处理改行学it 异常 BUG
本文是第二部分，第一部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论异常类型IndexError
有史以来最全的异常类讲解没有之一！第三部分爆肝4万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第三部分长风清留扬最新Python入门基础合集 python 面试异常处理 BUG 异常类型职场和发展改行学it
本文是第三部分，第一第二部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实
还在为Python“运算符”中遇到的BUG而发愁吗？，变量相关的问题和解决办法看这篇文章就够了！长风清留扬 android python bug 运算符
博客主页：长风清留扬-CSDN博客系列专栏：Python疑难杂症百科-BUG编年史每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论关于运算符中常见的问题和解决方法在Python编程的浩瀚宇宙中，变量如同星辰般璀璨，它们承载着数据，驱动着程序的运行。然而，即便是这些看似简单的构建块，也时常隐藏着令
Python全网最全基础课程笔记(十三)——作用域，跟着思维导图和图文来学习，爆肝2w字，无数代码案例！长风清留扬最新Python入门基础合集 python 笔记学习作用域面试跳槽改行学it
本专栏系列为Pythong基础系列，每篇内容非常全面，包含全网各个知识点，非常长，请耐心看完。每天都会更新新的内容，搜罗全网资源以及自己在学习和工作过程中的一些总结，可以说是非常详细和全面。以至于为什么要写的这么详细：自己也是学过Python的，很多新手只是简单的过一篇语法，其实对于一个知识点的底层逻辑和其他使用方法以及参数详情根本不是很了解，这就导致学完很容易忘记，而且在实战过程中也是半知半解，
Python全网最全基础课程笔记(三)——所有运算符+运算符优先级长风清留扬最新Python入门基础合集开发语言 python 运算符 Python基础 numpy pandas pip
本专栏系列为Pythong基础系列，每天都会更新新的内容，搜罗全网资源以及自己在学习和工作过程中的一些总结，可以说是非常详细和全面。以至于为什么要写的这么详细：自己也是学过Python的，很多新手只是简单的过一篇语法，其实对于一个知识点的底层逻辑和其他使用方法以及参数详情根本不是很了解，这就导致学完很容易忘记，而且在实战过程中也是半知半解，所以自己就尽量写的详细些，让需要的人能更了解Python的
python中json的使用余生的观澜 python技术栈 json python 开发语言
问题与背景在python中对json的使用无非就是以下几种：dict转json字符串json字符串转dictdict类型写入json文件json文件读取为dict类型解决方案与总结变量类型的映射dict与json互相转化importjsontesdic={'name':'Tom','age':18,'score':{'math':98,'chinese':99}}print(type(tesdic
python pack中padx和pady的用法,padx(10,5)是什么意思 huiyuanzhenduo python 前端开发语言
在Python的Tkinter库中，`pack`方法用于添加小部件（如按钮、标签、框架等）到窗口中。`padx`和`pady`是`pack`方法的可选参数，用于控制小部件内部和外部的填充（或空隙）。-`padx`：控制小部件的！！！左右外边距！！！（水平填充）。它的值指定了小部件两侧的额外空间，单位是像素。-`pady`：控制小部件的上下外边距（垂直填充）。它的值指定了小部件上下的额外空间，单位也
银联付款服务器部署 dGcgQGludm9rZXlvdQ== 服务器运维安全
服务器选择Debian是个不错的选择，建议使用Debian11或12最小配置建议：1核CPU、1GB内存、20GB存储空间环境准备#更新系统aptupdate&&aptupgrade-y#安装必要工具aptinstallpython3python3-pipgitnginx-y#安装Python依赖pip3installflaskpycryptodomerequests代码部署#创建项目目录mkdi
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
Python--进程和线程 Ssaty. python 开发语言
第1关：Python多进程-求素数个数本关任务：使用Python多进程求素数个数。importmathfrommultiprocessingimportcpu_countfrommultiprocessingimportPool#判断数字是否为质数#**********Begin*****
Python pact契约测试实战司小幽测试开发 #自动化 #Python 测试测试开发自动化测试契约测试 python
目录1.pact-python契约测试示例2.生产者端，用于生成数据内容3.1号消费者4.2号消费者1.pact-python契约测试示例'''pact-python契约测试示例'''importatexitimportunittestimportrequestsfrompactimportConsumerfrompactimportProvider#定义一个契约（pact)，明确消费者与生产者，
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF python ddos
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
程序代码篇---python回调函数&异步编程 Ronin-Lotus 程序代码篇 python 前端开发语言学习程序人生回调函数异步编程
文章目录前言第一部分：Python的回调函数1.基本概念2.如何实现定义回调函数：定义主函数：例子3.回调函数的应用场景事件处理异步编程库和框架注意事项调用时机错误处理闭包第二部分：async和await关键字1.异步编程的概念2.async定义用法特性3.await定义用法特性4.异步编程的例子5.注意事项总结前言以上就是今天要讲的内容，本文简单介绍了Python中的回调函数以及异步编程。第一部
奇怪的比赛（Python，递归，状态压缩动态规划dp）不染_是非 python 算法 python 动态规划算法蓝桥杯
目录前言：题目：思路：递归：代码及详细注释：状态压缩dp：代码及详细注释：总结：前言：这道题原本是蓝桥上的题，现在搜不到了，网上关于此题的讲解更是寥寥无几，仅有的讲解也只是递归思想，python讲解和状态压缩dp的解决方法都没有，这里就带大家用状态压缩dp方法来解决此题。题目：大奖赛计分规则：每位选手需要回答10个问题（其编号为1到10），越后面越有难度。答对的，当前分数翻倍；答错了，则扣掉与题号
Python量化金融都需要用到哪些库？最全汇总中年猿人 python 金融开发语言
今天分享一篇Python量化金融最全汇总，推荐大家收藏～记得划到文末点赞呐～本文汇总了定量金融的大量三方库，按功能进行分类，覆盖数值运算，衍生品定价，回溯检验，风险管理，数据爬取，可视化等多个子领域，供每个Python程序员参考。不要重复造轮子，明确要解决的问题，然后寻找相应的工具。很多著名的包如Numpy，Pandas，Seaborn，backtrader等已经被证明高度有效，即便没有找到符合应
使用 Python 开发一个 AI Agent 自媒体助手示例程序员陆通 python 人工智能媒体
1.项目背景随着自媒体行业的快速发展，内容创作者需要处理大量重复性任务，例如撰写文章、生成标题、优化关键词、分析数据等。通过开发一个AIAgent自媒体助手，可以帮助创作者高效完成这些任务，节省时间并提升内容质量。本文将展示如何使用Python构建一个简单的AIAgent自媒体助手，支持以下功能：自动生成文章标题。根据关键词生成文章段落。分析文章的关键词密度。2.技术架构AIAgent自媒体助手的
Python快速使用jira模块调用Jira接口小斌哥ge Python/PYPI jira
Python快速使用jira模块调用Jira接口JIRA介绍:JIRA是Atlassian公司出品的项目与事务跟踪工具，被广泛应用于缺陷跟踪、需求收集、流程审批、任务跟踪、项目跟踪和敏捷管理等工作领域.在开发工作中,Jira通常用作BUG管理和任务跟踪管理等,项目经理,测试人员,开发人员等在Jira上进行提交BUG,提交任务,修改任务进度等操作.当项目逐渐多时,Jira上的BUG数量和任务数量也会
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
Python实现SMTP自动发邮件全流程指南福建低调
本文还有配套的精品资源，点击获取简介：SMTP是互联网用于发送电子邮件的标准协议，Python提供便利的库来实现这一功能。本文将介绍如何利用Python的smtplib和email.mime库通过SMTP自动发送邮件，包括设置服务器、登录验证、构建邮件对象、发送邮件，并提供了一个代码示例。文章还强调安全性和常见问题的解决方案，为初学者提供详细步骤和视觉辅助。1.SMTP协议基础在互联网技术飞速发展
AirSim学习（3）AirSim的PythonAPI基本操作——环境配置与VehicleClient类睡觉狂魔er AirSim 虚幻自动驾驶 python
文章内容AirSim学习笔记汇总AirSim的PythonAPI的安装AirSim的坐标系统classVehicleClient1.成员变量2.构造函数3.连接与仿真启停resetpinggetClientVersiongetServerVersiongetMinRequiredServerVersiongetMinRequiredClientVersionenableApiControlisAp
ROS2 细节知识学习儒雅芝士 ROS2系列机器人 c++linux
1.rosidl_generate_interfaces()在ROS2中，rosidl_generate_interfaces是一个关键的构建工具功能。它主要用于从接口定义文件（如.msg消息文件、.srv服务文件和.action动作文件）生成不同编程语言（如C++、Python等）可以使用的接口代码。这些接口是ROS2中节点间通信的基础，确保了数据在不同组件之间能够准确、高效地传递。在构建系统中
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &