R语言中文社区

R与Python手牵手：特征工程（数值型变换）

作者：黄天元，复旦大学博士在读，目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验，推广并加深R语言在业界的应用。

经常玩数据竞赛的人几乎达成了一个共识，就是建模过程大家都大同小异，但是特征工程则至关重要。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。这里将会介绍一些最基本的特征工程方法以及代码的实现，供大家参考。这次的数据可以在下面网站找到：

https://github.com/dipanjanS/practical-machine-learning-with-python/tree/master/notebooks/Ch04_Feature_Engineering_and_Selection/datasets

Python

基本设置

#加载包
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import numpy as np
import scipy.stats as spstats
#对图像输出的统一设置
%matplotlib inline
mpl.style.reload_library()
mpl.style.use('classic')
mpl.rcParams['figure.facecolor'] = (1, 1, 1, 0)
mpl.rcParams['figure.figsize'] = [6.0, 4.0]
mpl.rcParams['figure.dpi'] = 100
file_path = "G:/Py/practical-machine-learning-with-python-master/notebooks/Ch04_Feature_Engineering_and_Selection/"

原始数据特征

看到这份数据介绍的时候我也是惊呆了，这是关于“口袋妖怪”游戏的一个数据集，上面是关于一些妖怪们的攻击力、防御力、生命值、速度之类的参数，这个动画在我那个年代叫做“宠物小精灵”...Anyway，我们这个例子要看的就是数值型变量的基本特征，我们选其中三个进行观察。

poke_df = pd.read_csv(file_path + 'datasets/Pokemon.csv', 
  encoding='utf-8')
poke_df.head()

（点击放大）

poke_df[['HP', 'Attack', 'Defense']].head()

poke_df[['HP', 'Attack', 'Defense']].describe()

另外，有的原始数值型变量是通过计数来表示的，比如下面例子是用户听歌的记录，其中listen_count记录的是用户听了一首歌多少次。

popsong_df = pd.read_csv(file_path + 'datasets/song_views.csv', encoding='utf-8')
popsong_df.head(10)

二值化

关于听歌的案例，其实有一种粗略的理解，就是听过还是没听过，也就是不管听了多少次，只要不是没听过，就记录为1，其他是0.对于一些问题来说，听歌的绝对次数其实并不重要，比如一首歌的用户覆盖面，就不需要考虑哪些用户特别喜欢这首歌的问题。

#提取用户是否听过这首歌的特征
watched = np.array(popsong_df['listen_count']) 
watched[watched >= 1] = 1
popsong_df['watched'] = watched
popsong_df.head(10)

#sklearn用专门的函数来完成这个任务
from sklearn.preprocessing import Binarizer
bn = Binarizer(threshold=0.9)
pd_watched = bn.transform([popsong_df['listen_count']])[0]
popsong_df['pd_watched'] = pd_watched
popsong_df.head(11)

Binarizer函数的阈值设定含义为，小于等于阈值的值都视为0，大于阈值的则视为1.

取整

有时候数据真的不需要太高的精度，高精度的数据会占用更多的内存，因此可以取整处理。应该说这种操作肯定是会损失信息量的，但是如果在一些情况下5.9和6.3被认为没有差别的时候，取整也许更加合适。

items_popularity = pd.read_csv(file_path + 'datasets/item_popularity.csv', encoding='utf-8')
items_popularity

这个例子中，pop_percent的数据是百分比，因此我们可以用几成或百分点为单位来表示。

items_popularity['popularity_scale_10'] = np.array(np.round((items_popularity['pop_percent'] * 10)), dtype='int')
items_popularity['popularity_scale_100'] = np.array(np.round((items_popularity['pop_percent'] * 100)), dtype='int')
items_popularity

交互项构造

如果认为一些变量的平方项更有可能与因变量成一定关系，就应该构造二次项甚至是更高次的交互项。比如，我们如果有草地的长宽，我们要知道什么对绿化面积造成影响，就应该把长宽相乘。这只是一个比喻，很多情况下我们不知道是否需要构造交互项，但是先构造然后再进行筛选也是一个不错的选择。在实际应用中，交互项是两个变量的乘积或自身的平方项，这样我们就知道两个变量之间是否存在相互影响。

atk_def = poke_df[['Attack', 'Defense']]
atk_def.head()

from sklearn.preprocessing import PolynomialFeatures
#构造二次交互项
pf = PolynomialFeatures(degree=2, interaction_only=False, include_bias=False)
res = pf.fit_transform(atk_def)
res

#加入到数据框中
intr_features = pd.DataFrame(res, columns=['Attack', 'Defense', 'Attack^2', 'Attack x Defense', 'Defense^2'])
intr_features.head(5)

有同学可能会问，我怎么知道列的名称呢？可以这么看：

pd.DataFrame(pf.powers_, columns=['Attack_degree', 'Defense_degree'])

也就是说哪个是一次项哪些是二次项哪些是交互项都可以看出来。pf自从用了fit_transform之后，就记录了这份数据构造二次项的模式，后面要从新使用就可以用transform函数了。

new_df = pd.DataFrame([[95, 75],[121, 120], [77, 60]], 
  columns=['Attack', 'Defense'])
new_df

new_res = pf.transform(new_df)
new_intr_features = pd.DataFrame(new_res, 
 columns=['Attack', 'Defense', 
  'Attack^2', 'Attack x Defense', 'Defense^2'])
new_intr_features

分箱

本质上是根据数值，把观测进行等级分类，比如60分以下判定为不及格，90分以上为优秀，就是简单的分箱。

#读数据
fcc_survey_df = pd.read_csv(file_path + 'datasets/fcc_2016_coder_survey_subset.csv', encoding='utf-8')
fcc_survey_df[['ID.x', 'EmploymentField', 'Age', 'Income']].head()

fig, ax = plt.subplots()
fcc_survey_df['Age'].hist(color='#A9C5D3')
ax.set_title('Developer Age Histogram', fontsize=12)
ax.set_xlabel('Age', fontsize=12)
ax.set_ylabel('Frequency', fontsize=12)

得：

Text(0, 0.5, 'Frequency')

根据上面的分布图，进行分箱，也就是说10到20岁统一标为1。

fcc_survey_df['Age_bin_round'] = np.array(np.floor(np.array(fcc_survey_df['Age']) / 10.))
fcc_survey_df[['ID.x', 'Age', 'Age_bin_round']].iloc[1071:1076]

或者我们可以自定义自己的分箱范围标准：

bin_ranges = [0, 15, 30, 45, 60, 75, 100]
bin_names = [1, 2, 3, 4, 5, 6]
#首先看每个记录落在哪一个我们定义好的范围
fcc_survey_df['Age_bin_custom_range'] = pd.cut(np.array(fcc_survey_df['Age']), 
   bins=bin_ranges)
#给我们定义好的范围进行数值编号
fcc_survey_df['Age_bin_custom_label'] = pd.cut(np.array(fcc_survey_df['Age']), 
   bins=bin_ranges, labels=bin_names)
#观察我们整理好的数据框
fcc_survey_df[['ID.x', 'Age', 'Age_bin_round', 
   'Age_bin_custom_range', 'Age_bin_custom_label']].iloc[1071:1076]

上面的意思是，0-15属于1级，30-45则属于3级，以此类推。

另一种分箱标准，就是采用分位数，比如四分位数。我们先看看数据，我们会对收入变量进行分箱。

fcc_survey_df[['ID.x', 'Age', 'Income']].iloc[4:9]

fig, ax = plt.subplots()
fcc_survey_df['Income'].hist(bins=30, color='#A9C5D3')
ax.set_title('Developer Income Histogram', fontsize=12)
ax.set_xlabel('Developer Income', fontsize=12)
ax.set_ylabel('Frequency', fontsize=12)

得：

Text(0, 0.5, 'Frequency')

#计算收入的分位数分别是多少
quantile_list = [0, .25, .5, .75, 1.]
quantiles = fcc_survey_df['Income'].quantile(quantile_list)
quantiles

#在图中标出分位数的位置
fig, ax = plt.subplots()
fcc_survey_df['Income'].hist(bins=30, color='#A9C5D3')
for quantile in quantiles:
    qvl = plt.axvline(quantile, color='r')
ax.legend([qvl], ['Quantiles'], fontsize=10)
ax.set_title('Developer Income Histogram with Quantiles', fontsize=12)
ax.set_xlabel('Developer Income', fontsize=12)
ax.set_ylabel('Frequency', fontsize=12)

得：

Text(0, 0.5, 'Frequency')

#根据分位数进行分箱特征提取
quantile_labels = ['0-25Q', '25-50Q', '50-75Q', '75-100Q']
fcc_survey_df['Income_quantile_range'] = pd.qcut(fcc_survey_df['Income'], 
                                                 q=quantile_list)
fcc_survey_df['Income_quantile_label'] = pd.qcut(fcc_survey_df['Income'], 
                                                 q=quantile_list, labels=quantile_labels)
fcc_survey_df[['ID.x', 'Age', 'Income', 
               'Income_quantile_range', 'Income_quantile_label']].iloc[4:9]

数学变换

我们这里提到的数学变化，基本都是因为数据不服从正态性，通过变化让数据服从正态分布，这样我们才能够用一些模型进行拟合。比如线性回归就需要数据服从正态性分布，如果有偏的话结果就会不可信。这里我们介绍对数变换和Box-Cox变换。

对数变换

我们可以看到，上面一个例子中收入是不服从左右对称的正态分布的，我们用对数变换看看是否起到效果。

fcc_survey_df['Income_log'] = np.log((1+ fcc_survey_df['Income']))   #为什么加1？如果有人收入为0那么就会出问题了。
fcc_survey_df[['ID.x', 'Age', 'Income', 'Income_log']].iloc[4:9]

income_log_mean = np.round(np.mean(fcc_survey_df['Income_log']), 2)
fig, ax = plt.subplots()
fcc_survey_df['Income_log'].hist(bins=30, color='#A9C5D3')
plt.axvline(income_log_mean, color='r')
ax.set_title('Developer Income Histogram after Log Transform', fontsize=12)
ax.set_xlabel('Developer Income (log scale)', fontsize=12)
ax.set_ylabel('Frequency', fontsize=12)
ax.text(11.5, 450, r'$\mu$='+str(income_log_mean), fontsize=10)

得：

Text(11.5, 450, '$\\mu$=10.43')

Box-Cox变换

做这个变换之前，首先要确定一个lambda值，不过建议傻瓜式复制就好，我们的任务只是要得到能够服从正态分布的一列变量而已。

income = np.array(fcc_survey_df['Income'])
income_clean = income[~np.isnan(income)]        
l, opt_lambda = spstats.boxcox(income_clean)
print('Optimal lambda value:', opt_lambda)

得：

Optimal lambda value: 0.11799123945557663

fcc_survey_df['Income_boxcox_lambda_0'] = spstats.boxcox((1+fcc_survey_df['Income']), 
                                                         lmbda=0)
fcc_survey_df['Income_boxcox_lambda_opt'] = spstats.boxcox(fcc_survey_df['Income'], 
                                                           lmbda=opt_lambda)
fcc_survey_df[['ID.x', 'Age', 'Income', 'Income_log', 
               'Income_boxcox_lambda_0', 'Income_boxcox_lambda_opt']].iloc[4:9]

income_boxcox_mean = np.round(np.mean(fcc_survey_df['Income_boxcox_lambda_opt']), 2)
fig, ax = plt.subplots()
fcc_survey_df['Income_boxcox_lambda_opt'].hist(bins=30, color='#A9C5D3')
plt.axvline(income_boxcox_mean, color='r')
ax.set_title('Developer Income Histogram after Box–Cox Transform', fontsize=12)
ax.set_xlabel('Developer Income (Box–Cox transform)', fontsize=12)
ax.set_ylabel('Frequency', fontsize=12)
ax.text(24, 450, r'$\mu$='+str(income_boxcox_mean), fontsize=10)

得：

Text(24, 450, '$\\mu$=20.65')

这里计算了lambda为0，以及为最优值的Box-Cox转换值。

R

尽量简洁地解决上面提到的问题，在R中。

#载入包
pacman::p_load(tidyverse,forecast)
file_path = "G:/Py/practical-machine-learning-with-python-master/notebooks/Ch04_Feature_Engineering_and_Selection/"

原始数据特征

read_csv(paste0(file_path,"datasets/Pokemon.csv")) -> poke_df
poke_df %>% head

poke_df %>% select(HP,Attack,Defense) %>% head

poke_df %>% select(HP,Attack,Defense) %>% summary

read_csv(paste0(file_path,"datasets/song_views.csv")) -> popsong_df
popsong_df %>% head(10)

二值化

popsong_df %>%
 mutate(watched = ifelse(listen_count > 0,1,0)) %>%
 head(10)

取整

read_csv(paste0(file_path,"datasets/item_popularity.csv")) -> items_popularity
items_popularity

items_popularity %>%
 mutate(popularity_scale_10 = round(pop_percent * 10)) %>%
mutate(popularity_scale_100 = round(pop_percent * 100))

交互项构造

poke_df %>% select(Attack,Defense) -> atk_def
atk_def %>% head

#需要平方项的同学请自行添加
as_tibble(model.matrix(~ .^2-1,atk_def)) %>% head

分箱

#读数据
read_csv(paste0(file_path,"datasets/fcc_2016_coder_survey_subset.csv")) -> fcc_survey_df
fcc_survey_df %>% select('ID.x', 'EmploymentField', 'Age', 'Income') %>% head

#根据年龄的十位数分箱
fcc_survey_df %>% 
 mutate(Age_bin_round = floor(Age/10)) %>% 
 select('ID.x', 'Age', 'Age_bin_round') %>%
 slice(1071:1076)

#自定义标准
fcc_survey_df %>%
 mutate(Age_bin_custom_range = cut(Age,breaks = c(0, 15, 30, 45, 60, 75, 100))) %>%
 mutate(Age_bin_custom_label = cut(Age,
                                  breaks = c(0, 15, 30, 45, 60, 75, 100),
                                 labels = 1:6)) %>%
 slice(1071:1076) %>%
 select('ID.x', 'Age', 'Age_bin_custom_range', 'Age_bin_custom_label')

如果你发现跟python数据对不上，那就对了，因为python的[1071:1076]其实是1072到1076列，因为python是从0开始的，怎么样，够坑吧？

#四分位数划分
fcc_survey_df %>%
 mutate(income_quantile_labels = ntile(Income,4)) %>%
 select('ID.x', 'Age', 'Income', 'income_quantile_labels') %>% 
 slice(4:9)

数学转换

对数变换

fcc_survey_df %>% 
 mutate(Income_log = log(Income +1)) %>% 
 slice(4:9) %>%
 select('ID.x', 'Age', 'Income', 'Income_log')

Box-Cox变换

fcc_survey_df %>% 
 mutate(Income_boxcox = BoxCox(Income,BoxCox.lambda(Income))) %>%
 select('ID.x', 'Age', 'Income', 'Income_boxcox') %>%
 slice(4:9)

这里用的Box-Cox用的是forcast包，先计算最优参数，然后代入求BoxCox转化后的数值。

你可能感兴趣的:(R与Python手牵手：特征工程（数值型变换）)

Python（四）——SVG 图坐标轴数字和其他文本设置总结八年。。 python 开发语言笔记
在学术论文中，图像的质量和规范性直接影响文章的专业性和表达效果。尤其是在使用Python绘制SVG图时，图像的字体选择、大小设置、以及整体样式需要符合期刊或会议的要求。这不仅能提升视觉呈现的清晰度，还能增强论文内容的可读性和说服力。因此，合理设置坐标轴字体（如数字使用“TimesNewRoman”、文字使用“宋体”）和调整图像细节是学术制图中不可忽视的重要环节。1.设置全局字体frommatplo
前端面试题-手写篇-万字长文！前端Jason 面试前端面试前端面试
1.手写实现EventBus实现一个简单的EventBus（事件总线）可以让我们在不同的组件或模块之间进行事件驱动的通信。下面是一个用JavaScript手写实现EventBus的基本例子：classEventBus{constructor(){this.events={};//存储事件名与对应的监听器}//注册事件监听器on(event,listener){if(!this.events[eve
【Es】python es操作小毛驴吃梨子 elasticsearch python 大数据
表因为es是集群所以es_hosts是列表fromelasticsearchimportElasticsearchES_HOSTS=["127.0.0.1:9200"]ES_HTTP_AUTH="******************"#连接Eses=Elasticsearch(hosts=ES_HOSTS,http_auth=ES_HTTP_AUTH,maxsize=60,timeout=30,m
卷积调制空间自注意力SPATIALatt模型详解及代码复现清风AI 深度学习人工智能 python 神经网络 conda
背景与意义SPATIALaTT模型的提出源于对自注意力机制和卷积神经网络（CNN）的深入研究。在计算机视觉领域，CNN长期占据主导地位，而自注意力机制的引入为视觉任务带来了新的思路。SPATIALaTT模型的意义在于融合了这两种强大的特征提取方法，充分发挥了它们的优势。这种融合不仅提高了模型的性能，还为设计更高效的视觉模型提供了新的思路，推动了计算机视觉技术的发展。通过结合自注意力机制和卷积神经网
SpringBoot集成Netty实战：构建高效TCPUDP通信服务端【物联网开发必备】 m0_74825678 面试学习路线阿里巴巴 spring boot 物联网后端
SpringBoot集成Netty实现TCP/UDP通信协议【优化版】引言在现代物联网(IoT)应用中，设备与服务器之间的实时通信至关重要。Netty作为一个高性能的网络应用框架，与SpringBoot的集成可以简化开发过程，并提高应用性能。本文将详细介绍如何在SpringBoot中集成Netty，实现TCP和UDP通信协议。通讯协议在设计通讯协议时，我们考虑了数据的完整性和命令的明确性。以下是我
Python中Cache的使用爬虫俗手小马达 python 开发语言缓存
文章目录一、缓存的基础概念二、基础使用三、进阶使用四、外部缓存工具五、缓存的注意事项一、缓存的基础概念缓存（Cache）是一种在应用程序中提升性能的技术，它通过将一些数据临时存储在快速访问的存储介质（如内存）中，以减少数据的重复计算或重复读取。通常，缓存用于存储一些昂贵计算或IO密集型操作的结果，从而加快程序的执行速度。在Python中，缓存通常用于函数的输出、API请求的结果、数据库查询、文件读
Python学习：Pandas库使用（二）之读写Excel文件——read_excel()和to_excel()函数及其参数详解爬虫俗手小马达 python 学习 pandas
在Python的Pandas库中，读取和写入Excel文件主要使用read_excel和to_excel函数。以下是详细用法和示例：1.读取Excel文件：pd.read_excel()importpandasaspd#读取Excel文件df=pd.read_excel('文件路径.xlsx',sheet_name='Sheet1',header=0,usecols='A:C',skiprows=
Python学习——装饰器（一）：两个简单例子爬虫俗手小马达 python 学习开发语言
例一计时器#创建一个装饰器，用于计算函数执行时间importtimedeftime_this(func):defwrapper(*args,**kwargs):start_time=time.time()result=func(*args,**kwargs)end_time=time.time()execution_time=end_time-start_timeprint(f"Execution
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
HarmonyOS 开发实践——基于设置应用的应用权限、通知设置跳转六号嘉宾鸿蒙开发移动开发 HarmonyOS harmonyos 架构 ui 鸿蒙鸿蒙系统移动开发鸿蒙开发
往期学习笔录：鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……场景描述引导用户跳转到系统设置页进行权限，通知
人工智能之数学基础：一个小例子帮你快速搞懂极大线性无关向量组每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能线性代数机器学习极大线性无关向量组深度学习神经网络
本文重点在上一节课程中，我们学习了线性相关和线性无关。当线性相关的时候，那么说明这组向量至少存在一个向量可以被其它向量给表示，可以被表示就说明这个向量就是可有可无的，可以被替代的，这里就涉及到极大线性无关向量组的概念了，本文对此进行学习。极大无关向量组的定义与性质定义在线性空间中，如果存在一个向量组，它满足以下两个条件：一是它本身是线性无关的；二是向量空间中的任何包含它的向量组，如果仍然保持线性无
PyInstaller 打包 exe 文件 cliffordl python 综合 python 开发语言
PyInstaller是一个第三方库，它能够在Windows、Linux、MacOSX等操作系统下将Python源文件打包。通过对源文件打包，Python程序可以在没有安装Python的环境中运行，也可以作为一个独立文件方便传递和管理。PyInstaller支持Python2.7和Python3.3+。可以在Windows、MacOSX和Linux上使用，但是并不是跨平台的，而是说你要是希望打包成
Ruby Web开发框架的介绍及示例代码 YurwRuby ruby 前端开发语言
Ruby是一种简洁而强大的编程语言，广泛用于Web开发。在Ruby生态系统中，有几种实用型的Web开发框架，它们提供了丰富的功能和工具，帮助开发者快速构建可靠的Web应用程序。下面将介绍几种常用的RubyWeb开发框架，并提供相应的示例代码。RubyonRails（Rails）RubyonRails，简称Rails，是Ruby最知名的Web开发框架之一。Rails采用了MVC（Model-View
个人职业发展与AI赋能的前端开发前端
在瞬息万变的科技浪潮中，个人职业发展显得尤为重要。对于前端开发者而言，如何提升自身竞争力，适应日新月异的技术革新，是持续关注的核心问题。而近年来，人工智能（AI）技术的飞速发展，特别是AI代码生成器的兴起，正深刻地改变着前端开发的格局，为开发者们提供了前所未有的机遇。本文将以ScriptEcho为例，探讨AI技术如何赋能前端开发，助力个人职业发展。市场趋势与个人技能提升当前市场对前端开发人才的需求
OpenCV: 深入理解OpenCV中CV_WRAP_AS宏及其作用湫兮之风 opencv opencv 人工智能计算机视觉
在OpenCV中，CV_WRAP_AS是一个宏，主要用于为C++函数或运算符定义别名，以便在生成语言绑定时使用。这对于在不同的编程语言（如Python）中使用OpenCV库时提供更友好的接口非常有用。尽管它在C++代码中不会改变函数的行为，但它在OpenCV的语言绑定系统中起到了重要作用，特别是当OpenCV要为多个语言（如Python）提供接口时。1.CV_WRAP_AS宏的基本用途CV_WRA
看板工具提升敏捷管理：实现透明、高效的团队协作与进度管理敏捷看板类协作工具
引言随着科技的快速发展与市场需求的不断变化，企业的管理方式也发生了深刻的变革。传统的项目管理方法渐渐无法满足当今企业面对的高效性、灵活性与快速响应的要求。特别是在研发、产品设计、市场营销等多个领域，团队需要更加灵活和透明的工作流管理方式。在这种背景下，敏捷管理应运而生。作为敏捷管理中的一种有效工具，看板（Kanban）凭借其高效、简洁且灵活的特点，已成为全球各行业中团队管理的重要组成部分。本篇文章
python连接elasticsearch实战（附完整代码）当初 python elasticsearch
python连接elasticsearchfromelasticsearchimportElasticsearchfromelasticsearch.helpersimportscanES_HOSTS=[{'host':'','port':9200,'scheme':'http'}]es=Elasticsearch(hosts=ES_HOSTS,basic_auth=('账号','密码'))#检查
mongodb清理删除历史数据程序员
批量清理mongodb历史数据清理程序的原来目前项目组上很多平台上线历史数据积压，导致入库查询数据缓慢，历史数据有些已经归档，进行历史数据清理删除。之前临时写shell脚本，太简陋，重新使用Python进行改造，新增备份功能，和配置文件删除指定字段和时间范围内数据。代码篇#!/usr/local/python3/bin/python3importconfigparser,logging.confi
Ruby转Go语言：实现高效后端开发 BugTO ruby golang 前端后端
在现代软件开发中，选择合适的编程语言对于构建高效的后端系统至关重要。Ruby和Go语言都是备受开发者青睐的语言之一。然而，随着项目的发展和规模的增长，将Ruby代码迁移到Go语言成为了一个常见的需求。本文将探讨从Ruby迁移到Go语言的过程，并提供一些实用的源代码示例。了解Go语言Go语言是由Google开发的一种静态类型、编译型语言。它具有简洁、高效和并发性强的特点，适合构建高性能的后端系统。在
项目进度管理：如何使用甘特图实现精准跟踪？
一、甘特图——项目进度管理的得力助手（一）甘特图的基本概念与构成甘特图（GanttChart）又称横道图、条状图，出现于20世纪初，是一种常用于项目管理的、按照时间进度标出工作活动的图表，以提出者亨利・L・甘特（HenrryL.Ganntt）先生的名字命名。它是一个二维平面图，用横轴表示项目进度或活动时间，比如可以按日期为单位，展示项目的整体时间范围，像从项目启动到结束所涵盖的天数、周数、月数等；
Java 9 Optional新特性深度剖析与实例应用 2501_90323865 python windows 开发语言个人开发
在Java编程的漫长旅程中，Optional类一直是处理可选值的得力助手。Java9对其进行了重要扩展，引入了诸多新方法，让Optional的使用更加灵活高效。本文将深入剖析这些新特性，并结合实例进行详细解读。ifPresentOrElse(Consumer,Runnable)方法介绍ifPresentOrElse(Consumer,Runnable)方法是Java9为Optional新增的。当O
R语言的面向对象编程 2501_90183952 包罗万象 golang 开发语言后端
R语言的面向对象编程在现代编程中，面向对象编程（Object-OrientedProgramming，OOP）是一种重要的编程范式，它通过将数据和操作数据的函数结合在一起，来提高代码的重用性和可维护性。在R语言中，面向对象编程并不是一开始就被引入的，但随着其发展，R逐渐支持了多种面向对象编程的系统，例如S3、S4以及R6等。本文将深入探讨R语言的面向对象编程，介绍其基本概念、特点以及在实际应用中的
项目范围管理的最佳实践：避免软件项目膨胀项目管理软件
在软件项目管理中，有效的项目范围管理是防止项目过度膨胀的关键。项目范围管理不仅涉及到项目的初步定义，还包括对项目需求的持续监控和控制。通过明确项目目标、合理规划资源、及时调整需求，可以有效避免项目在实施过程中出现范围蔓延的现象。特别是在软件开发中，需求的不断变化和增加往往会导致项目延期和成本超支。因此，建立清晰的项目范围界限、与利益相关者保持良好的沟通、定期进行项目审查是确保项目成功的必要措施。一
Hana 到 PostgreSQL 数据迁移同步
简述SAPHana与PostgreSQL已成为许多企业常用的两款重要数据库，实现这两者之间高效稳定的数据传输也是许多企业的诉求之一。本文将介绍如何使用国产数据迁移同步工具CloudCanal构建一条Hana到PostgreSQL的数据同步链路。技术点表级别CDC表CloudCanal在实现Hana源端增量同步时，最初采用的是单CDC表的模式，即所有订阅表的增量数据（插入、更新、删除）通过触发器统一
Python 3.13性能大提升：免费多线程时代来临敖行客 Allthinker python java 开发语言爬虫
在编程的世界里，Python一直以其简洁、易读和强大的功能而备受青睐。随着技术的不断进步，Python的每一个新版本都带来了新的惊喜和改进。而Python3.13无疑是其中的一颗璀璨明星。在一个数据驱动的世界里，Python已经成为了一种无处不在的编程语言，它的性能和功能的提升始终是开发者们关注的热点。随着大数据、人工智能、云计算等技术的飞速发展，对编程语言性能的要求也在不断提高。在这样的背景下，
使用Python开发PPT文本提取工具 winfredzhang python powerpoint 提取文字
在日常工作中，我们经常需要从PowerPoint文档中提取文本内容进行处理。本文将详细介绍如何使用Python开发一个带图形界面的PPT文本提取工具，该工具可以轻松地从PPTX文件中提取所有文本内容，并按页码显示。C:\pythoncode\new\GetContentOFPPT.py全部代码importwximportosfrompptximportPresentationclassPPTExt
Python（二）——设置文件路径：反斜杠 \ 、双反斜杠 \\和正斜杠 /的区别八年。。 python 开发语言学习
在Python中设置文件路径时，不清楚是用双反斜杠\\、反斜杠\还是正斜杠/时，一句话，使用正斜杠/！！！！下面对这三者进行详细介绍及区分：1.双反斜杠\\含义：在编程语言（如Python、C++等）中，反斜杠\是转义字符，用来表示特殊字符（如\n表示换行，\t表示制表符）。为了表示真正的反斜杠，必须使用双反斜杠\\。其实在Python中，第一个\用于转义，告诉Python后面的\是普通的反斜杠字
Python googletrans库使用爬虫俗手小马达 python 前端
googletrans是一个用于翻译文本的Python库，使用谷歌翻译的API。它可以将文本从一种语言翻译为另一种语言，支持多种语言自动检测。以下是基本的用法示例：安装googletrans库在终端或命令行中执行以下命令安装：pipinstallgoogletrans==4.0.0-rc1使用示例fromgoogletransimportTranslator#初始化翻译器translator=Tr
python中常用排序操作——sort方法和sorted函数的使用，超详细，内置模板代码！！! 盲敲代码的阿豪 python实用知识点 python sorted sort 排序
文章目录前言1、sort()方法的使用1.1基础操作1.2操作进阶（自定义排序的对象）2、sorted()函数的使用2.1基础操作2.2操作进行（自定义排序的对象）3、扩展：排序案例模板代码前言在Python中，排序的方法有多种，其中最常用的是使用内置的sort()方法和sorted()函数，接下来我将通过各种案例带领大家轻松学会这两种方法，同时还会扩展一些实用的排序案例模板代码。1、sort()
零基础小白学习网络安全的必备指南！ Stanford_1106 学习网络运维网络微信开放平台微信小程序微信公众平台 twitter web安全安全
成长路上不孤单【14后///计算机爱好者///持续分享所学///如有需要欢迎收藏转发///】今日分享关于网络安全方面的相关内容！关于【网络安全】目录：一、了解网络安全基础知识二、学习计算机和网络基础知识三、掌握网络安全技术四、使用网络安全工具五、实战操作六、了解法律法规与职业道德七、持续学习与提升网络安全对于现代社会的重要性不言而喻，它关乎到个人信息安全、企业机密保护乃至国家安全。然而，对于许多零
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默