Pandas数据处理加速技巧汇总

数据准备

此示例的目标是应用分时能源关税来计算一年的能源消耗总成本。也就是说，在一天中的不同时间，电价会有所不同，因此任务是将每小时消耗的电量乘以消耗该小时的正确价格。

从一个包含两列的 CSV 文件中读取数据，一列用于日期加时间，另一列用于以千瓦时 (kWh) 为单位消耗的电能。

日期时间数据优化

import pandas as pd
df = pd.read_csv('数据科学必备Pandas实操数据处理加速技巧汇总/demand_profile.csv')
df.head()
     date_time  energy_kwh
0  1/1/13 0:00       0.586
1  1/1/13 1:00       0.580
2  1/1/13 2:00       0.572
3  1/1/13 3:00       0.596
4  1/1/13 4:00       0.592

乍一看这看起来不错，但有一个小问题。 Pandas 和 NumPy 有一个 dtypes（数据类型）的概念。如果未指定任何参数，则 date_time 将采用 object dtype。

df.dtypes
date_time      object
energy_kwh    float64
dtype: object

type(df.iat[0, 0])
str

object 不仅是 str 的容器，而且是任何不能完全适合一种数据类型的列的容器。将日期作为字符串处理会既费力又低效（这也会导致内存效率低下）。为了处理时间序列数据，需要将 date_time 列格式化为日期时间对象数组（ Timestamp）。

df['date_time'] = pd.to_datetime(df['date_time'])
df['date_time'].dtype
datetime64[ns]

现在有一个名为 df 的 DataFrame，有两列和一个用于引用行的数字索引。

df.head()
               date_time    energy_kwh
0    2013-01-01 00:00:00         0.586
1    2013-01-01 01:00:00         0.580
2    2013-01-01 02:00:00         0.572
3    2013-01-01 03:00:00         0.596
4    2013-01-01 04:00:00         0.592

使用 Jupyter 自带的 %%time 计时装饰器进行测试。

def convert(df, column_name):
	return pd.to_datetime(df[column_name])

%%time
df['date_time'] = convert(df, 'date_time')

Wall time: 663 ms

def convert_with_format(df, column_name):
	return pd.to_datetime(df[column_name],format='%d/%m/%y %H:%M')

%%time
df['date_time'] = convert(df, 'date_time')

Wall time: 1.99 ms

处理效率提高将近350倍。如果在处理大规模数据的情况下，处理数据的时间会无限的放大。

数据的简单循环

既然日期和时间格式处理完毕，就可以着手计算电费了。成本因小时而异，因此需要有条件地将成本因素应用于一天中的每个小时。

在此示例中，使用时间成本将定义成三个部分。

data_type = {
    # 高峰
    "Peak":{"Cents per kWh":28,"Time Range":"17:00 to 24:00"},
    # 正常时段
    "Shoulder":{"Cents per kWh":20,"Time Range":"7:00 to 17:00"},
    # 非高峰
    "Off-Peak":{"Cents per kWh":12,"Time Range":"0:00 to 7:00"}, 
}

如果价格是一天中每小时每千瓦时 28 美分。

df['cost_cents'] = df['energy_kwh'] * 28

               date_time    energy_kwh       cost_cents
0    2013-01-01 00:00:00         0.586           16.408
1    2013-01-01 01:00:00         0.580           16.240
2    2013-01-01 02:00:00         0.572           16.016
3    2013-01-01 03:00:00         0.596           16.688
4    2013-01-01 04:00:00         0.592           16.576
...

但是成本计算取决于一天中的不同时间。这就是你会看到很多人以意想不到的方式使用 Pandas 的地方，通过编写一个循环来进行条件计算。

def apply_tariff(kwh, hour):
    """计算给定小时的电费"""    
    if 0 <= hour < 7:
        rate = 12
    elif 7 <= hour < 17:
        rate = 20
    elif 17 <= hour < 24:
        rate = 28
    else:
        raise ValueError(f'无效时间: {hour}')
    return rate * kwh

def apply_tariff(kwh, hour):
    """计算给定小时的电费"""    
    if 0 <= hour < 7:
        rate = 12
    elif 7 <= hour < 17:
        rate = 20
    elif 17 <= hour < 24:
        rate = 28
    else:
        raise ValueError(f'无效时间: {hour}')
    return rate * kwh

def apply_tariff_loop(df):
    energy_cost_list = []
    for i in range(len(df)):
    	# 循环数据直接修改df
        energy_used = df.iloc[i]['energy_kwh']
        hour = df.iloc[i]['date_time'].hour
        energy_cost = apply_tariff(energy_used, hour)
        energy_cost_list.append(energy_cost)

    df['cost_cents'] = energy_cost_list

Wall time: 2.59 s

循环 .itertuples() 和 .iterrows() 方法

Pandas 实际上 for i in range(len(df)) 通过引入 DataFrame.itertuples() 和 DataFrame.iterrows() 方法使语法就可能显得多余，这些都是yield一次一行的生成器方法。

.itertuples() 为每一行生成一个命名元组，行的索引值作为元组的第一个元素。名称元组是来自 Python 集合模块的数据结构，其行为类似于 Python 元组，但具有可通过属性查找访问的字段。

.iterrows() 为 DataFrame 中的每一行生成 (index, Series) 对（元组）。

def apply_tariff_iterrows(df):
    energy_cost_list = []
    for index, row in df.iterrows():
        energy_used = row['energy_kwh']
        hour = row['date_time'].hour
        energy_cost = apply_tariff(energy_used, hour)
        energy_cost_list.append(energy_cost)
    df['cost_cents'] = energy_cost_list

%%time
apply_tariff_iterrows(df)

Wall time: 808 ms

速度提高又3倍之多。

.apply() 方法

可以使用 .apply() 方法进一步改进此操作。 Pandas 的 .apply() 方法采用函数（可调用对象）并将它们沿 DataFrame 的轴（所有行或所有列）应用。

lambda 函数将两列数据传递给 apply_tariff()。

def apply_tariff_withapply(df):
    df['cost_cents'] = df.apply(
        lambda row: apply_tariff(
            kwh=row['energy_kwh'],
            hour=row['date_time'].hour),
        axis=1)

%%time
apply_tariff_withapply(df)

Wall time: 181 ms

.apply() 的语法优势很明显，代码简洁、易读、明确。在这种情况下所用时间大约是该 .iterrows() 方法的4分之一。

.isin() 数据选择

但是如何在 Pandas 中将条件计算应用为矢量化操作呢？一个技巧是根据的条件选择和分组 DataFrame 的部分，然后对每个选定的组应用矢量化操作。

使用 Pandas 的.isin()方法选择行，然后在矢量化操作中应用。在执行此操作之前，如果将 date_time 列设置为 DataFrame 的索引会更方便。

df.set_index('date_time', inplace=True)

def apply_tariff_isin(df):
    peak_hours = df.index.hour.isin(range(17, 24))
    shoulder_hours = df.index.hour.isin(range(7, 17))
    off_peak_hours = df.index.hour.isin(range(0, 7))

    df.loc[peak_hours, 'cost_cents'] = df.loc[peak_hours, 'energy_kwh'] * 28
    df.loc[shoulder_hours,'cost_cents'] = df.loc[shoulder_hours, 'energy_kwh'] * 20
    df.loc[off_peak_hours,'cost_cents'] = df.loc[off_peak_hours, 'energy_kwh'] * 12

%%time
apply_tariff_isin(df)

Wall time: 53.5 ms

其中整个过程方法返回一个布尔列表。

[False, False, False, ..., True, True, True]

.cut() 数据分箱

设置时间切分的列表和对那个计算的函数公式，让操作起来更简单，但是这个对于新手来说代码阅读起来有些困难。

def apply_tariff_cut(df):
    cents_per_kwh = pd.cut(x=df.index.hour,
                           bins=[0, 7, 17, 24],
                           include_lowest=True,
                           labels=[12, 20, 28]).astype(int)
    df['cost_cents'] = cents_per_kwh * df['energy_kwh']
    
%%time
apply_tariff_cut(df)

Wall time: 2.99 ms

Numpy 方法处理

Pandas Series 和 DataFrames 是在 NumPy 库之上设计的。这为提供了更大的计算灵活性，因为 Pandas 可以与 NumPy 数组和操作无缝协作。

使用 NumPy 的digitize()函数。它与 Pandas 的相似之处cut()在于数据将被分箱，但这次它将由一个索引数组表示，该数组表示每个小时属于哪个箱。然后将这些索引应用于价格数组。

import numpy as np

def apply_tariff_digitize(df):
    prices = np.array([12, 20, 28])
    bins = np.digitize(df.index.hour.values, bins=[7, 17, 24])
    df['cost_cents'] = prices[bins] * df['energy_kwh'].values

%%time
apply_tariff_digitize(df)

Wall time: 1.99 ms

处理效率比较

对比一下上面几种不同的处理方式的效率吧。

功能	运行时间（秒）
apply_tariff_loop()	2.59 s
apply_tariff_iterrows()	808 ms
apply_tariff_withapply()	181 ms
apply_tariff_isin()	53.5 ms
apply_tariff_cut()	2.99 ms
apply_tariff_digitize()	1.99 ms

HDFStore 防止重新处理

通常构建复杂的数据模型时，对数据进行一些预处理会很方便。如果有 10 年的分钟频率用电量数据，即指定了格式参数简单地将日期和时间转换为日期时间也可能需要 20 分钟。只需要这样做一次而不是每次运行模型时都需要进行测试或分析。

可以在这里做的一件非常有用的事情是预处理，然后以处理后的形式存储数据，以便在需要时使用。但是如何才能以正确的格式存储数据而无需再次重新处理呢？如果要保存为 CSV 只会丢失您的日期时间对象，并且在再次访问时必须重新处理它。

Pandas 有一个内置的解决方案使用 HDF5，一种专为存储表格数据数组而设计的高性能存储格式。Pandas 的 HDFStore 类允许将 DataFrame 存储在 HDF5 文件中，以便可以有效地访问它，同时仍保留列类型和其他元数据。dict 是一个类似字典的类，因此可以像对 Python对象一样进行读写。

将预处理的耗电量 DataFrame 存储df在 HDF5 文件中。

data_store = pd.HDFStore('processed_data.h5')

# 将 DataFrame 放入对象中，将键设置为 preprocessed_df 
data_store['preprocessed_df'] = df
data_store.close()

从 HDF5 文件访问数据的方法，并保留数据类型。

data_store = pd.HDFStore('processed_data.h5')

preprocessed_df = data_store['preprocessed_df']
data_store.close()

到此这篇关于Pandas数据处理加速技巧汇总的文章就介绍到这了,更多相关Pandas数据处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

Python魔法参数：深入解析*args和**kwargs的强大用途图灵学者 python精华 python java linux
目录引言基础概念解析*args：处理位置参数**kwargs：处理关键字参数*args和**kwargs的实际应用场景1.函数装饰器中使用*args和**kwargs2.类构造函数中使用*args和**kwargs3.API调用中使用**kwargs与其他参数类型的结合使用结合默认参数位置参数与关键字参数的混合使用高级技巧和注意事项参数解包与重打包性能考量调试技巧案例研究场景描述实现步骤实际应用案
python封装成exe文件 wenangou python
这篇文章主要介绍了一个有趣的事情，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。Python打包exe文件方法汇总【4种】Python作为解释型语言，发布即公开源码，虽然是提倡开源但是有些时候就是忍不住想打包成exe，不仅仅是为了对代码进行加密，而是为了跨平台。防止有些没有安装py环境的电脑无法运行软件小神猪。目录对python代码打包成
1、Java 环境搭建与基本概念：开启 Java 编程之旅的第一步翻晒时光从0学Java java 开发语言
大家好，欢迎来到我们的Java学习系列博客，今天是第一课，我们将一起探索Java环境搭建与基本概念。无论你是编程新手，还是想要学习一门新语言的老手，Java都是一个非常值得学习的语言，它在众多领域都有着广泛的应用，从企业级软件开发、安卓应用开发到大数据处理，都能看到Java的身影。让我们开始这充满挑战与乐趣的Java学习之旅吧！一、Java的发展历程与特点Java诞生于SunMicrosystem
怎样测试一笔金融交易？自由安软件测试软件测试金融支付银行测试
文章目录前言一支付交易的过程二支付交易测试点1.报文前置数据处理2.业务前置数据处理3.业务处理中(交易进行中)4.业务处理完成(交易完成)5.上，下游关联功能检查前言这篇文章来梳理下关于金融支付的一些基本测试点，由于平时接触的基本都是偏业务底层和接口测试，所以从数字底层的角度来简单总结下金融支付交易的测试点，当个人笔记使用。一支付交易的过程一个完整的支付过程其实流程是比较长的，不是我们去
“数据飞轮” 理念焕新，助力 2025 企业数智化发展大数据大模型
2024年，全球科技领域在人工智能浪潮的席卷下加速前行，数字化转型进程也随之踏入全新阶段。在这一背景下，数据飞轮理念延续“以数据消费促资产建设，以数据消费助业务发展”的核心内涵，实现焕新升级。在2025年，升级后的数据飞轮2.0，将AI视作数智化的核心竞争力，借助AI技术推动企业更普惠的数据消费。“数据飞轮”2.0的理念，带来了多方面的显著升级。其一，它将AI技术深度融入数据生产、管理与应用各环节
奇墨TBM技术业务管理系统：助力企业实现IT成本透明化奇墨 ITQM 云计算
在数字化转型加速的当下，企业的IT投入不断增加。然而，随着IT环境日益复杂化，许多企业在管理IT成本时面临着IT支出不透明、资源分配效率低下、业务部门对IT部门的价值缺乏认知等挑战。这些挑战不仅阻碍了企业运营效率的提升，还可能导致资源浪费。在此背景下，奇墨科技发行首个TBM技术业务管理系统，上线TBM技术业务管理平台产品，解决数字化发展痛点、难点，帮助企业实现IT成本透明化，驱动高效的技术业务管理
vscode开发stm32的编译环境配置教程智驾汽车电子软件 stm32 vscode 单片机编译环境
文章目录1.背景2.配置步骤2.1.vscode插件安装2.2.新建工程2.3.配置编译环境2.3.1.芯片支持2.3.2.编译器选择2.3.3.CPU类型2.3.4.硬件浮点选项2.3.5.使用自定义的链接脚本2.3.6.RAM/FLASH布局2.3.7.构建器选项2.4.编译3.问题汇总3.1.浮点编译开关3.2.MicroLIB编译参考：1.背景想在vscode中开发STM32，本文主要描述
火山引擎数据飞轮2.0：聚焦Data+AI，驱动企业数智化转型大数据
数字化浪潮席卷全球，数据与人工智能的融合正给各行各业带来巨大变革，不仅重塑数据处理流程，更在决策支持、业务优化、产品创新等多个维度上展现巨大的潜力。近期，火山引擎数智平台技术和产品专家受邀出席DataFun首届“数据与人工智能解决方案大会”，围绕数据飞轮2.0模式，及Data+AI领域热门话题ChatBI、多模态数据湖展开分享。据介绍，2023年4月火山引擎发布了数据飞轮，其内核为“以数据消费促资
JVM学习指南(40)-Java调优工具介绍俞兆鹏 JVM学习指南 JVM
文章目录引言JVM调优工具概览工具详细解析JConsoleVisualVMMATJProfiler调优工具的选择与使用最佳实践与技巧总结引言在Java开发中，JVM（Java虚拟机）调优是一个至关重要的环节。它不仅关系到应用的性能，还直接影响到系统的稳定性和资源利用率。随着应用规模的扩大和业务需求的增加，合理地对JVM进行调优变得尤为重要。调优工具作为辅助我们进行性能优化的利器，能够帮助我们更直观
基于国产鸿蒙系统的先进身份识别技术：原理、应用与实现 zrgkcard2024 harmonyos 华为程序人生智能硬件
基于国产鸿蒙系统的先进身份识别技术：原理、应用与实现在当今数字化转型加速的时代背景下，精准且高效的身份识别技术已成为众多领域实现智能化管理与安全保障的核心要素。本公司于身份证识别插件领域持续深耕，凭借深厚技术积累与创新研发能力，成功实现重大突破——全新推出适配国产鸿蒙系统的身份证及多证件识别解决方案，为身份识别技术应用开拓全新格局。一、技术核心原理与优势本身份证识别插件基于先进的NFC（近场通信）
【1000个GDB技巧之】GDB中使用python脚本的方法以及4个注意事项（define、python、end、gdb.execute、to_string=True）北冥的备忘录 Linux调试方法 python 调试 gdb
要点使用define定义函数在define中使用python…end包围python使用的代码（python代码也可以不在包围中）在python中使用gdb命令用gdb.execute，并且需要指定to_stringsgdb可以单独写成文件然后source进来坑：坑1：python和gdb的end都不值直接注释，需要另起一行坑2：gdb.execute执行后的输出结果包括$xxx获取需要做转换坑3
R语言的正则表达式编程小筑包罗万象 golang 开发语言后端
R语言中的正则表达式：深度解析与应用引言正则表达式（RegularExpression），简称正则，是一种用于描述字符串模式的工具。在数据科学、文本处理以及数据清理中，正则表达式都是一项不可或缺的技能。而R语言作为一种广泛应用于统计分析和数据科学的编程语言，内置了对正则表达式的强大支持。本文将深入探讨R语言中的正则表达式，包括基本语法、常用函数，以及在实际数据处理中如何应用正则表达式。正则表达式的
利用Pygame实现Python塔防游戏开发阿卞是宝藏啊
本文还有配套的精品资源，点击获取简介：本项目介绍如何使用Python的pygame库制作塔防游戏，强调游戏开发的各个基本流程和技巧。包括初始化pygame、游戏结构设计、游戏逻辑实现、图像与声音处理，以及游戏优化和调试过程。项目旨在提升开发者在Python编程和游戏开发方面的技能。1.Python与pygame库基础简介Python是一种广泛应用于各个领域的高级编程语言，以其简洁明了的语法和强大的
ELK Stack学习笔记在线打码学习笔记 redis linux centos es elk
一、ELKStack简介1、Elasticsearch一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。它是一个建立在全文搜索引擎ApacheLucene(信息检索的工具jar包)基础上的搜索引擎，使用Java语言编写2、Logstash一个完全开源的工具，可以对日志进行收集、过滤，并将其存储供以后使用。是开源的服务器端数据处理管道，能够从多个来源收集数据、转换数据。并保存到
Android 应用逆向与 Hook 技术进阶实战阿贾克斯的黎明 java android
目录Android应用逆向与Hook技术进阶实战一、课程目标二、变量Hook详解（一）静态变量与实例变量区分（二）静态变量Hook步骤（三）实例变量Hook步骤三、构造函数Hook攻略（一）构造函数识别（二）Hook构造函数方法四、方法主动调用技巧（一）静态方法与实例方法区分及调用原则（二）静态方法调用示例（三）实例方法调用示例五、内部类Hook指南（一）内部类定义与识别（二）Hook内部类方法步
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
数据存储设计面试：了解数据库分区、分片、索引小蜗牛慢慢爬行数据库 mysql 面试
快速掌握：分片将您的数据分布到多个服务器，以实现可扩展性和更好的性能。分区将单个数据库内的表划分为更小的部分（分区），从而提高查询性能和可管理性。索引创建数据结构以加速某些列的数据检索，从而提高查询性能，但代价是额外的存储和写入开销。数据库分片分片是一种在多个服务器或数据库之间水平划分数据的方法，这样每个服务器（或“分片”）都包含整个数据集的一个子集。此技术用于提高数据库的可扩展性和性能，尤其是在
咱们继续学Java——高级篇第一百九十八篇：之Java 2D中的区域与笔划知识详解一杯年华@编程空间咱们继续学java高级篇 struts spring boot java-ee jetty junit log4j servlet
咱们继续学Java——高级篇第一百九十八篇：之Java2D中的区域与笔划知识详解在Java的学习征程中，每一个知识点都是我们积累经验、提升能力的基石。我写这篇博客的目的，就是希望能与各位一同探索Java编程的奇妙世界，共同在这个领域中取得进步。今天，我们将聚焦于Java2D中的区域和笔划相关知识，深入了解这些概念和操作，相信这会让你在图形绘制方面有更多的技巧和方法。Path2D类的方法介绍java
Hadoop 常用命令 ZenPower hadoop 大数据分布式
查看指定目录下的文件及文件夹hadoopfs-ls/user/hive/warehouse/查看指定目录下的文件及文件夹大小#文件大小（单位Byte）hadoopfs-du/user/hive/warehouse#文件大小（单位人性化）hadoopfs-du-h/user/hive/warehouse#文件大小（只显示汇总）hadoopfs-du-s/user/hive/warehouse删除指定
hadoop常用命令汇总 m0_67402026 java java 后端
1、查看目录下的文件列表：hadoopfs–ls[文件目录]hadoopfs-ls-h/lance2、将本机文件夹存储至hadoop上：hadoopfs–put[本机目录][hadoop目录]hadoopfs-putlance/3、在hadoop指定目录内创建新目录：hadoopfs–mkdir[目录]hadoopfs-mkdir/lance4、在hadoop指定目录下新建一个文件，使用touch
使用 RunnableParallel 并行执行步骤的实践指南 GEAWfaacc 服务器 linux 运维 python
在现代软件开发中，优化计算效率是非常关键的任务。尤其在涉及大规模数据处理或复杂计算时，并行执行成为提高性能的重要手段。LangChain提供了RunnableParallel工具，能够方便地将多个计算过程并行化执行。本文将通过实例代码，深入解析如何利用RunnableParallel实现计算过程的并行化。技术背景介绍RunnableParallel是一个强大的工具，可以将多个可运行的任务（即Run
2024年Vue面试题汇总 2401_89210258 vue.js 前端 javascript
流程图如下：vue核心知识——语法篇1.请问v-if和v-show有什么区别？相同点：两者都是在判断DOM节点是否要显示。不同点：a.实现方式：v-if是根据后面数据的真假值判断直接从Dom树上删除或重建元素节点。v-show只是在修改元素的css样式，也就是display的属性值，元素始终在Dom树上。b.编译过程：v-if切换有一个局部编译/卸载的过程，切换过程中合适地销毁和重建内部的事件监听
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
【数据集】全球预报系统GFS概述：数据下载及处理 WW、forever 数据集 GFS
【数据集】全球预报系统GFS概述：数据下载及处理GFSweatherdata数据下载NOAANOMADSNOAA数据处理基于Python完成数据重命名参考GFSweatherdata全球预报系统GFS（GlobalForecastSystem）是美国国家海洋和大气管理局（NOAA）开发和运行的数值天气预报模型。它是一个全球性的大气模式，提供中长期天气预报。以下是一些关键点：全球覆盖：GFS提供全球
Python在WRF模型自动化运行及前后处理中实践技术应用-包括数据处理、模型运行、结果可视化等步骤。 KY_chenzhao python 自动化开发语言
1.背景与目标WRF（WeatherResearchandForecasting）模型是中尺度气象数值模式的佼佼者，广泛应用于气象预报和气候研究。Python在WRF模型中的应用主要体现在前后处理、自动化运行和数据可视化等方面。本文将以风速预测为例，详细说明Python在WRF模型中的具体应用，包括数据处理、模型运行、结果可视化等步骤。2.数据准备数据来源包括WRF模型的输出数据和实际观测数据。这
R语言的软件工程 BinaryBardC 包罗万象 golang 开发语言后端
R语言的软件工程1.引言随着数据科学的快速发展，R语言作为一种统计计算和图形绘制的编程语言，其在数据分析、可视化以及机器学习等领域的应用日益广泛。尽管R语言在数据处理上有其独特的优势，但要将其运用于大型项目和商业应用中，就需要遵循软件工程的原则。本篇文章将探讨R语言在软件工程中的应用，主要涵盖软件开发生命周期、代码规范、版本控制、测试和文档等方面。2.软件开发生命周期软件开发生命周期（SDLC）是
Python中的Pipeline快速教学、 Coding Is Fun python 开发语言
在Python中，Pipeline通常指的是机器学习工作流中的流水线，尤其是在使用scikit-learn库时。Pipeline允许你将多个数据处理步骤和模型训练步骤串联起来，形成一个有序的工作流程。这不仅使代码更简洁，还能确保在训练和预测时一致的数据处理。以下是一个快速教学，帮助你掌握Python中Pipeline的核心概念和使用方法。目录安装和导入必要的库Pipeline的基本概念创建一个简单
实操数据预处理：从理论到实践的基础步骤炼丹侠 python 机器学习人工智能
在快速发展的人工智能领域，数据不仅是基础，更是推动技术创新的关键力量。高质量的数据集是构建高效、准确模型的前提。本文将全面深入探讨数据预处理的各个环节，从基础的数据清洗到复杂的数据增强，再到高效的Python应用实践，为你提供一站式的数据处理解决方案。无论你的经验如何，这篇文章都将成为你宝贵的资源。数据清洗：打好数据质量的基础数据清洗是提升数据质量的首要步骤，涵盖了如下几个关键操作：缺失值的智能处
【python】实用的文件操作-多个excel文件的两种合并方式匡虐文件操作 python
【python】实用的文件操作-excel文件两种合并方式工作中常遇到多个excel文件表的结构一样，只是内容不同，现需要将其合并在一起。有两种方式，一种是合并成一张表，将其他表中的数据追加到同一张表中。另外一种是存放成一个文件多张表，不同的文件放到一个excel文件的不同工作簿中。1、合成一张表importpandasaspdimportospath=r'C:\Users\lenovo\Docu
Python的Selenium库中的模块、类和异常的汇总 qq_24654817 python selenium 开发语言
1.`selenium.common.exceptions`：包含了Selenium中可能出现的异常。2.`selenium.webdriver.chrome.options`：用于配置Chrome浏览器的选项。3.`selenium.webdriver.chrome.service`：用于管理Chrome浏览器的后台服务。4.`selenium.webdriver.chrome.webdrive
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他