RedGhost117

Python高维度大型气象矩阵存储策略分享

零、前情提要

最近需要分析全球范围多变量的数值预报数据，将grb格式的数据下载下来经过一通处理后需要将预处理数据先保存一遍，方便后续操作，处理完发现此时的数据维度很多，数据量巨大，使用不同的保存策略的解析难度和储存大小可以相差很大，在此分享下不同存储方式的差异

对比发现，使用ZARR储存高维度大型气象矩阵的储存成本最低，相比于使用pkl存储字典数据小近十倍！

一、两种数据存储策略

1.1 预处理成字典存储

按日期读取各个模式数据，依次提取出各个变量，一个变量一个数组

{
            '20240701': {
                'ec': {
                    'T': [],
                    'rh': [],
                },
                'necp': {
                    'T': [],
                    'rh': [],
                }
            },
            '20240702': {
                'ec': {
                    'T': [],
                    'rh': [],
                },
                'necp': {
                    'T': [],
                    'rh': [],
                }
            },
        }

1.2 预处理为数组存储

预报数据维度
$F (T, m o d e l s, v a r iab l s, p ress u res, l a t, l o n)$

观测场数据维度
$O (T, m o d e l s, p ress u res, l a t, l o n)$

T为时间数，models为模型数量，variables为变量，pressures为气压层，后面两者为经纬度，使用的0.25度分辨率的全球数据，数据量是相当大的

二、pkl储存

pkl的特点是可以直接储存python的字典，读取和存储都非常方便
但是占用的文件大小相对很大

2.1 储存策略

pkl擅长储存python字典数据

res = {
            '20240701': {
                'ec': {
                    'T': [],
                    'rh': [],
                },
                'necp': {
                    'T': [],
                    'rh': [],
                }
            },
            '20240702': {
                'ec': {
                    'T': [],
                    'rh': [],
                },
                'necp': {
                    'T': [],
                    'rh': [],
                }
            },
        }

2.2 储存和读取方式

import pickle as pkl
# 存储pkl
def save2pkl(data, save_filepath):
    with open(save_filepath, 'wb') as file:
         pickle.dump(data, file)
     print('finish saving')

def read_pkl(filepath):
    with open(filepath, 'rb') as file:
        data = pkl.load(file)
    return data

2.3 储存大小

结果是使用pkl储存出来的数据量巨大，两个时段的数据量达到3G，是无法接受的

三、HDF5存储

HDF5既可以通过group的形式储存字典，也可以直接存储numpy数组

3.1 储存策略1（存储大数组）

def save2hdf5(save_filepath, data, compression='gzip'):
      with h5py.File(save_filepath + '.hdf5', 'w') as hf:
          hf.create_dataset('data_name', data=data, compression=compression)
      print('finish saving')

3.2 储存策略2（存储字典）

以上面这个字典为例，通过遍历这个字典的k,v循环存储，需要不断创建group来形成字典的树状结构

data= {
            '20240701': {
                'ec': {
                    'T': [],
                    'rh': [],
                },
                'necp': {
                    'T': [],
                    'rh': [],
                }
            },
            '20240702': {
                'ec': {
                    'T': [],
                    'rh': [],
                },
                'necp': {
                    'T': [],
                    'rh': [],
                }
            },
        }
def save2hdf5(save_filepath, data, compression='gzip'):
    with h5py.File(save_filepath , 'w') as file:
        for date, models in data.items():
            date_group = file.create_group(date)
            for model, variables in models.items():
                model_group = date_group.create_group(model)
                for var_name, var_data in variables.items():
                    model_group.create_dataset(var_name, data=var_data, compression=compression)
    print('finish saving')

这样是针对当前字典写死的代码，还可以用递归解决


def save_dict_to_hdf5(group, data_dict, compression):
    for key, value in data_dict.items():
        if isinstance(value, dict):
            # 创建一个新的 HDF5 组
            subgroup = group.create_group(key)
            # 递归调用
            DataReaderDict.save_dict_to_hdf5(subgroup, value, compression)
        else:
            # 直接保存数据到 HDF5 数据集中
            group.create_dataset(key, data=value, compression=compression)
            
def save2hdf5(data, save_filepath , compression='gzip'):
    with h5py.File(save_filepath + 'hdf5', 'w') as hdf5_file:
        root_group = hdf5_file.create_group('root')
        save_dict_to_hdf5(root_group, data, compression)

3.3 设置压缩策略

在 HDF5 中，压缩策略有几种常见的方法，可以用来减少数据存储空间的需求，通过compression参数设置（来自GPT）：

gzip: 这是最常用的压缩方法，它使用 DEFLATE 算法进行压缩。Gzip 在压缩率和压缩速度之间提供了一个良好的平衡。可以通过设置压缩级别来调整压缩的强度。
szip: 这是 HDF5 提供的另一种压缩方法，特别适用于具有大的数据块的情况。Szip 能够提供更高的压缩比，但可能会比 Gzip 更慢。
lzf: 这种压缩算法提供了更快的压缩和解压缩速度，但压缩比通常不如 Gzip 或 Szip 高。它适用于需要快速访问压缩数据的场景。
None: 不进行任何压缩。这种策略适用于当压缩不必要或影响性能时的情况

3.4 读取HDF5返回字典

读取方式：通过递归遍历group形成一个dict

def read_hdf5_group(group):
    """
    递归读取 HDF5 组及其所有子组和数据集
    """
    result = {}
    for key, item in group.items():
        if isinstance(item, h5py.Group):
            # 如果是组，递归调用
            result[key] = read_hdf5_group(item)
        elif isinstance(item, h5py.Dataset):
            # 如果是数据集，直接读取数据
            result[key] = item[:]
    return result


def read_hdf5(file_path):
    """
    读取 HDF5 文件，返回字典表示的数据结构
    """
    try:
        with h5py.File(file_path, 'r') as file:
            # 从根组开始递归读取数据
            data = read_hdf5_group(file)
        return data
    except FileNotFoundError as e:
        print(e)
        return None
filepath = r'E:\pythonProject\superensemble\data\combined_data\20240721-20240722-00-24_dict.hdf5'
data = read_hdf5(filepath)
print("a")

3.5 储存大小

使用gzip默认的压缩等级4进行存储，存储字典的大小为1.04GB
储存数组的大小为777MB
在相同的压缩方式下，直接存储数组的数据大小更小

四、ZARR存储

4.1 储存策略1（储存字典）

递归调用储存

import zarr
def save2zarr(data, save_filepath ):
   zarr_store = zarr.DirectoryStore(save_filepath)
   root = zarr.open(zarr_store, mode='w')
   self.store_dict_to_zarr(root, data)

def store_dict_to_zarr(root, data_dict):
   for key, value in data_dict.items():
       if isinstance(value, dict):
           # 如果值是字典，则创建一个组
           if key not in root:
               root.create_group(key)
           DataReaderDict.store_dict_to_zarr(root[key], value)  # 递归处理子字典
       else:
           # 否则，假设值是数组，创建数据集
           root.create_dataset(key, data=value)

4.2 储存策略2（储存大数组）

直接保存一个数组的方式如下

import zarr
import numpy as np

# 创建一个新的 Zarr 数组
zarr_array = zarr.open('data.zarr', mode='w', 
shape=(100, 100), dtype='f4', chunks=(10, 10))

# 填充数据
data = np.random.random((100, 100))
zarr_array[:] = data

在参数中需要填写数组的维度，存储的数据类型以及分块，压缩策略等等

4.3 设置数据分块以及压缩

Zarr 支持多种压缩算法，如 zlib, gzip, bzip2, lz4, 和 zstd，可以在创建 Zarr 数组时指定压缩方式和参数

import zarr
import numpy as np

# 创建一个带有分块和压缩的 Zarr 数组
compressor = zarr.Blosc(cname='zstd', clevel=3, shuffle=2)  # 使用 zstd 压缩

zarr_array = zarr.open('compressed_data.zarr', mode='w', shape=(100, 100, 100), dtype='f4',
                       chunks=(10, 10, 10), compressor=compressor)

# 填充数据
data = np.random.random((100, 100, 100))
zarr_array[:] = data

4.4 读取zarr返回字典

与读取hdf5类似，通过递归遍历group返回字典

import zarr
def read_zarr_group(group):
    """
    递归读取 Zarr 组及其所有子组和数据集
    """
    result = {}
    for key, item in group.items():
        if isinstance(item, zarr.Group):
            # 如果是组，递归调用
            result[key] = read_zarr_group(item)
        elif isinstance(item, zarr.Array):
            # 如果是数组，直接读取数据
            result[key] = item[:]
    return result

def read_zarr(file_path):
    """
    读取 Zarr 文件，返回字典表示的数据结构
    """
    try:
        store = zarr.DirectoryStore(file_path)
        root_group = zarr.open(store, mode='r')
        # 从根组开始递归读取数据
        data = read_zarr_group(root_group)
        return data
    except FileNotFoundError as e:
        print(e)
        return None
filepath = 'your filepath'
data = read_zarr(filepath)

4.5 储存大小

相同的数据，如果以字典存储，即使用zarr，也有882MB

但如果合理读取成一个大数组，则只有378MB，远远小于存储字典

五、小节

对比发现使用zarr存储高纬度的网格数据占用的空间最小，容量为用pkl存储字典的1/10，一旦时间维度拉长使用字典存储的占用可能会大大增加
对于时间序列的气象数据，预处理阶段处理成矩阵数组比处理成字典更加省空间且在下一阶段的操作更方便
在下一阶段的计算方面，使用多维矩阵也可以方便选出各种数据，同时使用矩阵运算运用numpy的一些方法可以大大减少各种循环，非常高校
因此，数据维度较为规整的情况下，尽量读取储存成矩阵数组的形式我认为更优

你可能感兴趣的:(python,zarr,hdf5,pickle,era5,气象数据)

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术 AI学习不迷路人工智能数据库 llama 语言模型 RAG 大模型 AI大模型
RAG：AI大模型联合向量数据库和Llama-index，助力检索增强生成技术在大模型爆发的时代，快速准确地从大量数据中检索出有价值的信息变得至关重要。检索增强生成（RAG）技术，结合了传统的信息检索和最新的大语言模型（LLM），不仅能够回答复杂的查询，还能在此基础上生成信息丰富的内容。RAG技术的核心在于其能够将大型语言模型的生成能力与特定数据源的检索相结合。这意味着，当模型面对用户提出的问题时
25.1.22 RlTED java
数据结构：java可以实现许多的数据结构类型顺序存储和链式存储我们的数据是存储在内存中的。我们的数据在内存中可以申请顺序的存储和链式的存储。顺序存储：我们就可以划分一个连续的存储空间，且规定每个数据占用固定的空间大小，故而我们想要访问第x个数据只需要：起始空间+x*分配的大小（查询快）删除/插入时我们需要将后面的数据挪前/挪后，故而插入/删除时慢有时我们申请的空间太大，或者我们申请后前后剩余的可以
【某大厂一面】数组和链表区别冰糖心158 2025 Java面试系列链表数据结构 java
在Java中，数组（Array）和链表（LinkedList）是两种常见的数据结构，它们在存储和操作方式上有显著的区别。了解它们的差异有助于选择适合特定应用场景的结构。下面是数组和链表之间的详细比较。1.存储结构数组（Array）连续内存空间：数组在内存中是一个连续的块，所有元素依次存储在一起。固定大小：数组的大小在创建时就确定，不能动态调整。创建后不能改变大小（除非重新创建数组并拷贝内容）。索引
Appium介绍 max500600 开发工具 appium
在使用不同版本的Appium包进行自动化测试时，出现警告问题可能是由于版本不兼容、配置不正确等原因导致的。下面将详细介绍解决这些问题的步骤，确保模拟器能够正常启动，并能在Appium查看器中同步显示。1.环境准备首先，确保你已经安装了以下工具和库：AppiumServer：可以从Appium官方网站下载并安装。AppiumPythonClient：使用以下命令安装：pipinstallAppium
磁盘调度算法 max500600 算法算法数据库服务器
先来先服务（FCFS）算法原理：按照进程请求访问磁盘的先后顺序进行调度。就像是排队买东西，先到的先服务。示例（Python）：deffcfs(requests):"""requests是一个包含磁盘请求序列的列表例如requests=[98,183,37,122,14,124,65,67]假设磁头初始位置为53"""head_position=53total_distance=0forreques
requests 模块 dme. 爬虫学习dme 爬虫爬虫 python
在python中requests模块常用于爬虫本文将会讲述requests常用函数的用法。1.requests.get()/requests.post()1.基本语法#首先导入requests#pipinstallrequestsimportrequests#这里以百度为例url="https://www.baidu.com/"resp=requests.get(url)#requests.pos
Python学习第十天--处理CSV文件和JSON数据無量空所 python学习 python
CSV：简化的电子表格，被保存为纯文本文件JSON：是一种数据交换格式，易于人阅读和编写，同时也易于机器解析和生成，以JavaScript源代码的形式将信息保存在纯文本文件中一、csv模块CSV文件中的每行代表电子表格中的一行，逗号分隔了该行中的单元格。但并非CSV文件中的每个逗号都表示两个单元格之间的分界。CSV文件也有自己的转义字符，允许逗号和其他字符作为值的一部分。所以总是应该使用csv模块
Redis性能优化古龙飞扬 redis 性能优化数据库
Redis性能优化是一个复杂但至关重要的过程，它涉及多个方面，包括数据结构的选择、内存管理、网络优化、持久化策略等。以下是一些关键的Redis性能优化策略：一、数据结构优化选择合适的数据结构：Redis支持多种数据结构，如字符串、哈希、列表、集合和有序集合。根据实际需求选择合适的数据结构可以显著提高性能。例如，存储用户信息时，使用哈希结构而不是多个字符串可以更高效地存储和访问多个属性。避免使用过大
使用 Python 的`turtle`库来实现 2025 新年快乐的程序 go5463158465 算法 python python 开发语言
以下是一个使用Python的turtle库来实现2025新年快乐的程序，其中包含烟花效果和祝福语：importturtleimportrandom#设置画布和画笔screen=turtle.Screen()screen.setup(width=800,height=600)screen.bgcolor("black")screen.title("2025新年快乐！")#定义烟花类classFire
二叉树深度的介绍 go5463158465 python 算法算法开发语言 python
二叉树深度的定义：二叉树的深度（高度）是指从根节点到最远叶子节点的最长路径上的节点数。例如，一个只有根节点的二叉树，其深度为1；如果根节点有两个子节点，且每个子节点又分别有两个子节点，那么这个二叉树的深度为3。计算二叉树深度的方法：递归方法：递归是解决二叉树问题的常用方法。对于二叉树深度的计算，其递归的思想是：二叉树的深度等于其左子树和右子树深度的最大值加1。以下是使用Python实现的代码：cl
2025最新实测可用的免费股票API接口推荐：python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票实时、历史、指标等数据 Eumenides_max python javascript java 股票数据接口股票API接口
在数字化时代，股票投资已不再局限于传统的交易方式。随着金融科技的飞速发展，API（应用程序编程接口）接口正逐渐成为股票交易领域的新宠，为投资者提供了更加便捷、高效的交易体验。API接口在股票交易中的应用，主要体现在其能够实现数据的实时传输和交互。通过API接口，投资者可以实时获取市场动态、股票价格、交易量等关键信息，为决策提供有力支持。同时，API接口还支持自动化交易，投资者可以根据预设的交易策略
Python 魔法学院 - 第03篇：Python 变量与数据类型 ⭐ 码力全開《Python 魔法学院》python 开发语言 windows pycharm
目录1.引言：开启Python变量与数据类型的魔法之旅2.变量：数据的魔法标签️2.1什么是变量？2.2变量的命名规则3.数据类型：Python的魔法工具箱3.1数据类型示例3.2数据类型的内存结构内存结构模拟4.Python中的关键字和保留字5.Python可变类型及其方法详解️5.1列表（List）5.1.1列表的创建5.1.2列表的常用方法5.1.3列表方法的使用示例及内存模拟5.2集合（S
MySQL版本升级穷苦书生_万事愁数据库 mysql adb android
MySQL版本升级升级说明MySQL升级的实质对数据字典的升级数据字典有：mysql、information_schema、performance_schema、sysschema。MySQL升级的两种方式大版本升级（需要考虑业务的可用性）5.6to5.75.6to8.05.7to8.0小版本升级（业务不是必须的）5.7.11to5.7.228.0.11to8.0.12升级技术1）备份恢复：mys
空间权重矩阵——理论介绍（第一期）我也可以是流浪诗人584 空间计量经济学矩阵 python 数据分析线性回归
空间权重矩阵的介绍在进行空间数据分析时，空间权重矩阵是一个重要的工具。它用于表示不同地理位置之间的空间关系。本文将详细介绍空间权重矩阵的定义、构建方法以及在空间计量分析中的应用。什么是空间权重矩阵？空间权重矩阵（SpatialWeightMatrix）是一个矩阵，用于量化地理单元之间的相互影响。矩阵中的每个元素表示两个地理单元之间的空间联系强度。常见的空间权重矩阵类型包括：邻接矩阵（Adjacen
Docker部署MySQL 小海海不怕困难部署 docker mysql 服务器
1.搜索mysql镜像dockersearchmysql2.拉取mysql镜像dockerpullmysql:5.73.创建挂载目录#在/root目录下创建mysql目录用于存储mysql数据信息mkdir~/mysqlcd~/mysql4.创建容器，设置端口映射、目录映射dockerrun-id\-p3307:3306\--name=c_mysql\-v$PWD/conf:/etc/mysql/
【杂记-浅谈TCP/IP协议模型】叫我小虎就行了网络工程进阶知识 TCP/IP
TCP/IP协议模型一、TCP/IP协议概述2、端口号使用规则二、TCP/IP各层级一、TCP/IP协议概述TCP/IP，TransmissionControlProtocol/InternetProtocol。TCP/IP协议是指一个有FTP、SMTP、TCP、UDP、IP等协议构成的协议簇，是互联网通信的基础，它定义了数据在网络中传输的整个流程，这个模型将网络通信的任务分解为若干层次，每一层都
MySQL 查数据转Json 大乔乔布斯 mysql json 数据库
将数据库表里的字段查询出来并且连接成json格式的实现方法SELECTCONCAT('[',GROUP_CONCAT(JSON_OBJECT('key-name',col1,'keyname2',col2,……,'key-namen',coln)),']')asjson_resultFROMtablenamewherecol1=83结果会将查询的数据一行行用{}返回，行之间","分隔,最终结果[]
Python 实现2048 yingjiejk python python pygame 开发语言
2048游戏是一个经典的数字益智游戏，使用Python语言可以很容易地实现它。以下是一个简单的代码示例：importpygameimportrandompygame.init()#设置颜色WHITE=(255,255,255)BLACK=(0,0,0)GRAY=(128,128,128)RED=(255,0,0)GREEN=(0,255,0)BLUE=(0,0,255)#设置屏幕大小size=(4
MySQL（1） memorycx mysql 数据库
数据库基础篇MYSQL概述SQL函数约束多表查询事务进阶篇存储索引索引SQL优化试图/存储过程/触发器锁InnoDB核心MySQL管理运维篇日志主从复制分库本表读写分离基础篇MySQL数据库概念：存储数据的仓库，数据是有组织的进行存储（DataBase，DB）数据库管理系统：操作和管理数据库的大型软件（DataManagementSystem，DBMS）SQL：操作关系型数据库的编程语言，定义了一
python 中serial.read用法详解之serial.read(inwaiting or 1) huiyuanzhenduo python
在Python中，serial.read(inwaitingor1)是pyserial库中用于从串口读取数据的代码片段，下面是详细解释：read()serial类的方法，用于从串口缓冲区读取指定数量的字节数据。格式为read(size)，size为读取的字节数。inwaiting是serial类的属性，返回串口输入缓冲区中等待读取的字节数。如ser.inwaiting()可获取当前缓冲区字节数。i
探秘 TCP TLP：从背景到实现 dog250 tcp/ip 网络网络协议
回家的路上还讨论了个关于TCPTLP的问题，闲着无事缕一缕。本文内容参考自TailLossProbe(TLP):AnAlgorithmforFastRecoveryofTailLosses以及Linux内核源码。TLP，先说缘由。自TCP引入Fastretrans机制就是为了尽力避免RTO，但如果sender发送的一系列数据包中尾包被丢弃，就没有触发dupack，sack的可能，于是就有了TLP，
通达信实时行情API的功能有哪些？如何利用这些功能进行股票分析股票程序化交易接口量化交易股票API接口 Python股票量化交易通达信实时行情api 股票分析行情数据股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>行情数据获取功能通达信实时行情API能够提供全面的行情数据。它可以获取股票的基本信息，如股票代码、名称等。能精确提供股票的实时价格，包括当前价、开盘价、收盘价等重要价格数据。这些数据是进行股票分析的基础。投资者可以根据当前价与开盘价的
Python项目之Pygame制作新年烟花！ WANGWUSAN66 pygame python 开发语言计算机经验分享源码
实现源码涉及到两个Python库：random和pygame。1.random库：randint(a,b)：返回一个在[a,b]范围内的随机整数。uniform(a,b)：返回一个在[a,b]范围内的随机浮点数。choice(sequence)：从给定的序列中随机选择一个元素。2.Pygame是一个用于制作游戏的Python模块，它包含了许多用于游戏开发和图形渲染的功能。以下是Pygame的一些主
python爬虫框架Scrapy简介码农~明哥 python python 爬虫 scrapy
当你写了很多个爬虫程序之后，你会发现每次写爬虫程序时，都需要将页面获取、页面解析、爬虫调度、异常处理、反爬应对这些代码从头至尾实现一遍，这里面有很多工作其实都是简单乏味的重复劳动。那么，有没有什么办法可以提升我们编写爬虫代码的效率呢？答案是肯定的，那就是利用爬虫框架，而在所有的爬虫框架中，Scrapy应该是最流行、最强大的框架。Scrapy概述Scrapy是基于Python的一个非常流行的网络爬虫
数据备份专家：Drive SnapShot高效备份恢复工具 KJ-拾荒者数据库运维职场和发展性能优化经验分享
你是否在工作中遇到过这样的困扰：系统崩溃或硬盘故障导致重要数据丢失，影响工作效率和项目进度？或者在个人生活中，想要备份重要文件和系统设置，但现有的备份工具操作复杂、效率低下？今天，我要向大家推荐一款能够解决这些问题的高效备份恢复工具——DriveSnapShot！文末有分享链接，一键就能开启高效生活！什么是DriveSnapShot？DriveSnapShot是一款由德国开发者TomEhlert开
【算法】经典博弈论问题——斐波那契博弈 + Zeckendorf 定理 python 查理零世算法 python 数据结构
目录斐波那契博弈（FibonacciNim）齐肯多夫（Zeckendorf）定理示例分析实战演练斐波那契博弈（FibonacciNim）先说结论：当初始石子数目n是斐波那契数时，先手必败；否则，先手有策略获胜。证明概要:当n=2时，先手只能取1颗石子，后手直接取剩下的1颗石子获胜，因此先手必败。假设对于所有小于等于某个斐波那契数f[k]的情况，结论都成立。归纳：对于f[k+1]=f[k]+f[k-
单目测距（yolo-目标检测+标定+深度学习目标检测_测距）计算机C9硕士_算法工程师 YOLO 目标检测深度学习
YOLOv5模型介绍YOLOv5是目前最先进的目标检测算法之一，在多个数据集上取得了优秀的表现。相较于YOLOv4，YOLOv5采用了更深的Backbone网络和更高的分辨率输入图像，以提高检测精度和速度。单目测距实现方法在目标检测的基础上，我们可以通过计算物体在图像中的像素大小来估计其距离。具体方法是，首先确定某个物体的实际尺寸，然后根据该物体在图像中的像素大小计算其距离。这个方法可以应用于各种
用 Python 实现经典的 2048 游戏：一步步带你打造属于你的小游戏！一位小说男主 python python 游戏
用Python实现经典的2048游戏：一步步带你打造属于你的小游戏！（结尾附完整代码）简介2048是一个简单而又令人上瘾的数字拼图游戏。玩家通过滑动方块使相同数字的方块合并，目标是创造出数字2048！在这篇博客中，我们将用Python的Tkinter库从零开始实现这款游戏，涵盖从界面设计到逻辑实现的每一个细节，帮助你全面了解背后的开发思路。游戏特点经典玩法：滑动合并相同数字，尽可能达到2048。随
数据挖掘常用算法模型简介大乔乔布斯数据挖掘线性回归决策树
以下是数据挖掘中常用的算法模型及其简称、英文全称和使用场景的简要介绍：1.决策树（DecisionTree,DT）常用算法：CART:ClassificationandRegressionTreeID3:IterativeDichotomiser3C4.5:基于ID3改进使用场景：分类问题（如信用风险评估、客户分类）回归问题（如预测房价）特点：易解释、适合处理非线性数据。2.随机森林（Random
Python跨年烟花代码花洵琴
Python跨年烟花代码【下载地址】Python跨年烟花代码分享本资源文件提供了一个使用Python编写的跨年烟花代码，代码中使用了`pygame`、`random`和`math`库来实现烟花的模拟效果。代码中定义了三个类：`Firework`、`Particle`和`Trail`，分别代表烟花、烟花中的颗粒以及颗粒的轨迹点项目地址:https://gitcode.com/open-source-
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他