datamonday

时间序列预测11：用电量预测 01 数据分析与建模

【时间序列预测/分类】全系列60篇由浅入深的博文汇总：传送门

写在前面

通过之前有关LSTM的8遍基础教程和10篇处理时间序列预测任务的教程介绍，使用简单的序列数据示例，已经把LSTM的原理，数据处理流程，模型架构，Keras实现都讲清楚了。从这篇文章开始，将介绍有关时间序列预测和时间序列分类任务在真实数据集上的应用，你可以以此为模板，针对自己的业务需求进行二次开发。在本系列文章的最后会尝试通过自动调参脚本来辅助优化模型。

代码环境：

python 3.7.6
tensorflow 2.1.0
keras 2.3.1

本文所有代码在 jupyter notebook 中编写。

文章目录

写在前面
1. 家庭用电量预测--数据分析
- 1.1 数据集介绍
- 1.2 数据加载与处理
- 1.3 数据随时间变化规律
- 1.4 时间序列数据分布
2 建模建议
- 2.1 业务需求
- 2.2 数据准备
- 2.3 建模方法
- - 2.3.1 朴素方法
  - 2.3.2 经典线性方法
  - 2.3.3 机器学习方法
  - 2.3.4 深度学习方法

1. 家庭用电量预测–数据分析

其实家庭用电量预测仅仅是个“引子”，如果有电网数据的话，可以开发适合业务需求的模型，比如通过预测各时段各区域的用电量来协助电网更好地实现电能调度；除此之外，还可以用于发电量预测，比如光伏电站、风力发电站、水电站发电量预测…等等。模型一般不是问题，关键在数据和数据处理。

本文将介绍使用Pandas和Matplotlib对UCI上的家庭用电量数据集进行可视化，针对用电量预测问题，探究不同的网络架构、数据准备方式以及建模方法。

Gulf of Mexico, United States, photo by NASA

Lincoln, United States, photo by American Public Power Association

Niksic, Montenegro, photo by Appolinary Kalashnikova

1.1 数据集介绍

数据集名称为：Individual household electric power consumption Data Set（点击跳转数据集下载页面），该数据集是一个多变量时间序列数据集，采集了法国巴黎一个家庭近四年（2006年12月至2010年11月）的用电量，采样周期为1分钟。数据集的属性信息如下：

date：格式dd/mm/yyyy；
time：格式hh:mm:ss；
global_active_power：每分钟的有功功率（千瓦）；
global_reactive_power：每分钟的无功功率（千瓦）；
voltage：每分钟的平均电压（伏特）；
global_intensity：每分钟的平均电流强度（安培）；
sub_metering_1：厨房有功电能（瓦时），主要包含洗碗机，烤箱和微波炉；
sub_metering_2：于洗衣房有功电能（瓦时），包含洗衣机，滚筒式烘干机，冰箱和电灯；
sub_metering_3：电热水器和空调有功电能（瓦时）。

为了避免翻译错误引起歧义，现贴出数据集属性的英文介绍如下文所示：

date: Date in format dd/mm/yyyy
time: time in format hh:mm:ss
global_active_power: household global minute-averaged active power (in kilowatt)
global_reactive_power: household global minute-averaged reactive power (in kilowatt)
voltage: minute-averaged voltage (in volt)
global_intensity: household global minute-averaged current intensity (in ampere)
sub_metering_1: energy sub-metering No. 1 (in watt-hour of active energy). It corresponds to the kitchen, containing mainly a dishwasher, an oven and a microwave (hot plates are not electric but gas powered).
sub_metering_2: energy sub-metering No. 2 (in watt-hour of active energy). It corresponds to the laundry room, containing a washing-machine, a tumble-drier, a refrigerator and a light.
sub_metering_3: energy sub-metering No. 3 (in watt-hour of active energy). It corresponds to an electric water-heater and an air-conditioner.

以上九个属性中，可以作为特征的有七个，去掉的两个是日期和时间，因为序列化数据已经包含先后顺序了，所以不需要时间和日期数据，因此可以使用的数据为一个由七个变量（特征）组成的多元序列。

最后三个属性统计的电能消耗并不是家里所有的电路电能消耗。其它的电能消耗可以通过下式计算：
$\frac {global\_active\_power \times 1000}{60}− (sub\_metering\_1 + sub\_metering\_2 + sub\_metering\_3)$
这里注意：有功功率单位为 $K W$ ，有功电能的单位为瓦时（ $w a t t - h o u r$ ），以上数据都是间隔一分钟测得的，因此公式的前半部分就是通过有功率乘以时间（1/60小时，也就是一分钟）计算得到总的有功电能消耗，单位是瓦时。减去公式的后半部分（后三个属性的加和），得到了家庭中其他电路的电能消耗。

该数据集已成为评估时间序列预测和多步预测（特别是预测有功功率）的机器学习方法的标准，接下来我们来探究该数据集。

1.2 数据加载与处理

在加载之前，先查看数据详情信息：

查看是否有异常数据：

使用Pandas中的 read_csv() 函数加载数据，如果是excel或者csv文件通常不用考虑分隔方式，用默认的配置就可以加载；但是对于 txt 文件则需要考虑，可以看到数据集是用 ; 来分隔数据的，下面加载数据：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
dataset = pd.read_csv('household_power_consumption.txt', sep=';', header=0, 
                      low_memory=False, infer_datetime_format=True, engine='c'
                      parse_dates={'datetime':[0,1]}, index_col=['datetime'])

read_csv() 参数说明：

seq 参数：指定列之间的分隔符为 ';'，字符串格式，默认为 ‘,’；
header 参数：指定哪一行作为列名，header=0 表示第一行数据作为列名，而不是文件的第一行作为列名；
low_memory：在内部对文件进行分块处理，从而在解析时减少了内存使用，但可能是混合类型推断。默认为 True，设置为 False 确保没有混合类型；
infer_datetime_format：设置该参数为 True 和 parse_dates 参数，pandas会推断列中日期时间字符串的格式，如果可以推断出，则切换到更快方法来解析它们。在某些情况下，这可以使解析速度提高5-10倍；
engine：要使用的解析器引擎。C引擎速度更快，而python引擎当前功能更完善；
parse_dates：{'datetime':[0,1]} 将原数据中的第1、2列作为新的列名为 ‘datatime’ 的列，即将原来的日期列、时间列合并为日期时间一列；
index_col：指定’datetime’列为索引列；

更多参数配置，请查看官方文档：点开它带走我

1. 查看数据的shape：

dataset.shape

输出：

(2075259, 7)

2. 查看数据前10行：

dataset.head(10)

输出：

3. 查看缺失值：

dataset.isna().sum()

输出：

Global_active_power          0
Global_reactive_power        0
Voltage                      0
Global_intensity             0
Sub_metering_1               0
Sub_metering_2               0
Sub_metering_3           25979
dtype: int64

4. 查看有默认标记的异常值：

dataset.iloc[dataset.values == '?'].count()

输出：

Global_active_power      155874
Global_reactive_power    155874
Voltage                  155874
Global_intensity         155874
Sub_metering_1           155874
Sub_metering_2           155874
Sub_metering_3                0
dtype: int64

5. 有默认标记的异常值处理
为了提高数据处理效率，将所有标记为’?'的异常值用 np.nan 替换，将数据作为一个浮点值数组来处理。

dataset.replace('?', np.nan, inplace=True)

再查看异常值：

dataset.iloc[dataset.values == '?'].count()

输出：

Global_active_power      0
Global_reactive_power    0
Voltage                  0
Global_intensity         0
Sub_metering_1           0
Sub_metering_2           0
Sub_metering_3           0
dtype: int64

再查看缺失值：

dataset.isna().sum()

输出：

Global_active_power      25979
Global_reactive_power    25979
Voltage                  25979
Global_intensity         25979
Sub_metering_1           25979
Sub_metering_2           25979
Sub_metering_3           25979
dtype: int64

6. 添加新列
使用上一节中计算剩余用电量的计算公式，添加新列作为新的特征序列：

values = dataset.values.astype('float32')
dataset['sub_metering_4'] = (values[:,0] * 1000 / 60) - (values[:,4] + values[:,5] + values[:,6]))

查看新的数据shape：

dataset.shape

输出：

(2075259, 8)

查看数据前十行：

dataset.head(10)

输出：

7. 保存为新的文件：

dataset.to_csv('household_power_consumption.csv')

1.3 数据随时间变化规律

1. 首先读取新保存的数据：

dataset = pd.read_csv('household_power_consumption.csv', header=0, 
                   infer_datetime_format=True, engine='c',
                   parse_dates=['datetime'], index_col=['datetime'])

2.绘制不同特征的子图：
创建一个包含八个子图的图像，每个子图对应一个变量。完整代码如下：

def plot_features(dataset):
    plt.figure(figsize=(16,12), dpi=200)
    for i in range(len(dataset.columns)):
        plt.subplot(len(dataset.columns), 1, i+1)
        feature_name = dataset.columns[i]
        plt.plot(dataset[feature_name])
        plt.title(feature_name, y=0)
        plt.grid(linestyle='--', alpha=0.5)
    
    plt.tight_layout()
    plt.show()
    
plot_features(dataset)

输出：

3. 每年的有功功率变化图
为每一年创建一个有功功率图，观察是否有相同的模式。因为2006年只有不到一个月的数据，所以不绘制该年的子图。完整代码如下：

def plot_year_gap(dataset, years_list):
    plt.figure(figsize=(16,12), dpi=150)
    for i in range(len(years_list)):
        ax = plt.subplot(len(years_list), 1, i+1)
        ax.set_ylabel(r'$KW$')
        
        year = years_list[i]
        year_data = dataset[str(year)]
        
        plt.plot(year_data['Global_active_power'])
        plt.title(str(year), y=0, loc='left')
        plt.grid(linestyle='--', alpha=0.5)
        plt.xticks(rotation=0)
    
    plt.tight_layout()
    plt.show()
    
years = ['2007', '2008', '2009', '2010']
plot_year_gap(dataset, years)

输出：

因为设置了 infer_datetime_format 参数，所以可直接使用年份索引进行截取数据。通过对以上数据进行分析可知，每年2月和8月内的某段时间耗电量有明显下降。我们似乎也看到夏季（6、7、8月）的用电量呈下降趋势，我们还可以在第以、第三和第四个图中有一些缺失的数据。

接下来，进一步查看每个月的用电情况。比如查看2008年每个月的有功功率，可能有助于梳理出几个月的变化规律，如每日和每周用电状况规律。完整代码如下：

def plot_month_gap(dataset, year, months_list):
    plt.figure(figsize=(16,12), dpi=150)
    for i in range(len(months_list)):
        ax = plt.subplot(len(months_list), 1, i+1)
        ax.set_ylabel(r'$KW$')
        
        month = str(year) + '-' + str(months_list[i])
        month_data = dataset[month]
        
        plt.plot(month_data['Global_active_power'])
        plt.title(month, y=0, loc='left')
        plt.grid(linestyle='--', alpha=0.5)
        plt.xticks(rotation=0)
    
    plt.tight_layout()
    plt.show()

year = 2008
months = [i for i in range(1, 13)]
plot_month_gap(dataset, year, months)

输出：

接下来进一步查看每日的用电情况。完整代码如下：

def plot_day_gap(dataset, year, month, days_list):
    plt.figure(figsize=(20,24), dpi=150)
    for i in range(len(days_list)):
        ax = plt.subplot(len(days_list), 1, i+1)
        ax.set_ylabel(r'$KW$',size=6)
        
        day = str(year) + '-0' + str(month) + '-' + str(days_list[i])
        day_data = dataset[day]
        
        gcp_data = day_data['Global_active_power']
        plt.plot(gcp_data)
        plt.title(day, y=0, loc='left', size=6)
        plt.grid(linestyle='--', alpha=0.5)
        plt.xticks(rotation=0)

    plt.show()

year = 2008
month = 8
days = [i for i in range(1, 32)]
plot_day_gap(dataset, year, month, days)

输出：

1.4 时间序列数据分布

另一个需要考虑的重要方面是变量的分布。例如，了解观测值的分布是高斯分布还是其他分布。可以通过为每个特征创建一个直方图来研究数据分布。完整代码如下：

def dataset_distribution(dataset):
    plt.figure(figsize=(16,12), dpi=150)
    for i in range(len(dataset.columns)):
        ax = plt.subplot(len(dataset.columns), 1, i+1)
        ax.set_ylabel(r'$numbers$',size=10)
        
        feature_name = dataset.columns[i]
        
        dataset[feature_name].hist(bins=100)
        
        plt.title(feature_name, y=0, loc='right', size=20)
        plt.grid(linestyle='--', alpha=0.5)
        plt.xticks(rotation=0)
        
    plt.tight_layout()
    plt.show()

dataset_distribution(dataset)

输出：

可以看到有功和无功功率、强度以及分表功率都是向瓦时或千瓦倾斜的分布，电压数据呈高斯分布。有功功率的分布似乎是双峰的，这意味着它看起来有两组观测值。可以通过查看四年来的数据的有功功率分布来验证，完整代码如下：

def plot_year_dist(dataset, years_list):
    plt.figure(figsize=(16,12), dpi=150)
    for i in range(len(years_list)):
        ax = plt.subplot(len(years_list), 1, i+1)
        ax.set_ylabel(r'$numbers$')
        ax.set_xlim(0, 5) # 设置x轴显示限制，保证每个子图x刻度相同

        year = years_list[i]
        year_data = dataset[str(year)]
        
        year_data['Global_active_power'].hist(bins=100, histtype='bar')
        plt.title(str(year), y=0, loc='right', size=10)
        plt.grid(linestyle='--', alpha=0.5)
        plt.xticks(rotation=0)
    
    plt.tight_layout()
    plt.show()
    
years = ['2007', '2008', '2009', '2010']
plot_year_dist(dataset, years)

输出：

可以看到，有功功率分布看起来非常相似。这种分布确实是双峰的，一个峰值约为0.3kw，另一个峰值约为1.3kw。随着有功功率（x轴）的增加，高功率用电时间点的数量越来越少。

所确定的群体可能在一年中的不同季节有所不同。可以通过查看一年中每个月的有功功率分布来对此进行调查。完整代码如下：

def plot_month_dist(dataset, year, months_list):
    plt.figure(figsize=(16,12), dpi=150)
    for i in range(len(months_list)):
        ax = plt.subplot(len(months_list), 1, i+1)
        ax.set_ylabel(r'$KW$')
        ax.set_xlim(0, 5)
        
        month = str(year) + '-' + str(months_list[i])
        month_data = dataset[month]
        
        month_data['Global_active_power'].hist(bins=100, histtype='bar')
        plt.title(month, y=0, loc='right', size=10)
        plt.grid(linestyle='--', alpha=0.5)
        plt.xticks(rotation=0)
    
    plt.tight_layout()
    plt.show()

year = 2008
months = [i for i in range(1, 13)]
plot_month_dist(dataset, year, months)

输出：

可以看到，在北半球较暖的月份（法国巴黎），有功功率比较大的点少，而在较冷的月份，有功功率比较大的点多。在12月到3月的较冷月份，可以看到有更大的千瓦值（大约 $3.7 - 4 K W$ ）。

2 建模建议

2.1 业务需求

对于我们使用的家庭用电量数据集来说，可以提出很多建模问题，比如：

预测一天内每小时的耗电量；
预测一周内每天的耗电量；
预测一月内每天的耗电量；
预测一年内每天的耗电量。

以上四类预测问题称为多步预测。利用所有特征进行预测的模型称为多变量多步预测模型。每个模型都不局限于日期的大小，还可以根据需求对更细粒度的问题进行建模，比如一天内某各时段每分钟的耗电量预测问题。这有助于电力公司进行电能调度，是一个广泛研究的重要问题。

2.2 数据准备

在为建模准备这些数据时有很大的灵活性。具体的数据准备方法及其效益实际上取决于问题的框架选择和建模方法。然而，以下是可能有用的一般数据准备方法的列表：

每日差异可能有用，以调整数据中的每日周期。
年度差异可能有助于调整数据中的任何年度周期。
标准化可能有助于将不同单位的变量减少到相同的比例

有许多简单的人为因素可能有助于从数据中提取工程特征，从而使特定日期更易于预测。一些例子包括：

表示一天中的时间，以说明人们是否有可能在家。
指示一天是工作日还是周末。
表示一天是否为北美公共假日。这些因素对预测月度数据的重要性可能会大大降低，在一定程度上对周数据的重要性可能也会降低。
更一般的特征可能包括：表示季节，这可能导致使用的环境控制系统的类型或数量。

2.3 建模方法

对于这个问题，可能有四类方法值得探讨：

朴素方法；
经典线性方法；
机器学习方法；
深度学习方法；

2.3.1 朴素方法

朴素的方法包括一些非常简单但通常非常有效的假设。例如：

明天和今天一样；
明天和去年的今天一样；
明天是过去几天的平均值；

2.3.2 经典线性方法

经典的线性方法适用于单变量时间序列预测问题。常用的方法有：

SARIMA（季节自回归综合移动平均）
ETS（三重指数平滑）

2.3.3 机器学习方法

机器学习方法要求将问题构造为有监督学习问题。这将要求将序列的滞后观测值作为输入特征，丢弃数据中的时间关系。常用的非线性和集成方法有：

k近邻算法
SVM
决策树
随机森林
GBM（Gradient Boosting Machines）

为了确保模型拟合和评估，要保留数据中的时间结构，需要做大量的特征工程，来增加特征，专业程度较高。当有多个特征时，可能变得对业务需求不适用。

2.3.4 深度学习方法

一般来说，神经网络在自回归型问题上并没有被证明是非常有效的。然而，卷积神经网络等技术能够从原始数据（包括一维信号数据）中自动学习复杂特征。而递归神经网络，例如LSTM，能够直接在多个输入数据的并行序列中学习。此外，这些方法的组合如CNN-LSTM和ConvLSTM等方法，在时间序列分类任务中被证明是有效的。这些方法可以处理大量数据和多个输入变量（特征）任务。

之后文章会介绍以上提到的的建模方法。

参考：
https://matplotlib.org/index.html
https://matplotlib.org/api/_as_gen/matplotlib.pyplot.tight_layout.html#matplotlib.pyplot.tight_layout
https://matplotlib.org/api/_as_gen/matplotlib.pyplot.subplot.html?highlight=subplot#matplotlib.pyplot.subplot
http://www.imooc.com/wenda/detail/574859
https://machinelearningmastery.com/how-to-load-and-explore-household-electricity-usage-data/

你可能感兴趣的:(时间序列分析（Time,Series）,数据分析,数据挖掘,深度学习,tensorflow,时间序列预测)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
RabbitMQ生产者重复机制与确认机制 java炒饭小能手 java-rabbitmq rabbitmq java
重复机制生产者发送消息时，出现了网络故障，导致与MQ的连接中断。为了解决这个问题，SpringAMQP提供的消息发送时的重试机制。即：当RabbitTemplate与MQ连接超时后，多次重试。需要修该发送端模块的application.yaml文件，添加下面的内容：spring:rabbitmq:connection-timeout:1s#设置MQ的连接超时时间template:retry:ena
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
golang实现从服务器下载文件到本地指定目录余生逆风飞翔 golang 服务器开发语言
一、连接服务器，采用sftp连接模式packagemiddlewaresimport("fmt""time""github.com/pkg/sftp""golang.org/x/crypto/ssh")//建立服务器连接funcConnect(user,password,hoststring,portint)(*sftp.Client,error){var(auth[]ssh.AuthMethod
在模拟游戏《星露谷物语》中，体验一把闪婚需要多长时间？爱游戏的萌博士
我们知道：游戏圈中有许多速通玩家，他们追求尽可能短的时间完成游戏里的某项挑战，“RTA（RealTimeAttack）”就是其中主要的玩法，也就是“从游戏开始到通关画面出现为止所需现实时间尽可能短”。为了增加难度，高手们有时候还给自己设定一些限制，比如：有玩家挑战在“无伤”的前提下通关《塞尔达传说：荒野之息》等等。近日，博士就在海外玩家社群中留意到一项新的游戏速通纪录引发了热议！游戏产品并非《塞尔
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
SAP自动化-ME12批量更新最后一行的价格小九不懂SAP 自动化 SAP python
Python源码#-Begin-----------------------------------------------------------------#-Includes--------------------------------------------------------------importsys,win32com.clientimportosimporttime#-Sub
pythonpandas函数详解_Python pandas常用函数详解 Senvn
本文研究的主要是pandas常用函数，具体介绍如下。1import语句importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportdatetimeimportre2文件读取df=pd.read_csv(path='file.csv')参数：header=None用默认列名，0，1，2，3...names=['A','B','C'
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR