吉吉国王啦

时间序列分类算法_时间序列分类算法简介

时间序列分类算法

A common task for time series machine learning is classification. Given a set of time series with class labels, can we train a model to accurately predict the class of new time series?

时间序列机器学习的常见任务是分类。 给定一组带有类别标签的时间序列，我们可以训练模型来准确预测新时间序列的类别吗？

Univariate time series classification with sktime sktime的单变量时间序列分类

There are many algorithms dedicated to time series classification! This means you don’t have wrangle your data into a scikit-learn classifier or to turn to deep learning to solve every time series classification task.

有许多专用于时间序列分类的算法！ 这意味着您无需将数据纠缠到scikit-learn分类器中，也无需转向深度学习来解决每个时间序列分类任务。

In this article, I will introduce five categories of time series classification algorithms with details of specific algorithms. These specific algorithms have been shown to perform better on average than a baseline classifier (KNN) over a large number of different datasets [1].

在本文中，我将介绍五种时间序列分类算法，以及特定算法的详细信息。在大量不同的数据集上，这些特定算法的平均表现优于基线分类器(KNN)[1]。

Distance-based (KNN with dynamic time warping)

基于距离(具有动态时间扭曲的KNN)
Interval-based (TimeSeriesForest)

基于时间间隔(TimeSeriesForest)
Dictionary-based (BOSS, cBOSS)

基于字典(BOSS，cBOSS)
Frequency-based (RISE — like TimeSeriesForest but with other features)

基于频率的(RISE-与TimeSeriesForest类似，但具有其他功能)
Shapelet-based (Shapelet Transform Classifier)

基于Shapelet(Shapelet变换分类器)

I conclude with brief guidance on selecting an appropriate algorithm.

最后，我将对选择合适的算法进行简要指导。

The algorithms described in this article have been implemented in the sktime python package.

本文介绍的算法已在sktime python软件包中实现。

为什么要使用时间序列专用算法？ (Why dedicated algorithms for time series?)

Time series classification algorithms tend to perform better than tabular classifiers on time series classification problems.

在时间序列分类问题上，时间序列分类算法的性能往往优于表格分类器。

A common, but problematic solution to time series classification is to treat each time point as a separate feature and directly apply a standard learning algorithm (e.g. scikit-learn classifiers). In this approach, the algorithm ignores information contained in the time order of the data. If the feature order were scrambled, the predictions wouldn’t change.

时间序列分类的一个常见但有问题的解决方案是将每个时间点视为一个单独的功能，并直接应用标准学习算法(例如scikit-learn分类器)。在这种方法中，算法将忽略数据时间顺序中包含的信息。如果功能顺序被打乱，则预测不会改变。

It is also common to use deep learning to classify time series. LSTMs and CNNs are capable of mining dynamical characteristics of time series, hence their success. Yet neural networks have some challenges that make them unsuitable for many classification tasks:

使用深度学习对时间序列进行分类也是很常见的。 LSTM和CNN能够挖掘时间序列的动态特征，因此很成功。然而，神经网络面临一些挑战，使它们不适用于许多分类任务：

Selecting an efficient architecture

选择高效的架构
Hyper-parameter tuning

超参数调整
Limited data (neural networks need many examples)

数据有限(神经网络需要很多示例)
Slow to train

训练慢

In spite of these challenges, there do exist specific neural network architectures for time series classification. These have been implemented in the sktime-dl python package.

尽管存在这些挑战，但确实存在用于时间序列分类的特定神经网络体系结构。这些已在sktime-dl python包中实现。

时间序列分类的基本概念 (Foundational Concepts of Time Series Classification)

时间序列转换(Time Series Transformations)

Many time series specific algorithms are compositions of transformed time series and conventional classification algorithms, such as those in scikit-learn.

许多特定于时间序列的算法是变换后的时间序列和常规分类算法(例如scikit-learn中的算法)的组合。

Feature extraction is very diverse and complex.

特征提取非常多样化和复杂。

Features can be extracted globally (over the entire time series) or locally (over regular intervals/bins, random intervals, sliding windows of intervals, and so on).

可以全局(在整个时间序列上)或局部(在常规间隔/区间，随机间隔，间隔的滑动窗口等)上提取要素。

Series can be transformed into primitive values (e.g. mean, standard deviation, slope) or into other series (e.g. Fourier transform, series of fitted auto-regressive coefficients).

级数可以转换为原始值(例如，均值，标准差，斜率)，也可以转换为其他级数(例如，傅立叶变换，拟合的自回归系数系列)。

Last, transformations can one-dimensional or multi-dimensional.

最后，转换可以是一维或多维的。

承包 (Contracting)

Contracting is a key concept used in most algorithms described in this article.

合同是本文描述的大多数算法中使用的关键概念。

Simply stated, contracting limits the run time of an algorithm. Until the allotted time expires, the algorithm continues iterating to learn the given task.

简而言之，合同限制了算法的运行时间。在分配的时间到期之前，算法将继续迭代以学习给定的任务。

基于距离的分类 (Distance-Based Classification)

These classifiers use distance metrics to determine class membership.

这些分类器使用距离度量来确定类成员身份。

时间序列的K最近邻(具有动态时间规整) (K-Nearest Neighbors (with Dynamic Time Warping) for Time Series)

The popular k-nearest neighbors (KNN) algorithm can be adapted for time series by replacing the Euclidean distance metric with the dynamic time warping (DTW) metric. DTW measures similarity between two sequences that may not align exactly in time, speed, or length. (Click here for my explanation of DTW for time series clustering).

通过用动态时间规整(DTW)度量代替欧几里得距离度量，可以将流行的k最近邻(KNN)算法应用于时间序列。 DTW测量可能在时间，速度或长度上未完全对齐的两个序列之间的相似性。 (单击此处可了解我对时间序列聚类的DTW的解释)。

KNN with DTW is commonly used as a benchmark for evaluating time series classification algorithms because it is simple, robust, and does not require extensive hyperparameter tuning.

具有DTW的KNN通常用作评估时间序列分类算法的基准，因为它简单，健壮并且不需要大量的超参数调整。

While useful, KNN with DTW requires a lot of space and time to compute. During classification, the KNN-DTW compares each object with all the other objects in the training set. Further, KNN provides limited information about why a series was assigned to a certain class.

虽然有用，但带有DTW的KNN需要大量空间和时间来进行计算。在分类期间，KNN-DTW将每个对象与训练集中的所有其他对象进行比较。此外，KNN提供了有关为什么将系列分配给某个类别的有限信息。

KNN may also perform poorly with noisy series — the noise in a series may overpower subtle differences in shape that are useful for class discrimination [4].

在嘈杂的序列中，KNN的性能也可能很差-序列中的噪声可能会克服形状上细微的差异，这对于分类识别很有用[4]。

基于间隔的分类器 (Interval-based Classifiers)

These classifiers base classification on information contained in various intervals of series.

这些分类器基于各个系列间隔中包含的信息进行分类。

时间序列森林分类器 (Time Series Forest Classifier)

A time series forest (TSF) classifier adapts the random forest classifier to series data.

时间序列森林(TSF)分类器使随机森林分类器适应序列数据。

Split the series into random intervals, with random start positions and random lengths.

将序列分为随机间隔，随机起始位置和随机长度。
Extract summary features (mean, standard deviation, and slope) from each interval into a single feature vector.

从每个间隔中提取摘要特征(均值，标准差和斜率)到单个特征向量中。
Train a decision tree on the extracted features.

在提取的特征上训练决策树。
Repeat steps 1–3 until the required number of trees have been built or time runs out.

重复步骤1-3，直到建立了所需的树数或时间耗尽为止。

New series are classified according to a majority vote of all the trees in the forest. (In a majority vote, the prediction is the class that is predicted by the most trees is the prediction of the forest).

新系列根据森林中所有树木的多数票进行分类。 (在多数表决中，预测是由最多树木预测的类别是森林的预测)。

Experimental studies have demonstrated that time series forest can outperform baseline competitors, such as nearest neighbors with dynamic time warping [1, 7].

实验研究表明，时间序列森林可以胜过基准竞争对手，例如具有动态时间扭曲的最近邻居[1，7]。

Time series forest is also computationally efficient.

时间序列林在计算上也很有效。

Last, time series forest is an interpretable model. Time feature importance can be extracted from time series forest, as shown in the sktime univariate time series classification demo.

最后，时间序列森林是一种可解释的模型。可以从时间序列林中提取时间特征重要性，如sktime单变量时间序列分类演示中所示。

基于字典的分类 (Dictionary-Based Classification)

Dictionary-based classifiers first transform real-valued time series into a sequence of discrete “words”. Classification is then based on the distribution of the extracted symbolic words.

基于字典的分类器首先将实值时间序列转换为离散的“单词”序列。然后基于提取的符号词的分布进行分类。

Dictionary classifiers all use the same core process: A sliding window of length w is run across a series. For each window, the numeric series is transformed into a “word” of length l. This word consists of α possible letters.

字典分类器都使用相同的核心过程：长度为w滑动窗口贯穿一系列序列。对于每个窗口，数字序列被转换为长度为l的“单词”。这个词由α可能的字母组成。

袋SFA符号(BOSS) (Bag of SFA Symbols (BOSS))

Word features for BOSS classifiers are extracted from series using the Symbolic Fourier Approximation (SFA) transformation:

使用符号傅立叶近似(SFA)变换从系列中提取BOSS分类器的单词特征：

Calculate the Fourier transform of the window (the first term is ignored if normalization occurs)

计算窗口的傅立叶变换(如果发生规范化，则忽略第一项)
Discretize the first l Fourier terms into symbols to form a “word” using Multiple Coefficient Binning (MCB). MCB is a supervised algorithm that bins continuous time series into a sequence of letters.

使用多重系数合并(MCB)将前l傅立叶项离散化为符号，以形成一个“单词”。 MCB是一种监督算法，可将连续时间序列分为字母序列。

As indicated by the green lines of varying position, MCB bins each time point independently of other time points. SAX, another series binning algorithm, bins each time series independently. Source: pyts documentation 如位置变化的绿线所示，MCB将每个时间点独立于其他时间点进行分档。 SAX是另一种系列合并算法，可以对每个时间序列进行独立合并。 来源： pyts文档

A dictionary of these words is constructed as the window slides, recording a count of each word’s frequency. If the same word is produced by two or more consecutive windows, the word will only be counted once. When the sliding window has completed, the series is transformed into a histogram based on the dictionary.

当窗口滑动时，将构造这些单词的字典，记录每个单词的频率计数。如果同一单词由两个或多个连续的窗口产生，则该单词将仅计数一次。滑动窗口完成后，该序列将基于字典转换为直方图。

Finally, any classifier can be trained on the word histograms extracted from the series.

最后，可以对从该系列中提取的单词直方图进行任何分类器训练。

BOSS合奏 (The BOSS Ensemble)

The original BOSS algorithm is actually an ensemble of the BOSS classifiers previously described. The BOSS ensemble conducts grid-search across the parameters (l, α, w and p) of the individual BOSS classifier. (p controls whether the subseries is normalized.) The ensemble only retains the members whose accuracy is within 92% accuracy of the best classifier.

原始的BOSS算法实际上是前面所述的BOSS分类器的集合。 BOSS集合对各个BOSS分类器的参数( l ， α ， w和p )进行网格搜索。 ( p控制子系列是否被归一化。)集成仅保留其精度在最佳分类器的92％以内的成员。

The BOSS ensemble uses a nearest-neighbor algorithm as its classifier. The classifier uses a custom non-symmetric distance function: a partial Euclidian distance that only includes words contained in the test instance’s histogram.

BOSS集成使用最近邻算法作为其分类器。分类器使用自定义的非对称距离函数：部分欧几里得距离，仅包括测试实例的直方图中包含的单词。

Due to searching over a large pre-defined parameter space, BOSS carries time overhead and risks instability in memory usage.

由于搜索了很大的预定义参数空间，因此BOSS会占用时间，并有可能导致内存使用不稳定。

The BOSS ensemble was the most accurate dictionary-based classifier in the Great Time Series Classification Bake-off paper [1].

BOSS集成是《大时间序列分类》 [1]中最准确的基于字典的分类器。

可收缩的BOSS(cBOSS) (Contractable BOSS (cBOSS))

The cBOSS algorithm is an order of magnitude faster than BOSS. Compared to BOSS, cBOSS had no significant difference in accuracy on datasets in the UCR Classification Archive.

cBOSS算法比BOSS快一个数量级。与BOSS相比，cBOSS在UCR分类存档中的数据集准确性上没有显着差异。

Instead of doing grid search across the full parameter space like BOSS, cBOSS randomly samples from the parameter space without replacement. cBOSS then subsamples the data for each base classifier.

cBOSS不会像BOSS这样在整个参数空间上进行网格搜索，而是从参数空间中随机采样而不进行替换。然后，cBOSS对每个基本分类器的数据进行二次采样。

cBOSS improves the memory requirements of BOSS by retaining a fixed number of base classifiers, instead of retaining all classifiers above a given performance threshold. Last, cBOSS exponentially weights the contribution of each base classifier according to train accuracy.

cBOSS通过保留固定数量的基本分类器而不是保留高于给定性能阈值的所有分类器来改善BOSS的内存要求。最后，cBOSS根据训练的准确性对每个基本分类器的贡献进行指数加权。

基于频率 (Frequency-based)

Frequency-based classifiers rely on frequency data extracted from series.

基于频率的分类器依赖于从序列中提取的频率数据。

随机间隔谱集合(RISE) (Random Interval Spectral Ensemble (RISE))

Random Interval Spectral Ensemble, or RISE, is a popular variant of time series forest.

随机间隔频谱合奏(RISE)是时间序列森林的一种流行变体。

RISE differs from time series forest in two ways. First, it uses a single time series interval per tree. Second, it is trained using spectral features extracted from the series, instead of summary statistics.

RISE与时间序列林有两个不同之处。首先，它对每棵树使用单个时间序列间隔。其次，使用从系列中提取的光谱特征而不是摘要统计信息对其进行训练。

RISE use several series-to-series feature extraction transformers, including:

RISE使用了几个串联到串联的特征提取变压器，包括：

Fitted auto-regressive coefficients

拟合的自回归系数
Estimated autocorrelation coefficients

估计的自相关系数
Power spectrum coefficients (the coefficients of the Fourier transform)

功率谱系数(傅立叶变换的系数)

The RISE algorithm is straightforward:

RISE算法很简单：

Select random interval of a series (length is a power of 2). (For the first tree, use the whole series)

选择一系列随机间隔(长度为2的幂)。 (对于第一棵树，请使用整个系列)
For the same interval on each series, apply the series-to-series feature extraction transformers (autoregressive coefficients, autocorrelation coefficients, and power spectrum coefficients)

对于每个系列的相同间隔，应用系列到系列特征提取变压器(自回归系数，自相关系数和功率谱系数)
Form a new training set by concatenating the extracted features

通过串联提取的特征形成新的训练集
Train a decision tree classifier

训练决策树分类器
Ensemble 1–4

合奏1-4

Class probabilities are calculated as a proportion of base classifier votes. RISE controls the run time by creating an adaptive model of the time to build a single tree. This is important for long series (such as audio), where very large intervals can mean very few trees.

类别概率按基本分类器投票的比例计算。 RISE通过创建时间自适应模型来构建一棵树来控制运行时间。这对于较长的系列(例如音频)很重要，在这种情况下，很大的间隔可能意味着很少的树木。

基于Shapelet的分类器 (Shapelet-Based Classifiers)

Shapelets are subsequences, or small sub-shapes of time series that are representative of a class. They can be used to detect “phase-independent localised similarity between series within the same class” [1].

小形状是代表一个类的时间序列的子序列或小子形状。它们可用于检测“同一类别内系列之间的相位无关的局部相似性” [1]。

The blue line is the original time series. The red line is the shapelet extracted from it. Image modified from [4]. 蓝线是原始时间序列。红线是从中提取的形状。图像改写自[4]。

A single shapelet is an interval in a time series. The intervals in any series can be enumerated. For example, [1,2,3,4] has 5 intervals: [1,2], [2,3], [3,4], [1,2,3], [2,3,4].

单个小波是时间序列中的间隔。可以列举任何系列的间隔。例如， [1,2,3,4]具有5个间隔： [1,2] ， [2,3] ， [3,4] ， [1,2,3] ， [2,3,4] 。

Shapelet-based classifiers search for shapelets with discriminatory power.

基于Shapelet的分类器搜索具有判别力的Shapelet。

These shapelet features can then be used to interpret a shapelet-based classifier — the presence of certain shapelets make one class more likely than another.

然后，这些shapelet特征可用于解释基于shapelet的分类器-某些shapelet的存在使一类比另一类更有可能。

Shapelet变换分类器 (Shapelet Transform Classifier)

In the Shapelet Transform Classifier, the algorithm first identifies the top k shapelets in the dataset.

在Shapelet变换分类器中，算法首先识别数据集中的前k个Shapelet。

Next, k features for the new dataset are calculated. Each feature is computed as the distance of the series to each one of the k shapelets, with one column per shapelet.

接下来，计算新数据集的k个特征。将每个特征计算为系列与ks个小链中每个小链的距离，每个小形有一列。

Finally, any vector-based classification algorithm can be applied to the shapelet-transformed dataset. In [1], a weighted ensemble classifier was used. In [2], the authors only used a Rotation Forest classifier, a tree-based ensemble that constructs each tree on a subset of features transformed by PCA [5]. On average, rotation forest is the best classifier for problems with continuous features, as shown in [6].

最终，任何基于矢量的分类算法都可以应用于经过Shapelet转换的数据集。在[1]中，使用了加权集成分类器。在[2]中，作者仅使用了Rotation Forest分类器，这是一种基于树的集成，可在PCA转换后的特征子集上构建每棵树[5]。 平均而言，旋转林是连续特征问题的最佳分类器，如[6]所示。

In sktime, a Random Forest classifier (500 trees) is used by default because rotation forest is not yet available in python [8].

在sktime ，默认情况下使用随机森林分类器(500棵树)，因为python中尚未提供旋转森林[8]。

How does the algorithm identify and select shapelets?

该算法如何识别和选择shapelet？

In sktime, the shapelet search process does not fully enumerate and evaluate all possible shapelets. Instead, it randomly searches for shapelets to evaluate.

在sktime ，shapelet搜索过程无法完全枚举和评估所有可能的shapelet。而是随机搜索shapelet进行评估。

Each shapelet considered is evaluated according to information gain. The strongest non-overlapping shapelets are retained.

根据信息增益评估考虑的每个形状。保留最强的不重叠形状。

You can specify the amount of time to search for shapelets before performing the shapelet transform. The default time in sktime is 300 minutes.

您可以指定执行shapelet转换之前搜索shapelet的时间。 sktime的默认时间为300分钟。

整体分类器 (Ensemble Classifiers)

HIVE-COTE(HIVE-COTE)

The Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) is a meta ensemble built on the classifiers discussed previously.

基于转换的集成的分层投票集合(HIVE-COTE)是建立在前面讨论的分类器上的元集合。

“An overview of the ensemble structure of HIVE-COTE 1.0.” “ HIVE-COTE 1.0的整体结构概述。”

HIVE-COTE predictions are a weighted average of predictions produced by its members: shapelet transform classifier, BOSS, Time Series Forest, and RISE.

HIVE-COTE预测是其成员产生的预测的加权平均值：shapelet变换分类器，BOSS，时间序列森林和RISE。

Each sub-classifier estimates the probability of each class. The control unit then combines these probabilities (CAPWE). The weights are assigned as the relative estimated quality of the classifier found on the training data.

每个子分类器估计每个分类的概率。然后，控制单元将这些概率(CAPWE)合并。权重被分配为在训练数据上找到的分类器的相对估计质量。

使用哪个分类器？ (Which Classifier to Use?)

There are three main considerations when selecting a time series classifier: predictive accuracy, time/memory complexity, and data representation.

选择时间序列分类器时，主要考虑三个方面：预测准确性，时间/内存复杂度和数据表示形式。

With no data-specific information, start with ROCKET or HIVE-COTE. (ROCKET is a simple linear classifier based on random convolutional kernels — random length, weights, bias, dilation, and padding). The authors of [2] argue that “with no expert knowledge to the contrary, the most accurate algorithm design is to ensemble classifiers built on different representations.” On average, ROCKET is not worse than HIVE-COTE and is much faster.

没有特定于数据的信息，请从ROCKET或HIVE-COTE开始。 (ROCKET是基于随机卷积核(随机长度，权重，偏差，膨胀和填充)的简单线性分类器)。 [2]的作者认为“没有相反的专业知识，最准确的算法设计就是对基于不同表示形式的分类器进行集成。” 平均而言，ROCKET不比HIVE-COTE差，并且速度要快得多。

Shapelet-based classifiers will be better when the best feature might be the presence or absence of a phase-independent pattern in a series.

当最好的功能可能是序列中是否存在与相位无关的模式时，基于Shapelet的分类器会更好。

Dictionary-based (BOSS) or frequency-based (RISE) classifiers will be better when you can discriminate using the frequency of a pattern.

当您可以使用模式的频率进行区分时，基于字典(BOSS)或基于频率(RISE)的分类器会更好。

最后的话 (A Final Word)

If you enjoyed this article, please follow me for more content on data science topics! I plan to continue writing about time series classification, clustering, and regression.

如果您喜欢本文，请关注我以获取有关数据科学主题的更多内容！我计划继续写有关时间序列分类，聚类和回归的文章。

Thank you to Markus Loning for his feedback on this article and to Anthony Bagnall for guidance on model selection.

感谢Markus Loning对本文的反馈以及Anthony Bagnall对模型选择的指导

你可能感兴趣的:(数据分析)

拼多多官方返利新动向，高省App引领购物省钱新趋势古楼
电商行业的快速发展带来了无数的新趋势和新机遇，而拼多多官方返利的新趋势无疑是其中的一大亮点。高省App作为这一趋势的敏锐洞察者和积极参与者，致力于帮助用户精准把握这些新机遇。通过高省App，用户可以及时了解拼多多官方返利的最新政策和活动信息，从而做出更加明智的购物决策。同时，高省App还提供了专业的数据分析工具，帮助用户分析自己的消费行为和省钱效果，让省钱之路更加清晰和明确。我们在开始讲今天的文章
2023-04-12 王松奇
京心❤️达理想城店：王松奇2023年4月12日日精进落地真经严格就是爱，放纵既是害正能量语录每一颗螺丝都有标准每一颗螺丝都是标准产值目标：13万台次目标:80台油卡目标：13张今日体验今天开数据分析会台次少保养预存一定要盯紧中间10天要努力冲刺一下
小程序领域的营销推广策略小程序开发2020 小程序 ai
小程序领域的营销推广策略：从流量获取到生态运营的全链路解析关键词：小程序营销、用户增长策略、社交裂变、私域流量运营、数据分析驱动、场景化营销、全域流量整合摘要：本文系统解析小程序营销推广的核心策略体系，从微信生态底层逻辑出发，结合用户生命周期管理理论，构建包含「用户拉新-留存转化-裂变增长-数据迭代」的全链路运营框架。通过深度拆解社交裂变模型、场景化运营策略、私域流量沉淀方法及数据驱动决策体系，结
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
【源码交付】一站式自助数据分析解决方案（jvs-bi）愤怒的小青春 java
简历咨询听说Java简历上写外卖，头条，商城项目没用，到底真的假的。不写这些还能写什么#简历中的项目经历要美团实习体验～❤️入职流程和体验入职先领工牌，电脑（可提前在网上申请入职电脑版本，技术岗应该是mac）还可以申请显24offer帮选个人情况:本硕末流211科班光大银行总行科技研发中心入职:总包24w最高:涨幅两三年普调一级，涨一级简历咨询听说项目写外卖，头条，商城项目没用。有一说一，真的没有
数据分析全攻略：从基础概念到实战应用的完整指南 SickeyLee 产品经理人工智能大数据信息可视化
数据分析全攻略：从基础概念到实战应用的完整指南数据分析已成为现代商业决策的核心驱动力，但很多人在面对数据时，常常陷入“不知道看什么、怎么分析、如何应用”的困境。本文将系统梳理数据分析的核心知识，从数据的本质到分析流程，从方法工具到实战指标，帮你搭建一套完整的数据分析思维框架，让数据真正为业务服务。一、数据是什么？不止于数字的“信息载体”提到数据，很多人会首先想到数字，但实际上数据的范畴远更广阔。数
Python Pandas 实践学习笔记（1）
PythonPandas教程Pandas是一个开源的、BSD许可证的Python库，为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Python与Pandas在学术和商业领域都被广泛应用，包括金融、经济、统计学、分析等领域。在本教程中，我们将学习PythonPandas的各种特性以及如何在实践中使用它们。教程对象本教程适用于那些想要学习Pandas基础知识和各种函数的人。对于从
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
综合智能监测系统设计：有害气体实时检测与管理黑泡尖子
本文还有配套的精品资源，点击获取简介：在工业化进程中，有害气体的排放对人类健康和环境构成威胁。设计一种智能监测系统，利用传感器技术、物联网和数据分析等，实时监控环境中有害气体的浓度，确保生产安全和环保。该系统涵盖硬件构建、软件开发和数据处理等环节，并提供高效准确的监测能力。系统集成了无线通信模块进行数据传输，具备数据预处理和分析能力，能够进行阈值设定与预警响应。用户界面友好，系统具有良好的集成性、
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
基于Python的Twitter Card数据爬取与分析实战：从入门到精通 Python爬虫项目 python twitter dreamweaver 自动化开发语言宽度优先爬虫
摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
全球气温逐年增高 CATTLECODE 人工智能
根据全球主要气候监测机构的权威数据，**全球气温确实在持续升高**，且呈现加速趋势。以下是关键事实和数据分析：一、科学共识与核心数据长期升温趋势（1880-2023）：工业革命前（1850-1900）相比：全球平均气温上升约1.45°C2023年成为有记录以来最热年份（比19世纪基线高1.48°C）过去10年（2014-2023）是史上最热的十年（WMO数据）加速升温证据：二、权威机构数据验证机构
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
MySQL(141)如何处理重复数据问题？辞暮尔尔-烟火年年 MySQL mysql 数据库
处理重复数据问题是数据管理中的一个常见挑战。重复数据会影响数据库的性能、占用资源，并且可能导致数据分析结果的偏差。以下是处理重复数据问题的详细步骤以及结合代码的示例。一、识别重复数据首先，需要识别数据库中的重复数据。可以使用SQL查询来查找重复的数据。示例：假设我们有一个名为employees的表，其中包含以下字段：id、name和email。CREATETABLEemployees(idINTP
如何用优惠卷赚钱？优惠券群怎么才能做起来？日常购物技巧呀
在数字化时代，社群经济日益繁荣，尤其是以优惠券为主题的社群，不仅能够帮助群成员省钱购物，还能为群主带来可观的收入。本文将详细解析如何建立和管理一个赚钱的优惠券群，包括群的建设、运营策略，以及如何通过专业数据分析来优化群的效果。目标读者包括宝妈、大学生、上班族和无业人员，这些群体通常对节省开支和额外收入有较高的需求。大家好，我是高省返利APP官方客服导师：童年，今日给大家推荐一款自用佣金高，还能做团
使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
Python 数据插值：NumPy 实现多种插值方法
Python数据插值：用NumPy解锁缺失数据的秘密拼图关键词数据插值、NumPy、线性插值、多项式插值、缺失值处理、数据平滑、数值分析摘要在数据分析和科学计算中，我们经常遇到离散或缺失的观测数据——比如气象站每小时记录的温度值有缺失，或者实验中只采集了稀疏的采样点。这时候，数据插值（Interpolation）就像“数据修复师”，能根据已知点推断出未知点的数值，让离散数据变成连续的“故事”。本文
Shell脚本-cut工具咖啡の猫 chrome 前端
一、前言在Linux/Unix系统中，cut是一个非常实用的文本处理命令，用于从文件或标准输入中提取特定列的内容。它特别适用于处理结构化文本数据，例如CSV文件、日志文件、配置文件等。无论是做数据分析、系统监控，还是编写自动化脚本，cut都是一个不可或缺的工具。本文将带你全面了解cut工具的使用方式，包括：✅cut的基本语法与常用参数✅如何按字符、字节、字段进行提取✅cut在Shell脚本中的实战
必看：购买黄金投资局中局曝光！伍戈碳中和云数据分析就是骗局！不成功不收费
被骗案例：聊天软件讲股票，又忽悠股民搞碳中和项目，云数据分析项目等才后来让我们自己投钱怕我们不相信还请反诉警员给上课，给我画大饼，说每月发6千元的工资，所以放松警惕上当了，投了钱，我投的少，还特别照顾我单独做，达到他们的标准，他们明知我没有钱，每天照顾在两次，赚了一百多万，让我提款必须交税5%，我没钱无法交税，一分也取不出来，而且还有时侯规定，我只能自已做让账户回到我能交的起税的金额，但你要交钱时
Excel处理控件Aspose.Cells指南：使用 Python 删除 Excel 中的重复行 CodeCraft Studio 文档管理控件 python excel 开发语言
在Excel中删除重复行对于维护干净、准确和一致的数据集至关重要。它可以确保一致性，并有助于防止分析或报告中出现错误。重复数据会导致错误的分析和糟糕的决策。因此，识别和消除重复数据的能力对于软件开发人员、数据分析师和Excel用户来说是一项宝贵的技能。在本篇博文中，我们将向您展示如何使用Python以编程方式删除Excel工作表中的重复行。Python库用于删除Excel中的重复行Aspose.C
Elasticsearch 聚合查询源码解读与架构方法论北漂老男人 Elasticsearch elasticsearch 架构大数据搜索引擎全文检索
Elasticsearch聚合查询源码解读与架构方法论01.引言Elasticsearch的聚合查询（Aggregation）是大规模分布式数据分析的核心能力。理解其源码结构与设计方法论，不仅有助于高效使用聚合，也能为自定义扩展、性能优化、集群运维等提供理论与实践基础。本文将从源码结构、核心模块、关键实现、行级注释与方法论出发，系统剖析聚合查询的底层原理。02.源码结构与核心模块2.1聚合相关源码
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
十种常用数据分析模型耐思nice～数据分析数据分析人工智能机器学习数学建模
1-线性回归（LinearRegression）场景：预测商品销售额优点：简单易用，结果易于解释缺点：假设线性关系，容易受到异常值影响概念：建立自变量和因变量之间线性关系的模型。公式：[y=b_0+b_1x_1+b_2x_2+...+b_nx_n]代码示例：importpandasaspdfromsklearn.linear_modelimportLinearRegressionfromsklea
【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源