weixin_39710288

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？...

全文共 12174字，预计学习时长 25分钟甚至更长

摄影｜Anika Huizinga图源｜Unsplash

本文将为大家讲解如何针对数字营销中的广告曝光量来构建、训练以及评估预测模型。其中所有的技术都可用于解决其他回归问题，尤其是预测不同的性能指标，比如在产品上市前预估市场未来的销售状况，亦或者选定最佳参数，好比营销中的时间表或预算大小等。

用Python编写代码时，可以使用自己的营销数据或提供的数据集。除了所有源代码，本文还要给大家介绍一款简单好用的App，它能在买卖营销市场中预测广告曝光量、点击量以及产品交易的情况。

App获取: https://predictor.stagelink.com/

代码说明: https://github.com/kinosal/predictor

概述

1.要求

2.确立目标

3.准备数据集

4.初步浏览

5.数据预处理

6.训练模型

7.评估模型

8.预测下一轮竞争结果

9.福利：训练过的即用模板

要求

利用以往的营销数据来预测未来营销的结果时，通常来讲，数据越多(即营销次数越多)，预测结果就会越准确。准确的数据有赖于同性质的营销活动，不出意外的话会需要至少几百次的营销实例。此外，由于预测自己期望的未来营销结果时会应用到监督式学习技术，所以输入的内容要保持一致，即这些营销的规模和特征需相同。

如果现在没有合适的即用数据集也不要紧：可以下载一份含有本文提到的数据样本的CSV文件。

文件下载：https://github.com/kinosal/predictor/blob/master/model/impressions.csv

确立目标

说到成功的营销或营销业绩，我们真正关注的是什么？很明显，答案取决于特定的境况。本文会试着去预测单个营销活动的广告曝光量，同样，客户点击量及交易额也可预测出来，以便构成经典的漏斗式营销模型：

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第2张图片

准备数据集

这里提供了一份表格，横向数据表示每次的活动信息，每列表示不同的方面，其中不只有想要预测的非独立变量，也包括独立变量和一些特征：

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第3张图片

因为想要预测的营销活动尚未开始，所以在这种情况下，不会涉及任何性能数据，有的只是一些可观察到的特质。通常在事先不知道什么样的特征适合进行预测的情况下，本文推荐大家也去使用那些看起来与活动联系非常小的变量，再花些时间寻找或构建新的特征。尽管有些声音表示要减少特征的参考，但特征在之后的步骤中还是会经常用到的。

大家可以下载CSV文件，通过下列简单的函数操作将其存到一个Pandas数据框架中：

import pandas as pddata = pd.read_csv('impressions.csv')

初步浏览

在构建或训练预测模型之前，笔者都会先浏览一下数据，了解要处理的内容是哪方面的，辨识出的特性有哪些。样本数据可用来预测某一营销活动的广告曝光量，因为“曝光.csv”文件中每一活动都对应的有一行数据，其中各自的曝光量、度量标准以及不同类别的特征都可用来预测未来营销的曝光量。为了证实这一点，加载数据，呈现其数据形态，以及文件的前五行内容：

>>> data.shape(241, 13)>>> data.columnsIndex(['impressions', 'budget', 'start_month', 'end_month', 'start_week', 'end_week', 'days', 'region', 'category', 'facebook', 'instagram', 'google_search', 'google_display'], dtype='object')>>> data.head(5)impressions budget start_month ... google search google_display9586 600 7 ... 1 0...

第一列是非独立变量(即将预测的)——“曝光量”，文件总共有12列乘241行的内容。使用data.describe()函数可以计算出每个度量列的和、平均值、标准差、取值范围以及四分位数。

进一步观察会发现，我们处理的是十个数字特征和两个分类特征，其中有四个数字列都是二进制的：

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第4张图片

现在要绘制出数字特征的直方图，该过程会借助两个非常便于操作的可视化数据库：Matplotlib和Seaborn(后者基于前者而建立)：

import matplotlib.pyplot as pltimport seaborn as snsquan = list(data.loc[:, data.dtypes != 'object'].columns.values)grid = sns.FacetGrid(pd.melt(data, value_vars=quan), col='variable', col_wrap=4, height=3, aspect=1, sharex=False, sharey=False)grid.map(plt.hist, 'value', color="steelblue")plt.show()

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第5张图片

最后浏览一遍数字特征间的线性关系。首先，我们先来通过Seaborn热图将这些关系可视化：

sns.heatmap(data._get_numeric_data().astype(float).corr(), square=True, cmap='RdBu_r', linewidths=.5, annot=True, fmt='.2f').figure.tight_layout()plt.show()

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第6张图片

此外，利用非独立变量也可以输出每个特征的关联性：

>>> data.corr(method='pearson').iloc[0].sort_values(ascending=False)impressions 1.000000budget 0.556317days 0.449491google_display 0.269616google_search 0.164593instagram 0.073916start_month 0.039573start_week 0.029295end_month 0.014446end_week 0.012436facebook -0.382057

看到这，可以发现曝光量与预算大小和营销持续时间成正相关，与利用脸书而选择的二进制成反相关。不过，这只展示了成对的线性关系，只能作为粗略的初步观察结论。

数据预处理

在构建预测模型之前，需要确保数据都是需要的，而且是可用的，这里体现的就是“垃圾进，垃圾出”的理念。

很幸运，提供的数据集结构都相当好。尽管如此，依然需要以最快的速度进行一系列的预处理操作，来面对到来的挑战：

1.只保留非独立变量大于零的行，因为我们只想要大于零的预测结果(理论上讲，值等于零是有可能的，但对我们的预测起不到任何作用)。

2.检查缺失数据的列，决定是放弃这些空格还是进行补救。如果丢失的数据多于50%，就放弃这一列，因为这些特征对模型不会起到多少参考价值。

3.检查丢失数据的行，决定是要放弃还是填补空格(并不会借助于样本数据)。

4.将特殊类别的数据值都放入到“另一个”库中，以防模型对于这类特殊状况出现过度拟合的情况。

5.因为即将使用的模型必须具备数值输入，所以要将类别数据编码成独热哑变量(one-hot dummy variables)。编码的方式多种多样，本文也给有兴趣深入学习的人提供了比较完善的概述。

6.详列出非独立变量和独立变量的矩阵。

7.将数据集拆分成训练部分和测试部分，以便在训练过后合理地评估模型的拟合优度。

8.根据模型的需要对功能进行缩放。

下面是预处理中会用到的完整代码：

import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerdef data_pipeline(data, output): """ Preprocessing pipeline part 1: Transform full data frame Arguments: Pandas dataframe, output column (dependent variable) Returns: Modified dataframe """ data = cost_per_metric(data, output) if 'cost_per' in output  else data[data[output] > 0] data = drop_columns(data, output, threshold=.5) data = data.dropna(axis='index') data = create_other_buckets(data, threshold=.1) data = one_hot_encode(data) return datadef split_pipeline(data, output): """ Preprocessing pipeline part 2: Split data into variables Arguments: Pandas dataframe, output column (dependent variable) Returns: List of scaled and unscaled dependent and independent variables """ y, X = data.iloc[:, 0], data.iloc[:, 1:] X_train, X_test, y_train, y_test = train_test_split( data.drop([output], axis=1), data[output], test_size=.2, random_state=1) X_scaled, y_scaled, X_train_scaled, y_train_scaled, X_test_scaled,  y_scaler = scale(X, y, X_train, y_train, X_test) return [X, y, X_train, y_train, X_test, y_test, X_scaled, y_scaled, X_train_scaled, y_train_scaled, X_test_scaled, y_scaler]def cost_per_metric(data, output): """Create 'cost_per_...' column and remove data where output is 0 or NaN""" metric = output.replace('cost_per_', '') + 's' data = data[data[metric] > 0] data.insert(0, output, [row['cost'] / row[metric] for index, row in data.iterrows()]) return datadef drop_columns(data, output, threshold=0.5): """Drop columns with more than threshold missing data""" rows = data[output].count() for column in list(data.columns): if data[column].count() < rows * threshold: data = data.drop([column], axis=1) return datadef create_other_buckets(data, threshold=0.1): """Put rare categorical values into other bucket""" categoricals = list(data.select_dtypes(include='object').columns) for column in categoricals: results = data[column].count() groups = data.groupby([column])[column].count() for bucket in groups.index: if groups.loc[bucket] < results * threshold: data.loc[data[column] == bucket, column] = 'other' return datadef one_hot_encode(data): """One-hot encode categorical data""" categoricals = list(data.select_dtypes(include='object').columns) for column in categoricals: if 'other' in data[column].unique(): data = pd.get_dummies(data, columns=[column], prefix=[column], drop_first=False) data = data.drop([column + '_other'], axis=1) else: data = pd.get_dummies(data, columns=[column], prefix=[column], drop_first=True) return datadef scale(X, y, X_train, y_train, X_test): """Scale dependent and independent variables""" X_scaler, y_scaler = StandardScaler(), StandardScaler() X_scaled = X_scaler.fit_transform(X.values.astype(float)) y_scaled = y_scaler.fit_transform( y.values.astype(float).reshape(-1, 1)).flatten() X_train_scaled = pd.DataFrame(data=X_scaler.transform( X_train.values.astype(float)), columns=X.columns) y_train_scaled = y_scaler.transform( y_train.values.astype(float).reshape(-1, 1)).flatten() X_test_scaled = pd.DataFrame(data=X_scaler.transform( X_test.values.astype(float)), columns=X.columns) return [X_scaled, y_scaled, X_train_scaled, y_train_scaled, X_test_scaled, y_scaler]

训练模型

最后，可以继续构建并训练多个回归量，实现最终的预测(非独立变量的值)，也就是我们所求的营销活动中的曝光量。期间会尝试四种不同的监督式学习技术——线性回归、决策树、随机森林(由决策树形成)以及支持向量回归，同时会用Scikit-learn库提供的不同模型进行操作，而且这些模型在预处理中都已经缩放或拆分过数据了。

在构建回归量的时候会有更多的模型有可能被用到，比如人工神经网络，它预测出的结果会更准确。但是本文主要侧重于解释那些通俗易懂(大部分情况)的方式中的核心原则，而不在于最精准的预测。

线性回归

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第7张图片

传送门：https://towardsdatascience.com/introduction-to-linear-regression-in-python-c12a072bedf0

借助Scikit-learn库建立一个线性回归一点也不难，只需要两行编码、输入Scikit模型类中指定的函数来处理一个变量即可：

from sklearn.linear_model import LinearRegressionlinear_regressor = LinearRegression(fit_intercept=True, normalize=False, copy_X=True)

之所以想保留默认参数是因为需要计算截距(所有特征值为0产生的)，我们不需要标准化的结果，而是可解释的数据。回归量的计算就是通过最小化误差平方和的方式来计算独立变量系数和截距，即真实结果与预测的偏差。该法被称为最小二乘法。

也可以输出这些系数及各自的p值，和与特定特征(系数为0的虚假设)独立(也有不相关的情况)的可能性大小，因此也有了统计显著性度量(值越低显著性越高)。

“初步浏览”前期能有数字特征间的可视化关系图的话，预测的“预算”、“天数”、“脸书”特征的p值会相对较小，且“预算”和“天数”的系数为正，“脸书”系数为负。Statsmodels模块针对此数据的输出提供了一条更为便捷的途径：

model = sm.OLS(self.y_train, sm.add_constant(self.X_train)).fit()print(model.summary())

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第8张图片

这里的p值是通过t统计或基于t分布的t分数计算得出的。数据的和也直接表明了整个模型拟合的优度和精确度，这是由决定系数R来评判的，其中测量的是输出数据中由输入变量解释的方差占比，此处是54.6%。

但是，为了比较所有的模型，也为了迎接特定的挑战，采取一种别样的平分方式，笔者称之为“平均相对精度(Mean Relative Accuracy)”，公式：1-均值百分比偏差=1-均值(|(预测值-真实值)/真实值|)。显然，此度量法并未考虑到真实值为0的情况，不过好在本例不会受这一点的影响，因为在预处理(看上文)中已经检查过了，所以获得的结果也具有良好的可解释性，且贴合准确度的直观定义。在评分的过程中，会有5层交叉验证，5次随机拆分数据集，再取分数的均值。Scitkit-learn库也提供了一个便于操作的方法：

linear_score = np.mean(cross_val_score(estimator=linear_regressor, X=X_train, y=y_train, cv=5, scoring=mean_relative_accuracy))

线性回归的训练分数为0.18；所以此模型能够预测产生的最优拟合只有18%的精确度。祈祷其他的模型能超越这个成绩吧。

决策树

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第9张图片

传送门：https://becominghuman.ai/understanding-decision-trees-43032111380f

下一个就是产生于单个决策树的回归量。这里会用到Scikit-learn 函数，所谓的超参数会更多一些，而不只是用线性模型，比如那些还没有按照预期设定的模型。这也就是为什么我们接下来会介绍Grid Search这个概念。Grid Search也来自于Scikit-learn库,确定参数的方格区域或矩阵来测试什么时候训练预测模型能得到最佳参数，即找出分数最高的那一个。照这种方式，就可以为决策树模型测试所有能用的参数，但我们只会关注其中的两个：对一个数列分为两部分的质量的“衡量标准”以及树上一片叶子(节点处)样本(数据点)的最小值。然后帮助我们寻找到合适的模型，里面附有样本数据，且能避免过度拟合的发生，比如无法从训练数据中生成新的样本。从现在开始，也要设置成随机模式，相当于随即计算，这样一来在编码过程中就会接收到相同的值。剩下的一波操作跟我们之前构建的线性回归是类似的：

tree_parameters = [{'min_samples_leaf': list(range(2, 10, 1)), 'criterion': ['mae', 'mse'], 'random_state': [1]}]tree_grid = GridSearchCV(estimator=DecisionTreeRegressor(), param_grid=tree_parameters, scoring=mean_relative_accuracy, cv=5, n_jobs=-1, iid=False)tree_grid_result = tree_grid.fit(X_train, y_train)best_tree_parameters = tree_grid_result.best_params_tree_score = tree_grid_result.best_score_

从确定的方格内选出的最佳参数包括了均方误差，该值是决定每个节点最佳分叉位置的标准，也是每片叶子上九个样本的最小值，其中均值相对(训练)精确度达67%，跟线性回归的18%比起来好太多了。

决策树的一个优势在于可以直接看到模型，有个直观的印象。再加上Scikit-learn库和两行代码，就可以生成代表拟合决策树的DOT，该DOT可以接着转换成PNG图片：

from sklearn.tree import export_graphvizexport_graphviz(regressor, out_file='tree.dot',  feature_names=X_train.columns)

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第10张图片

如你所见，16个特征中只有4个被用于构建模型了：预算、天数、类别以及起始月份。

随机森林

单个决策树的主要难点在于寻找每个节点的最优分割处并对训练数据进行过拟合。二者都可以通过结合多个树形成随机森林来处理。这里，森林中的树会在不同的(随机)子集上训练，在选定树上的每一处节点时都会将拥有某些可能特征的子集考虑在内。

随机森林回归的构建几乎跟决策树的构建没什么区别，只需要增加树的数量(这里叫做估测器)作为参数即可。鉴于不清楚最佳棵树是多少，我们会将另一个元素添入格点搜索，以决定最准确的回归量：

forest_parameters = [{'n_estimators': helpers.powerlist(10, 2, 4), 'min_samples_leaf': list(range(2, 10, 1)), 'criterion': ['mae', 'mse'], 'random_state': [1], 'n_jobs': [-1]}]forest_grid = GridSearchCV(estimator=RandomForestRegressor(), param_grid=forest_parameters, scoring=mean_relative_accuracy, cv=5, n_jobs=-1, iid=False)forest_grid_result = forest_grid.fit(X_train, y_train)best_forest_parameters = forest_grid_result.best_params_forest_score = forest_grid_result.best_score_

根据之前确定的格点搜索，森林模型的最佳参数包括绝对均值误差标准、树的样本最小值(叶子)以及80个预测器(树)。有了这些，可以再一次将准确度提升至70%(与单一决策树相比)。

支持向量回归

最后已给要构建的回归量是基于支持向量机的，该理念是由Vladimir Vapnik在上世纪60年代到90年代间提出的，是很美的一个数学概念。不过要解释其运作原理的话就会超出本篇文章的范围，尽管如此，笔者还是极力推荐大家了解它们，麻省理工学院Winston教授的课就是不错的资源(https://www.youtube.com/watch?v=_PwhiWxHK8o)，里面讲的很详细。

简单地总结一下：支持向量回归会将给出的样本放至多维度超平面中(顺序按照数字特征来排)，超平面的直径由线边界来划分，从而将误差和成本降到最低。

虽说这种类型的模型从根本上跟决策树和随机森林不同，但涉及Scikit-learn库的操作还是大差不差的：

svr_parameters = [{'kernel': ['linear', 'rbf'], 'C': helpers.powerlist(0.1, 2, 10), 'epsilon': helpers.powerlist(0.01, 2, 10), 'gamma': ['scale']}, {'kernel': ['poly'], 'degree': list(range(2, 5, 1)), 'C': helpers.powerlist(0.1, 2, 10), 'epsilon': helpers.powerlist(0.01, 2, 10), 'gamma': ['scale']}]svr_grid = GridSearchCV(estimator=SVR(), param_grid=svr_parameters, scoring=mean_relative_accuracy, cv=5, n_jobs=-1, iid=False)svr_grid_result = svr_grid.fit(X_train_scaled, y_train_scaled)best_svr_parameters = svr_grid_result.best_params_svr_score = svr_grid_result.best_score_

还可以使用格点搜索，来找到一些模型参数的最佳值。这里最重要的核心就是，将多个样本转换成维度更高的特征空间，这样数据就可以拆分开或者几乎可以呈线性排列，也就是借助上述超平面的方式。目前我们正在测试一个线性核函数、一个多项式核函数以及一个径向基函数。若线性核函数值为0.08，即预测值与真实值之间的最大距离(按比例调整)在没有误差情况下为0.08，惩罚参数C为12.8，则证明线性核函数性能最佳，达到23%的训练精确度(按比例计算)。

评估模型

现在已确立了基于训练数据模型的最佳参数，就可以用它们逐个去预测测试的结果，计算各自测试的精确度。首先，需要用想用的超参数调整模型以训练数据。这一次不需要什么交叉验证，调整模型能适应完整的数据集即可。然后用调整后的回归量来预测训练和测试结果并计算其精确度。

training_accuracies = {}test_accuracies = {}for regressor in regressors: if 'SVR' in str(regressor): regressor.fit(X_train_scaled, y_train_scaled) training_accuracies[regressor] = hel.mean_relative_accuracy( y_scaler.inverse_transform(regressor.predict( X_train_scaled)), y_train) test_accuracies[regressor] = hel.mean_relative_accuracy( y_scaler.inverse_transform(regressor.predict( X_test_scaled)), y_test) else: regressor.fit(X_train, y_train) training_accuracies[regressor] = hel.mean_relative_accuracy( regressor.predict(X_train), y_train) test_accuracies[regressor] = hel.mean_relative_accuracy( regressor.predict(X_test), y_test

结果如下：

训练精确度: 线性模型为 0.34, 决策树为0.67, 随机森林为0.75, 支持回归向量为0.63

测试精确度: 线性0.32, 树0.64, 森林0.66,支持回归向量0.61

最优回归量当属随机森林模型，其测试精确度高达66%。但还是有些过度拟合，因为训练精确度的偏差相当大。可以自由地对超参数的其他值进行实验，以便进一步优化所有的模型。

在最终保存模型对新数据进行预测前，调整它至适用于所有可用数据(训练和测试集)以收集尽可能多的信息。

预测结果

现在有了模型，就可以预测未来营销活动的情况。只需通过一个特定的特征向量调用预测法，就能得到用于训练回归量的度量的不同预测结果。也可以依据新的模型比较现有数据集中的真实曝光量与预测结果：

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第11张图片

预测值与真实值的平均相对偏差为26%，所以准确率达到了74%，中值偏差只有14%甚至更少。

结语

通过建立并训练回归量，我们可以根据以往的营销数据来预测未来营销活动的曝光量(以及其他类似的性能指标)。

随机森林模型已实现精确度最高的预测

如今我们甚至可以在营销活动开始之前就利用这些预测值来评估新的营销活动。此外，我们也可以得到最佳参数，比如时间轴和预算规模，这得益于可以利用不同的特征值计算预测值。

福利：训练过的即用模型

是不是手边还没有数据来为计划的数字化营销活动构建一个精确的预测模型？别担心：笔者训练过无数的模型来预测曝光量、点击量和交易量，参考的数据来自1000+个营销活动。结合不同的模型，最终预测的精确度高达90%。在predictor.stagelink.com你可以找到一个便于操作的APP，只需输入少量信息即可预测未来营销状况。所有的模型在训练时依据的主要是数字营销活动的数据，推动了活动门票的销售，所以这极有可能是模型最见效的地方。

根据历史数据预测未来数据_如何利用以往的营销数据来预测未来营销的结果？..._第12张图片

predictor.stagelink.com

此外，你可以在笔者的Github上找到所有用于讨论营销性能预测的代码：https://github.com/kinosal/predictor

留言点赞关注

我们一起分享AI学习与发展的干货

如需转载，请后台留言，遵守转载规范

你可能感兴趣的:(根据历史数据预测未来数据)

docker容器迁移，以mysql容器为例风萧易去情难还 docker docker mysql 容器
在容器化环境中，容器迁移是确保应用程序在不同环境中平滑部署和运行的关键。本文将详细介绍如何将一个正在运行的MySQL容器从一台机器迁移到另一台机器。特别内网安装数据库等软件时，所需依赖和工具下载困难，可以通过镜像迁移方式完成软件安装。一、准备工作在开始迁移之前，我们需要准备以下几项工作：源机器（A机器）：正在运行的MySQL容器。#拉取mysql镜像dockerpullmysql:8.0.25#创
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Hive SQL 精进系列：SUBSTR 函数的多样用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、SUBSTR函数基础介绍2.1基本语法2.2参数详解2.3简单示例三、SUBSTR函数常见应用场景3.1提取日期中的年份、月份或日期3.2隐藏部分敏感信息四、SUBSTR函数高级用法4.1结合条件判断动态截取4.2处理复杂字符串模式五、总结一、引言SUBSTR函数是HiveSQL中一个用于字符串截取的重要函数，在处理文本数据时发挥着关键作用。本文将全面且深入地介绍HiveSQL中S
嵌入式Linux网络编程实战：基于DNS解析的HTTP客户端实现银河码 Linux网络编程网络 linux http c语言 windows vscode json
嵌入式Linux网络编程实战：基于DNS解析的HTTP客户端实现【本文代码已在树莓派4B（Linux内核5.10）平台验证通过，适用于物联网设备数据上报等场景】一、需求场景与功能亮点1.1典型物联网通信场景嵌入式设备DNS服务器云服务器域名解析请求返回目标IP发送传感器数据返回HTTP响应嵌入式设备DNS服务器云服务器1.2代码核心功能DNS智能解析：支持域名自动转换为IPv4地址协议合规性：严格
云原生：K8s（Kubernetes）高频典型面试题汇总老舅的火箭爱扫地云原生 kubernetes 容器
1.简述etcd及其特点？答：etcd是CoreOS团队发起的开源项目，是一个管理配置信息和服务发现（servicediscovery）的项目，它的目标是构建一个高可用的分布式键值（key-value）数据库，基于Go语言实现。特点：l简单：支持REST风格的HTTP+JSONAPIl安全：支持HTTPS方式的访问l快速：支持并发1k/s的写操作l可靠：支持分布式结构，基于Raft的一致性算法，R
【前端】如何依靠纯前端实现拍照获取/选择文件等文字识别OCR技术爱上大树的小猪前端 ocr 前端框架 react.js
本文仅介绍第三方依赖包Tesseract.js，Tesseract.js是一个基于网页的OCR（光学字符识别）引擎，可以识别图像中的文本并将其转换为可供计算机处理的文本数据。支持多框架编译，如Vue、React等，这里展示步骤为React开发。下面直接进入主题：附Tesseract.js官方（https://github.com/naptha/tesseract.js）下载安装依赖包npminst
Hive----Hive进阶操作(三) HIVE 特殊分隔符处理 XiaodunLP Hive
HIVE特殊分隔符处理补充：hive读取数据的机制：1、首先用InputFormat的一个具体实现类读入文件数据，返回一条一条的记录（可以是行，或者是你逻辑中的“行”）2、然后利用SerDe的一个具体实现类，对上面返回的一条一条的记录进行字段切割Hive对文件中字段的分隔符默认情况下只支持单字节分隔符，如果数据文件中的分隔符是多字符的，如下所示：01||huangbo02||xuzheng03||
Docker 中 MySQL 迁移策略（单节点） Java咩 docker mysql 容器
目录一、简介二、操作流程2.1进入mysql容器2.2导出MySQL数据2.3.将导出的文件复制到宿主机2.4创建DockerCompose配置2.5启动新的Docker容器2.6导入数据到新的容器2.7验证数据2.8删除旧的容器（删除操作需慎重）三、推荐配置四、写在后面一、简介本人发现自己Docker中Mysql的时区不对，导致每次连接数据库都需要设置时区，所以考虑进行数据库迁移，重新搭建一个正
Python（1）Python全方位指南：定义、应用与零基础入门实战一个天蝎座白勺程序猿 Python入门到精通 python 开发语言
背景：为什么Python成为开发者必备技能？‌Python自1991年发布以来，凭借‌“简单高效”‌的设计理念，成为全球增长最快的编程语言。根据TIOBE2023年榜单，Python稳居前三，其核心竞争力包括：‌开发效率高‌：代码量仅为Java的1/5，C++的1/10。‌跨领域通吃‌：从Web开发到AI训练，覆盖90%以上技术场景。‌企业级应用‌：YouTube用Python处理视频推荐，NAS
Python 赋能经济趋势与股票研究：数据驱动的投资洞察 Small踢倒coffee_氕氘氚笔记经验分享
在当今数据爆炸的时代，Python凭借其强大的数据处理能力和丰富的开源库，已成为经济趋势分析和股票研究的利器。本文将探讨如何利用Python进行以下方面的研究：**一、数据获取与清洗*****数据来源:*****财经数据API:**Tushare、AKShare、YahooFinance、AlphaVantage等提供丰富的股票、基金、宏观经济等数据。***网络爬虫:**使用BeautifulSo
鸿蒙开发2024【面试题库】讲解，近期需要面试的可千万别错过！鸿蒙系统小能手Mr.Li 鸿蒙开发 harmonyos 面试鸿蒙 OpenHarmony 鸿蒙系统程序员移动开发
1.请简述鸿蒙OS与AndroidOS的主要区别是什么？设备兼容性：鸿蒙OS是一款面向各种设备的分布式操作系统，支持手机、平板电脑、智能手表、智能家居、汽车等多种设备类型，并能在这些设备之间实现无缝切换和共享数据。而Android系统则主要用于移动设备，如手机和平板电脑。系统架构：鸿蒙OS采用分布式技术架构，通过分布式技术实现多设备间的协作和数据共享，更加灵活、安全、高效。而Android则采用单
AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！大模型教程人工智能大模型训练 LLM 知识库大模型大模型入门大模型学习
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
突破反爬终极指南：如何用Python实现100%隐形数据抓取（附实战代码）煜bart 机器人人工智能 web3.py
引言：当爬虫遭遇铜墙铁壁2023年Q2最新统计显示，全球Top100网站中89%部署了AI驱动的反爬系统，传统爬虫存活率暴跌至17%。本文将揭秘一套基于深度伪装技术的爬虫方案，在最近三个月实测中保持100%成功率，成功突破Cloudflare、Distil等顶级防护系统。---###一、指纹伪装：让爬虫"隐身"的核心科技####1.1浏览器指纹深度克隆（代码实现）```pythonfromsele
零信任架构阿湯哥架构
零信任架构（ZeroTrustArchitecture,ZTA）零信任架构是一种新型网络安全模型，核心理念是“永不信任，始终验证”（NeverTrust,AlwaysVerify）。它摒弃传统基于边界的安全防护（如防火墙隔离内外部网络），转而通过动态的、细粒度的访问控制，对所有用户、设备和数据流进行持续验证，最小化攻击面并防范内部威胁。一、零信任与传统安全模型的对比维度传统安全模型零信任模型信任基
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
React 18 并发更新的工作原理与实战应用程序员小续 react.js 前端前端框架 javascript typescript reactjs ecmascript
在React18版本中，引入了并发更新（ConcurrentRendering）的概念，这是一种新的渲染模式，允许React更加智能地协调UI更新，提高应用的流畅度和响应速度。一.什么是并发更新？并发更新（ConcurrentRendering）允许React中断和恢复渲染，并根据用户的交互优先级调整渲染顺序。换句话说，React18让渲染变得非阻塞，不会因为某个状态更新导致整个UI卡顿。在Rea
数据库核心技术面试题深度剖析：主从同步、二级索引与Change Buffer 后端数据库mysql
在数据库相关岗位的面试中，主从同步、二级索引、ChangeBuffer是高频考察点。本文将从面试题角度拆解这三个技术点，覆盖底层原理、性能优化、设计思想，并结合实际场景与高频追问，助你构建系统性回答框架。一、主从同步：高可用架构的灵魂1.基础问题：主从同步的基本流程是什么？答：核心流程：主库将事务写入Binlog（二进制日志）从库的IO线程拉取Binlog到本地RelayLog从库的SQL线程重放
HarmonyNext实战：基于ArkTS的分布式数据同步应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的分布式数据同步应用开发引言在分布式系统中，数据同步是一个核心问题，尤其是在多设备协同的场景下。HarmonyNext作为新一代操作系统，提供了强大的分布式能力，而ArkTS作为其开发语言，能够帮助开发者高效实现分布式数据同步。本文将详细讲解如何在HarmonyNext平台上使用ArkTS开发一个分布式数据同步应用。我们将从分布式数据同步的基本原理入手，逐
网站可以不安装SSL证书吗 ssl证书
一、SSL证书的作用SSL证书，全称为安全套接层（SecureSocketsLayer）证书，是互联网通信中用于加密数据的一种技术手段。它主要用于在客户端和服务器之间建立一个安全的加密通道，确保数据在传输过程中不被窃取或篡改。同时，SSL证书还能验证网站的真实身份，防止钓鱼网站攻击。SSL证书申请入口直接访问JoySSL，注册一个新账号，并填写特定注册码230931（获得技术支持）二、不安装SSL
别让小绿锁骗了你！拆解 SSL 证书选择陷阱安全
"您的网站存在安全风险！"2024年网信办数据显示，超60%企业因误用SSL证书被约谈——那个看似安心的"小绿锁"，正在成为数据泄露的温柔陷阱。一、小绿锁的"双面人生"：从信任符号到诈骗帮凶某财税平台的"小绿锁"下，备案主体竟是"XX零食店"——这正是DV证书（域名验证型）的致命缺陷：仅验证域名归属，不核查企业资质。黑客用"银行.fun"域名申请DV证书，就能伪装成网银钓鱼网站，2023年此类攻击
通配符SSL证书 https
在所有的SSL证书中，通配符证书由于其高性价比而广受欢迎。它是一种特殊的SSL证书，用于在互联网上建立安全的连接，保护一个主域名及其下所有子域名的数据安全。一、定义与原理通配符SSL证书通过在证书配置中使用星号作为通配符，实现对主域名及其所有二级子域名的https保护,后期增加二级子域名也是自动覆盖。二、应用场景1.多站点管理：对于拥有多个独立站点的企业或个人而言，通配符SSL证书可以简化证书管理
批量检查微信小程序是否被封的Go代码微信微信小程序
概述：这段Go代码通过请求接口https://api.52an.fun/xcx/checkxcx.php?appid={appid}，批量检查多个微信小程序是否被封禁。接口返回的JSON数据中包含code字段，code为1表示小程序正常，code为0表示小程序被封禁，并且会返回封禁原因。程序会根据返回结果输出每个小程序的状态。Go代码示例：packagemainimport("encoding/j
IP 证书：为什么 2025 年所有云服务器都必须安装的 “数字防火墙”？ ssl证书
IP证书作为一种关键的安全工具，已成为所有云服务器都必须安装的“数字防火墙”。一、保障数据传输安全数据在云服务器与用户之间传输时，极易被黑客盯上。IP证书采用SSL协议对数据进行加密，就像给数据穿上了一层密不透风的铠甲。无论是用户登录信息、支付数据，还是企业的商业机密，加密后第三方难以窃听和篡改。例如，当电商用户在云服务器支持的平台上进行支付操作，IP证书能确保支付信息安全传输，避免被黑客窃取。同
servletcontext的作用详细介绍时光旅人01号 Javaweb servlet tomcat java web.xml http
1、什么是servletcontextweb容器在启动的时候，他会为每个web程序创建一个对应的servletcontext对象，他代表的是当前的web应用：共享数据我在这个Servlet中保存的数据，可以在宁一个servlet中拿到：例子如下设置数据publicclassServlettestextendsHttpServlet{protectedvoiddoPost(HttpServletRe
企业级通配符 SSL 证书：企业网络安全的坚实护盾 ssl证书
一、什么是企业级通配符SSL证书企业级通配符SSL证书，是一种数字证书，它就像是企业在网络世界的“身份证”。与普通证书不同，其最大亮点在于一个证书能保护一个主域名及其下所有的子域名。这极大地简化了证书管理流程，企业无需为每个子域名单独申请和配置证书，一站式搞定网络加密需求。二、强大的加密保障在网络数据传输如水流般穿梭的时代，信息安全至关重要。企业级通配符SSL证书采用先进加密算法，将数据加密打包后
doris：安全概览向阳1218 大数据 doris
oris提供以下机制管理数据安全：身份认证：Doris支持用户名/密码与LDAP认证方式。内置认证：Doris内置了用户名/密码的认证方式，可以自定义密码策略；LDAP认证：Doris可以通过LDAP服务集中管理用户凭证，简化访问控制并增强系统的安全性。权限管控：Doris支持基于角色的访问控制或继承Ranger实现集中化的权限管理。基于角色的访问控制（RBAC），Doris可以根据用户角色与权限
【数据结构实战篇】深入浅出：C语言中的栈数据结构 f狐0狸x 【数据结构实战篇】数据结构 c语言栈算法数据挖掘
️专栏：【数据结构实战篇】主页：f狐o狸x前面几期内容里面我们详细的了解了数据结构中链表的结构，现在我们在来了解一下栈的结构一、栈1.1栈的概念及结构栈：一种特殊的线性表，其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶，另一端称为栈底。栈中的数据元素遵守后进先出LIFO（LastInFirstOut）的原则。压栈：栈的插入操作叫做进栈/压栈/入栈，入数据在栈顶。出
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
苹果签名的战略价值：解析六大核心优势与商业赋能逻辑 ios
苹果签名的战略价值：解析六大核心优势与商业赋能逻辑（因篇幅过长所以分为两篇帖子发~）在iOS应用生态中，签名机制既是技术护城河，也是开发者突破分发限制的关键武器。本文将从开发效率、商业变现、安全管控等维度，深度剖析苹果签名体系带来的独特价值。一、突破AppStore审核壁垒，加速产品验证苹果签名最核心的优势在于规避冗长审核流程。根据2023年统计，AppStore平均审核周期为24小时，首次提交通
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源