mxinye

数据分析及算法总结

一. K-近邻算

工作原理

简洁的讲: 如果一个样本在特定的空间中的K个最邻近的中的大多数属于某个类,则这个样本属于这个类.

用途

k近邻的目的是测量不同特征值与数据集之间的距离来进行分类

样本差异性

欧式距离

优缺点

优点：精度高、对异常值不敏感、无数据输入假定。

缺点：时间复杂度高、空间复杂度高。

适用数据范围：数值型和标称型。

导包

分类问题：from sklearn.neighbors import KNeighborsClassifier
回归问题：from sklearn.neighbors import KNeighborsRegressor

参数

n_neighbors：取邻近点的个数k。k取1-9测试

weight：距离的权重；uniform：一致的权重；distance：距离的倒数作为权重

p:闵可斯基距离的p值; p=1:即欧式距离；p=2:即曼哈顿距离；p取1-6测试

二、线性回归

【关键词】最小二乘法，线性

原理

普通的线性回归

最小二乘法

平方误差可以写做:

对W求导，当导数为零时，平方误差最小，此时W等于：

导包

from sklearn.linear_model import LinearRegression

岭回归

岭回归是加了二阶正则项(lambda*I)的最小二乘，主要适用于过拟合严重或各变量之间存在多重共线性的时候，岭回归是有bias的，这里的bias是为了让variance更小。

为了得到一致假设而使假设变得过度严格称为过拟合,

bias:指的是模型在样本上的输出与真实值的误差
variance：指的是每个模型的输出结果与所有模型平均值（期望）之间的误差

公式

导包

from sklearn.linear_model import Ridge

参数

alpha:调整为大于1的数字

优点

1. 缩减方法可以去掉不重要的参数，因此能更好地理解数据。此外，与简单的线性回归相比，缩减法能取得更好的预测效果
2. 岭回归是加了二阶正则项的最小二乘，主要适用于过拟合严重或各变量之间存在多重共线性的时候，岭回归是有bias的，这里的bias是为了让variance更小。

归纳总结

岭回归可以解决特征数量比样本量多的问题
岭回归作为一种缩减算法可以判断哪些特征重要或者不重要，有点类似于降维的效果
缩减算法可以看作是对一个模型增加偏差的同时减少方差

岭回归用于处理下面两类问题：

数据点少于变量个数
变量间存在共线性（最小二乘回归得到的系数不稳定，方差很大）

lasso回归

原理

【拉格朗日乘数法】

对于参数w增加一个限定条件，能到达和岭回归一样的效果

在lambda足够小的时候，一些系数会因此被迫缩减到0

导包

from sklearn.linear_model import Lasso

参数:

alpha:调整为小于1的数字

三、逻辑斯蒂回归(分类)

【关键词】Logistics函数，最大似然估计，梯度下降法

Logistics回归的原理

利用Logistics回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。这里的“回归” 一词源于最佳拟合，表示要找到最佳拟合参数集。

预测函数

Cost函数

梯度下降法求J(θ)的最小值

训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化算法。接下来介绍这个二值型输出分类器的数学原理

Logistic Regression和Linear Regression的原理是相似的，可以简单的描述为这样的过程：

找一个合适的预测函数，一般表示为h函数，该函数就是我们需要找的分类函数，它用来预测输入数据的判断结果
构造一个Cost函数（损失函数），该函数表示预测的输出（h）与训练数据类别（y）之间的偏差，可以是二者之间的差（h-y）或者是其他的形式。综合考虑所有训练数据的“损失”，将Cost求和或者求平均，记为J(θ)函数，表示所有训练数据预测值与实际类别的偏差。
显然，J(θ)函数的值越小表示预测函数越准确（即h函数越准确），所以这一步需要做的是找到J(θ)函数的最小值

参数

solver参数的选择：

“liblinear”：小数量级的数据集
“lbfgs”, “sag” or “newton-cg”：大数量级的数据集以及多分类问题
“sag”：极大的数据集

优缺点

优点: 实现简单，易于理解和实现；计算代价不高，速度很快，存储资源低

缺点: 容易欠拟合，分类精度可能不高

四、决策树

【关键词】树，信息增益

构造

信息论

不同于逻辑斯蒂回归和贝叶斯算法，决策树的构造过程不依赖领域知识，它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。

构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

  1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

  2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

  3、属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

构造决策树的关键性内容是进行属性选择度量，属性选择度量是一种选择分裂准则，它决定了拓扑结构及分裂点split_point的选择。

属性选择度量算法有很多，一般使用自顶向下递归分治法，并采用不回溯的贪心策略。这里介绍常用的ID3算法。

ID3算法

划分数据集的大原则是：将无序的数据变得更加有序

原理

决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

信息增益

计算熵

例子:

在决策树当中，设D为用类别对训练元组进行的划分，则D的熵（entropy）表示为：

现在我们假设将训练元组D按属性A进行划分，则A对D划分的期望信息为 :

而信息增益即为两者的差值：

优缺点

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。既能用于分类，也能用于回归

缺点：可能会产生过度匹配问题

导包

from sklearn.tree import DecisionTreeClassifier

参数

max_depth: 树的最大深度

梯度提升决策树

导包和使用

from sklearn.ensemble import GradientBoostingClassifier

GradientBoostingClassifier()

五、朴素贝叶斯

总结历史,预测未来

【关键词】

朴素：独立性假设
贝叶斯公式

思想

朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单，但有时会牺牲一定的分类准确率。

公式

优点

朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率；
对小规模的数据表现很好；
能处理多分类任务，适合增量式训练；
对缺失数据不太敏感，算法也比较简单，常用于文本分类

缺点

只能用于分类问题
需要计算先验概率；
分类决策存在错误率；
对输入数据的表达形式很敏感

3种贝叶斯模型

高斯分布

高斯分布就是正态分布

【用途】用于一般分类问题

导包

from sklearn.naive_bayes import GaussianNB

多项式分布

公式

【用途】适用于文本数据（特征表示的是次数，例如某个词语的出现次数）

导包

from sklearn.naive_bayes import MultinomialNB

伯努利分布

【用途】适用于伯努利分布，也适用于文本数据（此时特征表示的是是否出现，例如某个词语的出现为1，不出现为0）

绝大多数情况下表现不如多项式分布，但有的时候伯努利分布表现得要比多项式分布要好，尤其是对于小数量级的文本数据

公式

导包

from sklearn.naive_bayes import BernoulliNB

六、随机森林

极端的随机森林

from sklearn.ensemble import ExtraTreesRegressor

正常的随机森林

from sklearn.ensemble import RandomForestClassifier

特点

在当前所有算法中，具有极好的准确率
能够有效地运行在大数据集上
能够处理具有高维特征的输入样本，而且不需要降维
能够评估各个特征在分类问题上的重要性
在生成过程中，能够获取到内部生成误差的一种无偏估计
对于缺省值问题也能够获得很好得结果

优点

1、在当前的很多数据集上，相对其他算法有着很大的优势，表现良好
2、它能够处理很高维度的数据，并且不用做特征选择，因为特征子集是随机选择的
3、在训练完后，它能够得出特征重要性
4、在创建随机森林的时候，对generlization error使用的是无偏估计，模型泛化能力强
5、随机森林有oob，不需要单独换分交叉验证集
6、训练时树与树之间是相互独立的，训练速度快，容易做成并行化方法
7、对缺失值不敏感，如果有很大一部分的特征遗失，仍可以维持准确度。

缺点：

1、随机森林在某些噪音较大的分类或回归问题上会过拟合
2、对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响

参数

n_estimators : 森林里（决策）树的数目 **

criterion : 衡量分裂质量的性能（函数）

max_depth : 决策）树的最大深度 **

min_samples_split : 分割内部节点所需要的最小样本数量 **

min_samples_leaf : 需要在叶子结点上的最小样本数量 **

min_weight_fraction_leaf : 一个叶子节点所需要的权重总和（所有的输入样本）的最小加权分数

n_jobs : 用于拟合和预测的并行运行的工作作业数量 (进程)

七、支持向量机SVM（Support Vector Machine）

原理

支持向量机，其含义是通过支持向量运算的分类器。其中“机”的意思是机器，可以理解为分类器。那么什么是支持向量呢？在求解的过程中，会发现只根据部分数据就可以确定分类器，这些数据称为支持向量

用途

SVM主要针对小样本数据进行学习、分类和预测（有时也叫回归）的一种方法，能解决神经网络不能解决的过学习问题，而且有很好的泛化能力

解决的问题

线性分类

在训练数据中，每个数据都有n个的属性和一个二类类别标志，我们可以认为这些数据在一个n维空间里。我们的目标是找到一个n-1维的超平面（hyperplane），这个超平面可以将数据分成两部分，每部分数据都属于同一个类别。其实这样的超平面有很多，我们要找到一个最佳的。因此，增加一个约束条件：这个超平面到每边最近数据点的距离是最大的。也成为最大间隔超平面（maximum-margin hyperplane）。这个分类器也成为最大间隔分类器（maximum-margin classifier）。支持向量机是一个二类分类器。
非线性分类

SVM的一个优势是支持非线性分类。它结合使用拉格朗日乘子法和KKT条件，以及核函数可以产生非线性分类器。

详情

SVM的目的是要找到一个线性分类的最佳超平面 f(x)=xw+b=0。求 w 和 b。

首先通过两个分类的最近点，找到f(x)的约束条件。

有了约束条件，就可以通过拉格朗日乘子法和KKT条件来求解，这时，问题变成了求拉格朗日乘子αi 和 b。

对于异常点的情况，加入松弛变量ξ来处理。

非线性分类的问题：映射到高维度、使用核函数。

导包

from sklearn.svm import SVC,SVR

参数

kernel: linear  # 线性
    	rbf     # 半径
        poly    # 多项式

八、K均值算法（K-means）聚类

【关键词】K个种子，均值

原理

聚类的概念：一种无监督的学习，事先不知道类别，自动将相似的对象归到同一个簇中

K-Means算法是一种聚类分析（cluster analysis）的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大

K-Means主要最重大的缺陷——都和初始值有关

K是事先给定的，这个K值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。（ISODATA算法通过类的自动合并和分裂，得到较为合理的类型数目K）

K-Means算法需要用初始随机种子点来搞，这个随机种子点太重要，不同的随机种子点会有得到完全不同的结果。（K-Means++算法可以用来解决这个问题，其可以有效地选择初始点）

步骤

从数据中选择k个对象作为初始聚类中心;
计算每个聚类对象到聚类中心的距离来划分；
再次计算每个聚类中心
计算标准测度函数，直到达到最大迭代次数，则停止，否则，继续操作。
确定最优的聚类中心

参数和属性

重要参数：

n_clusters：聚类的个数

重要属性：

cluster_centers_ : [n_clusters, n_features]的数组，表示聚类中心点的坐标
labels_ : 每个样本点的标签

导包

from sklearn.cluster import KMeans

常见错误

k值不合适
数据偏差
标准偏差不相同
样本数量不同

聚类评估：轮廓系数

导包

from sklearn.metrics import silhouette_score

计算样本i到同簇其他样本的平均距离ai。ai 越小，说明样本i越应该被聚类到该簇。将ai 称为样本i的簇内不相似度。
计算样本i到其他某簇Cj 的所有样本的平均距离bij，称为样本i与簇Cj 的不相似度。定义为样本i的簇间不相似度：bi =min{bi1, bi2, …, bik}
si接近1，则说明样本i聚类合理
si接近-1，则说明样本i更应该分类到另外的簇
若si 近似为0，则说明样本i在两个簇的边界上。

使用

# 需要传训练数据和预测的结果
silhouette_samples(data, labels) # 返回的是每一个样本的轮廓系数.

九、交叉验证(寻找最优算法)

用于系统地遍历多种参数组合，通过交叉验证确定最佳效果参数

导包与使用

from sklearn.model_selection import GridSearchCV

knn = KNeighborsClassifier()
param_grid = {
    'n_neighbors': [3,5,7,9,11], 
    'weights': ['uniform', 'distance'],
    'p': [1,2]
}
gv = GridSearchCV(knn, param_grid=param_grid, n_jobs=5)# param_grid为参数字典 n_jobs 为进程数

属性

gv.best_score_ : 最佳得分
gv.best_estimator_ : 最佳的算法对象
gv.best_params_ : 最佳参数

十、PCA降维

导包与使用

from sklearn.decomposition import PCA

# n_components表示要降到多少维, 
# whiten = True ,白化, 把数据的标准差变的一致.
pca = PCA(30, whiten=True)
pca.fit_transform(data) # data为高维数组

十一: 特征工程

描述

特征是指数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程

意义

更好的特征意味着更强的灵活性
更好的特征意味着只需要简单模型
更好的特征意味着更好的结果

数据清洗方式

错误数据
组合或统计属性判定
补齐可对应的缺省值

正负样本不平衡的处理方法

正负样本量很大，一类样本数量 >> 另一类样本数量，采用下采样，即对偏多的数据进行采样，使两类样本数量达到一定比例，例如1：1， 3：2等
正负样本量不大，一类样本数量>>另一类样本
1. 采集更多的数据
2. oversampling，即硬生生的增加量少的一方的样本，比如增加几倍的量少的样本（或简单处理量少的数据，例如图像识别中的镜像、旋转），容易过拟合
3. 修改loss function，例如增加量大的样本的惩罚权重

十二、分类模型

描述

AUC是一个模型评价指标，用于二分类模型的评价。AUC是“Area under Curve（曲线下的面积）”的英文缩写，而这条“Curve（曲线）”就是ROC曲线。

AUC是现在分类模型，特别是二分类模型使用的主要离线评测指标之一 .

相比于准确率、召回率、F1等指标，AUC有一个独特的优势，就是不关注具体得分，只关注排序结果，这使得它特别适用于排序问题的效果评估，例如推荐排序的评估。AUC这个指标有两种解释方法，一种是传统的“曲线下面积”解释，另一种是关于排序能力的解释。例如0.7的AUC，其含义可以大概理解为：给定一个正样本和一个负样本，在70%的情况下，模型对正样本的打分高于对负样本的打分。可以看出在这个解释下，我们关心的只有正负样本之间的分数高低，而具体的分值则无关紧要。

为什么要使用

为什么要用AUC作为二分类模型的评价指标呢？为什么不直接通过计算准确率来对模型进行评价呢？答案是这样的：机器学习中的很多模型对于分类问题的预测结果大多是概率，即属于某个类别的概率，如果计算准确率的话，就要把概率转化为类别，这就需要设定一个阈值，概率大于某个阈值的属于一类，概率小于某个阈值的属于另一类，而阈值的设定直接影响了准确率的计算。使用AUC可以解决这个问题，接下来详细介绍AUC的计算。

导包

from sklearn.metrics import roc_curve, auc

一个分类模型的分类结果的好坏取决于以下两个部分：

分类模型的排序能力(能否把概率高的排前面，概率低的排后面)
threshold的选择

ROC

图

计算两个指标的值：
True Positive Rate=TP/(TP+FN)，代表将真实正样本划分为正样本的概率真阳率
False Positive Rate=FP/(FP+TN)，代表将真实负样本划分为正样本的概率伪阳率
接着，我们以“True Positive Rate”作为纵轴，以“False Positive Rate”作为横轴，画出ROC曲线。类似下图：

代码演示:

logistic = LogisticRegression()
i = 1
# 人为的创造fpr_mean
fpr_mean = np.linspace(0,1, 100)
tprs = []
aucs = []

for train,test in skf.split(X,y):
    
    logistic.fit(X[train], y[train])
    y_ = logistic.predict_proba(X[test])
#     print(y_)
#     print('----------------------------------')
    # 真实值,和正例的概率
    fpr, tpr, thresholds = roc_curve(y[test], y_[:,1])
    tpr_mean = interp(fpr_mean ,fpr, tpr)
    tprs.append(tpr_mean)
#     print(fpr, tpr, thresholds)
#     print('---------------------------------------')
    auc_ = auc(fpr, tpr)
    aucs.append(auc_)
    plt.plot(fpr, tpr, label=f'fold {i}, auc: %.4f' % (auc_), alpha=.4)
    i += 1
    
tprs = np.array(tprs)
tpr_mean = tprs.mean(axis=0)
tpr_mean[0] = 0
tpr_mean[-1] = 1
auc_mean = auc(fpr_mean, tpr_mean)
# 算auc的标准差
aucs = np.array(aucs)
auc_std = aucs.std(axis=0)
plt.plot(fpr_mean, tpr_mean, label='auc mean: %.4f$\pm$%.4f' % (auc_mean, auc_std),c='g')
plt.legend()

提取图片颜色信息转数据信息 ~夕上林~ 图像处理 matlab
提取图片颜色信息转数据信息背景：给定原始图片如下，数据范围为0~2π\piπ，如何通过给定图片，提取出来对应的数据信息。目录提取图片颜色信息转数据信息分析颜色模型图像预处理图像修复图片重建和裁剪提取数据分析原始图片存在两个数据图Transmittedwave和Reflectedwave，接下来将其简称为c图和d图。两数据图的颜色范围和数据范围均一致，之后以c图进行分析：项目Value长lll2.2
如何在 Ubuntu 20.04 或 22.04 上安装 Python 3 百川Cs 计算机基础 ubuntu python linux pip conda
以下是关于如何在Ubuntu20.04或22.04上安装Python3的详细步骤。Python是一种广泛使用的编程语言，适用于自动化、数据分析、机器学习等领域。Ubuntu系统通常预装了Python3，但如果需要安装或升级到最新版本，可以按照以下方法操作。检查系统是否已安装Python3打开终端（快捷键：Ctrl+Alt+T）。输入以下命令检查是否已安装Python3：python3--versi
电影智能推荐系统风又起而叶落地 pandas
电影智能推荐系统背景介绍人们经常会在视频平台上观看影片，有时目标明确，想要观看某部电影，但有时仅仅是随机搜寻。如果视频平台可以利用基于物品的智能推荐系统，有效地从用户对其观看过的电影的评分中挖掘数据，便可以根据用户偏好的电影个性化地推荐更多类似的电影，优化用户体验，提高用户粘性，创造额外收入。分析步骤读取数据数据分析合并电影数据和评分数据计算每部电影的评分均值计算每部电影的“评分次数”创建数据透视
Python Pandas数据清洗与处理大数据张老师 Python程序设计 python pandas 开发语言
PythonPandas数据清洗与处理在进行数据分析时，原始数据往往包含了许多不完整、不准确或者冗余的信息。数据清洗与处理的任务就是将这些杂乱无章的数据清理干净，确保数据的准确性和一致性，从而为后续的分析工作打下坚实的基础。Pandas提供了强大的工具来帮助我们清洗和处理数据，尤其是在处理Series和DataFrame时，它能够高效地进行数据的筛选、填充、删除、替换等操作。本节将通过一些常见的数
基于大数据的电影数据分析可视化系统设计与应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于大数据的电影数据分析可视化系统设计与应用作者：禅与计算机程序设计艺术1.背景介绍1.1大数据时代的电影行业随着互联网技术和数字化的发展,电影行业已经进入大数据时代。每天都有海量的电影相关数据在各个平台上生成,包括票房数据、评分数据、影评数据等。这些数据蕴含着巨大的价值,如果能够有效地分析和利用,将为电影行业的发展提供重要的决策支持。1.2电影数据分析与可视化的意义1.2.1洞察电影市场趋势通过
分享wind量化交易平台接口编程代码「已注销」 python 开发语言
相信做股票投资的的人对于wind应该很熟悉，它是一个比较高端的金融数据服务商，有很多人做数据分析之前，一定都需要到wind上看看相关资料，但是wind上面的信息非常多，如果可以通过量化交易接口进行筛选，操作起来就会方面很多了，今日我们就来分享一组wind量化交易平台接口的编程代码。importpandasaspdfromWindPyimport*fromdatetimeimport*importt
【实践】Python实现气象数据分析与可视化大数据张老师 Python程序设计信息可视化 python 数据分析可视化
一、项目需求在本节中，我们将明确“气象数据分析与可视化”项目的需求，定义项目的功能和目标，为后续的实现奠定基础。通过本项目，读者将学习如何使用Python的各种数据处理和可视化工具来分析和展示气象数据，从而掌握数据处理与可视化的核心技能。1.项目目标“气象数据分析与可视化”项目的目标是通过对历史气象数据的处理和分析，生成直观的图表和统计结果，帮助用户理解气象趋势并预测未来变化。项目的主要功能如下：
证券量化交易选择合适的编程语言 jcsx 量化 numpy pandas pyqt servlet javascript
在证券量化交易中，选择合适的编程语言至关重要，因为它直接影响到开发效率、运行速度和策略的灵活性。常用的编程语言有几个，它们各自有不同的优势和应用场景。以下是一些在量化交易中常用的编程语言：PythonPython是目前量化交易中最流行的编程语言之一，特别是在金融数据分析和模型开发中，广泛被使用。Python的流行主要有以下原因：数据处理能力：Python有非常强大的数据处理库，如pandas（数据
Python数据分析案例教程 kkchenjj 数据挖掘 python 数据分析信息可视化
Python数据分析案例教程Python在数据分析中的应用Python因其简洁的语法、强大的库支持以及广泛的社区资源，已成为数据分析领域的首选语言。它能够处理从数据清洗、数据可视化到机器学习模型构建的整个数据科学流程。本节将深入探讨Python在数据分析中的具体应用，包括但不限于数据清洗、数据探索、统计分析和预测建模。数据清洗数据清洗是数据分析的首要步骤，涉及处理缺失值、异常值、重复数据以及数据类
金融数据有哪些，有用的股票API接口数据 nance99 金融 python git
一、金融数据有哪些，有用的股票API接口行情数据金融大数据是为金融机构、个人投资者以及金融应用开发者提供专业的数据和行情报价API服务，满足不同用户在投资过程中丰富多样的行情数据分析和投资研究，以API接口形式为用户提供行情数据API服务，提供的数据包括市场行情、财报、宏观等，还有基于文本分析的股票关联数据。对金融机构或者投资者而言，金融数据是企业财富。实时数据对企业成功至关重要，股票行情数据种类
网络安全态势感知：企业数字化转型的 “安全密钥” 知白守黑V 安全运营网络安全态势感知网络
在数字经济飞速发展的当下，网络安全已经成为企业平稳运营的关键所在。从大型企业的数据泄露事故，到中小企业遭遇的各类网络攻击，网络安全威胁无处不在。而网络安全态势感知产品，作为应对复杂网络威胁的关键技术，正逐渐成为企业守护数字资产的“智慧大脑”。一、态势感知：全景掌控，精准防御你可以把网络安全态势感知想象成企业网络的“超级侦察兵”。它借助大数据分析、机器学习这些先进技术，就像是拥有了超级强大的“洞察力
基于Python的豆瓣电影爬虫数据分析可视化设计与实现计算机软件程序设计 Python爬虫 Python程序设计数据分析 python 爬虫
【1】系统介绍1.研究背景随着互联网的快速发展，电影产业已经成为全球文化产业的重要组成部分。观众对电影的需求和兴趣日益增长，而在线电影平台如豆瓣电影（DoubanMovie）成为了用户获取电影信息、发表评论和评分的主要渠道之一。豆瓣电影不仅提供了丰富的电影资料，还拥有庞大的用户群体，这些用户生成的内容（UGC）为电影市场分析提供了宝贵的数据资源。然而，尽管豆瓣电影平台提供了大量的公开数据，但这些数
周报管理系统大霸王龙行业+领域+业务场景=定制 python microsoft ascii 文本处理
代码仓库产品名称：智汇周报管理系统主要功能：自动化报告生成：智汇周报管理系统能够自动收集项目进展、任务完成情况、团队成员工作日志等关键数据，基于预设模板或用户自定义模板，一键生成周报。支持多格式导出（如Word、PDF、Excel），满足不同场景下的报告需求。智能数据分析与可视化：系统内置强大的数据分析引擎，能够自动对收集到的数据进行统计分析，如任务完成率、进度延误情况、成员工作负荷等，并通过图表
怎么利用商品详情 API 接口实现数据获取与应用？前端后端运维数据挖掘api
在电商蓬勃发展的时代，数据成为了驱动业务增长的关键要素。对于电商从业者、开发者以及数据分析爱好者而言，获取商品详情数据并加以有效应用，是实现精准营销、优化用户体验、提升运营效率的重要途径。商品详情API接口就像是一把钥匙，为我们打开了获取海量商品数据的大门。本文将深入探讨如何利用商品详情API接口实现数据的获取与应用，并通过丰富的代码示例，帮助大家更好地理解和实践。一、理解商品详情API接口API
【2024校招总结帖】数据分析、面试经验、心得体会分享 huaxinjiayou java
首航新能源，一进来就开始大批裁员工作节奏比较快，公司对员工的加班要求也比较严格，而且没有加班费，缺乏福利待遇。另外，公司裁员频繁，而阿里国际一面面经吹爆阿里国际面试官，比某些自以为是的面试官好太多了，面试还不开摄像头。写题的时候，我问他要开摄像头吗鼠人传（第五十二集，2024/4/30）刷题：补昨天的C、MinimizingtheSum，定义dp[i][j]为长度i，使用最多j次可2024西山居S
【Python】红旗超市线下缴电费用户数据分析及可视化（pandas+pyecharts）风度78 百度人工智能 python 机器学习数据分析
场景分析：一部分用户习惯在红旗超市线下进行缴电费，电力公司希望了解哪些用户喜欢到线下缴费，具体分布在哪里，才能有针对性地宣传掌上电力app引导用户体验更高效的线上缴费方式，提升用户满意度。需求分析：首先要拿到红旗超市线下缴费清单数据，对所有数据进行隐私化处理，数据预览如图所示：可以看出台区名称为本项目的核心字段，通过台区匹配到经纬度信息，然后利用经纬度信息进行线下缴费热力图展示。同时可以提供分析报
ECharts：数据可视化的魔法师，偶尔也会“皮”一下 Python私教 Web 使用Vue3进行前端开发 Vue 信息可视化 echarts 前端
在数据爆炸的时代，如何从海量数据中提取有价值的信息，并将其清晰易懂地呈现出来，成为了各行各业面临的共同挑战。数据可视化作为一种有效的信息传递手段，应运而生，并逐渐成为数据分析领域不可或缺的一部分。而在众多数据可视化工具中，ECharts凭借其强大的功能、灵活的配置和丰富的图表类型，脱颖而出，成为了众多开发者的首选利器。一、ECharts：数据可视化的利器ECharts是一个由百度开源的可视化图表库
电商商业平台技术架构系列教程之：电商平台系统架构设计 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍1.1电商背景简介电商俗称网上购物，是一种通过网络直接进行商品交易的一种服务方式。在电商平台的运作中，消费者可以选择浏览、搜索和购买自己需要的产品或服务。通过平台发布的产品及其信息，用户可以方便地找到相关的产品和服务，从而提高效率和效益。而电商平台则是提供交易平台、管理后台、销售数据分析等功能。1.2电商系统架构概述电商平台通常由后端服务（API服务）、数据
python处理excel的具体操作若木胡 tools python
安装相关库openpyxl库：用于读取和写入Excel文件（.xlsx/.xlsm）。可以使用pipinstallopenpyxl命令进行安装。pandas库：提供了高效的数据结构和数据分析工具，它对openpyxl进行了封装，使操作Excel文件更加方便。安装命令是pipinstallpandas。使用openpyxl读取Excel文件打开工作簿：首先要导入openpyxl库，然后使用load_
wps2019数据分析加载项_怎样用Excel做数据分析（电商案例） weixin_39907939 wps2019数据分析加载项
一、数据分析步骤明确问题：知道你要研究什么问题，从而有目地的查找数据理解数据：寻找与问题相关的数据；从数据中你能得出的信息；理解字段信息数据清洗（数据预处理）：选择子集；列名重命名；删除重复值；缺失值处理；一致化处理；数据排序；异常值处理数据分析或构建模型：数据透视表；在Excel安装数据分析功能（安装步骤：文件～选项～加载项～Excel加载项转到～分析工具库，注意！这是MicrosoftExce
动态规划详解-最小路径和问题【python】数据分析螺丝钉 LeetCode刷题与模拟面试动态规划算法 leetcode python 数据结构
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级1.问题介绍和应用场景最小路径和问题是一个常见的动态规划问
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
spss因子分析过程中，旋转载荷平方和累积有点低咋办怎么调整 xiamu_CDA python
SPSS因子分析过程中，旋转载荷平方和累积有点低咋办？怎么调整？在数据分析领域，因子分析是一项重要的统计技术，尤其在心理学、社会学、市场营销等领域中应用广泛。它通过将多个变量简化为少数几个潜在因子，帮助研究者理解变量之间的内在结构。然而，在实际操作过程中，我们常常会遇到一些棘手的问题，比如旋转载荷平方和累积值偏低。这不仅会影响模型的解释力，还可能导致研究结果的可靠性大打折扣。那么，当我们在使用SP
构建自动化网页内容监控系统：使用Python 爱你不会累
本文还有配套的精品资源，点击获取简介：网页监控更新工具是一个由Python开发的软件，用于检测和记录网页内容的变化。该工具利用Python在Web抓取和数据分析方面的优势，包括利用requests,BeautifulSoup,lxml,和diff-match-patch等库来获取网页内容、解析HTML文档及计算文本差异。工具支持在Windows7及Python2.7.3环境下运行，并允许用户设定监
mysql之group by语句程序研 mysql mysql 数据库
MySQL的GROUPBY语句详细介绍在MySQL数据库中，GROUPBY子句用于将查询结果按照一个或多个列进行分组。这在数据分析和报表生成中非常有用，因为它允许我们对数据进行汇总和聚合，从而提取有价值的信息。本文将详细介绍GROUPBY语句的用法、注意事项以及通过多个代码例子来演示其功能。1.基本概念GROUPBY子句通常与聚合函数（如COUNT、SUM、AVG、MAX、MIN等）一起使用，以便
用Java提取Word文档表格数据
Word文档作为一种广泛使用的文件格式，常常承载着丰富的表格信息，这些信息可能涉及到财务报表、项目规划、实验数据记录等多方面内容。将这些表格数据提取出来，能够方便进行数据分析以及内容再创作等场景。通过使用Java实现Word文档表格数据的提取，可以确保数据处理的一致性和准确性，同时大大减少所需的时间和成本。本文将介绍如何使用Java提取Word文档中的表格数据。用Java提取Word文档表格到文本
python面试情景题_50道python笔试面试真题大集合我是史迪仔 python面试情景题
Python爬虫人工智能100GBweb爬虫数据分析人工智能视频免费领题目后面有50道题答案领取方式哦1、一行代码实现1--100之和利用sum()函数求和2、如何在一个函数内部修改全局变量利用global修改全局变量3、列出5个python标准库os：提供了不少与操作系统相关联的函数sys:通常用于命令行参数re:正则匹配math:数学运算datetime:处理日期时间4、字典如何删除键和合并两
数据分析变异系数やっはろ数据分析数据分析数据挖掘
目录变异系数的应用场景包括：特点：注意事项：np.nanvar——方差，np.sanstd标准差简单来讲就是平均值/标准差变异系数（CoefficientofVariation,CV）是一种相对量的变异指标，常用于衡量数据的离散程度。它通过标准差与均值的比值来表示，消除了单位差异的影响，使得不同量纲、均值不同的数据之间可以直接比较其离散程度。一般来说，变量值平均水平高，其离散程度的测度值越大，反之
C# 与.NET 日志变革：JSON 让程序“开口说清话” 步、步、为营 c#.net json
一、引言：日志新时代的开启在软件开发的漫长旅程中，日志一直是我们不可或缺的伙伴。它就像是应用程序的“黑匣子”，默默地记录着程序运行过程中的点点滴滴，为我们在调试、排查问题以及性能优化时提供关键线索。在早期，文本日志是我们最常用的记录方式，它简单直接，就像我们随手写下的日记，记录着事件发生的时间、内容等基本信息。然而，随着软件系统规模的不断扩大，架构日益复杂，尤其是在微服务、大数据分析以及云原生应用
python方差分析误差棒_一文讲透，带你学会用Python绘制带误差棒的柱状图和条形图... 加勒比考斯 python方差分析误差棒
Python数据可视化，作为数据常用的必备技能，是目前大数据和数据分析的一个热门，而matplotlib库作为Python中最为常用和经典的二维绘图库，受到了很多人的青睐，最近已经和大家共同探讨了多种类型的图表的绘制，其中关于误差棒图，咱们已经在上次一起讨论过了，今天咱们继续深入研究误差棒图相关的知识。那今天咱们聊点什么呢？咱们一起探讨一下如何在Python中绘制带误差棒的柱状图和条形图吧！首先，
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方