邵奈一

大数据HCIE成神之路之数据预处理（3）——数值离散化

数值离散化

- 1.1 无监督连续变量的离散化 – 聚类划分
- - 1.1.1 实验任务
  - - 1.1.1.1 实验背景
    - 1.1.1.2 实验目标
    - 1.1.1.3 实验数据解析
  - 1.1.2 实验思路
  - 1.1.3 实验操作步骤
  - 1.1.4 结果验证
- 1.2 无监督连续变量的离散化 – 等宽划分
- - 1.2.1 实验任务
  - - 1.2.1.1 实验背景
    - 1.2.1.2 实验目标
    - 1.2.1.3 实验数据解析
  - 1.2.2 实验思路
  - 1.2.3 实验操作步骤
  - 1.2.4 结果验证
- 1.3 无监督连续变量的离散化 – 等频划分
- - 1.3.1 实验任务
  - - 1.3.1.1 实验背景
    - 1.3.1.2 实验目标
    - 1.3.1.3 实验数据解析
  - 1.3.2 实验思路
  - 1.3.3 实验操作步骤
  - 1.3.4 结果验证
- 1.4 有监督连续变量的离散化 – 基于卡方检验的方法
- - 1.4.1 实验任务
  - - 1.4.1.1 实验背景
    - 1.4.1.2 实验目标
    - 1.4.1.3 实验数据解析
  - 1.4.2 实验思路
  - 1.4.3 实验操作步骤
  - 1.4.4 结果验证

1.1 无监督连续变量的离散化 – 聚类划分

聚类划分 是指使用聚类算法将数据分为K类，需要自己设定K值大小。从而把同属一类的数值标记为相同标签。目前常用的聚类划分方法是Kmeans算法。

聚类划分的实现使用Python中sklearn库的KMeans ( ) 函数，其基本格式如下：

KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm='auto')

关键参数详解：

n_clusters=8，表示要分成的簇数，默认为8。
init=‘k-means++’，表示初始化质心，默认采用k-means++，是一种生成初始质心的算法。
n_init=10，表示选择的质心种子次数，默认为10次。返回质心最好的一次结果，即计算时长最短的一次结果）。
max_iter=300，表示每次迭代的最大次数，默认为300。
tol=0.0001，表示容忍的最小误差，当误差小于tol就会退出迭代，默认值为0.0001。
precompute_distances=auto，这个参数会在空间和时间之间做权衡，如果是True会把整个距离矩阵都放到内存中，auto状态下会默认在数据样本大于featurs*samples 的数量时则False。
verbose=0，表示是否输出详细信息。
random_state=None，表示随机生成器的种子，和初始化中心有关。
copy_x=True，表示是否对输入数据继续copy 操作，以便不修改用户的输入数据。
n_jobs=1，表示使用进程的数量，默认为1。

1.1.1 实验任务

1.1.1.1 实验背景

KMeans是最简单的聚类算法之一，但是运用十分广泛。KMeans一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。

1.1.1.2 实验目标

掌握对数据进行KMeans聚类划分的操作。

1.1.1.3 实验数据解析

数据使用鸢尾花数据集。

1.1.2 实验思路

导入实验数据集。
使用KMean( )函数对数据进行聚类划分并可视化展示出来。

1.1.3 实验操作步骤

步骤 1 导入数据集

iris是150*4的数据集，为实验过程更易被理解。特取其中2-4列的数据进行聚类划分实验。

import numpy as np 
from sklearn.datasets import load_iris 
iris=load_iris()
# 只取数据集中的 3列【petal length (cm)】、4列【petal width (cm)】的数据
X = iris.data[:, 2:4]

X的部分结果如下：

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],

步骤 2 聚类划分

# 导入 KMeans 包
from sklearn.cluster import KMeans
# 构造聚类器实例
estimator = KMeans(n_clusters=3) 
# 聚类
estimator.fit(X) 
# 获取聚类标签
label_pred = estimator.labels_

补充：

label_pred 的结果如下：

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

打印 label_pred==0 的值：

x0 = X[label_pred == 0]
x0

部分结果显示如下：

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1],
       [1.5, 0.2],
       [1.6, 0.2],

解释： label_pred 的元素个数与 X 的行数是一样的（因为一个标签，对应一行数据）， label_pred 的元素值如果为0，则为True， X[label_pred == 0] 其实就是把为True的对应位置的元素保留了下来，所以就相当于实现了筛选。

步骤 3 可视化展示聚类划分结果

# 导入可视化包
import matplotlib.pyplot as plt
# 可视化 k-means 结果
# 设置测试数据
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
# 设置绘制的图像为散点图，输入数据 x0,散点的颜色为红色，散点的形状为 o,标签为label0
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o',
            label='label0')
# 设置绘制的图像为散点图，输入数据 x1,散点的颜色为绿色，散点的形状为*,标签为label1
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*',
            label='label1')
# 设置绘制的图像为散点图，输入数据 x2,散点的颜色为蓝色，散点的形状为+,标签为label2
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+',
            label='label2')
# 设置 x 轴标题为'petal length'
plt.xlabel('petal length')
# 设置 y 轴标题为'petal width'
plt.ylabel('petal width')
# 设置图例显示的位置为左上角
plt.legend(loc=2)
# 显示可视化结果
plt.show()

输出结果如下：

扩展学习：

下面是一些常用的estimator属性和方法：

labels_ ：聚类标签。它是一个大小为 n_samples 的一维数组，表示每个样本所属的聚类簇的标签。

label_pred = estimator.labels_

cluster_centers_ ：聚类中心。它是一个大小为 (n_clusters, n_features) 的二维数组，表示每个聚类簇的中心点的坐标。

centers = estimator.cluster_centers_

inertia_ ：聚类内部的平方和误差 （SSE） 。它是一个标量值，表示所有样本到其所属聚类中心的距离的总和。

sse = estimator.inertia_

n_clusters ：聚类的 数量 。它是一个整数，表示聚类器指定的聚类簇的个数。

num_clusters = estimator.n_clusters

fit(X) ：对数据进行聚类。X是一个大小为 (n_samples, n_features) 的二维数组，表示输入的特征数据。

estimator.fit(X)

fit_predict(X) ：对数据进行聚类，并返回聚类 标签 。

labels = estimator.fit_predict(X)

整理成表格如下：

属性/方法	描述
`labels_`	聚类标签。大小为 `n_samples` 的一维数组，表示每个样本所属的聚类簇的标签。
`cluster_centers_`	聚类中心。大小为 `(n_clusters, n_features)` 的二维数组，表示每个聚类簇的中心点的坐标。
`inertia_`	聚类内部平方和误差（SSE）。标量值，表示所有样本到其所属聚类中心的距离的总和。
`n_clusters`	聚类的`数量`。整数，表示聚类器指定的聚类簇的个数。
`fit(X)`	对数据进行聚类。`X` 是一个大小为 `(n_samples, n_features)` 的二维数组，表示输入的特征数据。
`fit_predict(X)`	对数据进行聚类，并返回聚类`标签`。

这些属性和方法可以帮助你使用KMeans聚类器进行聚类操作，并获取聚类结果、聚类中心以及聚类质量的评估。你可以根据具体的需求选择适当的属性或方法来处理聚类结果。

1.1.4 结果验证

由上述实验结果可知，使用 k-means 方法对鸢尾花部分数据集进行聚类划分之后将数据的分成了三类，几乎没有数据点是异常的。

1.2 无监督连续变量的离散化 – 等宽划分

等宽划分 是指把连续变量按照相同的区间间隔划分几等份。换句话说，就是根据连续变量的 最大值 和 最小值 ，将变量划分为N等份。

等宽划分的实现使用Python中pandas库的cut ( ) 函数，其基本格式如下：

pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False)

关键参数详解：

x，表示进行划分的 一维数组 。
bins，定义分箱边界的标准，表示将x划分为多少个等间距的区间。
right=True，是否包含右端点，表示是否包含箱子的最右边的边界。如果right=True，那么箱子[1, 2, 3, 4]表示(1,2], (2,3], (3,4]。
labels=None，指定返回的箱子的标签，表示是否用标记来代替返回的bins，必须与结果的箱子长度相同。
retbins=False，表示是否返回箱子。默认为False，False 则返回x中每个值对应的bin的列表，Ture则返回x中每个值对应的bin的列表和对应的bins。
precision=3，表示存储和显示箱子标签的精度，默认为3，表示返回的数据将包含三位小数。
include_lowest=False，表示是否包含左端点，表示第一个区间是否应该是左包含的。

1.2.1 实验任务

1.2.1.1 实验背景

可以使用cut( )函数进行等宽划分，按照相同宽度将数据分成几等份。缺点是受到异常值的影响比较大。

1.2.1.2 实验目标

掌握对数据进行等宽划分的操作。

1.2.1.3 实验数据解析

实验使用鸢尾花数据集。

1.2.2 实验思路

导入实验数据集。
使用cut ( )函数对数据进行等宽划分。

1.2.3 实验操作步骤

步骤 1 数据准备

import pandas as pd
from sklearn.datasets import load_iris
iris=load_iris()
X=iris.data[:,1]

步骤 2 等宽划分

#指定分段的段数为 5 
x=pd.cut(X,5)
x

输出结果如下：

[(3.44, 3.92], (2.96, 3.44], (2.96, 3.44], (2.96, 3.44], (3.44, 3.92], ..., (2.96, 3.44], (2.48, 2.96], (2.96, 3.44], (2.96, 3.44], (2.96, 3.44]]
Length: 150
Categories (5, interval[float64]): [(1.998, 2.48] < (2.48, 2.96] < (2.96, 3.44] < (3.44, 3.92] < (3.92, 4.4]]

扩展：加上retbins=True

pd.cut(X, 5, retbins = True)

则多打印一行：

array([1.9976, 2.48  , 2.96  , 3.44  , 3.92  , 4.4   ]))

上面这六个数，其实就是分隔区间的边界值。

1.2.4 结果验证

系统自动将数据划分为(1.998, 2.48]、 (2.48, 2.96] 、(2.96, 3.44] 、(3.44, 3.92] 、(3.92, 4.4]五个等宽区间，并将原本的数据集中的 数据对应的区间显 示出来。

思考：为什么精度是3位小数，但是结果有一些是3位，有一些是两位，有一些是一位？
回答：precision参数可以控制分箱边界的最大小数位数，但实际的小数位数还取决于数据的分布。比如4.400其实也就是4.4，就没必要写4.400了。

1.3 无监督连续变量的离散化 – 等频划分

把连续变量划分几等份，保证每份的数值个数相同。具体来说，假设共有M个数值，划分N份，每份包含（M/N）个数值，使用Python中pandas库的qcut() 函数，其基本格式如下：

qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

关键参数详解：

x，表示进行划分的 一维数组 。
q，表示划分的组数。
labels=None，表示是否用标记来代替返回的bins。
retbins=False，表示返回值，False 代表返回x中每个值对应的bin的列表，Ture代表返回x中每个值对应的bin的列表和对应的bins。
precision=3，表示精度，默认为3。
duplicates如果bin值边缘不唯一，就提高错误值或删除非唯一性。

1.3.1 实验任务

1.3.1.1 实验背景

我们可以使用qcut( )函数进行等频划分，将数据分成几等份，每等份数据里面的个数是一样的。

1.3.1.2 实验目标

掌握使用qcut函数实现数据的等频划分。

1.3.1.3 实验数据解析

实验使用鸢尾花数据集。

1.3.2 实验思路

导入实验数据集。
使用qcut ( )函数对数据进行等频划分。

1.3.3 实验操作步骤

步骤 1 数据准备

iris是150*4的数据集，特取其中一个属性进行等频划分实验。

import pandas as pd
from sklearn.datasets import load_iris
iris=load_iris()
X=iris.data[:,1]

步骤 2 等频划分

#指定分段的段数为 5 
x=pd.qcut(X,5)
x

输出结果如下：

[(3.4, 4.4], (2.7, 3.0], (3.1, 3.4], (3.0, 3.1], (3.4, 4.4], ..., (2.7, 3.0], (1.999, 2.7], (2.7, 3.0], (3.1, 3.4], (2.7, 3.0]]
Length: 150
Categories (5, interval[float64]): [(1.999, 2.7] < (2.7, 3.0] < (3.0, 3.1] < (3.1, 3.4] < (3.4, 4.4]]

1.3.4 结果验证

系统自动将数据划分为(1.999, 2.7] 、(2.7, 3.0] 、(3.0, 3.1] 、(3.1, 3.4] 、(3.4, 4.4]五个等频区间。

补充一（precision参数的说明）：
例如，如果我们有一个数据范围从0.123456到1.123456，我们想要将其划分为两个箱子，那么：
如果我们设置precision=2，那么我们得到的箱子边界将是(0.12, 0.62]和(0.62, 1.12]。
如果我们设置precision=3，那么我们得到的箱子边界将是(0.123, 0.623]和(0.623, 1.123]。
因此，precision参数影响了分箱标签的精度，这可能会影响我们对数据的理解和解释。但是，它并不会改变实际的分箱过程，也就是说，数据仍然会被均匀地分配到每个箱子中。

补充二（什么是等距分箱？什么是等频分箱）：

等距分箱：是最为常用的分箱方法之一，从最小值到最大值之间，均分为N等份，如果A，B为最小最大值，则每个区间的长度为W=(B−A)/N，则区间边界值为A+W，A+2W，….A+(N−1)W。这里只考虑边界，每个等份里面的实例数量可能不等。
等频分箱：区间的边界值要经过选择，使得每个区间包含大致相等的实例数量。比如说 N=10，每个区间应该包含大约10%的实例。

这两种分箱方法都是无监督的分箱方法，只根据变量值的分布来划分区间，不需要有目标变量（标签）。

1.4 有监督连续变量的离散化 – 基于卡方检验的方法

该方法是一种自底向上的方法，运用卡方检验的策略，自底向上合并数值进行有监督离散化，核心操作是Merge。将数据集里的数值当做单独区间，递归找出可合并的最佳临近区间。判断可合并区间用到卡方统计量来检测两个区间的相关性，对符合所设定阀值的区间进行合并。常用的方法有ChiMerge、Chi2、Chi-Square Measure，下面对Chi2方法详细说明。

基于卡方检验的数值特征离散化的实现使用Python中scipy.stats统计函数库中的chi2 ( ) 函数，其基本使用格式如下：

chi2(X, y)

关键参数详解：

X，样本数据。
y，目标数据。

1.4.1 实验任务

1.4.1.1 实验背景

我们可以使用chi2 ( )函数进行卡方检验，这是一种基础的常用假设检验方法。

1.4.1.2 实验目标

掌握使用chi2 ( )函数实现数据集的卡方分箱操作。

1.4.1.3 实验数据解析

实验使用鸢尾花数据集。

1.4.2 实验思路

导入实验数据集。
使用chi2 ( )函数对数据进行基于卡方检验的有监督连续变量的离散化。

1.4.3 实验操作步骤

步骤 1 导入数据集

import pandas as pd
from sklearn.datasets import load_iris
iris=load_iris()

# 对数据集做基于卡方检验的有监督连续变量的离散化。
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
# 选择 K 个最好的特征，返回选择特征后的数据
SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

输出的部分结果如下：

# 输出结果
array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],

1.4.4 结果验证

由上述实验结果可知，原先没有规律的数据经过卡方检验操作后，对每个样本进行了有监督连续变量的离散化，从 Iris 数据集中选择的两个最佳特征是 “花瓣长度 (cm)” 和 “花瓣宽度 (cm)”。这两个特征被认为与目标变量具有较高的相关性，因此被选择作为特征子集。提示，虽然特征选择可能是数据预处理的一部分，但它着重于选择最重要的特征，而不是对数据进行转换或清洗。因此，在上述例子中，我们可以将其归类为特征选择相关的知识。

大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

大数据HCIE成神之路之数据预处理（3）——数值离散化

数值离散化

1.1 无监督连续变量的离散化 – 聚类划分

1.1.1 实验任务

1.1.1.1 实验背景

1.1.1.2 实验目标

1.1.1.3 实验数据解析

1.1.2 实验思路

1.1.3 实验操作步骤

1.1.4 结果验证

1.2 无监督连续变量的离散化 – 等宽划分

1.2.1 实验任务

1.2.1.1 实验背景

1.2.1.2 实验目标

1.2.1.3 实验数据解析

1.2.2 实验思路

1.2.3 实验操作步骤

1.2.4 结果验证

1.3 无监督连续变量的离散化 – 等频划分

1.3.1 实验任务

1.3.1.1 实验背景

1.3.1.2 实验目标

1.3.1.3 实验数据解析

1.3.2 实验思路

1.3.3 实验操作步骤

1.3.4 结果验证

1.4 有监督连续变量的离散化 – 基于卡方检验的方法

1.4.1 实验任务

1.4.1.1 实验背景

1.4.1.2 实验目标

1.4.1.3 实验数据解析

1.4.2 实验思路

1.4.3 实验操作步骤

1.4.4 结果验证

你可能感兴趣的:(大数据,机器学习,HCIE)