nine_mink

数据预处理（Data Preprocessing）

Data Preprocessing

前言
Why preprocess?
Major Tasks in Data Preprocessing
Data Cleaning
- Incomplete (Missing) Data
- What to Consider When Handling Missing Data?
- - MCAR
  - MAR
  - MNAR
- How to Handle Missing Data - Imputation
- More on Imputation
- Even More on Imputation
- Preprocessing and Evaluation
- Conclusion
Noisy Data
- Handling Noisy Data
Data Transformation and Data Discretization
- Data Transformation
- Normalization
- Discretization
- Discretization Methods
- Binnning （在Tutorial中出现过）
- Discretization by Correlation Analysis
- Correlation Analysis
- Discretization by Correlation Analysis
Imbalanced Data
- Sampling the data
- Cluster-Based Oversampling
- SMOTE - Synthetic Minority Oversampling Technique (Chawla et al. 2002)
Data Reduction
- Dimensionality Reduction
- Principal Component Analysis - PCA （重点）
- PCA approaches
- PCA - steps
- Feature or Attribute Selection
- Feature Selection using Correlation
- Heuristic Search in Attribute Selection
- Relief - Instance-based heuristic for feature selection （在Tutorial中出现过）
- Relief Example
- Relief summary
- Wrappers
Preprocessing
Conclusion

前言

本文将基于UoA的课件介绍机器学习中的数据预处理。

涉及的英语比较基础，所以为节省时间（不是full-time，还有其他三门课程，所以时间还是比较紧的），只在我以为需要解释的地方进行解释。

此文不用于任何商业用途，仅仅是个人学习过程笔记以及心得体会，侵必删。

We will cover：
Data Cleaning
Missing Data
Preprocessing and Evaluation
Data Reduction
Noisy Data
Data Transformation and Data Discretization
Imbalanced Data

Why preprocess?

we will…

Major Tasks in Data Preprocessing

Data Cleaning

Incomplete (Missing) Data

What to Consider When Handling Missing Data?

MCAR

缺失完全随机指的是缺失数据的出现与数据本身完全无关，缺失数据的出现没有任何模式或规律，纯粹是随机发生的。完全无关于数据指的是缺失数据与数据本身之间没有任何关联或联系，缺失数据的出现对数据的分析和解释没有影响。

潜在的问题可能出现在样本量较小的情况下，因为缺失数据的样本量较少，可能对结果的可靠性和泛化性产生影响。

MAR

缺失随机指的是缺失数据的出现与缺失数据本身有关，但是与缺失数据所在的行或样本无关，与其他数据的观测值有关。缺失数据的出现和其他数据的观测值之间有关系，也就是说，缺失数据和其他数据有一定的相关性或联系。

潜在的问题可能出现在行删除方式的情况下，因为行删除方式可能会导致样本偏差，即删除了某些缺失值较多或者某些特定属性的数据，从而影响结果的可靠性和泛化性。

MNAR

非随机缺失指的是缺失数据的出现与缺失数据本身有关，与其他数据的观测值无关，缺失的原因是与变量本身相关的。比如说，某些人不愿意透露自己的财产状况，导致财产数据出现缺失。

潜在的问题可能出现在行删除方式的情况下，因为行删除方式可能会导致样本偏差，即删除了某些缺失值较多或者某些特定属性的数据，从而影响结果的可靠性和泛化性

How to Handle Missing Data - Imputation

当某一行数据缺失了类别标签（classification）时，我们通常会采取这种方法来处理。具体操作就是将该行数据直接从数据集中删除。但是这种方法并不适用于缺失值的数量变化很大的情况。在这种情况下，忽略元组的效果会受到影响。

当数据中存在缺失值时，我们可以通过人工的方式来填充这些缺失值，使得数据变得完整。但是这种方法通常比较繁琐，而且有时候可能并不可行，尤其当缺失值较多时。

当数据中存在缺失值时，我们可以使用一些默认值或者新的类别来自动填充这些缺失值，使得数据变得完整。例如，可以使用一个全局的常量值来填充缺失值，或者将缺失值划分为一个新的类别，表示这些数据的特殊性质。

另一种方法是使用该属性的平均值来代替缺失值。这种方法通常由许多软件自动完成，但会改变与其他变量的关系，可能会引入偏差。

在同一类别下的样本中，对于缺失的属性值进行填充，使用的值是该类别下所有样本该属性的平均值。这个方法的优点是可以保持类别内部的一致性，缺点是可能会导致与其他属性之间的关系发生改变，导致数据偏

这个方法是使用基于推断的算法，比如贝叶斯公式、决策树、最近邻等自动填充缺失值。具体来说，通过使用这些算法，从已有的数据中找到最有可能的值来填充缺失的数据。这种方法可以根据已有的数据和模型的推断能力来进行填充，但也可能因为模型的不准确性而导致填充结果不准确。

More on Imputation

矩阵分解方法，例如奇异值分解，可以将数据矩阵X分解为X=UVT的形式。通过将U和VT相乘，可以创建插补矩阵X0。例如，可以在矩阵X中插入一些缺失值，并通过分解矩阵X来估算这些缺失值，最小化估算值与实际值之间的平方误差。分解矩阵X会得到三个矩阵U、和VT，其中U和VT包含每个样本的隐含特征，是奇异值矩阵。插补矩阵X0的值是通过乘以矩阵U、和VT的转置得到的。

Even More on Imputation

EM插补是一种使用其他变量的值来估算缺失值的方法。它包含两个步骤：期望步骤（Expectation）和最大化步骤（Maximization）。

在期望步骤中，使用适当的模型（例如分类器或回归模型）来预测缺失值。这些预测值会作为估算值，用于填充缺失值。

在最大化步骤中，检查估算值是否是最可能的值。这可以通过比较估算值与其他可能的值来实现，选择最可能的值作为最终的填充值。

多次插补（例如MICE）是一种重复使用期望步骤和最大化步骤的方法，通常会重复3-5次。在完成多次插补后，可以进行所需的完整数据分析，例如构建分类器和评估模型性能。

最后，平均估算值或评估结果是通过多次插补得到的，作为最终的插补值或评估结果。

没有一种通用的最佳方法，选择合适的插补方法取决于数据的性质、缺失值的分布以及分析的目标。不同的方法在不同情况下可能会有不同的效果，需要根据具体情况选择合适的方法。

Preprocessing and Evaluation

在数据评估中，预处理步骤的位置通常取决于具体的预处理方法，例如插补（imputation）。

对于插补这个例子，有几种可能的做法：

在将数据集划分为训练集和测试集之前进行插补：这意味着在进行数据集划分之前，先对整个数据集进行插补处理，包括训练集和测试集。然后，再将数据集划分为训练集和测试集，并在划分后的数据集上进行后续的评估和建模。
只在训练集中进行插补：这意味着只对训练集进行插补处理，不对测试集进行插补。这样做的目的是模拟在实际应用中，模型只能根据训练集中的信息进行预测，而无法访问测试集中的真实值。然后，在训练集上进行建模和评估，并将模型应用于未插补的测试集上进行评估。

对于这两种做法，没有固定的规则，应该根据具体情况和预处理方法的性质来选择。例如，如果插补方法涉及使用训练集中的信息来填充缺失值，并且这些信息对测试集的预测可能有影响，那么在训练集和测试集之前都进行插补可能是更合适的做法。如果插补方法不依赖于训练集中的信息，或者对测试集的预测没有影响，那么只在训练集中进行插补也可以是一个合理的选择。在选择预处理步骤的位置时，应该考虑数据的性质、预处理方法的性质以及评估的目标，确保在进行评估和建模时使用合适的数据处理方法。

Conclusion

Noisy Data

Handling Noisy Data

Binning是一种将连续的数值变量离散化为有序的类别变量的方法。将数据分成几个桶（bins），每个桶代表一个数值区间。这可以减少数据中的噪声或随机误差对分析的影响，因为将数据离散化可以使数据更加平滑，并使分析更容易。

通过将连续数据划分为有限数量的类别，Binning可以减少数据集中的噪声和不必要的复杂性。例如，将数据集中的温度值划分为“低温”，“中温”和“高温”，可以在不失去太多信息的情况下简化数据。然后，我们可以在每个类别中计算出统计信息，例如平均值和标准差，以更好地理解数据。

在回归分析中，可以通过拟合一个数学模型来描述自变量和因变量之间的关系，并且通过分析模型的拟合程度来评估这种关系的强度。当数据中存在噪声时，即存在一些随机误差或变异性，回归分析可以通过将这些噪声纳入模型中，进而将其纠正或降低其影响，从而提高模型的拟合程度和预测能力

聚类可以被介绍为一种处理Nosy的方法，因为它可以用于发现数据集中的异常值或离群点。在聚类过程中，算法会将相似的数据点归为一类，并尝试识别与其他点不同的点。

如果一个数据点与其它数据点很不相似，那么它有可能是一个异常值或离群点。聚类算法可以将这些点分为它们自己的簇中，使得它们更容易被识别和处理。

此外，聚类还可以用于探索数据集的结构，识别潜在的模式和关系，这也有助于发现Nosy数据并进行处理。

Data Transformation and Data Discretization

Data Transformation

数据转换是指将一个属性的所有值映射到一个新的取值集合，每个旧的值对应一个新的值。数据转换的方法包括：平滑、属性/特征构建、归一化和离散化等。平滑可以去除数据中的噪声，属性/特征构建可以从给定的属性中构建出新的属性，归一化可以将数据缩放到指定的范围内，常用的归一化方法有最小-最大归一化、Z-score归一化和十进制标度归一化。离散化则是通过概念层次上升将连续属性转换为离散属性。

Normalization

归一化（Normalization）是一种数据转换方法，将属性的值域映射到一个新的范围内，以便更好地处理和比较不同的属性。归一化的方法有多种，其中包括最小最大归一化、Z-score归一化和十进制缩放归一化等。最小最大归一化将数据映射到新的最小值和最大值之间，Z-score归一化使用均值和标准差对数据进行归一化，十进制缩放归一化通过使属性的值除以某个数量级的幂次，使得所有值都在[-1, 1]之间。

Discretization

离散化是将连续属性的值域划分为间隔的过程。通过离散化，可以将实际数据值替换为间隔标签。离散化可以递归地应用于属性，有助于减小数据量和为进一步分析做准备，例如分类。得到的挖掘模式通常更易于理解，并可以在不同数据抽象级别（概念层次结构）上进行挖掘。属性类型有三种：名义属性（来自无序集合的值，例如颜色），序数属性（来自有序集合的值，例如排名）和数值属性（实数，例如整数或实数）。

Discretization Methods

离散化方法可以根据其处理方式和使用类别信息的方式进行分类。

自上而下 vs 自下而上（处理方式）：自上而下的离散化方法从整体范围开始，逐步划分为子范围；而自下而上的离散化方法从单个数据点开始，逐步合并为更大的范围。
监督式 vs 非监督式（类别信息使用方式）：监督式离散化方法使用类别信息来指导离散化过程，而非监督式离散化方法则不考虑类别信息。

一些常见的离散化方法包括：

Binning（自上而下划分，非监督式）：将数据范围划分为固定数量或固定宽度的间隔。
直方图分析（自上而下划分，非监督式）：基于数据的分布情况，将数据划分为不同的间隔。
聚类分析（非监督式，可以是自上而下划分或自下而上合并）：利用聚类算法将数据点分组为不同的簇，然后将簇作为离散化的间隔。
决策树分析（监督式，自上而下划分）：利用决策树算法根据类别信息来划分数据范围。
相关性分析（监督式，自下而上合并）：根据属性之间的相关性来合并数据范围。

Binnning （在Tutorial中出现过）

等宽离散化是一种将数据离散化为区间的方法，可以按照区间的数量将数据划分为等宽的N个区间，每个区间的宽度为数据的范围除以区间数。这种方法比较简单，但是对于有些数据不太适用，例如数据分布不均匀或者存在离群值的情况。等深离散化则是将数据划分为包含相同数量样本的N个区间，这种方法更适用于数据分布不均匀的情况，但是对于分类属性的处理较为棘手。

Discretization by Correlation Analysis

基于相关性分析的离散化方法，如Chi-merge，是一种利用类别信息进行离散化的方法。它采用了自底向上的合并策略，找到具有相似类别分布（即低卡方值）的相邻区间进行合并。合并操作会递归地进行，直到满足预定义的停止条件。这种方法可以在离散化过程中考虑类别信息，从而提高离散化的准确性和效果。

Correlation Analysis

相关性分析是用来衡量两个变量之间相关性的一种方法。在这里，我们考虑两个名义变量 C 和 B，它们分别有 k 和 r 种取值。使用 χ2 检验可以计算它们之间的相关性：

χ2 = ∑∑ (oij − eij)2 / eij

其中 oij 是事件 (ci, bj) 的实际频率，eij 是期望频率，n 是实例数量。期望频率 eij 通过以下方式计算：

eij = (count(C = ci) × count(B = bj)) / n

χ2 越大，说明两个变量越不可能独立。

Discretization by Correlation Analysis

使用 Chi-merge 方法进行离散化是一种基于 χ2 统计量的方法，它利用了类别信息。它采用自底向上的合并策略，通过找到相邻的区间（其类别分布相似，即 χ2 值较低）来合并区间。合并是递归进行的，直到满足预定义的停止条件为止。这种方法可以根据类别信息帮助选择合适的离散化边界，从而在离散化过程中考虑了类别分布的影响。

Imbalanced Data

当数据不平衡时，一些类别的样本数量比其他类别多很多。这可能会导致评估问题，因为分类器可能会倾向于预测样本数量更多的类别，导致对较少类别的预测效果较差。例如，如果类别1的样本比类别0多很多，则分类器可能会过度预测类别1，导致类别0的预测效果较差。

解决这个问题的方法之一是重新采样。一种方法是欠采样，即从样本数量更多的类别中随机选择一些样本，以使两个类别的样本数量相等。另一种方法是过采样，即增加样本数量较少的类别的样本数量，直到两个类别的样本数量相等。还可以使用一些组合方法，例如SMOTE算法，生成一些合成的样本来增加样本数量较少的类别。此外，可以使用不同的评估指标，例如精确度-召回率和ROC曲线，来评估分类器的性能。

Sampling the data

数据采样是一种通过增加或减少特定类别的样本数量来调整数据集的方法，以改善分类器对少数类别的预测效果。

欠采样是从样本数量较多的类别中随机选择一些样本，使两个类别的样本数量相等或接近相等。这可以通过随机删除多数类别的样本来实现，从而平衡数据集。但是，这样做可能会导致丢失重要信息，并引入偏差。

过采样是从样本数量较少的类别中随机添加更多的样本，以增加其样本数量，从而使两个类别的样本数量相等或接近相等。这样做可以避免信息丢失，但可能会导致过拟合问题，因为添加的样本可能过于相似。

除了随机采样外，还有一些替代方法。例如，可以使用基于SMOTE（合成少数类过采样技术）的方法，通过生成合成的少数类样本来增加其样本数量。还可以使用集成学习方法，如集成采样和集成欠采样，以平衡数据集并提高分类器性能。这些方法可以根据具体情况选择，以改善对不平衡数据的处理效果。

Cluster-Based Oversampling

聚类过采样是一种通过将正类和负类样本独立地分成不同的簇（或者群组），然后对每个独立的簇应用过采样或欠采样技术的方法。

聚类过采样的优势在于可以在样本之间建立更丰富的关系，从而更好地保留了样本之间的数据分布信息。这样做可以避免传统的随机过采样可能导致的样本相似性过高的问题，从而减少了过拟合的风险。

然而，聚类过采样本身并不一定解决过拟合问题，因为在某些情况下，仍然可能存在过采样导致的样本重复和噪声问题。因此，在应用聚类过采样时，仍然需要谨慎地选择合适的聚类算法和采样策略，以确保在处理过拟合问题时取得良好的效果。

SMOTE - Synthetic Minority Oversampling Technique (Chawla et al. 2002)

SMOTE（合成少数类过采样技术）是一种生成新的人工样本的方法，用于解决类别不平衡的问题。

SMOTE的处理过程如下：

找到少数类样本中最近的一对实例（通过计算在少数类样本中的欧氏距离或其他距离度量方法），这两个实例被称为"合成样本"的"种子"。
在这两个种子样本之间创建一个新的合成样本。这个合成样本的特征值是在两个种子样本之间的线性插值。
将新合成的样本添加到少数类样本中，使得它们被归类为少数类。

SMOTE的目标是通过合成新的少数类样本来平衡类别不平衡的数据集，从而增加少数类样本的数量，提高分类器对少数类的预测性能。然而，需要注意的是，生成的合成样本可能会引入一定的噪声和不确定性，因此在应用SMOTE时需要谨慎选择合适的参数和策略，以确保取得良好的效果。

Data Reduction

数据压缩是一种数据减少的策略，目的是获取一个数据集的简化版本，这个版本的体积小得多，但产生的分析结果与原数据集相同或几乎相同。为什么要进行数据减少呢？因为一个数据库可能存储着数千兆字节的数据，对这些数据进行复杂的数据分析可能需要很长时间。数据减少的策略有很多种，比如维度减少、小波变换、主成分分析（PCA）、特征选择、数量缩减、回归和对数线性模型、直方图、聚类、抽样和数据压缩。

Dimensionality Reduction

在高维数据中，数据变得越来越稀疏，点之间的密度和距离变得越来越不具有代表性。这被称为维数灾难。维数灾难的发生会影响到聚类、异常检测、分类和回归等任务的精度和效率。因此，为了解决这个问题，我们需要进行降维处理，使得数据变得更加紧密，同时保留重要的特征信息，以便后续的分析和挖掘。常见的降维技术有主成分分析（PCA）、线性判别分析（LDA）和t-SNE等。

Principal Component Analysis - PCA （重点）

主成分分析（PCA）是一种降维技术，它通过找到能够捕捉数据中最大变化的投影来将原始数据投影到一个较小的空间中。具体而言，我们会计算输入属性的协方差矩阵的特征向量和特征值。特征向量表示数据变化的方向，它们定义了新的属性空间；而特征值表示沿着相应特征向量的方向上的方差的大小。通过选择具有最大特征值的特征向量，我们可以将数据投影到一个更低维度的空间，从而实现数据的降维。这样做可以减少数据的复杂性，同时保留了大部分的信息。

PCA approaches

PCA - steps

PCA 的步骤如下：

归一化输入数据：把每个属性放到相同的尺度上；
计算 k 个正交的特征向量，也就是主成分；
输入数据是 k 个主成分的线性组合；
主成分按照重要性排序，也就是按照方差来排，方差越大的主成分越重要；
保留前 d-k 个最重要的主成分，舍弃剩下的弱主成分；
最后得到的主成分是互不相关的向量。

PCA 可以用在数值型数据和分类型数据上。

Feature or Attribute Selection

特征选择是通过移除一组属性来降低维度的方法。

冗余属性：一个或多个属性中包含大部分或全部信息，是多余的。例如，产品购买价格和支付的销售税金额。
不相关属性：包含对当前数据挖掘任务无用的信息。例如，学生的ID对预测学生GPA的任务通常是无关的。

有两种类型的方法：过滤器（快速）和包装器（高准确性，昂贵）。

过滤器将特征选择与分类器学习分开。没有偏向任何学习算法。

Feature Selection using Correlation

对于名义数据，给定两个属性A和B，其值为a1, …, ac和b1, …, br，可以使用χ2检验计算相关性：

χ2 = Xc i=1 Xr j=1 (oij - eij )^2 / eij

其中oij是事件(ai, bj)的实际频率，而eij是预期频率（n是实例的数量）

eij = count(A = ai) * count(B = bj) / n

其中count(A = ai)是属性A中ai值的计数，count(B = bj)是属性B中bj值的计数。通过计算χ2值，可以衡量属性A和B之间的相关性，即它们是否可能相互依赖。如果χ2值越高，则属性A和B之间的相关性越强。在特征选择中，可以根据这种相关性来决定是否保留或删除某些属性。
对于两个数值属性A和B，可以使用Pearson相关系数来度量它们之间的相关性。公式如下：

r_AB = Σ((a_i - μ_A)(b_i - μ_B)) / (n * σ_A * σ_B)

其中，a_i和b_i分别是A和B属性的实际值，μ_A和μ_B分别是A和B属性的平均值，n是实例的数量，σ_A和σ_B分别是A和B属性的标准差。

Pearson相关系数的取值范围在-1到1之间，表示两个属性之间的线性关系的强度和方向。当r_AB接近1时，表示两个属性之间存在强正相关性；当r_AB接近-1时，表示两个属性之间存在强负相关性；当r_AB接近0时，表示两个属性之间没有线性关系。如果标准差σ_A或σ_B为0，那么Pearson相关系数将未定义。通过计算Pearson相关系数，可以帮助判断数值属性A和B之间的相关性，从而在特征选择中做出相应的决策。

相关性测量两个变量之间的关系强度和方向，取值范围为[-1,1]。如果两个变量之间具有强相关性，则它们的相关系数接近1；如果两个变量之间具有负相关性，则它们的相关系数接近于-1；如果两个变量之间没有线性关系，则它们的相关系数接近于0。相关性是评估两个变量之间是否存在某种关联或依赖关系的一种度量。

可以使用相关性来删除冗余或不重要的特征。具有高相关性的特征可能包含相同或类似的信息，因此可以选择其中一个特征进行保留。对于不相关或低相关性的特征，则可以考虑将其删除，因为它们可能对模型的性能没有贡献。使用相关性进行特征选择可以提高模型的准确性并减少过拟合的可能性。

Heuristic Search in Attribute Selection

启发式搜索在属性选择中的应用：

在属性组合中，有2的d-1次方种可能的属性组合，这样的穷举搜索是不可行的（例如，当d = 300时，属性组合数是2.04x10^90）。因此，常见的启发式属性选择方法有：

在属性独立性假设下选择最佳单个属性
最佳逐步特征选择：首先选择最佳单个属性，然后再选择与第一个属性条件独立的最佳属性，以此类推。
逐步属性消除：反复消除最差的属性。
最佳组合属性选择和消除
最优分支定界：使用属性消除和回溯。

Relief - Instance-based heuristic for feature selection （在Tutorial中出现过）

Relief是一种基于实例的启发式特征选择算法，适用于二分类问题的数据集。它的输入包括具有n个实例和d个输入属性的数据集，以及要随机选择的实例数nr。该算法的步骤如下：

首先，对输入属性进行归一化，并创建一个包含每个属性权重wi的权重向量W，初始化为0。
然后，从数据集中随机选择一个实例R，并选择同类中离它最近的实例H（即近邻），以及异类中离它最近的实例M（即远邻）。
对于每个输入属性i，计算R和M之间的距离减去R和H之间的距离，然后将这个值添加到属性i的权重wi中。
重复步骤2-3共nr次，以更新所有属性的权重。
最后，将每个属性的权重wi除以nr，以获得最终权重，表示该属性对分类任务的重要性。

Relief算法利用实例之间的相似性来估计属性的重要性，它认为，与相邻实例之间距离差异较大的属性更可能是具有区分度的重要属性。

Relief Example

Relief summary

Relief是一种基于实例的启发式算法，用于特征选择。它考虑了所有的属性，并返回一个权重向量，表示每个特征的重要性。特征根据一个阈值或排名进行选择。上述算法是Relief的基本版本，还有各种扩展（如ReliefF、RReliefF等）。在算法中，对于每个随机选择的实例，找到与它最近的同类实例和最近的不同类实例。通过比较它们与该实例的属性值来更新每个属性的权重，权重越高表示该属性越重要。最终得到的权重向量可用于特征选择，也可以通过阈值或排序来确定选择的特征。

Wrappers

Wrapper方法是一种特征选择的方法，相对于过滤方法，它们可以更好地评估候选特征集的质量，因为它们使用的是实际的学习算法，而不是简单的评估函数。Wrapper方法的主要思想是生成一组特征子集，并评估分类器在这些子集上的性能。然后添加或删除特征并观察分类器的性能是否有所改善。使用Wrapper方法时需要注意过拟合问题，特别是当使用与主要学习任务相同的分类器时。

Preprocessing

When are preprocessing approaches useful?

当数据集中包含许多冗余或不相关的特征时，预处理方法会很有用。预处理方法可以用于特征选择，可以缩小特征空间并提高分类器的效率和准确性。另外，如果数据集包含缺失值，预处理方法可以用来填补缺失值。

When should you avoid them?

应该避免在数据集上使用预处理方法，如果数据集非常小并且不包含冗余特征或缺失值，因为在这种情况下，预处理可能会导致过度拟合，从而影响分类器的泛化性能。

How about speci c cases
Many correlated features?

当数据集中有很多相关特征时，使用特征选择技术是很有用的。

Many independent features?

而当数据集中有许多独立特征时，特征选择方法可能没有太大的帮助，因为每个特征都提供了额外的信息。

Which algorithms you know already would need preprocessing?

许多机器学习算法都需要预处理，如KNN，支持向量机，神经网络等。

How about Decision trees? Why?

决策树不需要预处理，因为它可以自动选择重要的特征进行分割。决策树是一种自顶向下的贪婪算法，每次选择最能提高信息增益的特征进行分割。

How about Regression? Why?

回归模型通常需要特征缩放，因为回归模型基于特征的线性组合。

Are we cheating in preprocessing: for example by creating new examples?

在预处理过程中，有时会创建新的示例来填补缺失值或平衡数据集。这种方法可能会在某些情况下导致过度拟合或泛化能力降低，因此需要谨慎使用。

Conclusion

概括地说，预处理是机器学习和数据分析中非常重要的一部分。在预处理的过程中，我们需要处理缺失值、噪声数据以及进行特征选择等。对于缺失值，我们可以使用各种填充方法进行处理；对于噪声数据，我们可以使用分箱、聚类或回归等方法进行处理。特征选择可以用来减少冗余和不重要的特征。在数据不平衡的情况下，我们可以使用采样方法来解决分类器的问题。

你可能感兴趣的:(打倒,FML,(UoA,CS,762)！！,数据挖掘,机器学习,人工智能)

HTML＜center＞标签新生派 html 前端
HTML5不支持。标签在HTML4中用于使文本居中对齐。用什么来代替呢？例子居中对齐文本（使用CSS）：h1{text-align:center;}p{text-align:center;}div{text-align:center;}ThisisaheadingThisisaparagraph.Thisisadiv.
Python : CCF-CSP真题——坐标变换（其一）我是阿核 Python 算法 leetcode python 经验分享
试题编号：202309-1试题名称：坐标变换（其一）时间限制：1.0s内存限制：512.0MB问题描述：问题描述对于平面直角坐标系上的坐标(x,y)，小P定义了一个包含n个操作的序列T=(t1,t2,⋯,tn)。其中每个操作ti（1≤i≤n）包含两个参数dxi和dyi，表示将坐标(x,y)平移至(x+dxi,y+dyi)处。现给定m个初始坐标，试计算对每个坐标(xj,yj)（1≤j≤m）依次进行T
css3过渡总结半点寒12W css css3 前端 css
一、过渡的定义与作用CSS3过渡（Transitions）允许CSS属性在一定的时间区间内平滑地过渡，从一个值转变为另一个值。它能够让网页元素的状态变化更加自然、流畅，给用户带来更好的视觉体验。例如，当一个元素从隐藏状态变为显示状态，通过过渡可以使其淡入，而不是生硬地突然出现。二、过渡的属性transition-property（过渡属性）该属性用于指定哪些CSS属性会产生过渡效果。它可以是单个属
Elasticsearch Date类型使用技巧 weixin_30886233 大数据 json java
elasticsearch原生支持date类型。这里简单记录下使用的方法。使用date类型可以用如下两种方式：使用毫秒的时间戳，直接将毫秒值传入即可。传入格式化的字符串，默认是ISO8601标准，例如2015-02-27T00:07Z(零时区)、2015-02-27T08:07+08:00(东八区),这两个时间实际是同一个，只是时区不同。另外还可以自定义时间格式，参见es的文档。但个人不建议使用自
tkinter库 -- 事件处理 Yuer_7 python python
GUI界面设计–tkinter库应用文章目录GUI界面设计--tkinter库应用前言一、事件二、事件类型1.事件格式举例：2.事件对象3.事件处理函数2.事件绑定1.回调函数--创建组件对象时指定2.实例绑定实例绑定3.类绑定4.程序界面绑定5.标识绑定常用绑定方式总结![](https://i-blog.csdnimg.cn/blog_migrate/cece5197aa3c34a97a234
1. 基于大模型能力，如何提炼出优质prompt（入门版）姚瑞南 prompt系列课程人工智能 AIGC chatgpt
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）本文简介：入门版：基于大模型能力，如何提炼出优质prompt提示词的重要性和价值大模型基础能力简介prompt的基本定义如何定义优质的promptprompt的万能公式与套路prom
(2025)修改Unity插件GLTFUtility以解决HDRP项目导入GLB模型法线贴图没有凹凸感问题 mYoCaRdiA 贴图 unity 游戏引擎 c#
原生GLTFUtility插件不支持HDRP渲染管线，导入的GLB模型改为使用HDRP/LitShader时，原本的法线贴图不再显示凹凸感。通过修改插件代码解决此问题。解决前墙壁模型：解决后：解决前地砖模型：解决后：解决方案如下在插件包文件中找到GLTFMaterial脚本（此脚本控制导入的模型最终的材质），找到CreateMaterial方法，复制以下代码并粘贴publicstaticIEnum
`Port: Direct Attach Copper` 和 `Port: Twisted Pair` 喝醉酒的小白 Liunx 网络
目录标题这些端口类型的来源结论1.**IntelNetworkInterfaceCards(NICs)**2.**Broadcom/AvagoTechnologies**3.**MellanoxTechnologies(现为NVIDIA)**4.**ChelsioCommunications**5.**Realtek**6.**Netgear/TP-Link/ASUS**总结你提到的Port:Di
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
JNI Android Bitmap 和 cv::Mat 互相转换安卓手机运行Opencv动态库或普通c++函数配置指南 chezabo6116 android
JNIAndroidBitmap和cv::Mat互相转换https://blog.csdn.net/tyfwin/article/details/140714946安卓手机运行Opencv动态库或普通c++函数配置指南https://blog.csdn.net/snjs000111/article/details/135067493
R语言机器学习算法实战系列（十九）特征选择之Monte Carlo算法（Monte Carlo Feature Selection）生信学习者1 R语言机器学习实战 r语言机器学习算法数据分析数据挖掘数据可视化人工智能
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理步骤下载数据加载R包导入数据数据预处理数据分割MCFS运行MCFS-ID过程混淆矩阵重要特征的RI最小阈值距离与共同部分收敛特征重要性排序选择重要特征构建特征依赖图提取重要特征基于重要特征构建随机森林模型混淆矩阵评估模型AUC曲线刻画模型在训练和测试数据集的表现总结系统信息介绍特征选择（FeatureSel
F#语言的图形用户界面沈霁晨包罗万象 golang 开发语言后端
F#语言的图形用户界面开发引言随着软件开发的日益复杂化，图形用户界面（GUI）在现代应用程序中的重要性不可忽视。它提供了一种直观的方式，使用户能够与应用程序进行交互。F#语言作为一种函数式编程语言，近年来在开发领域越来越受到关注，尤其是在数据分析和机器学习领域。但F#同样能够用于图形用户界面的开发，尤其是结合.NET平台及其丰富的库。本文将深入探讨F#语言在图形用户界面开发中的应用，包括常用的框架
深入探讨Web应用开发：从前端到后端的全栈实践禁默前端
目录引言1.Web应用开发的基本架构2.前端开发技术HTML、CSS和JavaScript前端框架与库响应式设计与移动优先3.后端开发技术Node.js（JavaScript后端）Python（Flask和Django）RubyonRailsJava（SpringBoot）4.数据库选择与管理关系型数据库（SQL）非关系型数据库（NoSQL）5.API设计与开发RESTfulAPIGraphQL6
【Springboot】——响应与分层解耦架构 Y小夜架构 spring boot 后端 java spring
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，设计模式、Python机器学习、Springboot等主页链接：Y小夜-CSDN博客目录响应响应数据✨@ResponseBody✨G
html与css学习笔记（2）陈王卜学习笔记
一、CSS引入方式具体有3种引入方式，语法如下表格所示：引入方式语法内联样式在HTML标签中使用style属性，例如：这是一个红色的div内部样式表在HTML文件的标签内使用标签，例如：div{color:red;}外部样式表使用标签在HTML文件的标签内引入外部CSS文件，例如：对于上述3种引入方式，企业开发的使用情况如下：1.内联样式会出现大量的代码冗余，不方便后期的维护，所以不常用。2.内部
AI系统架构原理与代码实战案例讲解 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI系统架构原理与代码实战案例讲解1.背景介绍1.1人工智能的发展历程1.1.1人工智能的起源与早期发展人工智能的概念可以追溯到上世纪50年代，图灵测试的提出标志着人工智能作为一门学科的诞生。早期的研究主要集中在符号推理、专家系统等领域，取得了一些突破，例如机器定理证明、西洋跳棋程序等。1.1.2人工智能的黄金时期上世纪80年代，随着专家系统的兴起，人工智能进入了一个黄金时期。专家系统通过模拟人类
【多模态 AI】从跨模态学习到生成革命：文本、图像与音频的深度交融网罗开发人工智能 AI 大模型机器学习人工智能 AIGC
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Oracle 到 Elasticsearch 数据迁移同步
简述Elasticsearch是一个分布式的实时搜索与数据分析引擎，具有强大的可扩展性和高度的灵活性。CloudCanal对于Elasticsearch的支持经过了多轮迭代，支持版本从6.x和7.x一路扩展到8.x，并适配了其丰富多样的API。同时CloudCanal对Oracle源端同步技术进行了多处优化，大幅提升了数据同步的稳定性和可靠性。本文主要介绍如何使用CloudCanal快速构建一条O
美国采取行动扩大人工智能出口限制数据分析能量站机器学习人工智能
大幅拓展限制：美国政府（拜登执政末期提出）出台新规，显著扩大人工智能技术出口限制，构建针对先进芯片与模型获取的国际分级体系。出口限制范围：对多数国家限制出口人工智能芯片与模型，仅少数亲密盟友除外。新规创建三级体系，对不同国家区别对待，并首次限制大型AI模型封闭权重出口。规则运作方式意见征询与生效：新规在媒体曝光后发布，设120天公众意见征询期，供新政府参考调整，预计一年后生效。国家分级及限制一级国
通用人工智能的多层次提示词架构 AI天才研究院计算机软件编程原理与应用实践大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
通用人工智能的多层次提示词架构关键词通用人工智能（AGI），多层提示词架构，人工智能设计原则，算法原理，系统架构设计，应用案例摘要本文将深入探讨通用人工智能（AGI）的多层次提示词架构，阐述其背景、核心概念、设计原则和实现方法。我们将逐步分析这一架构在不同领域的应用，并展望其未来的发展方向。通过本文，读者将了解如何构建能够模拟人类智能的多层次提示词系统，并思考其在实际应用中的潜力与挑战。目录第一部
MFC 获取当前路径将‘\\‘替换成‘/‘的程序小鱼仙官 Windows mfc c++
MFC获取当前路径将'\\'替换成'/'的程序CStringGetCurrentFolder(){TCHARszPath[MAX_PATH];//MAX_PATHisthemaximumallowedpathlengthif(::GetCurrentDirectory(MAX_PATH,szPath)){//替换路径中的反斜杠为正斜杠for(TCHAR*p=szPath;*p;++p){if(*p
Sass,Scss,Less的区别 _会飞的肥牛笔记 sass less
一.Sass和Scss区别Scss是Sass的升级版,他用{}代替了缩进更符合书写习惯.homecolor:#42b983.home{color:#42b983;}二.Sass/Scss和Less区别1.编译环境不同Sass是在服务端处理的，以前是Ruby，现在是Dart-Sass或Node-Sass，而Less是需要引入less.js来处理Less代码输出CSS到浏览器，也可以在开发服务器将Le
yarn serve编译运行出错 error in ./src/App.vue?vue&type=style&index=0&id=7ba5bd90&lang=css weixin_45508767 开发经验前端 vue.js css 前端
yarnserve编译运行出错errorin./src/App.vue?vue&type=style&index=0&id=7ba5bd90&lang=css如下图：解决方案：使用postcssOptions：{}方法包裹住plugins，如下：module.exports={css:{loaderOptions:{postcss:{postcssOptions:{plugins:
半导体、芯片、人工智能、智能驾驶汽车的趋势不爱原创的Yoga 人工智能汽车
1.市场增长与需求汽车半导体市场：预计到2025年，中国汽车半导体市场仍将保持稳健增长态势，AI和能源将成为未来最重要的两大变革因素。2023年中国汽车电子芯片行业市场规模约为820.8亿元，预计2024年有望增至905.4亿元左右。随着新能源汽车和智能化的快速发展，一些新的半导体技术在中国汽车领域迅速应用，如集中式架构和高性能处理器需求正日益增加。AI芯片市场：随着AI技术的不断普及和应用场景的
Minimax 开源的 4 百万超长上下文模型百态老人人工智能大数据笔记
MiniMax开源4百万超长上下文模型MiniMax开源模型概述2025年1月15日，MiniMax发布并开源了MiniMax-01全新系列模型，这一举措在人工智能领域引发了广泛关注。该系列包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax作为大模型六小强（或六小虎）企业之一，其推出的这一系列模型有着诸多独特之处。这一系列模型的开源是Min
vue中对style样式的区别星辰啊大海7857 CSS布局 javascript
如果想要启用scss和sass，需要设置lang属性。使用less语法使用sass语法两种语法的区别（大部分摘自官网文档）lesssass(含两种语法格式)语法说明SCSS语法格式现在常用，扩展名一般为.scssSass语法格式早期使用的，使用“缩进”代替“花括号”表示属性属于某个选择器，用“换行”代替“分号”分隔属性，很多人认为这样做比SCSS更容易阅读，书写也更快速。拓展名是.sass1变量@
程序员创业公司的技术栈选择与性能优化 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《程序员创业公司的技术栈选择与性能优化》概述本文旨在探讨程序员创业公司在选择技术栈和进行性能优化方面的策略与实践。随着技术的不断进步和市场的快速变化，技术栈的选择和优化成为创业公司成功的关键因素。正确的技术栈选择不仅能够提升系统的性能和可扩展性，还能降低开发成本和维护难度。关键词技术栈选择性能优化创业公司云计算数据库微服务人工智能区块链边缘计算摘要本文首先分析了技术栈选择的重要性以及创业公司在技术
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
如何学习爬虫技术：从入门到实践的全面指南 CodeJourney. 学习爬虫
一、引言在当今数字化时代，网络上的数据量呈爆炸式增长，能够高效地获取和处理这些数据变得愈发重要。爬虫技术作为一种从网页中自动提取信息的手段，在各个领域都有着广泛的应用，无论是数据分析、机器学习的数据集构建，还是市场调研、价格监测等商业场景，掌握爬虫技术都能为你打开一扇获取丰富信息资源的大门。然而，对于初学者来说，面对琳琅满目的工具和复杂的网络环境，可能会感到无从下手。本文将带你逐步深入了解爬虫技术
AI生成PPT：智能技术重塑演示文稿创作的新篇章 mhjidfoi 人工智能
在快节奏的商业与学术环境中，演示文稿（PPT）作为信息传递与观点展示的重要工具，其质量与效率直接关系到演讲者的说服力和观众的接收度。近年来，随着人工智能（AI）技术的飞速发展，AI生成PPT的应用正逐渐从科幻概念转变为现实工具，为演示文稿的创作带来了革命性的变革。本文将深入探讨AI生成PPT的工作原理、优势、挑战以及未来展望，为您揭示这一智能技术的无限潜力。一、AI生成PPT的工作原理AI生成PP
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出