datayx

算法工程师-机器学习面试题总结(1)

一、机器学习相关

1.基本概念

1-1 损失函数是什么，如何定义合理的损失函数？

损失函数是在机器学习和优化算法中使用的一种衡量模型预测结果与真实值之间差异的函数。其目标是最小化模型的预测误差，从而提高模型的性能。

定义合理的损失函数需要考虑以下几个因素：

任务类型：不同的任务（如回归、分类、聚类等）需要选择不同类型的损失函数。比如，在回归问题中，常用的损失函数有均方误差（Mean Squared Error）和平均绝对误差（Mean Absolute Error）；在分类问题中，交叉熵损失函数（Cross-Entropy Loss）常被使用。
模型目标：损失函数应该与模型的目标一致。例如，如果模型的目标是最小化错误率，则可以选择0-1损失函数；如果模型的目标是最大化概率似然，则可以选择对数似然损失函数。
数据分布：损失函数的选择应该考虑到数据的分布特点。例如，如果数据存在明显的离群点，可以选择鲁棒性较强的损失函数，如Huber损失函数。
可解释性：在某些应用场景下，可解释性对于模型的性能评估很重要。因此，损失函数的定义中可能需要考虑到模型预测的可解释性。

总而言之，定义合理的损失函数需要综合考虑任务类型、模型目标、数据分布和可解释性等因素。这需要针对具体问题进行实践和调试，选择最适合的损失函数来训练和评估模型。

1-2 回归模型和分类模型常用损失函数有哪些？各有什么优缺点

在回归模型和分类模型中，常用的损失函数有一些不同。下面是常见的损失函数及其优缺点：

回归模型常用的损失函数：

均方误差（Mean Squared Error，MSE）：MSE是最常见的回归损失函数，计算预测值与真实值之间的平均平方差。优点是MSE的函数曲线光滑、连续，处处可导，便于使用梯度下降算法，是一种常用的损失函数。而且，随着误差的减小，梯度也在减小，这有利于收敛，即使使用固定的学习速率，也能较快的收敛到最小值。缺点是对离群值过于敏感。

平均绝对误差（Mean Absolute Error，MAE）：MAE计算目标值与预测值之差绝对值和的均值。相较于MSE，MAE对离群值不敏感，因为MAE计算的是误差(y-f(x))的绝对值，对于任意大小的差值，其惩罚都是固定的。无论对于什么样的输入值，都有着稳定的梯度，不会导致梯度爆炸问题，具有较为稳健性的解。缺点是MAE曲线连续，但是在(y-f(x)=0)处不可导。而且 MAE 大部分情况下梯度都是相等的，这意味着即使对于小的损失值，其梯度也是大的。这不利于函数的收敛和模型的学习。

总之，MAE作为损失函数更稳定，并且对离群值不敏感，但是其导数不连续，求解效率低。另外，在深度学习中，收敛较慢。MSE导数求解速度高，但是其对离群值敏感，不过可以将离群值的导数设为0（导数值大于某个阈值）来避免这种情况。

Huber损失函数：Huber损失函数是一种介于MSE和MAE之间的损失函数，可以平衡对异常值和普通值的敏感程度。

分类模型常用的损失函数：
交叉熵损失函数（Cross-Entropy Loss）：交叉熵损失函数常用于分类任务，特别是多类别分类。它通过计算预测概率分布与真实标签之间的交叉熵来衡量模型的预测效果。优点是对于错误分类给予较大的惩罚，缺点是1.容易过拟合，交叉损失函数具有较高的表达能力，但它也容易过拟合，特别是当训练数据稀少或噪声较多时。2.计算和存储开销过大，交叉熵损失函数需要计算和存储每个样本的预测分布和实际分布。

对数似然损失函数（Log-Likelihood Loss）：对数似然损失函数通常用于逻辑回归等分类模型。它最大化了观测数据的对数似然，将模型预测的概率与实际标签的概率进行比较。优点是在极大似然估计下可以得到一致性的估计，缺点是对于离群值敏感。

以上仅列举了部分常见的回归和分类模型的损失函数，并介绍了它们的优缺点。在实际应用中，根据具体问题的特点和需求，选择合适的损失函数进行模型训练和评估是非常重要的。

1-3 什么是结构误差和经验误差？训练模型的时候如何判断已经达到最优？

结构误差（也称为泛化误差）和经验误差是在机器学习中用于评估模型性能的两个重要概念。

经验误差：经验误差是指模型在训练集上的误差，即模型对已有训练数据的拟合程度。它可以通过计算模型预测结果与真实标签之间的误差来衡量。通常使用损失函数来表示经验误差，目标是使经验误差尽可能小，以提高模型对训练数据的拟合程度。

结构误差：结构误差是指模型在未知的测试数据上的误差。它反映了模型在现实世界中的泛化能力，即模型对新样本的预测能力。结构误差由于模型的复杂度、训练数据的质量和数量等因素而产生。降低结构误差的目标是使模型具有更好的泛化性能，在面对新样本时能够做出准确的预测。

判断模型达到最优的方法通常包括以下几种：

利用验证集：将数据集分为训练集、验证集和测试集，从训练集中训练模型，在验证集上评估模型的性能。随着模型训练的进行，可以观察验证集上的误差变化情况。当模型在验证集上的误差停止下降或开始增加时，可以认为模型已经达到最优。

使用交叉验证：交叉验证是一种评估模型性能的统计方法，将数据集划分为多个子集，在每个子集上轮流作为验证集，其他子集作为训练集。通过对多个验证集上的评估结果进行平均或加权求和，得到模型的性能评估。当模型在交叉验证中的性能稳定时，可以认为模型已经达到最优。

观察测试集表现：将测试集作为独立的数据集，在模型训练和调参完成后使用测试集来评估模型的泛化能力。如果模型在测试集上的表现令人满意，可以认为模型已经达到最优。

使用正则化技术：正则化技术可以帮助控制模型的复杂度，防止过拟合问题。通过引入正则化项或设置正则化参数，可以在训练过程中平衡经验误差和结构误差。选择适当的正则化策略可以提高模型的泛化能力，从而达到最优。

1-4 模型的“泛化”能力是指？如何提升模型泛化能力？

模型的泛化能力是指模型在面对未见过的数据（测试集或实际应用中的新样本）时的预测准确性和适应能力。一个具有良好泛化能力的模型能够从训练数据中学到普遍规律，并能够对新数据做出准确的预测，而不仅仅是对训练数据的拟合程度。

以下是一些提升模型泛化能力的常见方法：

更多的训练数据：增加训练样本量是提高模型泛化能力最直接有效的方法之一。更多的数据可以帮助模型更好地学习数据的分布和特征，减少对噪声和异常值的敏感性。
数据增强：通过对训练数据进行人工或自动的扩增，可以增加样本的多样性。例如在图像分类任务中，可以进行平移、旋转、裁剪等操作来生成额外的样本，以增加模型对不同变体的鲁棒性。
特征选择与提取：选择合适的特征对模型的泛化能力至关重要。通过特征选择算法或领域知识，筛选出对目标任务有用的特征。另外，使用深度学习等方法进行特征提取也可以帮助模型学习更高层次、更具判别性的特征表示。
模型正则化：正则化是一种通过添加额外约束或惩罚项来控制模型复杂度的技术。常见的正则化方法包括L1正则化（Lasso）和L2正则化（Ridge）。正则化可以避免过拟合，使模型更简单且更具泛化能力。
使用交叉验证：交叉验证可以对模型的泛化性能进行评估，并帮助选择适当的超参数。通过使用K折交叉验证等方法，可以减少因数据集的不同划分而导致的随机性，更准确地估计模型在未见数据上的表现。
集成学习：集成学习通过将多个不同的模型组合起来，可以增强模型的泛化能力。常见的集成方法包括Bagging、Boosting和Stacking，通过综合多个模型的预测结果，可以降低模型的方差，提高模型的稳定性和准确性。

以上方法都可以有助于提升模型的泛化能力。在实际应用中，应根据具体问题和数据的特点，选择和尝试适合的方法，以获得更好的模型性能。

1-5 如何选择合适的模型评估指标？PR、ROC、AUC、精准度、召回率、F1值都是什么？如何计算？各有什么优缺点？

选择合适的模型评估指标取决于具体的问题和任务要求。以下是几个常见的评估指标及其解释：

精确度（Precision）：精确度是指预测为正类别的样本中实际为正类别的比例。计算公式为：精确度 = TP / (TP + FP)，其中TP表示真阳性（正确预测为正类别的样本数），FP表示假阳性（错误地将负类别样本预测为正类别的样本数）。精确度衡量了模型在预测为正类别时的准确性。
召回率（Recall）：召回率是指实际为正类别的样本中被正确预测为正类别的比例。计算公式为：召回率 = TP / (TP + FN)，其中TP表示真阳性，FN表示假阴性（错误地将正类别样本预测为负类别的样本数）。召回率衡量了模型对正类别的识别能力。
F1值：F1值是精确度和召回率的调和平均，可以综合考虑模型的准确性和召回能力。计算公式为：F1 = 2 * (精确度 * 召回率) / (精确度 + 召回率)。
PR曲线与AUC：PR曲线是根据不同的分类阈值绘制出的精确度和召回率之间的关系曲线。PR曲线下的面积被称为AUC-PR（Area Under the Precision-Recall Curve）。AUC-PR衡量了模型在不同召回率水平下的整体性能，适用于样本不均衡的问题。
ROC曲线与AUC：ROC曲线是以假阳性率（False Positive Rate）为横轴，真阳性率（True Positive Rate）为纵轴，绘制出的曲线。ROC曲线下的面积被称为AUC-ROC（Area Under the Receiver Operating Characteristic Curve）。AUC-ROC衡量了模型在不同假阳性率下的整体性能，适用于样本均衡或不均衡的问题。

每个评估指标都有其优缺点：

精确度适用于关注模型正确预测为正类别的准确性的情况，但在样本不均衡时可能会受到干扰。
召回率适用于关注模型正确识别正类别的能力的情况，但在样本不均衡时也可能会受到干扰。
F1值是综合考虑精确度和召回率的指标，适用于需要综合考虑准确性和识别能力的情况。
PR曲线和AUC-PR适用于样本不均衡问题，可以通过面积来评估分类器在各种召回率水平下的整体性能。
ROC曲线和AUC-ROC适用于样本均衡或不均衡问题，可以通过面积来评估分类器在各种假阳性率水平下的整体性能。

在选择合适的评估指标时，需要根据具体任务的要求、样本分布以及模型性能的关注点来进行综合考虑。

1-6 如何评判模型是过拟合还是欠拟合？遇到过拟合或欠拟合时，你是如何解决？

评判模型是过拟合还是欠拟合可以通过观察训练集和验证集（或测试集）上的性能表现来进行判断。

1.过拟合：当模型在训练集上表现很好，但在验证集（或测试集）上表现较差时，可能存在过拟合问题。过拟合表示模型在训练数据上过度学习，无法泛化到新数据。常见的迹象包括训练集上准确率高，但验证集上准确率下降、误差增大等。

2.欠拟合：当模型在训练集和验证集上都表现较差时，可能存在欠拟合问题。欠拟合表示模型没有很好地捕捉到数据中的规律和特征，无法适应训练数据和新数据。常见的迹象包括训练集和验证集上准确率都较低、误差较大等。

针对过拟合和欠拟合问题，可以采取以下解决方法：

1.过拟合解决方案：

增加数据量：增加更多的训练数据可以帮助模型更好地学习数据的分布和特征，减少过拟合的风险。
数据增强：通过对训练数据进行扩增，如旋转、缩放、裁剪等操作，可以增加样本的多样性，提升模型的泛化能力。
正则化：通过正则化技术（如L1和L2正则化）来限制模型的复杂度，减少过拟合的风险。正则化可以通过添加额外的约束或惩罚项来控制模型参数的大小。
提前停止：在训练过程中监测验证集上的性能，并在性能不再提升时及时停止训练，避免过度拟合。

2.欠拟合解决方案：

增加模型复杂度：欠拟合可能是由于模型太简单而无法很好地捕捉到数据中的规律。可以尝试增加模型的复杂度，如增加神经网络的层数或神经元的数量，来增强模型的表达能力。
特征工程：尝试引入更多有意义的特征，或者对现有特征进行变换、组合，以提供更丰富的信息给模型。
减小正则化程度：如果使用了正则化方法，可以适当减小正则化的程度，以允许模型更好地拟合训练数据。
调整超参数：尝试调整模型的超参数，如学习率、批次大小等，以获得更好的模型性能。

在解决过拟合或欠拟合问题时，需要根据具体情况和任务需求进行实际调试和优化。可以通过交叉验证、调整模型结构、调整正则化参数等方法来寻找最佳的模型配置。

1-7 如何理解机器学习的“特征”？

在机器学习中，特征是指从数据中提取的有用信息或属性，用于描述数据的某些方面。特征可以是各种各样的数据类型，
例如数字、文本、图像或声音等。特征通常用于对样本进行编码，以便让机器学习算法能够理解和处理数据。

特征的选择和提取是机器学习中的一个重要环节。好的特征应该能够具备以下几个特点：
1. 与预测目标具有相关性：特征应该能够对目标变量或问题有所解释和影响。
2. 区分度高：特征应该能够在不同类别或类别间产生明显的差异。
3. 信息量丰富：特征应该包含足够的信息，能够更好地区分和描述样本。
4. 可解释性：特征应该能够被理解和解释，方便进行模型解释和分析。

特征工程是机器学习中常用的技术之一，它涉及到选择、提取、转换和构建特征的过程。一个好的特征工程可以显著提高机器学习模型的性能和准确度。

1-8 机器学习中开发特征时候做如何做数据探索，怎样选择有用的特征？

在机器学习中，进行数据探索是为了更好地了解数据的特性和结构，从而帮助我们选择有用的特征。以下是一些常用的数据探索方法和特征选择技巧：

1. 数据可视化：通过绘制直方图、散点图、箱线图等可视化手段，探索数据的分布、关联性和异常值等特征。

2. 相关性分析：计算特征之间的相关系数或相关矩阵，通过分析相关系数的大小和符号来判断特征与目标变量之间的关系。

3. 特征重要性：使用特征选择算法（如随机森林、卡方检验等）对特征进行排序或评分，辨别出对目标变量有贡献的重要特征。

4. 领域知识：在选择特征时，充分利用领域专业知识，根据问题的背景和特性，选择与目标变量相关的特征。

5. 过滤式特征选择：根据某种准则（如方差、相关系数等）将特征进行初步筛选，去掉冗余或无关的特征。

6. 包裹式特征选择：通过给定特征集合的子集来训练模型，并评估每个子集的性能，选择性能最好的特征子集。

7. 嵌入式特征选择：在训练模型的过程中，自动选择具有较高权重或重要性的特征，剔除对模型性能贡献较小的特征。

数据探索和特征选择是一个迭代的过程，需要综合考虑数据的特点、问题的需求和机器学习算法的要求，选择最合适的特征。尝试不同的方法和技术，多进行实验和评估，探索最适合问题的特征集合。

1-9 如何发现数据中的异常值，如何处理异常值？

发现数据中的异常值是数据预处理的一个重要步骤，以下是一些常用的方法：

1. 直方图和箱线图：通过绘制数据的直方图和箱线图，可以观察数据的分布和离群点。离群点往往在箱线图中表示为超出上下四分位数的点。

2. 统计方法：使用一些统计方法，如标准差、z-score或箱线图中的IQR方法，可以将与平均值或中位数相差较大的数据点识别为异常值。

3. 数据可视化：使用散点图或其他可视化方法，可以观察数据点之间的关系和模式。异常值通常会在图形中显示为与其他数据点明显不同的点。

处理异常值的方法取决于具体情况和数据的性质。以下是一些处理异常值的常用方法：

1. 删除异常值：如果异常值是由于错误、噪音或异常情况导致的，可以考虑将其从数据集中删除。

2. 替换异常值：对于数值数据，可以用平均值、中位数或其他合适的值来替换异常值。

3. 分箱或离散化：将连续数据转换成具有离散值的数据，可以将异常值放在某个单独的箱子或类别中。

4. 使用异常检测算法：使用机器学习或统计模型来识别和处理异常值，例如聚类方法、离群点检测算法等。

需要注意的是，处理异常值时应该谨慎，并根据具体情况进行决策。处理异常值可能会对数据的分布和模型结果产生影响，因此需要在处理异常值时权衡利弊，并在进行后续分析或建模之前进行评估。

1-10 标准化和归一化有哪些异同点？哪些算法需要做归一化或标准化？

相似点：
1. 目的：都是为了对数据进行缩放，使得数据具有可比性和可解释性。
2. 应用场景：通常应用于机器学习和数据挖掘等领域，以提高模型的性能和准确性。

不同点：
1. 对象：标准化一般针对数据的特征（每一列），而归一化是对数据的样本（每一行）进行操作。
2. 缩放范围：标准化将数据缩放到均值为0，标准差为1的范围内，而归一化将数据缩放到0到1的范围内或其他指定的范围内。
3. 方式：标准化使用的是减去均值再除以标准差的方式，归一化使用的是线性变换的方式。

哪些算法需要进行归一化或标准化？
1. 基于距离的算法：如K近邻算法、支持向量机（SVM）等，它们计算样本之间的距离或相似度，需要对数据进行标准化或归一化，以便消除特征间的量纲影响。
2. 梯度下降优化算法：如线性回归、逻辑回归和神经网络等，它们通常需要对数据进行标准化，以加快算法收敛速度和优化效果。
3. 特征提取算法：如主成分分析（PCA）、因子分析等，它们对数据的协方差矩阵或相关矩阵进行计算，需要对数据进行标准化来保证结果的准确性。

需要注意的是，不是所有算法都需要进行标准化或归一化，有些算法是不受数据缩放影响的。另外，在进行标准化或归一化时，应该根据具体情况和数据的特点进行选择，以保证预处理的效果和结果的可解释性。

1-11 GBDT算法需要做归一化吗？xgboost，lightgbm，catboost等算法需要做归一化或者标准化吗？

GBDT（Gradient Boosting Decision Tree）算法以及其衍生算法XGBoost、LightGBM和CatBoost通常不需要做归一化或标准化。

这些算法使用的是决策树作为基学习器，决策树是根据特征之间的比较进行决策的，而不是依赖特征的绝对值大小。因此，这些算法不受特征的量纲影响，对于特征的缩放和偏移并不敏感。

此外，决策树算法也相对于线性模型而言较为鲁棒，对于异常值和偏差较大的数据也具有一定的容忍度。因此，在使用GBDT、XGBoost、LightGBM和CatBoost等算法时，一般情况下不需要进行归一化或标准化。

然而，在某些情况下，数据的预处理可能仍然对模型的性能产生积极影响。例如，如果特征量纲差异较大，或者存在某些异常值，可以尝试进行归一化或标准化处理以平衡不同特征的重要程度。根据实际问题和实验测试，在使用GBDT、XGBoost、LightGBM和CatBoost等算法时，可以考虑是否进行数据的归一化或标准化处理。

1-12 你怎样理解组合特征？举个例子，并说明它和单特征有啥区别

组合特征是通过将多个单独的特征进行组合、衍生或相互交互来创建新的特征。这些新特征可以包含对原始特征的各种操作，例如求和、乘积、差异、比率、交叉等。组合特征的目的是提取和表达原始数据中的更高层次的特征，并且能够更好地表示数据的复杂关系。

举个例子来说明，假设我们有一个房屋数据集，包含着房屋的面积和卧室数量这两个单特征。我们可以组合这两个特征，创建一个新的特征：总卧室面积。该特征可以通过将面积乘以卧室数量计算得到。这样一来，这个新特征能够更好地捕捉到房屋的卧室空间的信息，而不是仅仅考虑面积和卧室数量两个单独特征的信息。

与单特征相比，组合特征具有以下区别：
1. 表达能力更强：组合特征能够通过结合多个单独特征，更好地表达数据之间的关系和特征的意义。
2. 潜在的非线性关系：通过组合特征，可以捕捉到原始特征之间的非线性关系，从而提供更准确、更全面的特征表示。
3. 提高模型性能：组合特征能够提供更详细的特征信息，有助于提高模型的预测能力和准确性。
4. 增加特征空间：组合特征扩展了特征空间，可能帮助模型发现更多有用的特征组合，提高学习的能力。

需要注意的是，组合特征的创建需要结合具体的领域知识和模型需求，并且在特征工程过程中需要进行特征选择和特征筛选，以避免过度拟合和高维度的问题。

1-13 时间类型数据有哪些处理方法？

时间类型数据在数据处理中常常需要进行一些预处理和转换，下面列举了几种常见的处理方法：

1. 日期解析：将时间类型数据从字符串格式转换为日期对象，以便后续的处理和计算。在Python中，可以使用datetime库或pandas库的to_datetime函数来实现。

2. 特征提取：从时间类型数据中提取出具体的日期、时间、年份、月份、星期几等信息作为新的特征。例如，可以将日期数据提取为"年-月-日"的形式，或提取出季度信息等。

3. 周期性处理：对于涉及到季节性或周期性的时间数据，可以将其转换为相对时间信息，如季度、月份、周数等，以方便模型识别和学习周期性模式。

4. 时间差计算：计算时间数据之间的差值，例如计算时间间隔、时间延迟等。这可以帮助我们了解事件的持续时间或时间间隔的模式。

5. 时间戳转换：将时间数据转换为时间戳（以某一固定时间点为基准的秒数），以便进行时间序列分析、时间索引等操作。

6. 时间划分：将时间数据按照一定的规则进行划分，例如按照年、季度、月份等划分，以便进行时间聚合和分析。

7. 缺失值处理：对于缺失的时间数据，可以根据具体问题和数据集的性质进行适当的处理，例如删除、插值或填充缺失值。

需要根据具体的问题和数据集的特点选择合适的处理方法，并结合领域知识进行处理，以确保对时间类型数据的准确解释和有效使用。

1-14 如何处理高维组合特征？比如用户ID和内容ID？

处理高维组合特征，如用户ID和内容ID的组合，可以尝试以下方法：

1. 哈希技巧：使用哈希函数将高维组合特征映射到低维空间。通过哈希技巧，可以将高维组合特征转化为一个或多个低维特征，从而减少特征维度。这样可以降低模型的计算复杂度，并且在一定程度上保留了原始特征的信息。

2. 嵌入编码：使用嵌入编码（如Word2Vec、Embedding）将高维组合特征转换为低维连续向量。这种方法利用了嵌入模型的能力，将高维的离散特征转化为低维的连续特征表示。例如，可以使用经典的Word2Vec模型将用户ID和内容ID转换为固定长度的向量表示，然后将这些向量作为模型的输入。

3. 统计特征：基于高维组合特征，提取一系列统计特征来代表其相关信息。例如，可以使用用户ID和内容ID的组合来计算用户对该内容的平均评分、观看次数、购买次数等统计信息，然后将这些统计特征作为模型的输入。

4. 维度削减：使用降维技术（如主成分分析、线性判别分析等）将高维组合特征降低到较低的维度。这样可以减少模型的计算复杂度，并且在一定程度上保留了原始特征的信息。需要注意的是，在进行降维时，应该谨慎选择降维方法和降维后的维度，以避免信息损失过多。

1-15 什么是序号编码、one-hot编码、二进制编码？适合怎样的类别型数据？

序号编码（Ordinal Encoding）是一种将类别型数据转换为整数序列的编码方式。每个类别被赋予一个唯一的整数值，这些整数值是按照类别的自然顺序进行分配的。序号编码通常适用于具有内在有序性的类别型特征，例如衣服尺寸（小、中、大）、教育程度（小学、初中、高中、大学）等。

One-Hot编码是一种将类别型数据编码为二进制向量的方法。每个类别被表示为一个长度为类别总数的向量，其中只有一个位置为1，其他位置为0。这种编码方式适用于没有内在顺序的类别型特征，如颜色（红、绿、蓝）、国家（中国、美国、英国）等。

二进制编码（Binary Encoding）是一种将类别型数据转换为二进制表示的编码方式。首先给类别分配一个唯一的整数值，然后将整数值转换为二进制数，再将二进制数按位切分为多个特征列。二进制编码可以有效地减少编码后特征的维度，适用于类别数量较多的特征。

适合选择哪种编码方式，取决于数据的特性和模型的需求。如果类别型特征有明显的顺序关系，可以使用序号编码；如果类别之间没有顺序关系，且类别数较少，可以选择One-Hot编码；如果类别数较多，可以考虑使用二进制编码来降低维度。在应用编码之前，需要先对数据进行适当的探索和分析，以了解特征的类型和属性。另外，需要注意的是，编码后的特征可能增加了模型的复杂度，可能需要进一步的特征选择和调优。

1-16 如何做特征选择？卡方检验、信息值（IV）、VOE都是如何计算？各有什么优缺点？

特征选择是指从原始特征集合中选择出最有用的特征子集，以提高机器学习模型的性能和泛化能力。以下是常用的特征选择方法和它们的计算方式以及各自的优缺点：

1. 卡方检验（Chi-Square Test）：

卡方检验用于判断两个变量之间是否存在关联性，以此来选择相关性较高的特征。

计算方式：
- 对于每个特征与目标变量之间的关联性，首先构建一个分组交叉表，计算实际观察频数和预期频数，然后使用卡方统计量来衡量实际观察频数与预期频数之间的偏差。最后，通过计算卡方值和对应的p-value来确定特征的相关性。

优点：
- 简单、直观，易于理解和实现。
- 可以判断特征与目标变量之间是正相关还是负相关。

缺点：
- 忽略了变量之间的线性关系。
- 只能用于评估分类变量之间的关联性。

2. 信息值（Information Value，IV）：

信息值是一种评估分类变量的预测能力的方法，在特征选择中广泛使用。

计算方式：
- 首先将特征的不同取值进行分组，然后计算每个分组中的事件发生概率和非事件发生概率。接着，通过计算事件发生概率和非事件发生概率的对数差值，然后乘以权重（通常是事件发生概率和非事件发生概率之差），最后将所有分组的对数差值与权重相乘的结果求和，得到特征的IV值。

优点：
- 可以评估分类变量的预测能力。
- 能够处理缺失值。

缺点：
- 对于连续变量的处理相对复杂。
- 只能用于评估分类变量的相关性。

3. Voice of Employee（VOE）：

VOE是一种主观评价和关键性因素选择的特征选择方法，常用于人力资源领域。

计算方式：
- VOE的计算方式主要基于员工对不同特征的评分和重要性调查，通过将评分与重要性权重相乘并加总来计算特征的VOE值。

优点：
- 能够考虑到人类主观评价的因素。
- 可以捕捉到对目标变量有重要影响的特征。

缺点：
- 结果可能受到不同参与者主观评价的影响。
- 需要大量的调查和主观判断，开销较大。

选择适合的特征选择方法取决于数据集特点、问题要解决的领域以及可用资源。综合考虑特征选择方法的优缺点，可以根据具体需求选择合适的方法进行特征选择。此外，还可以通过组合多个特征选择方法来获得更好的结果。

1-17 计算特征之间的相关性方法有哪些？有什么优缺点

计算特征之间的相关性是衡量它们之间线性关系强度的方法。以下是一些常用的计算特征相关性的方法以及它们的优点和缺点：

1. 皮尔逊相关系数（Pearson Correlation Coefficient）：
- 皮尔逊相关系数是衡量两个连续变量之间线性关系强度和方向的常用方法。其取值范围为 -1 到 +1，表示负相关和正相关的程度。
- 优点：计算简单，易于实现。
- 缺点：只能测量线性关系，并且对异常值敏感。

2. 斯皮尔曼相关系数（Spearman Correlation Coefficient）：
- 斯皮尔曼相关系数是衡量两个变量之间任意关系的非参数方法，适用于连续变量和顺序变量。
- 优点：不要求变量线性相关且对异常值不敏感。
- 缺点：无法捕捉到非单调的关系。

3. 切比雪夫距离（Chebyshev Distance）：
- 切比雪夫距离是衡量两个连续变量之间差异的方法，其定义为两个变量之间最大差值的绝对值。
- 优点：简单易懂，适用于连续变量。
- 缺点：无法表达变量之间的线性关系。

4. 互信息（Mutual Information）：
- 互信息是衡量两个变量之间非线性关系强度的方法，可以用于连续变量和分类变量。
- 优点：可以捕捉到非线性关系，适用于连续变量和分类变量。
- 缺点：对特征取值的分布敏感。

5. 方差膨胀因子（Variance Inflation Factor，VIF）：
- 方差膨胀因子用于衡量多元线性回归模型中特征间的共线性程度。
- 优点：可以检测共线性问题，找出需要剔除的冗余变量。
- 缺点：只适用于线性回归模型。

选择适当的相关性方法取决于数据类型、研究问题和特征之间的关系。在进行特征选择或特征工程时，常常需要多种方法的结合分析，以获得更全面准确的结论。重要的是要了解每种方法的优缺点，并根据具体情况进行选择和解释结果。

1-18 如何理解笛卡尔积、外积、内积？

笛卡尔积（Cartesian Product）是集合论中的概念，指的是将两个集合的元素进行组合生成的一个新的集合。设A和B是两个集合，它们的笛卡尔积表示为A × B，其中A × B = {(a, b) | a ∈ A, b ∈ B}。简单来说，就是将A中的每个元素与B中的每个元素进行组合，生成一个新的集合。

外积（Outer Product）在向量和矩阵运算中出现，用于计算两个向量之间的乘积或矩阵之间的乘积。对于两个向量a和b的外积，结果是一个矩阵，其中每个元素都是a与b对应位置上的元素相乘得到的。外积通常用符号"a ⊗ b"表示。

内积（Inner Product），也称为点积或数量积，是向量运算中常见的一种运算。对于两个向量a和b，内积是将它们对应位置上的元素相乘，然后将乘积相加得到一个标量。内积在几何上可以用来度量两个向量的夹角和长度关系，也在许多机器学习和统计算法中起到重要作用。内积通常用符号"a · b"表示。

总结起来：
- 笛卡尔积是将两个集合的元素进行组合生成一个新的集合。
- 外积是向量或矩阵之间的乘积，结果是一个矩阵，其中每个元素都是对应位置上的元素相乘得到的。
- 内积是向量之间的乘积，结果是一个标量，是对应位置上的元素相乘再相加得到的。

1-19 文本数据有哪些预处理方法？

文本数据的预处理方法有很多，以下是一些常见的预处理方法：

1. 清除特殊字符：删除文本中的非字母、数字和常见符号等特殊字符。

2. 分词：将文本拆分成单词或词语的序列，以便后续处理。

3. 去除停用词：去除一些常见但无实际意义的词语，如“a”，“and”，“the”等。

4. 大小写转换：将文本统一转换成大写或小写，以消除大小写的差异。

5. 词干提取和词形归并：将单词转换成其原始形式，如将"running"转换成"run"。

6. 去除标点符号：删除文本中的标点符号。

7. 去除数字：删除文本中的数字。

8. 正则化：使用正则表达式来删除或替换特定的模式，如URL、邮箱地址等。

9. 去除重复词语：删除文本中重复出现的词语。

10. 去除低频词语：删除在整个文本集中出现频率很低的词语，以减少噪音。

这些预处理方法可以根据具体任务和数据集的不同进行组合和调整。预处理的目的是提高文本数据的质量和可用性，以便后续的文本分析和建模。

1-20 文本特征表示有哪些模型？他们的优缺点都是什么？

常用的文本特征表示模型包括以下几种：

1. 词袋模型 (Bag of Words, BoW)：将文本转换为固定长度的向量表示，向量的每个维度代表一个词语在文本中的出现次数或者权重。优点是简单、易理解，缺点是忽略了词语顺序和语义信息。

2. TF-IDF：词频-逆文档频率 (Term Frequency-Inverse Document Frequency) 是一种用于评估一个词语在文档中的重要性的统计方法。TF-IDF对于常见词语的权重下降，对罕见词语的权重上升。优点是考虑了词语在文本集中的重要性，缺点是仍然忽略了词语顺序和语义信息。

3. Word2Vec：Word2Vec是基于神经网络的词嵌入模型，通过学习词语的分布式表示，将每个词语映射为一个实数向量。优点是捕捉了词语之间的语义关系，缺点是对于罕见词语的效果较差。

4. GloVe：GloVe是一种用于生成词向量的模型，结合了全局词语统计信息和局部上下文窗口信息。相比于Word2Vec，GloVe的优点是更好地处理了罕见词语。

5. FastText：FastText是一种基于Word2Vec的词嵌入模型，通过将词语划分为子词来捕捉更多的语义信息。优点是对于罕见词语和词语中的未知部分有更好的表示能力。

这些模型各有优缺点，选择合适的模型取决于具体任务和数据集。通常，深度学习模型如Word2Vec、GloVe和FastText在语义处理方面表现较好，而词袋模型和TF-IDF在简单的文本分类任务上更常用。

1-21 N-gram算法是什么？有什么优缺点？

N-gram算法是一种用于文本分析和自然语言处理的统计方法。它是基于N个连续的词语或字符组合来建模文本的方法。

在N-gram算法中，N表示连续出现的词语或字符的数量，常见的有unigram（单个词语）、bigram（两个连续词语）和trigram（三个连续词语）。通过计算文本中不同N-gram的频率或概率，可以得到一个N-gram模型。

优点：
1. 简单和易于实现：N-gram算法不需要依赖复杂的模型，可以快速得到结果。
2. 考虑了词语的局部上下文信息：N-gram可以捕捉到词语之间的相互关系，有助于理解和预测文本。

缺点：
1. 维度爆炸：随着N的增加，N-gram模型的特征空间会呈指数级增长，对计算资源和存储空间要求较高。
2. 忽略了长距离依赖：N-gram算法是基于局部上下文的，不能捕捉到长距离的依赖关系。
3. 数据稀疏性：对于罕见的N-gram序列，可能会导致模型无法很好地学习到其概率分布。

为了解决一些缺点，可以采用平滑技术（如加法平滑、Katz平滑等）和截断技术（如截断频率和截断互信息）来调整N-gram模型的参数，以降低维度和改善模型性能。同时，N-gram算法通常结合其他特征表示方法和算法使用，以获得更好的效果。

1-22 讲解一下word2vec工作原理？损失函数是什么？

Word2Vec是一种用于生成词向量的模型，主要包括两种架构：Skip-gram和CBOW（Continuous Bag of Words）。这里我将重点介绍Skip-gram模型。

Skip-gram的基本思想是通过一个中心词来预测其周围的上下文词语。具体来说，给定一个长度为T的文本序列，Skip-gram模型的目标是最大化给定中心词来预测周围上下文词语的条件概率。

模型的输入是一个one-hot编码表示的中心词向量，即在输入向量中只有一个维度对应的值为1，其余维度为0。随后，输入向量经过一个隐藏层（嵌入层），将维度为V（词汇表大小）的输入向量映射为维度为D的隐藏层向量。

接着，隐藏层向量与输出权重矩阵相乘，得到维度为V的输出向量，然后通过softmax函数归一化，将输出向量转换为条件概率分布，用于预测上下文词语在词汇表中的概率分布。

训练时，模型通过最大化目标函数的对数似然来学习参数。优化目标函数采用了负对数似然（negative log likelihood）的形式，损失函数即为负对数似然函数的平均值。

具体而言，损失函数的计算分两步进行。首先，对于给定的中心词，从词汇表中随机采样一组负样本（即不是对应中心词的上下文词语），目标是使负样本在输出分布中的概率接近于零。其次，计算中心词和正样本的损失，使其在输出分布中的概率尽可能地接近于1。

整个训练过程通常使用梯度下降算法来最小化损失函数。最终得到的隐藏层向量就是词向量，可以用于表示词语在语义空间中的分布。

总的来说，Word2Vec通过训练一个神经网络来学习词语的分布式表示，通过预测上下文词语来优化模型，从而获得高质量的词向量。

1-23 Skin-gram和cbow有何异同？
Skip-gram和CBOW是Word2Vec模型的两种不同架构，它们在处理文本时有一些异同之处。

1. 目标和预测方式：
- Skip-gram模型的目标是预测给定中心词周围的上下文词语。它通过输入一个中心词，输出周围上下文词语的条件概率。Skip-gram模型适用于具有大量训练数据的情况下，它能更好地捕捉到稀疏的上下文信息。
- CBOW模型的目标是根据周围上下文词语来预测中心词。它通过输入周围上下文词语的one-hot向量的平均值，来输出中心词的条件概率。CBOW模型适用于数据较为稠密的情况下，因为它能更好地捕捉上下文的平均语义。

2. 神经网络结构：
- Skip-gram模型通过一个嵌入层将输入向量映射为隐藏层向量，然后通过输出层将隐藏层向量映射为预测的上下文词语。
- CBOW模型也通过一个嵌入层将多个输入向量映射为隐藏层向量，然后通过输出层将隐藏层向量映射为预测的中心词。

3. 训练时间和效果：
- Skip-gram模型相对于CBOW模型来说，更加耗时，因为它需要对每个中心词预测周围的多个上下文词语。
- 在数据相对较少的情况下，CBOW模型往往能更好地捕捉到整体的语义信息；而在数据较多的情况下，Skip-gram模型通常能更好地捕捉到罕见词语的语义信息。

1-24 讲解一下LDA模型原理和训练过程？

LDA（Latent Dirichlet Allocation）是一种用于主题建模的概率生成模型。它的目标是从给定的文本集中，推断出主题分布和词语分布，以揭示文本背后的主题结构。

LDA的基本思想是将每篇文本看作是一种主题和词语的混合，每个主题由一组概率分布表示，每个词语属于某个主题的概率由主题的词语分布决定。具体来说，LDA模型的生成过程如下：

1. 为每个主题随机初始化主题的词语分布。

2. 对于每篇文本，随机选择一个主题分布。

3. 对于文本中的每个词语：
a. 根据之前选择的主题分布，随机选择一个主题。
b. 根据所选主题的词语分布，随机选择一个词语。

4. 重复步骤3直到所有词语都被分配主题。

通过LDA模型的训练过程，我们可以推断出每个文本中的主题分布和每个主题的词语分布。

在训练过程中，可以使用Gibbs采样或变分推断来估计参数。Gibbs采样是一种基于马尔科夫链蒙特卡洛方法的迭代算法，通过对每个词语在每个迭代步骤中重新分配主题来估计参数。变分推断是一种优化问题，通过近似推断来优化LDA模型的参数。

训练过程的目标是最大化观察到的文本集中的似然函数或边缘似然函数。通常使用对数似然函数来表示损失函数，并使用迭代算法（如EM算法）来最小化损失函数。

1-25 图像数据如何处理？有哪些常用的图像特征提取方法？

处理图像数据通常包括以下步骤：预处理、特征提取和特征表示。其中，特征提取是将图像转化为可用于机器学习算法的数值向量表示的关键步骤。以下是常用的图像特征提取方法：

1. 颜色直方图（Color Histogram）：
- 统计图像中每个颜色通道的像素分布情况，并以向量形式表示。
- 特点：简单直观，能够捕捉图像的整体颜色分布。

2. 纹理特征（Texture Features）：
- 使用统计方法（如灰度共生矩阵、小波变换等）来描述图像中的纹理信息。
- 特点：能够捕捉到图像的细节和纹理结构。

3. 边缘特征（Edge Features）：
- 使用边缘检测算法（如Canny边缘检测）来检测图像中的边界。
- 特点：能够捕捉到图像中的边界和轮廓。

4. 角点特征（Corner Features）：
- 使用角点检测算法（如Harris角点检测）来检测图像中的关键点。
- 特点：能够捕捉到图像中的角点和兴趣点。

5. 尺度不变特征变换（Scale-Invariant Feature Transform，SIFT）：
- 使用SIFT算法检测图像中的关键点，并提取与尺度无关的特征描述子。
- 特点：对旋转、缩放和平移具有鲁棒性。

6. 主成分分析（Principal Component Analysis，PCA）：
- 使用PCA算法对图像进行降维，提取最重要的特征。
- 特点：能够捕捉到图像中的主要变化方向。

7. 卷积神经网络（Convolutional Neural Networks，CNN）：
- 基于深度学习的方法，使用卷积神经网络自动提取图像特征。
- 特点：能够学习到图像的高级抽象特征。

你可能感兴趣的:(机器学习,人工智能)

Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
揭秘AI算力网络与通信中边缘计算的机器学习应用
揭秘AI算力网络与通信中边缘计算的机器学习应用关键词：AI算力网络、通信、边缘计算、机器学习、应用摘要：本文将深入探讨AI算力网络与通信中边缘计算的机器学习应用。我们会先介绍相关背景知识，接着解释核心概念，分析它们之间的关系，阐述核心算法原理和操作步骤，结合数学模型举例说明，通过项目实战展示代码实现与解读，探讨实际应用场景，推荐相关工具和资源，最后展望未来发展趋势与挑战。希望通过这篇文章，能让大家
【人工智能】微调的秘密武器：释放大模型的无限潜能蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在人工智能迅猛发展的今天，大规模语言模型（LLMs）以其强大的通用能力席卷各行各业。然而，如何让这些通用模型在特定领域或任务中发挥最大潜力？答案是微调（Fine-tuning）。本文深入探讨微调的理论基础、技术细节与实践方法，揭示其作为解锁大模型隐藏潜力
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name