茗创科技

连接组学中的机器学习：从表征学习到模型拟合

前言

机器学习(ML)由于其高自动化程度、高灵敏度和特异性优势，在医学影像领域取得了巨大的成功。由于具备这些优势，机器学习已被广泛应用于神经成像数据，目的是提取与感兴趣变量(如疾病状态)相关的特征。这使我们能够形成关于不同条件下大脑结构和功能的详细地图，以数据驱动的方式发现新知识。

与传统的数据驱动方法(如大规模单变量分析)相比，机器学习方法具有两个重要优势。首先，机器学习方法通过检查横跨整个图像领域的元素之间的统计关系，充分利用了高维数据的潜力。尽管存在正常变化，但通过利用所有图像位置的信息，机器学习方法能够准确地识别和测量由疾病或药物干预引起的脑部细微且空间复杂的结构和功能变化。

其次，机器学习方法能够在个体水平上进行预测。相比之下，大规模单变量分析只能在组水平上进行推断，估计最能区分两组的模式或预测感兴趣的变量，从而基本上描述的是组平均数据。然而，这并不能满足通过改进疾病筛查和诊断来实现精准医疗所需的个性化预测需求。

总的来说，这些优势推动了机器学习在多种脑部疾病研究中的应用。这导致了能够量化患病风险或追踪其进展的敏感生物标志物的构建。这些基于机器学习的生物标志物还允许研究临床试验中药物干预的效果，并在可测量的临床效果出现之前提供患者特异性诊断。这方面的早期工作主要涉及结构磁共振成像(MRI)数据上的机器学习应用。这是由于此类数据更易获取，并且具有欧氏结构，因而在计算机视觉领域中较为常见。随着网络科学和图论的发展，以及大脑作为一个高度复杂且相互连接网络的概念化，机器学习在连接组学上的应用越来越受到关注。尽管如此，机器学习在连接组学上的应用并不那么简单。这是由于数据的非欧氏性质，因而需要适当的处理方法。

方法

本节详细阐述了如图1所示的连接组学中ML工作流的步骤3和步骤4。由于连接组学数据的非欧氏性质使其与传统的机器学习算法结合使用并不容易。因此，本文讨论了将图形转化为适合机器学习方法输入的方式。但有时会根据图谱或个体水平的分区来构建连接组，因而可能会得到不同数量节点的单个图(在后一种情况下)。在这里，本文将重点介绍适用于图形约束的方法，该类图形在总体中具有唯一的节点排序。在这类图形中，所有图实例的顶点数量是固定的，并且顶点集的顺序也是固定的(称为固定基数顶点序列)。进一步假设边缘标记函数是标量，并且图形是无向的，这意味着邻接矩阵是对称的。

图1.连接组学中的机器学习工作流。

用特征向量概括图形

根据用于解决特定问题的机器学习算法的不同，图形实例可能需要映射到一个d维向量中。当算法只能处理实值特征向量时，就需要进行这种映射。在脑图中，我们通常对保留边缘标签信息感兴趣，一旦获得连接矩阵的向量表征，就可以应用任何需要标量输入特征的传统机器学习算法。通过直接嵌入，提供一个固定的基数顶点序列，邻接矩阵的上三角元素可以很容易地表示为一个特征向量，只要它们表示的连接在所有图实例中保持一致。这种非常简单的嵌入结合了图的全局和局部特征，因为它在为整个图捕获这些信息的同时保留了原始的边缘标签。边缘中包含的判别信息可以在脑连接图中进一步定位和可视化。

然而，这种方法部分地忽略了局部或全局的高级结构特征，这些特征在某些应用中尤其重要。另一个局限性是它们考虑了与所有脑区域的所有连接，即使其中一些连接可能对于解决问题来说是“不相关的”(即不具有判别性)，而不是只包含最相关连接的子集。因此，它们产生了非常高维的特征表示，这会加剧在小样本研究中的过拟合问题。这将需要某种形式的降维、正则化、大量样本或以上所有方法，以确保该方法可以推广到其他人群。在有助于捕捉这些全局特征的情况下，可以用图属性向量来概括实例。这些属性通常包括平均聚类系数和特征路径长度，而更局部的特征可能包括对应于感兴趣脑区的节点强度。最近，一些更先进的技术，如node2vec，已被用于获得反映结构和功能连接的图嵌入，并表现出很高的预测能力。

降维

降维方法通常用于通过将输入数据映射到捕获数据“本质”的子空间来获得较低维的特征表示。这一步有助于泛化并降低计算复杂度，并且常常在模型拟合之前应用。高维函数往往比低维函数更复杂，而且这些复杂的模式更难辨别。在机器学习模型中，较少的输入维度通常意味着更少的参数(称为自由度)或更简单的结构。具有太多自由度的模型可能会过度拟合训练数据，因此可能在新的未知数据上表现不佳，而这正是我们最终关心的问题。

主成分分析(PCA)是最常用的降维方法之一。PCA通过线性变换到新坐标系来寻求数据变化的主要方向。将原始数据映射到这个坐标系的第一维上，可以捕获数据的最大方差，第二维上是次大方差，以此类推。每个维度(由向量i描述)都需要与前面的(i-1)维度正交。PCA常用于降维，并使用奇异值分解将数据映射到低维空间。然而，它不能很好地适应维数远高于样本数量的问题。

另一种降维方法是RFE(递归特征消除)。这是一种迭代方法，可在训练集上训练岭分类器，并保留在每一步中幸存下来的原始特征向量的维度。在每次迭代中，分类器的系数用于对特征的重要性进行排序(系数越高表示重要性越高)，同时从特征向量中剪除辨别性最小的维度。与PCA相比，该方法在连接组学应用中可以产生更好的结果，但由于每次迭代都需要训练一个新的分类器，因此成本往往更高。

与PCA(定义不相关特征向量的正交坐标系)不同，独立成分分析(ICA)旨在寻找非高斯数据的线性表示，使各成分在统计上相互独立，或者尽可能独立。在较高的层次上，主成分分析(PCA)旨在压缩信息并降低信号的维数，而ICA旨在将信息分离为有意义的成分，并用于重建信号。因此，ICA更常用于脑区划分，而PCA用于在将大脑信号输入机器学习模型之前降低维度、减少计算量并缓解过拟合。其他用于连接组数据的降维方法包括多维缩放(MDS)和局部线性嵌入(LLE)。MDS通常将点之间的距离(或相似性)矩阵作为输入，旨在恢复保留这些距离的输入的低维表征。它通常用于根据成对距离矩阵生成数据点的二维可视化(例如在度量学习中)。如果该距离对应于欧氏距离，则经典MDS的结果等价于PCA。而LLE是一种非线性降维技术，可保留用户指定大小的局部邻域内的距离。

图核

图核是一种核函数，通过捕捉图结构中的内在语义来计算两个图之间的内积。内积是一种将两个向量相乘的方法，乘积的结果是标量，并且通常被认为是这些向量之间的相似性度量。这个内积是在与输入图对的原始空间不同的特征空间中计算的。理想情况下，图核应该对个体差异具有稳健性，并可以应用于结构和功能脑网络。R-卷积核比较由相似部分组成的两个结构化对象的分解。分解过程递归地重复，直到产生原子成分。最后，将每个部分的相似性度量值聚合，得到一个标量。因此，图核是一对图的卷积核，一个新的分解关系R会产生一个新的图核。

一种常用的类型是随机游走核，它计算两个图中相同随机游走序列的数量。游走是节点序列，其中某些节点可以重复访问。长度k的游走可以通过邻接矩阵的k次幂来计算。然而，这些操作的计算量非常大，而节点重复可能会导致内核值增长到非常大的值。最短路径核旨在通过计算输入图中所有节点对之间的最短路径长度来缓解这些问题(在路径中，不允许节点重复)。

除了基于游走和路径的方法，基于子树的核也已用于连接组学研究。子树是从图中提取的子图，其中不存在循环，也就是说，任意一对节点都可以通过一条简单的路径相连。Weisfeiler-Lehman子树核就是这样一种方法，它基于Weisfeiler-Lehman图同构检验，采用了一种有效的方法来构造图核。

机器学习中的线性方法

支持向量机(SVM)是基于一组d维向量，试图找出表示两个类别之间最大间距或距离的(d-1)维超平面。超平面定义为一个比它所在环境空间维数小1的子空间，它将该空间分为两个部分。例如，在二维空间中，一条线就是一个超平面。同样地，如果空间是三维的，那么它的超平面就是二维平面。在SVM中，选择超平面的方式是使得每个类别最近数据点的距离最大化。如果存在这样的超平面，则称为最大间隔超平面。SVMs的主要优势之一是在高维空间和维数大于样本数的情况下的效率较高。此外，SVM的存储效率很高，因为它只使用决策函数中训练点的一个子集，即所谓的支持向量。SVM在连接组学应用中的最重要特征是其灵活性，即可以使用不同的核函数作为决策函数，例如上文所提到的随机游走核或Weisfeiler-Lehman子树核。多核也可以与多核SVM结合使用，多核SVM可以表示为基核的线性组合。

岭分类是连接组学中常用的另一种方法。该方法适用于拟合具有多重共线性的多元回归数据。在这种现象中，一个预测变量(即输入特征)可以通过其他预测变量进行高精度的线性预测。连接组数据通常可以证明这种行为，特别是在其高维形式中，因为通常有比观测值(即受试者)更多的变量(例如边缘)。岭回归或Tikhonov正则化通过在相关矩阵的对角元素上添加一个小值λ来解决这个问题。当λ=0时，岭估计器简化为普通最小二乘法。

深度学习

深度学习在计算机视觉和医学成像应用中取得了许多成功，包括图像分割和分类，以及更复杂的任务，如地标定位和疾病结果预测。深度学习算法已经被证明可以学习输入特征的复杂非线性函数，并捕获欧氏空间中的分层模式(如图像像素和体素网格)。这些技术的“深度”方面是指其“堆叠”滤波器(卷积或全连接)的关键特征，以捕获不同空间尺度上的判别模式。尽管这些算法在欧氏空间中取得了成功，但它们在图形中，特别是脑图上的应用并不简单。首先，与图像体素不同，并非每个节点都具有相同数量的相邻节点。此外，相邻节点的排列不是固定的，即没有左/右等概念。

因此，在最近的宏连接组计算工作中，用于图的深度学习方法引起了很多关注。其中一个例子是BrainNetCN，该框架包括边到边、边到节点和图像体素等。前两个操作类似于局部聚合器，而最后一个操作则类似于全局聚合器。具体而言，边到边的图层计算滤波器映射，其值对应于相邻边的加权和。在训练过程中学习这些滤波器映射(以及跨层)的权重。边到节点的层降低了原始输入的空间维度，并将输入边的隐藏表征聚合为节点表征。最后，节点到图层的作用类似于全局聚合器，并估计隐藏节点表征的加权和，以产生单个标量值。这种设置在需要为每个连接组生成单个预测的情况下非常方便(无论是用于分类问题还是回归问题)。

在连接组学领域广泛使用的另一种深度学习方法是图卷积网络，特别是ChebNet。与在图空间域中进行滤波的BrainNetCNN不同，ChebNet的原理来自Shuman等人(2013)的图谱理论。这表明学习到的滤波器是基于拉普拉斯连接矩阵进行参数化的。拉普拉斯矩阵定义为L=D-A，其中D为度矩阵，A为邻接矩阵。这种方法被用于两种不同的设置：在转导设置中，总体被表示为一个图，其中每个个体对应于该图中的一个节点，该节点与节点特征向量相关联，这本质上是连接组的嵌入。在归纳设置中，ChebNet可以直接应用于个体的连接组图上，唯一的限制是需要在样本之间保持图结构。Ktena等人(2018)解决此问题的方式是计算总体平均连接矩阵，并将大脑节点的连接特征作为特征向量。

评估指标

根据目标应用(即分类与回归)的不同，我们常用和报告的评估指标会有所不同。在分类设置中，我们对分类准确率感兴趣，通常将其报告为所有测试样本(与类别无关)中正确预测的百分比。此外，在分类应用中，通常会报告模型的精度、召回率、敏感度和特异度。精度是指真阳性(例如，识别患者状态)与所有阳性预测数量的比值，即：

召回率(或敏感度)是指真阳性与真阳性和假阴性之和的比率，即：

图2显示了不同分类器可能在精度和召回率之间的权衡。特异度是指真阴性预测占所有阴性样本的比率，即：

图2.在7个阳性和5个阴性样本的数据集上演示阿尔茨海默病分类(AD=阿尔茨海默病患者，HC=健康对照组)的精度/召回率权衡。

在疾病预测中，我们特别关注在不影响特异性的情况下实现高敏感度，因为检测尽可能高的阳性率非常重要。另一个经常报告的指标是受试者工作特征曲线下面积(ROC-AUC)。ROC曲线反映了敏感度和假阳性率(等于1-特异度)之间的关系。AUC的值越高，分类器的质量越好，因为提高敏感度不会增加假阳性率。然而，当测试数据集存在严重的类别不平衡时，精度-召回率曲线下面积(PRAUC)被证明比ROC-AUC具有更大的信息量。在这种情况下，F1分数等指标也常被使用。

在回归应用中，最常用的指标包括平均绝对误差(MAE)、均方误差(MSE)和皮尔逊相关系数。MAE和MSE之间的主要区别在于MSE会对误差较大的情况进行更大的惩罚，因此适用于对误差较为敏感的情况。皮尔逊相关系数测量了预测得分和真实得分之间的线性关系，因此对输入数据的分布影响较小，但不能揭示回归模型可能存在的潜在偏差，即预测值过高或过低。

在分类和回归应用中，最好报告上述指标在不同情况下的均值和标准差，因为这可确保指标尽可能无偏，并反映分类器或回归器的真实性能。

限制

将机器学习(ML)应用于连接组学是具有挑战性的。在应用ML算法并评估其结果时，应考虑以下局限性。首先，ML性能高度依赖于算法所接收到的输入数据的质量，无论是传统机器学习还是深度学习技术都是如此。为了确保准确的训练和有意义的预测，需要对数据进行仔细的预处理和全面的数据质量检查。对于由fMRI和dMRI生成的连接组来说尤其如此。特别是扫描期间的头动已被证明对功能和结构连接的多个测量指标有着显著影响。在fMRI和dMRI中，已经研究了几种减轻运动效应的策略。然而，由于缺乏真实标准，很难确定头动对测量的影响程度。这在特定人群(例如儿童或患者)中的影响可能更大。因而会极大地混淆感兴趣的效应并限制了检测到真正信号的能力。

混淆变化是限制机器学习模型泛化能力的一个重要挑战。机器学习模型在检测数据细微模式方面表现出更高的敏感性。然而，这往往会导致模型专注于学习数据中的混淆变化，例如由于图像采集参数(如扫描仪强度或序列)而引起的信号变化。这限制了它们适应不同环境中收集新数据的能力，从而降低了可重复性。这在处理多站点数据时尤其成问题，因为多站点数据是增加样本量的必要手段。

扫描仪之间的差异并不是导致数据偏差的唯一原因。训练数据通常包含性别、种族和文化偏差。机器学习方法不仅会继承这种偏差，而且往往会放大这种偏差。防止潜在偏差的一个重要保障是模型的可解释性。机器学习和深度学习模型通常被视为分析高维神经成像数据并将其压缩为特定个体疾病指标的“黑匣子”。虽然该指标具有重要的诊断和预后价值，但它并不能告诉我们每个大脑连接或区域是如何影响这一决策的。然而，对于临床医生和研究人员来说，能够理解模型是如何做出这样的决策是非常重要的。这将使得自动化系统对人类专家的验证透明化，从而能够检查任何潜在的偏倚。重要的是，它能够提取关于不同大脑系统对不同病理的选择性易感性的新知识，从而阐明疾病机制，为更有效的治疗铺平道路。因此，越来越多的研究集中在开发用于解释神经成像中ML模型的方法和协议上。

最后，训练、验证和机器学习方法所面临的一个重大挑战是大型数据集的处理。现有的神经成像数据共享计划(如自闭症脑成像数据库(ABIDE)、开放获取系列成像研究(OASIS)和英国生物银行)对于支持机器学习研究至关重要，但还需要更多的努力来实现机器学习工具的广泛实施和使用。

建议

在连接组学中应用机器学习的一个重要环节是测量模型的预测能力。值得注意的是，不能使用相同的数据来训练和测试模型以评估模型的预测能力。这是因为机器学习模型常常会通过学习特定样本的噪声来过拟合训练数据，导致模型预测结果过高，从而不利于得出有效的结论。因此，样本内测量结果不能作为预测准确性的证据。相反，应该使用单独的数据集来测试模型。

然而，由于神经成像数据的可用性有限，可能无法使用单独的测试集。为此，可以采用k折交叉验证的方法。这是一个将数据划分为用户指定数量(k个)子集(折)的过程。每个子集被用作测试集，用来评估使用其他子集训练的模型的性能。通过对所有子集进行迭代，可以通过平均所有试次的误差来估计模型的有效性。在其最简单的形式中，每个数据点都被视为一个子集，这就是所谓的留一法交叉验证。这种方法的优点是提供了充足的训练数据。然而，测试集并不能代表整个数据集，估计结果通常不稳定且有偏差。因此，最好是将数据分割成更大的子集，通常占数据的10%-20%(即10折或5折交叉验证)。重复随机划分可以获得更准确的预测能力测量。

实施交叉验证并不总是那么简单。我们应该确保每个折都代表了数据的所有层。对于数据不平衡的情况，这尤为具有挑战性。在这种情况下，应使用分层交叉验证来确保在各个折中给定分类值的观测比例相似。此外，应适当加权观测数据以减少选择偏差。需要注意的是，当类别不平衡时，标准指标(如分类精度)变得不可靠。在这种情况下，应优先报告精度-召回率曲线和F1测量值。

最后，在实施交叉验证时需要记住的是，应该避免将信息从测试数据泄漏到训练数据。这意味着模型应该在独立于测试集的训练集上进行训练。否则，对预测能力的估计可能会过于乐观。

总的来说，在连接组学中应用机器学习时需要注意以下事项：

参考文献：Sofia Ira Ktena, Aristeidis Sotiras, Enzo Ferrante, Machine learning in connectomics: from representation learning to model fitting, 2023, P267-287.

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
学霸父母学渣娃，这孩子真是亲生的？太扎心了！东北SK皇家成长中心
现在的社会，每个家庭基本都把孩子的教育放在第一位，哪怕父母平时上班再苦再累也不敢在孩子的教育上有丝毫的马虎，平时对孩子的照顾真的是无微不至，每天早起送孩子上学，晚上回家辅导孩子写作业，有的父母的文化程度非常高，但是每每到了辅导孩子写作业这个时候，父母们内心都有这样一种想法，这个孩子真的是我亲生的吗？真想一巴掌拍死他，我上辈子是做了什么孽生出这么一个智障的孩子，家里每每就要上演全武行，看看这些孩子到
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
2019-01-19 王小康KK
姓名:王康公司:扬州市方圆建筑工程有限公司2018年3月16日～3月18日上海361期《六项精进》感谢二组学员【日精进打卡第307天】【知～学习】《六项精进》大纲3遍共862遍《大学》通篇3遍共860遍《六项精进》全书40页【经典名句】思想决定行为，行为决定习惯，习惯决定性格，性格决定命运。【行～实践】一、修身：（对自己个人）1、践行六项精进的理念。二、齐家：（对家庭和家人）1、和女朋友视频聊天。
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
厉国刚：新闻学与传播学到底有何区别微观大道
厉国刚：新闻学与传播学到底有何区别头几天，有人在知乎上问我：新闻学与传播学到底有何区别。他是一位想要跨专业考研的学生，对新闻传播学学科可谓了解甚少，甚至一头雾水，想要让我帮他解释解释。在研究生学硕层面，新闻传播学是一级学科，分成新闻学、传播学这两个二级学科。有些高校，还自设了广告学、出版发行学等其他二级学科，但从官方角度，新闻传播学一级学科下，正统的就是那两个二级学科。招生时，一般会按一级学科招，
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
2018-12-07 旅一06丁琪琪
旅管一班6组学号链接06丁琪琪16家国鑫26孟令慧30王思宁36温红丽46朱赵筱楠
openssl+keepalived安装部署 _小亦_ 项目部署 keepalived openssl
文章目录OpenSSL安装下载地址编译安装修改系统配置版本Keepalived安装下载地址安装遇到问题安装完成配置文件keepalived运行检查运行状态查看系统日志修改服务service重新加载systemd检查配置文件语法错误OpenSSL安装下载地址考虑到后面设备可能没法连接到外网，所以采用安装包的方式进行部署，下载地址：https://www.openssl.org/source/old/
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
2021-01-24 9ce517ee104c
【打卡素材】《香帅金融学讲义》【标题】公司治理：怎样同床异梦地过下去【日期】2021.1.24【字数】公司本质上是一连串的合约关系。降低合同执行中的各种摩擦是公司正常有效运行的基础。协同各方的利益、制衡各方的权力是关键。为解决利益冲突问题、协同各方利益，进行权力制衡的机制设计就是公司治理机制。001什么是公司治理治理是管理的基础，治理机制越好，权、责、利就越清晰，管理的目标也就会更容易实现。002
Some jenkins settings SnC_
Jenkins连接到特定gitlabproject的特定branch我采用的方法是在pipeline的script中使用git命令来指定branch。如下：stage('Clonerepository'){steps{gitbranch:'develop',credentialsId:'gitlab-credential-id',url:'http://gitlab.com/repo.git'}}
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
2024.9.14 Python，差分法解决区间加法，消除游戏，压缩字符串 RaidenQ python 游戏开发语言算法力扣
1.区间加法假设你有一个长度为n的数组，初始情况下所有的数字均为0，你将会被给出k个更新的操作。其中，每个操作会被表示为一个三元组：[startIndex,endIndex,inc]，你需要将子数组A[startIndex…endIndex]（包括startIndex和endIndex）增加inc。请你返回k次操作后的数组。示例:输入:length=5,updates=[[1,3,2],[2,4,
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
99分的A和60分的B以及…… MG12357
前几天聊天，麦苗说起A和B，A在世人眼中过的不错，他自己却整天焦虑各种烦恼；B过的不算好，看着倒是没什么烦恼很开心。其实这个现象也不奇怪，还记得我上学那会儿就有这种体会。A同学明明考了99分，还是伤心难过不能自已，还找人抱怨，同学安慰她的时候心里还会默默说一句“学婊，花样炫耀啊”。而B同学可能才考60分，就欢天喜地甚至喜极而泣，很多同学可能还会不屑的在心里想“这点出息”。也许我曾经也是这样想的，现
spring如何整合druid连接池？惜.己 spring spring junit 数据库 java idea 后端 xml
目录spring整合druid连接池1.新建maven项目2.新建mavenModule3.导入相关依赖4.配置log4j2.xml5.配置druid.xml1)xml中如何引入properties2)下面是配置文件6.准备jdbc.propertiesJDBC配置项解释7.配置druid8.测试spring整合druid连接池1.新建maven项目打开IDE（比如IntelliJIDEA,Ecl
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
esp32开发快速入门 8 : MQTT 的快速入门，基于esp32实现MQTT通信 z755924843 ESP32开发快速入门服务器网络运维
MQTT介绍简介MQTT（MessageQueuingTelemetryTransport，消息队列遥测传输协议），是一种基于发布/订阅（publish/subscribe）模式的"轻量级"通讯协议，该协议构建于TCP/IP协议上，由IBM在1999年发布。MQTT最大优点在于，可以以极少的代码和有限的带宽，为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协议，使其在物联
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

连接组学中的机器学习：从表征学习到模型拟合

你可能感兴趣的:(机器学习,连接组学)