大数据v

你真的懂数据分析吗？一文读懂数据分析的流程、基本方法和实践

导读：无论你的工作内容是什么，掌握一定的数据分析能力，都可以帮你更好的认识世界，更好的提升工作效率。数据分析除了包含传统意义上的统计分析之外，也包含寻找有效特征、进行机器学习建模的过程，以及探索数据价值、找寻数据本根的过程。

作者：马海平于俊吕昕向海

本文摘编自《Spark机器学习进阶实战》，如需转载请联系我们

01 数据分析流程

数据分析可以帮助我们从数据中发现有用信息，找出有建设性的结论，并基于分析结论辅助决策。如图1所示，数据分析流程主要包括业务调研、明确目标、数据准备、特征处理、模型训练与评估、输出结论等六个关键环节。

▲图1 数据分析流程

数据分析能力并非一朝一夕养成的，需要长期扎根业务进行积累，需要长期根据数据分析流程一步一个脚印分析问题，培养自己对数据的敏感度，从而养成用数据分析、用数据说话的习惯。当你可以基于一些数据，根据自己的经验做出初步的判断和预测，你就基本拥有数据思维了。

02 数据分析基本方法

数据分析是以目标为导向的，通过目标实现选择数据分析的方法，常用的分析方法是统计分析，数据挖掘则需要使用机器学习构建模型。接下来介绍一些简单的数据分析方法。

1. 汇总统计

统计是指用单个数或者数的小集合捕获很大值集的特征，通过少量数值来了解大量数据中的主要信息，常见统计指标包括：

分布度量：概率分布表、频率表、直方图
频率度量：众数
位置度量：均值、中位数
散度度量：极差、方差、标准差
多元比较：相关系数
模型评估：准确率、召回率

汇总统计对一个弹性分布式数据集RDD进行概括统计，它通过调用Statistics的colStats方法实现。colStats方法可以返回RDD的最大值、最小值、均值、方差等，代码实现如下：

 
    import 
      
    org.apache.spark.MLlib.linalg.Vector

 
    import 
      
    org.apache.spark.MLlib.stat.{MultivariateStatisticalSummary, Statistics}

 
    // 向量[Vector]数据集 
   

 
    val 
      
    data 
    : 
      
    RDD[Vector]  
    = 
      
    ...

 
    // 汇总统计信息 
   

 
    val 
      
    summary 
    : 
      
    statisticalSummary  
    = 
      
    Statistics.colStats(data)

 
    // 平均值和方差 
   

 
    println(summary.mean) 
   

 
    println(summary.variance)  
   

2. 相关性分析

相关性分析是指通过分析寻找不用商品或不同行为之间的关系，发现用户的习惯，计算两个数据集的相关性是统计中的常用操作。

在MLlib中提供了计算多个数据集两两相关的方法。目前支持的相关性方法有皮尔逊（Pearson）相关和斯皮尔曼（Spearman）相关。一般对于符合正态分布的数据使用皮尔逊相关系数，对于不符合正态分布的数据使用斯皮尔曼相关系数。

皮尔逊相关系数是用来反映两个变量相似程度的统计量，它常用于计算两个向量的相似度，皮尔逊相关系数计算公式如下：

其中表示两组变量，表示两个变量的平均值，皮尔逊相关系数可以理解为对两个向量进行归一化以后，计算其余弦距离（即使用余弦函数cos计算相似度，用向量空间中两个向量的夹角的余弦值来衡量两个文本间的相似度），皮尔逊相关大于0表示两个变量正相关，小于0表示两个变量负相关，皮尔逊相关系数为0时，表示两个变量没有相关性。

调用MLlib计算两个RDD皮尔逊相关性的代码如下，输入的数据可以是RDD[Double]也可以是RDD[Vector]，输出是一个Double值或者相关性矩阵。

 
    import 
      
    org.apache.spark.SparkContext

 
    import 
      
    org.apache.spark.MLlib.linalg. 
    _

 
    import 
      
    org.apache.spark.MLlib.stat.Statistics

 
    // 创建应用入口 
   

 
    val 
      
    sc 
    : 
      
    SparkContext  
    = 
      
    ...

 
    // X变量 
   

 
    val 
      
    seriesX 
    : 
      
    RDD[Double]  
    = 
      
    ...

 
    // Y变量，分区和基数同seriesX 
   

 
    val 
      
    seriesY 
    : 
      
    RDD[Double]  
    = 
      
    ...

 
    // 使用Pearson方法计算相关性，斯皮尔曼的方法输入“spearman” 
   

 
    val 
      
    correlation 
    : 
      
    Double  
    = 
      
    Statistics.corr(seriesX, seriesY,  
    "pearson" 
    ) 
   

 
    // 向量数据集 
   

 
    val 
      
    data 
    : 
      
    RDD[Vector]  
    = 
      
    ...

 
    val 
      
    correlMatrix 
    : 
      
    Matrix  
    = 
      
    Statistics.corr(data,  
    "pearson" 
    ) 
   

皮尔逊相关系数在机器学习的效果评估中经常使用，如使用皮尔逊相关系数衡量推荐系统推荐结果的效果。

3. 分层抽样

分层抽样先将数据分为若干层，然后再从每一层内进行随机抽样组成一个样本。MLlib提供了对数据的抽样操作，分层抽样常用的函数是sampleByKey和sampleByKeyExact，这两个函数是在key-value对的RDD上操作，用key来进行分层。

其中，sampleByKey方法通过掷硬币的方式进行抽样，它需要指定需要的数据大小；sampleByKeyExact抽取个样本，表示期望获取键为key的样本比例，表示键为key的键值对的数量。sampleByKeyExact能够获取更准确的抽样结果，可以选择重复抽样和不重复抽样，当withReplacement为true时是重复抽样，false时为不重复抽样。重复抽样使用泊松抽样器，不重复抽样使用伯努利抽样器。

分层抽样的代码如下：

 
    import 
      
    org.apache.spark.SparkContext

 
    import 
      
    org.apache.spark.SparkContext. 
    _

 
    import 
      
    org.apache.spark.rdd.PairRDDFunctions

 
    val 
      
    sc 
    : 
      
    SparkContext  
    = 
      
    ...

 
    // RDD[(K, V)]形式的键值对 
   

 
    val 
      
    data  
    = 
      
    ...

 
    //指定每个键所需的份数 
   

 
    val 
      
    fractions 
    : 
      
    Map[K, Double]  
    = 
      
    ...

 
    //从每个层次获取确切的样本 
   

 
    val 
      
    approxSample  
    = 
      
    data.sampleByKey(withReplacement  
    = 
      
    false 
    , fractions)

 
    val 
      
    exactSample  
    = 
      
    data.sampleByKeyExact(withReplacement  
    = 
      
    false 
    , fractions)

通过用户特征、用户行为对用户进行分类分层，形成精细化运营、精准化业务推荐，进一步提升运营效率和转化率。

4. 假设检验

假设检验是统计中常用的工具，它用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。通过数据分析发现异常情况，找到解决异常问题的方法。

MLlib目前支持皮尔森卡方检验，对应的函数是Statistics类的chiSqTest，chiSqTest支持多种输入数据类型，对不同的输入数据类型进行不同的处理，对于Vector进行拟合优度检验，对于Matrix进行独立性检验，对于RDD用于特征选择，使用chiSqTest方法进行假设检验的代码如下：

 
    import 
      
    org.apache.spark.SparkContext

 
    import 
      
    org.apache.spark.MLlib.linalg. 
    _

 
    import 
      
    org.apache.spark.MLlib.regression.LabeledPoint

 
    import 
      
    org.apache.spark.MLlib.stat.Statistics. 
    _

 
    val 
      
    sc 
    : 
      
    SparkContext  
    = 
      
    ...

 
    // 定义一个由事件频率组成的向量 
   

 
    val 
      
    vec 
    : 
      
    Vector  
    = 
      
    ...

 
    // 作皮尔森拟合优度检验 
   

 
    val 
      
    goodnessOfFitTestResult  
    = 
      
    Statistics.chiSqTest(vec)

 
    println(goodnessOfFitTestResult) 
   

 
    // 定义一个检验矩阵 
   

 
    val 
      
    mat 
    : 
      
    Matrix  
    = 
      
    ...

 
    // 作皮尔森独立性检测 
   

 
    val 
      
    independenceTestResult  
    = 
      
    Statistics.chiSqTest(mat)

 
    // 检验总结：包括假定值（p-value）、自由度（degrees of freedom） 
   

 
    println(independenceTestResult) 
   

 
    // pairs(feature, label). 
   

 
    val 
      
    obs 
    : 
      
    RDD[LabeledPoint]  
    = 
      
    ...

 
    // 独立性检测用于特征选择 
   

 
    val 
      
    featureTestResults 
    : 
      
    Array[ChiSqTestResult]  
    = 
      
    Statistics.chiSqTest(obs)

 
    featureTestResults.foreach { result  
    = 
    > 
   

 
    println(s 
    "Column $i:\n$result" 
    )

}

03 简单的数据分析实践

为了更清楚的说明简单的数据分析实现，搭建Spark开发环境，并使用gowalla数据集进行简单的数据分析，该数据集较小，可在Spark本地模式下，快速运行实践。

实践步骤如下：

1）环境准备：准备开发环境并加载项目代码；

2）数据准备：数据预处理及one-hot编码；

3）数据分析：使用均值、方差、皮尔逊相关性计算等进行数据分析。

简单数据分析实践的详细代码参考：ch02\GowallaDatasetExploration.scala，本地测试参数和值如表1所示。

本地测试参数	参数值
mode	local[2]
input	2rd_data/ch02/Gowalla_totalCheckins.txt

▲表1 本地测试参数和值

1. 环境准备

Spark程常用IntelliJ IDEA工具进行开发，下载地址：www.jetbrains.com/idea/，一般选择Community版，当前版本：ideaIC-2017.3.4，支持Windows、Mac OS X、Linux，可以根据自己的情况选择适合的操作系统进行安装。

（1）安装scala-intellij插件

启动IDEA程序，进入“Configure”界面，选择“Plugins”，点击安装界面左下角的“Install JetBrains plugin”选项，进入JetBrains插件选择页面，输入“Scala”来查找Scala插件，点击“Install plugin”按钮进行安装。（如果网络不稳定，可以根据页面提示的地址下载，然后选择“Install plugin from disk”本地加载插件），插件安装完毕，重启IDEA。

（2）创建项目开发环境

启动IDEA程序，选择“Create New Project”，进入创建程序界面，选择Scala对应的sbt选项，设置Scala工程名称和本地目录（以book2-master为例），选择SDK、SBT、Scala版本（作者的开发环境：Jdk->1.8.0_162、sbt->1.1.2、scala->2.11.12），点击“Finish”按钮完成工程的创建。

导入Spark开发包，具体步骤为：File->Project Structure->Libraries->+New Project Library（Java），选择spark jars（如：spark-2.3.0-bin-hadoop2.6/jars）和本地libs（如：\book2-master\libs，包括：nak_2.11-1.3、scala-logging-api_2.11-2.1.2、scala-logging-slf4j_2.11-2.1.2）。

（3）拷贝项目代码

拷贝源代码中的2rd_data、libs、output、src覆盖本地开发项目目录，即可完成开发环境搭建。

除此之外，也可以通过Maven方式Import Project。

2. 准备数据

我们提供的数据格式：

用户[user] 签到时间[check-in time] 维度[latitude] 精度[longitude] 位置标识[location id]

数据样例如下：

准备数据的步骤如下。

（1）数据清洗

在数据清洗阶段过滤掉不符合规范的数据，并将数据进行格式转换，保证数据的完整性、唯一性、合法性、一致性，并按照CheckIn类填充数据，具体实现方法如下：

 
    // 定义数据类CheckIn 
   

 
    case 
      
    class 
      
    CheckIn(user 
    : 
      
    String, time 
    : 
      
    String, latitude 
    : 
      
    Double, longitude 
    : 
      
    Double, location 
    : 
      
    String) 
   

 
    // 实例化应用程序入口 
   

 
    val 
      
    conf  
    = 
      
    new 
      
    SparkConf().setAppName( 
    this 
    .getClass.getSimpleName).setMaster(mode)

 
    val 
      
    sc  
    = 
      
    new 
      
    SparkContext(conf)

 
      
    val 
      
    gowalla  
    = 
      
    sc.textFile(input).map( 
    _ 
    .split( 
    "\t" 
    )).mapPartitions{ 
   

 
    case 
      
    iter  
    = 
    >

 
    val 
      
    format  
    = 
      
    DateTimeFormat.forPattern( 
    "yyyy-MM-dd\'T\'HH:mm:ss\'Z\'" 
    ) 
   

 
    iter.map { 
   

 
    // 填充数据类 
   

 
    case 
      
    terms  
    = 
    > CheckIn(terms( 
    0 
    ), terms( 
    1 
    ).substring( 
    0 
    ,  
    10 
    ), terms( 
    2 
    ).toDouble, terms( 
    3 
    ).toDouble,terms( 
    4 
    )) 
   

}

}

（2）数据转换

在数据转化阶段，将数据转换成Vectors的形式，供后面数据分析使用。

 
    // 字段：user, checkins, checkin days, locations 
   

 
    val 
      
    data  
    = 
      
    gowalla.map{

 
       
    case 
      
    check 
    : 
      
    CheckIn  
    = 
    > (check.user, ( 
    1 
    L, Set(check.time), Set(check.location))) 
   

 
    }.reduceByKey { 
   

 
    // 并集 union 
   

 
    case 
      
    (left, right)  
    = 
    >(left. 
    _ 
    1 
      
    + right. 
    _ 
    1 
    ,left. 
    _ 
    2 
    .union(right. 
    _ 
    2 
    ),left. 
    _ 
    3 
    .union(right. 
    _ 
    3 
    )) 
   

 
    }.map { 
   

 
       
    case 
      
    (user, (checkins, days 
    : 
    Set[String], locations 
    : 
    Set[String]))  
    = 
    > 
   

 
    Vectors.dense(checkins.toDouble,days.size.toDouble, 
   

 
    locations.size.toDouble) 
   

}

3. 数据分析

通过简单的数据分析流程，实现均值、方差、非零元素的目录的统计，以及皮尔逊相关性计算，来实现对数据分析的流程和方法的理解。

简单的数据分析代码示例如下：

 
    // 统计分析 
   

 
    val 
      
    summary 
    : 
      
    MultivariateStatisticalSummary  
    = 
      
    Statistics.colStats(data)

 
    // 均值、方差、非零元素的目录 
   

 
    println( 
    "Mean" 
    +summary.mean) 
   

 
    println( 
    "Variance" 
    +summary.variance) 
   

 
    println( 
    "NumNonzeros" 
    +summary.numNonzeros) 
   

 
    // 皮尔逊 
   

 
    val 
      
    correlMatrix 
    : 
      
    Matrix  
    = 
      
    Statistics.corr(data,  
    "pearson" 
    ) 
   

 
    println( 
    "correlMatrix" 
    +correlMatrix.toString) 
   

简单数据分析应用运行结果如下：

 
    均值：[ 
    60.16221566503564 
    , 
    25.30645613117692 
    , 
    37.17676390393301 
    ] 
   

 
    方差 
    : 
    [ 
    18547.42981193066 
    , 
    1198.630729157736 
    , 
    7350.7365871949905 
    ] 
   

 
    皮尔逊相关性矩阵 
    :

 
0 
      
7329442022276709 
      
9324997691135504

 
7329442022276709 
      
0 
      
5920355112372706

 
9324997691135504 
      
5920355112372706 
      
0

本文摘编自《Spark机器学习进阶实战》，经出版方授权发布。

延伸阅读《Spark机器学习进阶实战》

点击上图了解及购买

转载请联系微信：togo-maruko

推荐语：科大讯飞大数据专家撰写，从基础到应用，面面俱到。

你可能感兴趣的:(你真的懂数据分析吗？一文读懂数据分析的流程、基本方法和实践)

python技巧之下划线老虎也淘气 Python编程掌握指南 python django 开发语言
‍♂️个人主页@老虎也淘气个人主页✍作者简介：Python学习者希望大家多多支持我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注python技巧之下划线1、python的moudles文件中__all__作用2、__slots__用于限定类属性，如：3、下面的小技巧可以获取私有变量：4、下划线种类单个下划线（_）单下划线前缀的名称（例如_shahriar）双下划线前缀的名称（例如__s
大模型黑书阅读笔记--第一章 53年7月11天大模型黑书笔记人工智能自然语言处理语言模型
cnn,rnn达到了极限，憋了三十年（这段时间已经有注意力了，并且注意力也加到了cnn，rnn中，但没啥进展）憋来了工业化最先进的transformertransformer的核心概念可以理解为混合词元（token），rnn通过循环函数顺序分析次元，而transformer模型不是顺序分析，而是将每个词元与序列中其他词元关联起来。为突破cnn的极限，注意力的概念出来了：cnn做序列处理时只关注最后
AI学习第二天--监督学习半监督学习无监督学习 iisugar 机器学习支持向量机人工智能
目录1.监督学习（SupervisedLearning）比喻：技术细节：形象例子：2.无监督学习（UnsupervisedLearning）比喻：技术细节：形象例子：3.半监督学习（Semi-SupervisedLearning）比喻：技术细节：形象例子：4.三者的对比与选择表格总结：5.实际案例对比案例：电商平台用户分群6.关键逻辑总结1.监督学习（SupervisedLearning）比喻：老
给我的 IM 系统加上监控两件套：【Prometheus + Grafana】蝎子莱莱爱打怪 prometheus grafana
监控是一个系统必不可少的组成部分，实时，准确的监控，将会大大有助于我们排查问题。而当今微服务系统的话有一个监控组合很火那就是Prometheus+Grafana，嘿你别说这俩兄弟配合的相当完美，Prometheus负责数据采集，Grafana负责可视化展示,各就其位，各司其职一起来完成监控这个活儿。紧接着我们简单对这两工具做个介绍~1、Prometheus与Grafana简介Prometheus作
关于修改 Ollama 及其模型默认路径、迁移已安装的 Ollama 程序和模型以及重启 Ollama 的操作指南星沉大海@T Ollama Ollama 迁移指南
以下是关于修改Ollama及其模型默认路径、迁移已安装的Ollama程序和模型以及重启Ollama的操作指南，以问答格式呈现，并将涉及命令操作的部分使用代码块按执行顺序和步骤形式展示：Q1：如何修改Ollama及其模型的默认路径？A1：Windows系统：创建新目录：在非C盘的磁盘中创建一个新目录，用于存放Ollama的模型文件，例如D:\AIModels。设置环境变量：右键点击“此电脑”或“计算
XFlow 开源项目教程余靖年Veronica
XFlow开源项目教程XFlowReactcomponentforbuildinginteractivediagrams.项目地址:https://gitcode.com/gh_mirrors/xf/XFlow1.项目介绍XFlow是由AntV团队打造的一个基于React的交互式图表构建组件。它旨在简化复杂图形界面的创建过程，让开发者能够更轻松地实现图形编辑和流程图设计功能。XFlow提供了统一的
JavaScript 性能优化实战：数据结构选择对性能的影响 deying0865423 开发语言 javascript
目录数组（Array）特点与适用场景性能短板链表（LinkedList）特点与适用场景性能短板集合（Set）特点与适用场景性能短板映射（Map）特点与适用场景性能短板栈（Stack）与队列（Queue）特点与适用场景性能短板在JavaScript开发中，数据结构的选择如同搭建房屋时选择合适的建筑材料，对程序性能起着决定性作用。合理的数据结构能显著提升代码执行效率，减少资源消耗，反之则可能导致性能瓶
微服务监控prometheus+Grafana chen2017sheng 经验总结微服务 prometheus grafana
目录Prometheus概述核心组件特点使用场景Grafana概述功能特点使用场景Prometheus+Grafana组合部署和配置一、准备工作二、部署Prometheus三、部署Grafana四、创建监控仪表盘五、验证和调优总结微服务监控是确保微服务架构稳定运行的关键环节，其中Prometheus与Grafana的组合是业界广泛采用的监控解决方案。以下是对这一组合的详细介绍：Prometheus
JavaScript 性能优化实战：优化 DOM 操作提升交互响应 deying0865423 javascript 开发语言 ecmascript
目录一、理解DOM操作的性能损耗二、减少DOM操作次数（一）批量操作DOM（二）缓存DOM查询结果三、优化DOM查询（一）使用更高效的查询方法（二）利用事件委托四、减少回流与重绘（一）批量修改样式（二）使用requestAnimationFrame在现代Web应用开发中，JavaScript与DOM（文档对象模型）的交互极为频繁。无论是创建动态界面、响应用户操作，还是更新页面内容，DOM操作都扮演
Java方法详解 NaclarbCSDN java 开发语言
Java方法详解方法基本概念 packagecom.arbedu.method; publicclassDemo01{ //main方法 publicstaticvoidmain(String[]args){ inta; intb; intsum=add(1,2);//实际参数，用来调用传递的参数 System.out.println(sum);
【华为OD-E卷 -123 判断一组不等式是否满足约束并输出最大差 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java javascript c++
【华为OD-E卷-判断一组不等式是否满足约束并输出最大差100分（python、java、c++、js、c）】题目给定一组不等式，判断是否成立并输出不等式的最大差(输出浮点数的整数部分)要求:不等式系数为double类型，是一个二维数组不等式的变量为int类型，是一维数组;不等式的目标值为double类型，是一维数组不等式约束为字符串数组，只能是:“>”,“>=”,“<”,“<=”,“=”，例如，
【华为OD-E卷 -122 字符统计及重排 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-字符统计及重排100分（python、java、c++、js、c）】题目给出一个仅包含字母的字符串，不包含空格，统计字符串中各个字母（区分大小写）出现的次数，并按照字母出现次数从大到小的顺序。输出各个字母及其出现次数。如果次数相同，按照自然顺序进行排序，且小写字母在大写字母之前输入描述输入一行，为一个仅包含字母的字符串输出描述按照字母出现次数从大到小的顺序输出各个字母和字母次数，
Prometheus+Grafana监控平台搭建_grafana专业监控项 2401_89828619 prometheus grafana
Prometheus提供多种类型的Exporter用于采集各种不同服务的运行状态。目前支持的有数据库、硬件、消息中间件、存储系统、HTTP服务器、JMX等。·alertmanager警告管理器，用来进行报警。·其他辅助性工具Prometheus系统架构图：它的服务过程是这样的Prometheusdaemon负责定时去目标上抓取metrics(指标)数据，每个抓取目标需要暴露一个http服务的接口给
【华为OD-E卷-02 最多提取子串数目100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-最多提取子串数目100分（python、java、c++、js、c）】题目给定[a-z]，26个英文字母小写字符串组成的字符串A和B，其中A可能存在重复字母，B不会存在重复字母，现从字符串A中按规则挑选一些字母，可以组成字符串B。挑选规则如下：同一个位置的字母只能挑选一次被挑选字母的相对先后顺序不能被改变求最多可以同时从A中挑选多少组能组成B的字符串。输入描述输入为2行，第1行输
【蓝桥杯】每日练习 Day4 百渡ovO 算法数据结构蓝桥杯 c++
目录前言回文游戏分析代码牛奶交换分析代码最大限度的提高生产力分析代码前言幸运日！！！遇到三个非常简单的题。几乎没费什么脑子就写出来了。本来今天是不打算再写的，因为做完实验本身就已经十点了，而且实验过程并不愉快（一条双绞线裁了九次……不过最终主播在朋友的帮助下还是成功做出来了——皆大欢喜）。还有回寝室的时候遇到一只野生哈基米，好可爱^_^今日事今日毕。事不宜迟我们马上开始吧！回文游戏分析首先看到（最
使用 Docker 部署 Prometheus + Grafana 监控平台 2401_84048398 程序员 docker prometheus grafana
一、Prometheus简介==================================================================================Prometheus（普罗米修斯）是一套开源的监控&报警&时间序列数据库的组合，由SoundCloud公司开发。Prometheus基本原理是通过HTTP协议周期性抓取被监控组件的状态，这样做的好处是任意组件
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
install of jenkins-2.501-1.1.noarch conflicts with file 计算机辅助工程 centos jenkins
在处理RPM包冲突问题时，首先要明确的是，Jenkins2.501-1.1.noarch是一个特定的RPM包版本，通常用于RedHatEnterpriseLinux(RHEL)或CentOS系统。如果你在安装或更新Jenkins时遇到了冲突问题，这通常是因为系统中已存在一个或多个与新安装包冲突的包。解决步骤查找冲突的包：使用rpm命令来查找哪些包与Jenkins2.501-1.1.noarch冲突
C++高频（二） HUZ_小Z c++课程设计笔记经验分享
C++面试高频（二）1.知道动态链接与静态链接吗？两者有什么区别动态链接和静态链接的区别：动态链接：在程序运行时进行链接，加载共享库文件。节省空间，可多个程序共享库文件。灵活性高，可以动态加载不同版本的库文件。维护方便，只需更新库文件本身。静态链接：在编译时进行链接，将库函数复制到可执行文件中。独立的可执行文件，不依赖外部库文件。可执行文件较大，可能会有冗余代码。维护复杂，更新库函数需重新编译和分
【华为OD-E卷 - 高频题目全览（关注、收藏）通过率100%以上题目可达95%（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享纯小白编程入门教程（新手必看）计算机相关操作技巧（新手必看）华为od c++c语言 java python js javascript
注意：如果发现代码有用例覆盖不到的情况，欢迎反馈！会在第一时间修正，更新。解题不易，如对您有帮助，欢迎点赞/收藏E卷题目全览一键跳转详情题目详情跳转01补种未成活胡杨点此跳转详情02最多提取子串数目点此跳转详情03ai面板识别点此跳转详情04流浪地球
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
PyPI 镜像源使用国内镜像，提升下载速度和安装成功率 zhiranyouni 同事技术分享
临时使用：可以在使用pip的时候加参数-ihttps://pypi.tuna.tsinghua.edu.cn/simple如：pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepymysql这样会从清华源的镜像去安装pymysql永久修改，一劳永逸：修改~/.pip/pip.conf(没有就创建一个文件夹及文件）mkdir.pipcd.pipt
软件设计师之编译原理核心知识深度剖析：从词法到语法分析一杯年华@编程空间软考中级软考中级
软件设计师之编译原理核心知识深度剖析：从词法到语法分析在软件开发的知识体系中，编译原理是极为关键的一环，它就像一座桥梁，连接着人类可读的程序代码与计算机能够执行的机器指令。我写这篇博客的目的，是希望和大家一起学习进步，深入剖析编译原理中的词法分析和语法分析等核心知识，让这些复杂的概念变得通俗易懂，助力大家在软件设计领域更上一层楼。一、词法分析相关知识（一）正规表达式与正规集正规表达式是描述词法规则
python的try和except_Python 异常处理(Try...Except) weixin_40001309
版权所有，未经许可，禁止转载try块让你可以检测代码块中的错误。except块让你可以处理错误。finally块让你可以执行最终代码，不管try与except块的结果如何，finally块的代码都将执行。异常处理当错误(或者异常)发生时，Python通常会停止执行，并报错。这些异常可以使用try/except语句处理：示例下面try块会产生异常，因为x没有定义:try:print(x)except
美容院如何通过数据分析降低顾客流失率 shboka920702 信息可视化
美容行业的竞争日益激烈，顾客流失率居高不下已成为许多美容院面临的共同难题。根据《美容行业经营分析报告》的数据，美容行业的平均顾客流失率高达40%，这意味着每10位顾客中就有4位在一年内不再光顾。如何通过数据分析降低顾客流失率，成为美容院经营者亟需解决的问题。顾客流失的原因多种多样，主要包括服务质量、价格、环境、竞争对手等。根据《消费者行为研究》期刊的调查，超过50%的顾客流失是由于服务质量不达标，
VUE动态路由 qq_41164527 vue vue.js 前端 javascript
在Vue.js中，路由是实现单页应用（SPA）的核心功能之一。Vue提供了vue-router库来管理路由。以下是Vue路由的几种常见方式：1.声明式路由导航（使用）是VueRouter提供的组件，用于声明式导航。它会被渲染成一个标签，点击后会跳转到指定的路由。HomeAboutto属性指定目标路由的路径。默认会渲染为标签，点击后不会刷新页面，而是通过VueRouter进行路由切换。2.编程式路由
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
Vue 过滤器深度解析与应用实践二川bro 前端 vue.js 前端 javascript
文章目录1.过滤器概述1.1核心概念1.2过滤器生命周期2.过滤器基础2.1过滤器定义2.2过滤器使用3.过滤器高级用法3.1链式调用3.2参数传递3.3动态过滤器4.过滤器应用场景4.1文本格式化4.2数字处理4.3数据过滤5.性能优化与调试5.1性能优化策略5.2调试技巧6.最佳实践建议6.1命名规范6.2代码组织7.常见问题与解决方案7.1问题列表7.2调试技巧8.扩展阅读1.过滤器概述1.
一文掌握python异常处理（try...except...）程序员neil python python 开发语言
目录1、基础结构2、try块3、except块4、else块5、finally块6、自定义异常7、抛出异常8、常用的内置异常类型1）、Exception：捕捉所有异常。2）、BaseException：所有异常的基类。通常不应该直接捕获这个类的实例，除非你确实打算捕获所有异常。3）、SyntaxError：Python语法错误，比如拼写错误或不正确的语句结构。4）、ImportError：尝试导入
利用Python进行数据可视化（Plotly与Dash的应用）步入烟尘 Python超入门指南全册信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开