uyunopss

数据挖掘与运维分析

这份研究报告，作者是优云软件数据专家陈是维，在耗时1年时间制作的一份最佳实践，今天和大家分享下，关于《数据采矿和运维分析》，共同探讨~

数据挖掘（Data Mining）是从大量数据中提取或“挖掘”知识。

广义数据挖掘：数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据挖掘有趣知识的过程。

数据挖掘技术侧重：1）概率与数理统计 2）数据库技术 3）人工智能技术 4）机器学习。

1. 数据清理：消除噪音或不一致数据

2. 数据集成：多种数据源可以组合在一起

3. 数据选择：从数据库中提取与分析任务相关的数据

4. 数据变换：数据变换或统一成适合挖掘的形式

5. 数据挖掘：基本步骤，使用智能方法提取数据模式

6. 模式评估：根据某种兴趣度度量，识别提供知识的真正有趣的模式

7. 知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

数据挖掘的过程图

优秀的数据挖掘软件工具包

OFFICE EXCEL：最为常见的数据分析挖掘工具。

SPSS 的一套工具：包括SPSS电子表格、SPSS SAS、SPSSClementine。

MATLAB：矩阵实验室，也有各种matlab工具箱。

关联规则简介

购物篮分析：啤酒尿布问题，关联规则挖掘首先找出频繁项集，项的集合，如A 和B，满足最小支持度阈值，并满足最小置信度阈值，产生形如A B 的强关联规则。

Apriori算法是一种有效的关联规则挖掘算法，它逐级探查，进行连接和剪枝，找出极大频繁集。性质：频繁项集的所有非空子集都必须是频繁的。

FP（频繁模式）树算法：频繁模式增长是一种不产生候选的挖掘频繁项集方法。它构造一个高度压缩的数据结构FP-树，压缩原来的事务数据库，聚焦于频繁模式片段增长，避免了高代价的候选产生，获得更好的效率。

提升度：相关性度量、兴趣度：并非所有的强关联规则都是有趣的。对于统计相关的项，可以挖掘相关规则。

Apriori算法例子

找出对应强关联规则

关联规则在运维方面的应用

○告警的关联挖掘

挖掘告警的频繁项集，如告警A 告警B，分析告警的连锁性。有利于告警的预测管理及处理和优化。

○用户行为关联分析

基于日志信息的采集分析用户行为的连锁相关性，有利于进行功能的位置的调整优化，提高用户的体验效果。

○server请求关联分析

分析用户行为的连锁相关性，有利于进行功能的位置的调整优化，提高用户的体验效果。

○崩溃和错误的关联分析

挖掘引起崩溃或错误的原因，即在什么样的情形下经常导致崩溃或错误，有利于对崩溃或错误进行处理，提出改进方案。

分类在运维方面的应用

分类——有监督学习

决策树：CLS（最基本）、ID3（信息增益）、C4.5（信息增益率）、CART（二叉决策树）是决策树归纳的贪心算法。每种算法都使用一种信息论度量，为树中每个非树叶结点选择测试属性。剪枝算法试图通过剪去反映数据中噪音的分枝，提高准确率。

随机森林（分类和回归）：是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

神经网络：是一组连接的输入/输出单元，其中每个连接都与一个权重相关联。多层前馈神经网络由一个输入层，一个或多个隐藏层和一个输出层组成。。

支持向量机（SVM）：是一种用于线性和非线性数据的分类算法。它将原数据变换到较高维空间，使用称作支持向量的基本训练元组，从中发现分离数据的超平面。

关联分类：关联挖掘技术在大型数据库中搜索频繁出现的模式，模式可以产生规则，可以分析这些规则，用于分类。

贝叶斯分类：基于贝叶斯定理，其假定类条件独立。朴素贝叶斯分类和贝叶斯信念网络基于后验概率的贝叶斯定理。贝叶斯信念网络允许在变量子集之间定义类条件独立性。

k最近邻分类法：基于距离的分类算法，基于距离的分类算法，惰性学习方法。

决策树例子

1.运维人员是否对告警进行及时处理的决策树（剪枝后）

2.计算各个不同维度对最后决策的影响（信息增益率）从高到低进行分支。

3.C4.5也是数据挖掘十大算法之首(J48 in weka)

分类——有监督学习

随机森林（分类和回归）：是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。——回归分析中再详细说。

神经网络：是一组连接的输入/输出单元，其中每个连接都与一个权重相关联。多层前馈神经网络由一个输入层，一个或多个隐藏层和一个输出层组成。

关联分类：关联挖掘技术在大型数据库中搜索频繁出现的模式，模式可以产生规则，可以分析这些规则，用于分类。

k最近邻分类法：基于距离的分类算法，基于距离的分类算法，惰性学习方法。

BP神经网络例子

BP网络：后向传播是一种用于分类的神经网络算法，使用梯度下降方法

分类——有监督学习

决策树：CLS（最基本）、ID3（信息增益）、C4.5（信息增益率）、CART（二叉决策树）是决策树归纳的贪心算法。每种算法都使用一种信息论度量，为树中每个非树叶结点选择测试属性。剪枝算法试图通过剪去反映数据中噪音的分枝，提高准确率。

随机森林（分类和回归）：是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

神经网络：是一组连接的输入/输出单元，其中每个连接都与一个权重相关联。多层前馈神经网络由一个输入层，一个或多个隐藏层和一个输出层组成。。

支持向量机（SVM）：是一种用于线性和非线性数据的分类算法。它将原数据变换到较高维空间，使用称作支持向量的基本训练元组，从中发现分离数据的超平面。

关联分类：关联挖掘技术在大型数据库中搜索频繁出现的模式，模式可以产生规则，可以分析这些规则，用于分类。

贝叶斯分类：基于贝叶斯定理，其假定类条件独立。朴素贝叶斯分类和贝叶斯信念网络基于后验概率的贝叶斯定理。贝叶斯信念网络允许在变量子集之间定义类条件独立性。

k最近邻分类法：基于距离的分类算法，基于距离的分类算法，惰性学习方法。

支持向量机例子

通过搜索

maximum marginal hyperplane

(MMH)来处理问题

分类——有监督学习

随机森林（分类和回归）：是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

关联分类：关联挖掘技术在大型数据库中搜索频繁出现的模式，模式可以产生规则，可以分析这些规则，用于分类。

k最近邻分类法：基于距离的分类算法，惰性学习方法。

K最近邻分类法例子

5-最近邻分类

将所有训练元组储存在模式空间中，一直等到经验元组出现才进行分类。

分类在运维方面的应用

由于是有监督，必须已经有一些决策数据后才可以训练分类的模型

聚类分析在运维方面的应用

聚类——无监督学习

样本没有标记，根据距离把样本聚为k类

聚类分析是一个活跃的研究领域。

数据类型：数据矩阵：p个变量n个对象

相异度矩阵：相异度（距离）定义需满足

1) d(i,j)>=0;

2) d(i,i)=0;

3) d(i,j)=d(j,i);

4) d(i,j)<=d(i,k)+d(k,j).

最常见的距离是欧式距离和曼哈顿距离

常用的距离还有：相似矩阵转换的距离

聚类的方法

聚类分析许多聚类算法已经被开发出来，具体可以分为划分方法，层次方法，基于密度的方法，基于网格的方法。

划分方法首先得到初始的k 个划分的集合，这里的参数k是要构建的划分的数目；然后它采用迭代重定位技术，试图通过将对象从一个簇移到另一个来改进划分的质量。有代表性的划分方法包括k-means聚类、EM（期望最大化）算法。

层次方法创建给定数据对象集合的一个层次性的分解。根据层次分解的形成过程，这类方法可以被分为自底向上的，或自顶向下的。有代表性的层次方法包括系统聚类法、模糊聚类方法。

K-means聚类

K-means聚类算法是距离平方和最小聚类法

[1] 假设要聚成K 个类。由人为决定K 个类中心。

[2] 在第i 次叠代中，计算每个样本点到K个类中心的距离，并将它归入最近的类。

[3] 计算新类的类中心为每一类的重心，并重新计算每个样本点到K 个类中心的距离，重新分类。

[4] 直到类中心的变化很小或已到最大迭代为止。

聚类的方法

聚类分析许多聚类算法已经被开发出来，具体可以分为划分方法，层次方法，基于密度的方法，基于网格的方法。

系统聚类法

系统聚类法即谱系聚类法或分层聚类法。

谱系图

聚类在运维方面的应用

离群点检测在运维方面的应用

离群点检测

离群点（outlier）分析也叫异常检测。

离群点是一个数据对象，它显著不同于其他数据对象。

离群点类型

离群点检测的方法

离群点检测在运维方面的应用

统计分析在运维方面的应用

统计分析方法

▲主成分分析:是将多个指标化为少数指标的一种统计方法。（降维）

应用：（1）解释,在心理学与社会学中的应用（2）综合评价,如衡量企业的指标有很多，各种指标对不同企业来说，差异很大，通过主成分分析，用很少的综合指标进行评价。（3）分类:用两个主成分，在图上可以分类。聚在一起的属于同一类，离得很远，说明差别很大。

步骤：1）标准化数据矩阵，2）计算相关系数阵R，3）计算特征根排序，4）确定主成分，5）计算单位特征向量，6）写出主成分。

▲因子分析：主成分分析的推广。

目的：（理论）是研究原始变量的内部关系，简化原变量的协方差结构，分析变量中存在的复杂关系；（应用）是寻找众多变量的公共因子，即探讨多个能直接测量且有相关性的指标是如何受少数几个不能直接测量的相对独立的因子支配的。

基本思想：根据相关性的大小把变量分组，使得同组内的变量间相关性（共性）较高，而不同组的变量相关性较低。

步骤：1）标准化数据矩阵，2）计算相关系数阵R（协方差），3）求R特征根及特征向量，4）计算得到因子载荷A，5）因子旋转（方差极大旋转）、6）计算因子得分

■两者区别：主成分分析所着重的在于如何转换原来变量使之成为一些综合性的新指标。与主成分分析不同的是因子分析重视的是如何解释变量之间的共同变异问题。

▲典型相关分析：研究两组随机变量之间的相关关系

应用：（1）解释相互之间关系：如：y表示体重，x表示身高，年龄。身高，年龄对体重是否有影响？（2）预测与控制在1的基础上，利用x变量预测或控制y变量。如在西方，股票市场情况不太好，则银行降息，促进股市繁荣；若股票升得太厉害，银行就会上调利息。一般地，控制应建立在很好的预测基础上。（3）寻找结构联系：通过线性函数解释内部结构机理。

▲判别分析：当得到一个新样品（或个体）的关于指标X的观测值时，要判断该样品属于哪一个类型，即为判别分析。

1.距离判别：通过定义样品指标X的观测值x(p维）到各总体的距离，以其大小判定样品属于哪个总体。

2.Bayes判别：对给定的样品x，计算两总体的概率密度函数在x处的值。

3.Fisher判别：基本思想是投影，即把K类的m维数据投影（变换）到某个方向，使得变换后的数据，同类别的点“尽可能聚在一起”，不同类的点“尽可能分离”，以达到分类的目的。

回归分析

回归分析（预测）：研究相关性关系的最基本、应用最广泛的方法。就是在掌握大量观察数据基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数式。

1）线性回归分析，方法：最小二乘法。

2）非线性回归分析：抛物线模型、双曲线模型、幂函数模型、指数函数模型、对数函数模型、逻辑曲线模型，多项式模型等。方法：非线性模型线性化，最小二乘法。

3）二项逻辑回归分析：因变量Y=0,1，可以用于分类决策。

4）基于随机森林模型的回归：真实情况自变量既可能包含因子（factor），也可能包含数值的连续性变量，又要考虑自变量对因变量的重要性程度，还可以对将来的情况进行预测。

随机森林回归在运维方面的例子

新增设备数影响因素及预测：时间、周几、新版本发布、广告宣传、前一天的活跃设备数、当天的活跃设备数等等。

可以通过两个指标判断自变量对因变量的重要程度：

1）%IncMSE：均方误差递减意义下的重要性，若此指标值越大则说明此自变量对因变量的影响程度越大，若为0则说明此自变量对因变量没有任何关系，若为负值则说明此自变量对因变量的变化可能有起到误导的作用。

2）IncNodePurity：精确度递减意义下的重要性。计算方法是残差的平方和（非负），若此指标值越大则说明此自变量对因变量的影响程度越大，若为0则说明此自变量对因变量没有任何关系。

新增设备数与其他因素影响的数据集范例

new_date week new_ver advertising yestoday_act today_act new_device

636147 星期日 0 0 884 459 79

636148 星期一 0 0 459 701 45

636149 星期二 0 2.8 701 185 13

636150 星期三 0 3.6 185 112 12

636151 星期四 6 3.2 112 827 87

636152 星期五 8 2.8 827 892 32

636153 星期六 9 2 892 716 89

636154 星期日 8 0.8 716 204 98

636155 星期一 7 0 204 157 39

636156 星期二 5 0 157 484 72

636157 星期三 3 0 484 595 42

636158 星期四 1 0 595 592 70

636159 星期五 0 0 592 93 42

636160 星期六 2 0 93 451 89

636161 星期日 5 0 451 582 54

636162 星期一 4 0 582 140 97

636163 星期二 3 0 140 741 61

636164 星期三 1 0 741 809 30

636165 星期四 0 0 809 440 91

636166 星期五 0 0 440 108 65

636167 星期六 0 0 108 304 75

统计分析在运维方面的应用

数据挖掘其他方法在运维方面的应用

数据挖掘其他方法

▲遗传算法

：是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。

一、编码，不能直接处理问题空间的参数，必须把它们转换成遗传空间的由基因按一定结构组成的染色体或个体。这一转换操作就叫做编码，也可以称作(问题的)表示。（C）

二、适应度函数：进化论中的适应度，是表示某一个体对环境的适应能力，也表示该个体繁殖后代的能力。遗传算法的适应度函数也叫评价函数，是用来判断群体中的个体的优劣程度的指标，它是根据所求问题的目标函数来进行评估的。（E）

条件：1.单值、连续、非负、最大化；2.合理、一致性；3.计算量小；4.通用性强。

三、基本运算过程如下：简单遗传算法：SGA=（C,E,P(0),N,F,G,Y,T）

1.初始化:设置进化代数计数器t=0，设置最大进化代数T，随机生成N个个体作为初始群体P(0)。（P(0),N）

2.个体评价：计算群体P(t)中各个个体的适应度。

3.选择运算（F）:将选择算子作用于群体。目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的

4.交叉运算（G）；将交叉算子作用于群体。所谓交叉是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。遗传算法中起核心作用的就是交叉算子。

4.变异运算（Y）：将变异算子作用于群体。即是对群体中的个体串的某些基因座上的基因值作变动。

■群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t+1)。

5.终止条件判断（T）:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出，终止计算。

▲粗糙集理论：已成为人工智能领域中一个较新的学术热点, 在机器学习,知识获取,决策分析,过程控制等许多领域得到了广泛的应用.

▲模糊集方法：就是指具有某个模糊概念所描述的属性的对象的全体。由于概念本身不是清晰的、界限分明的，因而对象对集合的隶属关系也不是明确的、非此即彼的。设A是集合X到[0，1]的一个映射，A：X→[0，1]，x→A(x) 则称A是X上的模糊集，A(x)称为模糊集A的隶属函数，或称A(x)为x对模糊集A的隶属度。

▲流数据挖掘：一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。

▲图挖掘：用于挖掘大型图数据集的频繁图模式，进行特征化、区分、分类和聚类分析。应用于化学信息学，生物信息学，计算机视觉，视频索引，文本检索，Web分析等。

▲复杂数据类型的挖掘，包括对象数据，空间数据，多媒体数据，时序数据，文本数据和Web 数据。空间数据挖掘是指从大数据量的地理空间数据库中发现有意义的模式；多媒体数据挖掘是指从多媒体数据库中发现有意义的模式；文本数据是指从文本数据中抽取有价值的信息和知识的计算机处理技术，文本数据挖掘是从文本中进行数据挖掘；Web 挖掘是指从大量的Web文档集合中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式，它所处理的对象包括静态网页、Web数据库、Web结构、用户使用记录等信息。

在运维方面的应用

作者：陈是维，现任职优云软件

你可能感兴趣的:(APM应用性能监控,APM,数据分析,it运维,性能监控)

element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
2019-05-13 王健_100a
【撒下18:2】大卫打发军兵出战，分为三队：一队在约押手下，一队在洗鲁雅的儿子约押兄弟亚比筛手下，一队在迦特人以太手下。大卫对军兵说：“我必与你们一同出战。”解释：大卫检阅部队，将它分成三队，每队由一位元帅统领；约押与兄弟亚比筛，并迦特人以太共同指挥。大卫想与他们一同出战！应用：作为领袖与军兵一起出战是很重要。领袖在事奉中与信徒一起，领袖在任何的环境里与信徒一起走过。我们要同心协力为主而战。祷告：
摩托车加装车载手机充电usb方案/雅马哈USB充电方案开发诚芯微科技社交电子
长途骑行需要给手机与行车记录仪等设备供电，那么，加装USB充电器就相继在两轮电动车上应用起来了。摩托车加装usb充电方案主要应用于汽车、电动自行车、摩托车、房车、渡轮、游艇等交通工具。提供电动车USB充电器方案/摩托车加装usb充电方案/渡轮加装usb充电方案/游艇加装usb充电方案开发。摩托车加装车载手机充电usb方案、汽车游艇改装四孔面板装双USB车充点烟器5V/4A电动车USB充电器输入4.
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
广州会刊小程序开发公司哪家好｜开发多少钱费用｜专业外包服务红匣子实力推荐
在选择广州会刊小程序开发公司时，有几个关键因素需要考虑。首先，您应该确定自己的需求和目标，以便找到最合适的开发公司。其次，您需要考虑公司的经验和专业知识。最后，您还应该考虑公司的信誉和口碑。开发-联系电话：13642679953（微信同号）首先，您应该明确自己的需求和目标。会刊小程序是一种用于展示会议信息和日程安排的应用程序。在选择开发公司之前，您应该明确自己的需求，包括功能要求、设计风格和用户体
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数