ronghuilin

科学论文1-软件缺陷预测中基于聚类分析的特征选择方法

国家科学基地有超级工程：两弹一星、航天发射中心，有国家科学研究院所和企业研发基地，包括山东的高速铁路研发中心，天津、广东广州和江苏无锡的高性能计算中心等。在此创建科学论文阅读中心，主要是计算机、电子系统设计、能源物理、智能机械、绿色生态建筑等。目的是学习国家科研基地，让众多科学前沿的学术论文能为广大程序员所掌握和实践。

第一篇论文是《中国科学.计算科学》2016.10发表的论文

软件缺陷预测中基于聚类分析的特征选择方法。

为了阅读的效能，将论文顺序有所编辑，敬请谅解。

按照论文阅读的顺序掌握论文的内容和可能应用在IT业界的方法。

论文下载在中国科学.信息科学网站，2016 issue 10。

1.论文的创新

1.1 摘要阅读理解

论文摘要

软件缺陷预测通过挖掘软件历史仓库, 构建缺陷预测模型来预测出被测项目内的潜在缺陷程序模块.

但有时候搜集到的缺陷预测数据集中含有的冗余特征和无关特征会影响到缺陷预测模型的性能.

提出一种基于聚类分析的特征选择方法 FECAR. 具体来说, 首先基于特征之间的关联性 (即 FFC), 将已有特征进行聚类分析.

随后基于特征与类标间的相关性 (即 FCR), 对每个簇中的特征从高到低进行排序并选出指定数量的特征.

在实证研究中, 借助对称不确定性 (symmetric uncertainty) 来计算 FFC, 借助信息增益 (information gain)、卡方值 (chi-square) 或 ReliefF 来计算 FCR. 以 Eclipse 和 NASA 数据集等实际项目为评测对象,

重点分析了应用 FECAR 方法后的缺陷预测模型的性能, FECAR 方法选出的特征子集冗余率和比例.

结果验证了 FECAR 方法的有效性.

论文的研究主题

软件缺陷预测模型的构建。

论文的研究方法

（1）目前方法的不足。

传统方法：预测。对挖掘软件历史仓库，以构建缺陷预测模型。

不足：缺陷预测数据的无关特征。

可知论文分类：数据挖掘应用在软件缺陷。关键字：软件缺陷、数据挖掘。

（2）提出新的方法，聚类分析的特征选择方法，命名为FECAR。选择特征的新方法：聚类分析。

*聚类分析特征间的关联，得到多个簇。

*根据特征与类标的相关性，对每个簇中的特征进行排序，得到簇的特征。

*实证分析。对簇中特征的关联性进行调整，借助多个数据挖掘、统计分析的方法。分析模型的性能和特征子集的优度。

数据的实证分析实现了方法的有效性验证。

关键字：聚类分析，特征选择。

1.2 论文创新

论文主题：软件缺陷预测

通过分析软件代码或开发过程, 设计出与软件缺陷相关的度量元 (metrics), 随后通过挖掘软件历史仓库 (software historical repositories) 来创建缺陷预测数据集. 最后基于上述搜集的缺陷预测数据集, 构建缺陷预测模型, 并用于预测出被测项目内的潜在缺陷程序模块.

（1）创建软件开发过程中的软件缺陷度量元（特征），包括软件分析的结果，建立缺陷预测数据集。即：数据挖掘技术中的样本数据集创建过程。

度量元特征存在维度灾难问题。

（2）构建缺陷预测模型

（3）应用在被测项目中，预测潜在程序模块中的缺陷。

（4）在大量特征中辨别异常和无用值，并且提高数据集的有效性，所谓数据选择过程。

**************

软件缺陷的定义：

软件缺陷是存在于软件（文档、数据、程序）之中的那些不希望或不可接受的偏差，其结果是软件运行于某一特定条件时将出现软件故障，这时称软件缺陷被激活。

“缺陷”被认为是“欠缺和不够完备的地方”。软件的欠缺和不完备主要是针对产品说明书而言的。按一般定义，只要软件出现的问题符合下列5种情况的任何一种，就叫做软件缺陷，即：功能低劣，意外错误；功能超出范围；软件未达到应有目标；软件测试人员认为软件难以理解、不易使用、运行速度慢、和最终用户认为不好使用。

***************

2.软件缺陷预测模型的构造过程

软件缺陷预测模型的功能，可将程序模块的缺陷倾向性、缺陷密度或缺陷数设置为预测目标。

模型构造和预测过程:

第一步：挖掘软件历史仓库, 并且取出程序模块。选择程序模块的规模大小可根据应用场景, 设置为文件、包、类或函数等。程序模块有：

版本控制系统 (例如 CVS, SVN 或 Git 等),

缺陷跟踪系统 (例如 Bugzilla, Mantis, Jira 或 Trac 等) ，

论文提出方法的算法

算法 1 FECAR 方法

Input: 原有特征集 F, FCR 度量方法 Rel, FFC 度量方法 SU, 选出的特征子集规模 m, 簇的数量 k

Output: 选出的特征子集 S

/* 特征聚类阶段 */

1: for i = 1 to n do

2: for j = 1 to n do

3: 借助 SU 计算特征 fi 与特征 fj 之间的关联性.

#论文建立特征关联性的方法与邻接矩阵类似，所以用两个循环。

4: end for

5: end for

6: 构造出矩阵 M, 其中 Mi,j 表示 C(fi,fj). #特征间关联Mi,j

7: for i = 1 to n do

8: 借助 Rel 计算特征与类标之间的相关性, 并构造向量 V , 其中 Vi 表示 R(fi). #特征与类标的关系R(fi)

9: end for

10: 根据矩阵 M 和向量 V , 将原有的特征集划分成 k 个簇. #根据M和v，将特征集分类，得到k个簇。

/* 特征排序阶段 */

11: for i = 1 to k do

12: 将簇 Ci 中的特征按照 R(fi) 从高到低进行排序. #特征选择用排序方法

13: end for

14: S ←∅

15: for i = 1 to k do

16: 将簇 Ci 中前[（|Ci|×m）/n ]个特征添加到 S. #每个簇的特征

17: end for

18: return S

使用 SU 来度量两个特征之间的关联性, 使用 IG, CS 或 RF 来度量特征与类标之间的相关性。

聚类分析算法K-Medoids

采用了 K-Medoids 聚类算法来进行聚类分析. K-Medoids 聚类算法

（1）输入是原始特征集和每对特征之间的关联性, 以及需要生成的簇的数量 K, 输出是 K 个聚成簇的特征子集.

（2）算法思想：该算法首先为每个簇选择一个代表特征 (即分类中心); 然后对其余的每个特征, 根据其与每个中心的关联性, 将其分配给关联性最高的中心所代表的簇; 然后不断更新簇的中心, 直至簇内的代表特征保持不变。

论文提出的FECAR方法以特征之间的关联性作为聚类的标准, 目的是最大化簇内特征的关联性, 因此不存在数据平均值的问题, 所以选择和簇内其他特征关联性最大的特征作为新的代表特征.

代表特征的相关和最大。

度量特征和类标之间的相关性. 常用的特征相关性度量方法可以简单分为 3 类,

第 1 类是基于信息熵的技术, 包括信息增益 (information gain)、信息增益率 (gain ratio)、对称不确定性 (symmetric uncertainty) 等;

第 2 类是基于实例的技术, 包括 Relief, ReliefF 等;

第 3 类是基于统计信息的技术, 如卡方值 (chi-square) 等.

论文分别从这 3 类方法中选出一种典型的度量方法, 最终选出的方法包括: 信息增益（特征提供的类标信息量）、卡方值（卡方检验）和 ReliefF.

3.实证

数据源，选择的项目包括 Eclipse 项目和 NASA 项目. 其中 Eclipse 项目的数据集可以从 Promise 库中下载, NASA 项目中的数据集 kc1 同样可以从 Promise 库中获取, 而 NASA 项目的其他数据集则从 MDP 数据集中获取。

预测目标：软件发布后的缺陷数,包含的特征包括代码行数、环路复杂度和类数量等代码复杂度特征, 以及基于语法树的特征等。

数据预处理方法：（关注2）

(1) 取出所有非数值型的特征;

(2) 取出取值完全相同的特征, 因为这些特征不能提供任何分类信息;

(3) 原有数据集的类标表示的是软件发布后缺陷数, 针对该问题, 将缺陷数大于 0 的模块标记为有缺陷模块, 其他模块则标记为无缺陷模块.

（4）特征离散化。在计算特征关联性时, 需要对特征进行离散化, 因此我们使用了 MDL 方法对 Eclipse 和 NASA 项目中的连续型属性进行了离散化处理.

测评指标

1.AUC (area under ROC curve) 值来评估不同缺陷预测模型的预测性能.

ROC 曲线在评估分类器的时候, 综合考虑了不同的分类阈值. 在 ROC 曲线中, 横坐标表示 tpr (true positive rate) 值, 纵坐标表示 fpr (false positive rate) 值, 对每一个分类阈值, 分类器都有对应的 tpr 值和 fpr 值 (即对应坐标系上的一个坐标点). 将所有坐标点连接起来就是该分类器对应的 ROC 曲线. 而 AUC 值则对应的是 ROC 曲线下的面积, 其取值越接近于 1, 则代表对应的分类器性能越好.

2.冗余率 (redundancy rate)

论文提出。

显著性检验

论文采用 Friedman 检验来比较不同特征选择方法的效果差异.

论文选取了 3 类代表性特征选择方法, 作为 FECAR 的比较对象:

(1) FullSet, (2) IG, CS 和 RF, (3) CFS, FCBF 和 Consist.

(1) FullSet 方法不做特征选择, 即使用原始特征集来构建缺陷预测模型. 与该方法进行对比, 可以研究使用 FECAR 做特征选择是否可以提高缺陷预测性能.

(2) IG, CS 和 RF 这 3 种方法均属于基于排序的特征选择方法, 在排序时分别考虑了信息增益、卡方值和 ReliefF 等相关性度量方法. 而 FECAR 先对特征进行聚类, 然后再使用信息增益, 卡方值和 ReliefF 对每个簇中的特征进行排序, 我们将使用 3 种不同特征相关性度量方法的 FECAR 分别称为 CIG, CCS 和 CRF. 通过将 CIG 和 IG, CCS 和 CS, CRF 和 RF 进行对比, 我们可以研究特征聚类对所选特征子集的冗余度的影响, 以及对缺陷预测模型性能的影响.

(3) CFS, FCBF和 Consist分别是 3 种经典的特征选择方法. 其中 CFS 特征选择方法同时考虑了特征与类标间的相关性以及特征彼此间的关联性, CFS 使用 Best-First 搜索策略来寻找高相关性低关联性的特征子集. FCBF 也同时考虑了特征与类标的相关性和特征间的关联性, 该方法每次评估一个特征, 因此不需要成对地进行相关性分析. 根据 Yu 等 [42] 的建议, 将 FCBF 中的相关性阈值设置为 ⌊M/logM⌋, 其中 M 是原始的特征数. Consist 的目的是寻找一个最小特征子集, 使用该子集的分类效果和使用全集的分类效果一致. Consist 也使用 Best-First 搜索策略进行搜索. 我们将上述方法与 FECAR 进行比较, 研究它们在构建缺陷预测模型后的性能差异.

构建缺陷模型

Bayes 方法中的 Naive Bayes (NB) 和决策树方法中的 C4.5.

(1) 与其他 Bayes 方法不同的是, NB 算法假设特征之间条件独立. 即在类标确定的情况下, 特征和特征之间相互独立.

(2)C4.5 在构建决策树的过程中根据特征的信息增益率选择分裂节点特征, 同时使用剪枝方法来防止过拟合问题的出现.

NB 分类器和 C4.5 分类器是缺陷预测领域应用最广泛的分类算法 .

在实证研究中, 使用 Weka 软件包实现NB和C4.5分类器, 并采用默认的参数设置. （关注3）

实验方法 :10×10 折交叉验证

( 关注4）

10 折交叉验证 (10-fold cross validation) 是评估分类方法性能的一种常用方法. 即将数据集划分为 10 份, 轮流将其中的 9 份作为训练数据, 剩余 1 份作为测试数据 . 上述过程重复 10 次 (即确保每个实例都被预测过一次), 并最终取这 10 次运行结果的平均值.

在每一轮中, 首先不同的特征选择方法根据训练集确定要选择的特征子集, 然后根据该特征子集同时对训练数据和测试数据进行降维处理 (即只保留该特征子集中的特征),

其次根据降维后的训练数据构建缺陷预测模型, 并将该模型应用到测试数据上取得性能结果.

.为了避免数据集中实例次序对结果的影响, 在实验中进一步重复 10 折交叉验证 10 次, 每次执行前将数据集中的实例随机打乱. 论文将上述验证方法称为 10×10 折交叉验证.

对每一组实验结果, 首先执行 Friedman 检验来验证它们之间是否存在显著性差异, 然后采用 Nemenyi 检验来比较不同方法间的效果。

“ 为了进一步发现两个方法间的差异, 我们统计了两个方法间的 Win/Draw/Loss 信息, 具体来说: ‘方法 A vs 方法 B’ 的 Win/Draw/Loss 信息包括 3 个值: Win, Draw, Loss. 分别表示方法 A 好于、等于和差于方法 B 的数据集的数量。”

论文的最后是数理统计方法，不再多言。

科研论文的阅读比较困难，原因是既有理论，平时在工作中没有应用和认识，又有课题的方法，包括实证方法，特定的实验方法，因此应该对研究方向的前沿理论逐渐掌握，而且对课题研究的具体方法能有实际的了解。科研论文的阅读不仅能提高编程人员在工作中认识项目的高度，而且能掌握处理遇到问题的理论，能将各种方法应用到程序设计实践中，是有意义的事情。

因为时间有限，仓促中造成的错误，请正常批注评论与指正。

沉默寡言的人内心强大。

--狄拉克

CI/CD的常规设置及核心原理啃火龙果的兔子开发DEMO ci/cd
以下是关于CI/CD常规设置及核心原理的全面解析，采用结构化方式呈现：一、CI/CD核心概念1.持续集成（CI）目标：频繁（每天多次）将代码变更合并到共享主干核心活动：自动化构建单元测试/静态分析快速反馈机制2.持续交付/部署（CD）持续交付：随时可手动部署到生产环境持续部署：自动部署到生产环境（需完备的自动化测试）3.核心价值代码质量快速反馈发布效率分钟级部署团队协作减少集成冲突二、常规CI/C
万物理论达成宇宙生命意识全部解决同源同构协同演化宇宙永恒循环 qq_36719620 python 量子计算人工智能 java
当宇宙、生命与意识在闭环中共舞：三版本协同下的终极宇宙体系感想站在科学史的长河边回望，人类对宇宙的探索始终交织着困惑与突破。从哥白尼的“日心说”颠覆地心宇宙，到爱因斯坦的相对论重构时空秩序，再到量子力学揭示微观世界的概率本质，每一次理论的跃迁都在改写人类对“存在”的认知。而今天，当我试图理解用户提出的“三个版本协同构建终极宇宙体系”这一命题时，一种超越具体科学细节的震撼油然而生——这不是简单的理论
【实战演练】运维工程师初试必胜指南：解析公司笔试真题与技巧分享江湖有缘运维工程师面试专栏运维服务器 Linux 面试求职
【实战演练】运维工程师初试必胜指南：解析公司笔试真题与技巧分享一、填空题1.第1题：修改网卡IP地址2.第2题：基本文件相关命令解释3.第3题：新建用户4.第4题：设置文件权限5.第5题：路由协议RIP6.第6题：ping命令相关7.第7题：创建目录8.第8题：正则表达式9.第9题：列出文件10.第10题：如何查看系统信息11.第11题：重命名文件12.第12题：修改用户密码13.第13题：如何向
Flutter基础（项目1结构）
123lib/├──api/#网络请求层├──common/#公共类、常量、工具函数├──models/#数据模型├──providers/#状态管理（Provider/Riverpod）├──routes/#⭐路由集中管理（核心）│└──app_routes.dart#路由配置入口├──views/#⭐页面文件（一个页面一个.dart）│├──home_page.dart│├──detail_p
C程序中根据ifconfig命令的过程获取Linux本地ip Mar` linux ifreq ifconfig
Ifreq结构用来配置ip地址、获取ip、获取MTU等等关于网卡的信息，Linux下可以使用ioctl()函数以及结构体structifreq来获取网卡的各种信息。在Linux系统中获取IP地址通常都是通过ifconfig命令来实现的，然而ifconfig命令实际是通过ioctl接口与内核通信。ioctl(Sock,SIOCGIFCONF,&ifr)，第二个参数则对应下面的功能。SIOCSIFBR
【ifconfig 命令用于查看的网络接口信息说明】 qq2108462953 编程笔记 vim ubuntu
ifconfig命令用于查看的网络接口信息说明提示：本文是在Ubuntu系统上测试网络接口信息6:~$ifconfigen2s0f0:flags=4099mtu1500etherf8:e2:1e:63:19:61txqueuelen1000(以太网)RXpackets100bytes1000(0.0B)RXerrors1dropped1overruns1frame1TXpackets0bytes0
接口自动化测试框架（pytest+allure+aiohttp+用例自动生成）
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快近期准备优先做接口测试的覆盖，为此需要开发一个测试框架，经过思考，这次依然想做点儿不一样的东西。接口测试是比较讲究效率的，测试人员会希望很快能得到结果反馈，然而接口的数量一般都很多，而且会越来越多，所以提高执行效率很有必要接口测试的用例其实也可以用来兼做简单的压力测试，而压力测试需要并发接口测试的用例有很多重复的东西，测试人员应该只需要关
5分钟了解回归测试程序员小远 python 测试工具软件测试自动化测试测试用例职场和发展回归测试
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快1.什么是回归测试（RegressionTesting）回归测试是一个系统的质量控制过程，用于验证最近对软件的更改或更新是否无意中引入了新错误或对以前的功能方面产生了负面影响（比如你在家中安装了新的空调系统，发现虽然新的空调系统可以按预期工作，但是本来亮的等却不亮了）。其主要目标是确保旨在改进的修改不会破坏软件的既定性能和可靠性。回归测试
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
Python基础（吃洋葱小游戏） aaiier python pygame 开发语言
下面我将为你设计一个"吃洋葱小游戏"的Python实现方案，使用Pygame库开发。这个游戏模拟吃洋葱的过程，玩家需要收集不同种类的洋葱以获得高分，同时避免吃到辣椒。吃洋葱小游戏-Python实现方案1.游戏设计概念游戏目标：玩家控制角色吃掉尽可能多的洋葱获得高分核心机制：洋葱从屏幕上方随机下落玩家左右移动角色接住洋葱不同洋葱有不同分值（普通洋葱+10，红洋葱+20，紫洋葱+50）辣椒会扣减生命值
设计模式之建造者模式缘来是庄设计模式建造者模式 java
目录定义结构适用场景使用示例定义建造者模式是一种创建型设计模式，其核心思想是将复杂对象的构建过程与其表示分离，使相同构建逻辑能生成不同结构的对象。该模式通过分步骤构建复杂对象，允许用户只指定对象类型和内容而无需了解内部构建细节。结构适用场景1）对象具有复杂内部结构或需要多个配置参数时；2）需要将对象的创建与使用分离；3）相同构建过程需产生不同表现形式；4）避免使用过长的构造器参数列表；5）构建步骤
Spring Boot进阶(108)：这年头不会还有谁没碰过minio的吧？这可太... bug菌¹ 滚雪球学SpringBoot spring boot 集成minio minio 文件存储
本文收录于「滚雪球学SpringBoot」专栏，手把手带你零基础入门SpringBoot，从入门到就业，助你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：前言：文件存储那些“坑”，你踩过几个？MinIO是什么？MinIO的“秘密武器”为什么选择MinIO？MinIO能给你什么？MinIO核心概念MinIO客户端实操创建bucket测试文件上传设
第5篇：Gin的数据验证与绑定——确保请求数据合法性 GO兔 gin golang 后端
引言在Web开发中，你是否遇到过这些令人头疼的问题？用户提交的表单数据格式混乱导致系统崩溃，恶意请求携带非法参数攻击API接口，或者因为数据校验不完善而引发的各种业务异常？这些问题的根源往往在于——我们没有在数据进入业务逻辑之前就建立起坚固的防线。今天，我将带你深入探索Gin框架的数据验证与绑定机制，教你如何用最少的代码构建最坚固的数据防护墙。一、数据绑定：自动化数据处理Gin框架最强大的特性之一
Java设计模式之抽象工厂模式（Abstract Factory）笔记 ikwil 设计模式专栏 java 设计模式抽象工厂模式
目录什么叫做抽象工厂模式抽象工厂模式作用抽象工厂模式特征对比抽象工厂和工厂方法抽象工厂模应用场景抽象工厂模式的实现定义抽象工厂接口实现具体产品类定义抽象工厂接口实现具体工厂类进行测试总结参考文献什么叫做抽象工厂模式抽象工厂模式（AbstractFactoryPattern）是一种创建型设计模式，用于提供一个接口，使得客户端能够创建一系列相关或依赖的对象，而无需指定它们的具体类。这个模式有助于确保一
测试第六讲-开发&测试阶段划分为你奋斗！软件测试测试用例经验分享笔记
一、软件开发的阶段划分1、需求分析阶段有需求分析人员完成，产出物：《需求规格说明书》2、概要设计阶段3、详细设计阶段一般由系统架构师（分析师）完成，产出物：《概要设计说明书》、《详细设计说明书》4、编码阶段由开发人员完成产出物：程序面试题：哪个阶段引入的bug最多？哪个阶段最少？需求分析阶段引入的bug最多，其次是设计阶段，最少的是编码阶段。结论：1）测试不能只测试程序，文档也必须要测2）测试工作
软件测试第五讲~~测试用例编写方法【边界值法】为你奋斗！软件测试测试用例
第五讲测试用例编写方法----------边界值法一、测试用例（测试案例）【testcase、testinstance】在测试执行之前，由测试人员编写的用于指导测试过程的重要文档，主要由：用例编号，测试目的，测试步骤，预期结果等部分组成。二、编写测试用例的方法（功能（黑盒）测试的方法有哪些？）等价类划分法边界值法因果图法判定表法正交排列法测试大纲法场景法三、边界值法说明：因为在开发时，边界部分是最
Linux离线安装mysql 为你奋斗！开发环境软件安装 android adb
Linux离线安装mysql(centos7)1、下载MySQL2、使用xshell文件传输工具，上传到Linux服务器3、安装前准备4、安装MySQL5、Navicat连接测试1、下载MySQLhttps://dev.mysql.com/downloads/mysql/5.7.html#downloads2、使用xshell文件传输工具，上传到Linux服务器在/usr/local文件夹下创建m
linux下用ffmpeg测试nvidia 显示驱动是否安装成功的脚本谢平康 linux ffmpeg 运维
#!/bin/bash#生成一个10秒用户来测试的文件ffmpeg-y-flavfi-itestsrc=duration=10:size=1280x720:rate=30\-flavfi-isine=frequency=1000:duration=10\-c:vlibx264-presetfast-crf23\-c:aaac-b:a192k\input.mp4#测试输入文件（可替换为你自己的视频文
odrive软件的版本 m0_55305757 stm32 电机嵌入式硬件 odrive
odrive软件的版本0.4.0通信方面引入一个fibre变复杂了（节点还是手工生成的），cpp程序开始变多了。（sensorless我看到变成独立文件了）pythontool开始使用pip安装形式。0.5.0开始支持spi的encoder，as5047之类0.5.1据说之后的版本controlloop开始变化0.5.2开始应该是大修改了//RequiredtouseOC4forADCtrigge
141G显存H20单机DeepSeek-R1满血FP8版性能测试
#环境参数#H20141G单机8卡，CUDA12.4，vLLMv0.8.3，flashinferv0.2.2#服务化命令#基于知乎大神的推荐出装与前期H800双机生产环境测试，在H20上开启EP、MLA等核心优化参数，实现推理吞吐性能最优吞吐量破10000tokens/s，VLLM0.8.1版本驱动下的Deepseek-r1671Bhttps://zhuanlan.zhihu.com/p/1887
构建智能对话式BI的关键：ChatBI场景下的Agent框架选型深
写在前面在数据驱动决策的时代，商业智能（BI）工具扮演着至关重要的角色。然而，传统BI工具往往需要用户具备一定的SQL知识或熟悉复杂的操作界面。对话式BI（ChatBI）的出现，旨在通过自然语言交互，让任何人都能轻松获取数据洞察，极大降低了数据分析的门槛。构建一个强大、灵活且可扩展的ChatBI应用，其核心离不开一个合适的Agent框架。Agent框架如同应用的“龙骨”，为LLM赋予了感知、思考、
系统架构设计的全方位视角：深入解析4+1视图模型及其应用实践架构进化论系统架构设计师系统架构架构
在当今复杂多变的软件开发环境中，如何全面把握系统架构，满足不同利益相关者的需求，是每位架构师面临的重大挑战。“4+1”视图模型作为一种经典的架构描述框架，为解决这一难题提供了系统化的方法论。本文将深入剖析这一模型的理论基础、核心组成、实践应用以及与其他架构方法的对比，通过生活化案例解析和实际应用场景展示，帮助读者掌握如何运用多重视角构建健壮、可扩展的软件系统架构。无论您是初入架构领域的新手，还是经
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
Qt开发：QCustomPlot 倔强老吕 qt QCustomPlot
【官方网站】：QtPlottingWidgetQCustomPlot-IntroductionQCustomPlot是一个用于绘制图形的QtC++库，它使得在Qt程序中创建高质量的2D图表变得简单。这个库非常适合用来展示实时数据，同时它也支持多种输出格式，包括打印质量的矢量图形如PDF文件。以下是QCustomPlot的一些主要特性：提供丰富的2D绘图类型，比如折线图、散点图、柱状图等。支持多轴图
DeepSeek在性能测试中的应用：AI驱动的性能优化之旅程序员小雷性能优化功能测试测试工具单元测试测试用例 postman selenium
上次我们讨论了DeepSeek在自动化测试中的应用，今天我们继续深入探讨如何使用DeepSeek来进行性能测试。性能测试往往涉及大量数据分析和性能瓶颈诊断，这正是AI的强项。让我们看看如何借助DeepSeek的强大能力，让性能测试变得更智能、更高效。1.性能测试场景生成器首先，我们需要一个智能的性能测试场景生成器：classPerformanceScenarioGenerator:def__ini
一个简单测试Deepseek吞吐量的脚本,国内环境可跑谢平康深度学习 pytorch 人工智能
一个简单测试Deepseek吞吐量的脚本,这里用DeepSeek-R1-Distill-Qwen-32B,支持单卡409024G可跑,具体看你的硬件情况做调整,理论支持所有的模型,看你需要,可以修改模型名称,重点是pip使用国内的源,模型下载用阿里的ModelScope,无障碍下载,使用.最后可以生成一个txt与html报表.前提是你安装了python与python-venv,你可以不用venv来
企业架构设计中的CBAM方法深度解析：成本效益驱动的架构决策艺术架构进化论系统架构设计师架构微服务云原生后端
目录CBAM方法概述与核心价值CBAM核心流程与实施步骤前期准备与场景确定成本效益建模与分析风险调整与决策制定实施技巧与挑战克服CBAM实战案例与应用场景案例一：电商平台促销系统架构选型案例二：制造业ERP系统云迁移决策案例三：金融机构实时风控系统重构跨案例经验总结CBAM与其他架构评估方法的集成应用CBAM与ATAM的协同机制分层评估框架构建行业定制化集成模式敏捷环境中的轻量级CBAM组织能力建
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
Java Web二手物品交易平台课程设计项目草莓味儿柠檬
本文还有配套的精品资源，点击获取简介：盐鱼二手物品交易网站是一个基于Servlet和JSP的JavaWeb开发课程设计项目，适合Java初学者进行实战演练。项目内容包括Servlet与JSP的基础知识、MVC架构、数据库交互、会话管理、安全与性能优化、部署与运行，以及测试与调试等各个方面。学生通过此项目可以全面理解JavaWeb开发技术，并提升实战能力。1.Servlet生命周期与HTTP请求处理
安装黑苹果时提示未能与服务器,安装黑苹果遇到的问题与解决记录草莓味儿柠檬安装黑苹果时提示未能与服务器
前言–这篇文章讲了啥？这篇文件是我在安装黑苹果时遇到的问题与解决办法的总结所以更注重的是发现问题解决问题，关于黑苹果教程自己上网上找吧，资源非常多所以安装方面可能就几句话带过了1.硬件配置电脑型号戴尔Inspiron5680台式电脑操作系统Windows1064位家庭版处理器英特尔Corei5-8400主板戴尔0PXWHK(z370芯片组)，找efi驱动首先按照这个主板来就行(z370)内存三星D
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本