数据挖掘#特征工程第3页

Python环境下基于深度判别迁移学习网络的轴承故障诊断

目前很多机器学习和数据挖掘算法都是基于训练数据和测试数据位于同一特征空间、拥有相同数据分布的假设。然而在现实应用中，该假设却未必存在。

哥廷根数学学派·2024-02-19 12:36

RapidMiner缺失数据处理——去掉数据大量缺失的变量

最近做数据挖掘，发现RapidMiner是一款数据清洗、处理和转换的好工具，尤其在数据量不大的情况下。和R语言相比，RapidMiner在数据处理方面要简单直观得多。

carlwu·2024-02-19 11:59

RapidMiner数据挖掘

RapidMiner数据挖掘入门之一：概要1简介RapidMiner原名Yale，它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。

arrow8071·2024-02-19 11:28

RapidMiner数据挖掘2 —— 初识RapidMiner

大多数练习都是关于图表技术，通常用于数据挖掘。为此，我们将使用RapidMiner软件。请求的工作包括发现应用程序的图形用户界面（GUl），以及检查和处理示例数据集的不同元素。

思诺学长·2024-02-19 11:23

缺失值NA并不可怕,只要了解它

缺失值可视化1.在GEO数据挖掘过程中，有时取子集会导致生成的子集都是NA。

小梦游仙境·2024-02-15 10:11

有没有老哥遇到 pycharm升级后，不能同时运行多个py文件的情况，会被覆盖运行?...

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤既见君子，云胡不喜。大家好，我是皮皮。

Python进阶者·2024-02-15 10:53

pandas导出的EXCEL列宽压缩很小有自动调整列宽的方式吗？

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤行路难，不在水，不在山，只在人情反覆间。大家好，我是皮皮。

Python进阶者·2024-02-15 10:23

用selenium自动化操作时，遇到这种上传图片的，要怎么搞？

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤烟霏霏，雪霏霏。雪向梅花枝上堆，春从何处回！大家好，我是皮皮。

Python进阶者·2024-02-15 10:23

Pycharm里如何设置多Python文件并行运行

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤夕阳何事近黄昏，不道人间犹有未招魂。大家好，我是皮皮。

Python进阶者·2024-02-15 10:22

宝藏R包：TCGA的转录组数据挖掘一站搞定

最近在看ceRNA的时候看到了一个宝藏R包，写包简化了芯片数据下游分析之后，我正想着写转录组下游分析的简化版，就看到了它。用起来~0.R包和数据准备if(!require(GDCRNATools))BiocManager::install("GDCRNATools")library(GDCRNATools)这里使用的是作者给的示例数据，RNA-seq是1000行，miRNAseq是2588个。#m

小洁忘了怎么分身·2024-02-15 09:09

基于决策树的金融市场波动性预测与应用

基于决策树的金融市场波动性预测与应用项目背景与意义数据概述与分析数据来源数据特征数据预处理与特征工程模型训练与评估结果与应用总结LightGBM是一个机器学习算法库，用于梯度提升机（GradientBoostingMachine

OverlordDuke·2024-02-15 02:42

2022-08-02

大规模迁移冲突和内战城乡发展商法产业经济学旅游经济学资源分配社会福利全球和平与安全网络安全妇女与两性平等食品安全保健和健康社会治理创新机构发展就业情况可持续的人类和社会发展社会变迁与生态文明媒体、信息和通信语言与文化的传承经济发展与深度学习大数据挖掘计量经

论文小天才·2024-02-15 01:35

【毕设进行时-工业大数据，数据挖掘】Java GUI完善，左对齐

正文之前今天早上起来，因为还要在宿舍这边搞毕业信息确认，所以没办法，我就只能在宿舍里面做一下Java的GUI的优化了！昨天的GUI长这个鬼样子！很幸运的，思索一番之后，我发现了问题所在，并且很快的就解决了。就在我想要继续水两面毕业设计学生日志的时候，却悲哀的发现我的日志本昨天就上交去中期检查去了！呜呼哀哉！简直悲伤！所以只能先写个电子档，等纸质档发下来再补上了！正文在前天完善JavaGUI界面的时

张照博·2024-02-14 23:49

“高颜值”在线可视化分析利器—NetworkAnalyst！

那么本期小编将给各位带来的就是一款在线可视化数据挖掘利器—NetworkAnalyst！NetworkAnalyst是一款可以进行基因表达分析和meta分析的在线可视化分析平台。

ee00dc6faab7·2024-02-14 20:22

从《猩球崛起》中看到人类对于人工智能的恐惧

智搜（Giiso）信息成立于2013年是国内领先的“人工智能+资讯”领域技术服务商，在大数据挖掘、智能语义、知识图谱等领域都拥有国内顶尖技术。

weixin_34268310·2024-02-13 23:07

探索XGBoost：时间序列数据建模

本教程将深入探讨如何在Python中使用XGBoost建模时间序列数据，包括数据准备、特征工程和模型训练等方面，并提供相应的代码示例。准备数据在处理时间序列数据之前，首先需要准备数据。

Echo_Wish·2024-02-13 05:22

葫芦书第一章——特征工程

特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本

单调不减·2024-02-12 22:08

Python建模复习：数据挖掘技术理论

第二部分数据挖掘技术理论2.1数据分析方法论KDD知识发现KnowledgeDiscoveryfromDatabase：数据清理、数据集成、数据选择、数据变换（正规化、泛化、离散化）、数据挖掘、模式评估

啾啾二一·2024-02-12 13:50

XGBoost算法

在数据挖掘和数据科学竞赛中，XGBoost因其出色的性能而被频繁使用。例如，在Kaggle平台上的许多获奖方案中，XGBoost都发挥了重要作用。此外，它在处理缺失值和大规模数据集上也有很好的表现。

小森( ﹡ˆoˆ﹡ )·2024-02-12 04:11

task3 特征工程

1.采用tsfresh工具包提取时间序列特征导入工具包：提取特征：融合之前单变量特征之后，预测变差......哭

1598903c9dd7·2024-02-12 01:03

IronWebScraper for net 2024.2.2 Crack

IronWebScraper是一个多功能C#框架，旨在从HTMLWeb应用程序中提取结构化数据，服务于各种目的，例如系统迁移、搜索引擎填充、竞争分析和数据挖掘。

sdk大全·2024-02-11 22:40

问题驱动结合系统思维搭建有序的知识体系

社会在发展，也许在未来大家都使用爬虫大数据挖掘在看问题的时候，这项搜索技能也过时了，但是唯一不会被淘汰的就是解决问题的智慧和思维。1、问题驱动：高效行动的秘密什么是问题驱动？以解决问题出发。

yufawu·2024-02-11 21:48

Python数据挖掘指南

1、数据挖掘和算法数据挖掘是从大型数据库的分析中发现预测信息的过程。对于数据科学家来说，数据挖掘可能是一项模糊而艰巨的任务-它需要多种技能和许多数据挖掘技术知识来获取原始数据并成功获取数据。

代码输入中...·2024-02-11 18:59

task 13 集成学习

蒸汽量预测1.特征工程一般流程：1.去掉无用特征2.去掉冗余特征3.利用存在的特征、特征转换、内容中的特征以及其他数据源生成新特征4.特征转换（数值化、类别转换、归一化）5.特征处理（异常值、最大值、最小值

罐罐儿111·2024-02-11 17:30

2021-06-10

大数据曾经是野蛮生长的，在利益的驱使下浮华起来；但不可否认，在大数据时代，数据挖掘、分析，不仅能从各个

清风徐徐吹来·2024-02-11 05:01

机器学习各种算法汇总模板

机器学习算法模板包含了KNN，线性回归，逻辑回归，朴素贝叶斯，决策树，支持向量机，随机森林，kmeans，集成算法各种算法，特征工程，评估方式任你选择！！！

怎么菜成这样·2024-02-10 22:28

Apriori介绍及代码批注

一、Apriori原理解析1.概述关联规则分析是数据挖掘中最活跃的研究方法之一，目的是在一个数据集中找到各项之间的关联关系，而这种关系并没有在数据中直接体现出来。

Fishermen_sail·2024-02-10 20:45

特征工程:数据平衡

目录一、前言二、正文Ⅰ.基于过采样算法Ⅱ.基于欠采样算法Ⅲ..基于过采样和欠采样的综合算法三、结语一、前言大多数情况下，使用的数据集是不完美的，会出现各种各样的问题，尤其针对分类问题的时候，会出现类别不平衡的问题。例如：在垃圾邮件分类时，垃圾邮件数据会有较少的样本量，从而导致两种类型的邮件数据量差别很大；在欺诈监测数据集中，往往包含的欺诈样本并没有那么多。处理这类数据集的分类的时候，需要对数据集的

林浩杨·2024-02-10 18:02

掌握XGBoost：特征工程与数据预处理

掌握XGBoost：特征工程与数据预处理导言在应用XGBoost模型之前，特征工程和数据预处理是至关重要的步骤。良好的特征工程和数据预处理可以显著提高模型的性能。

Echo_Wish·2024-02-10 17:34

IOBR:一个R包带你走进数据挖掘的殿堂

虽然近几年产生了大量的单细胞数据，但bulk数据是基础，是数据挖掘之源头，当然作为主打生信主题的公众号生信宝库肯定也会关注对bulk数据的挖掘。

生信宝库·2024-02-10 08:36

机器学习系列——（十九）层次聚类

引言在机器学习和数据挖掘领域，聚类算法是一种重要的无监督学习方法，它试图将数据集中的样本分组，使得同一组内的样本相似度高，不同组间的样本相似度低。

飞影铠甲·2024-02-10 07:47

2023计算机（AI）领域相关期刊的SCI分区

就在昨天（12月27日）2023年中科院分区表公布，本文总结了有关计算机领域（尤其是AI（机器学习，CV，NLP，数据挖掘等））的一些期刊的SCI分区，供大家参考学习。

STLearner·2024-02-10 06:08

单细胞数据挖掘(10a)-基于FPKM标准化的单细胞差异分析

本笔记来源于B站@生信技能树-jimmy；学习视频链接:「生信技能树」单细胞数据挖掘以下内容是我拷贝自学习资料里的markdown文件，作者信息如文件所示。本人在学习的过程中做了一些注释、删减和改动。

北欧森林·2024-02-10 06:08

数据挖掘(Data Mining, uva1591)

本题主要在于理解题意，Q数组可以不连续存储指的是只要公式能够满足即可，不一定有规律的存储。比如，先11个byte存储数据，1个byte空闲，再12个byte存储数据，1个byte空闲。简单计算可以得出K>=Sq*N为充要条件测试数据NortheasternEurope(NEERC)2003//uva1591.cpp#include#include#defineMAXN31intmain(){lon

谭树杰的博客·2024-02-10 05:08

OLAP 和数据挖掘的关系

从技术角度看，商务智能的过程是企业的决策人员以企业中的数据仓库为基础，经由数据挖掘工具、联机分析处理工具加上决策规划人员的专业知识，从数据中获得有用的信息和知识，帮助企业获取更多的利润。

挣扎的菜鸟·2024-02-09 18:02

梯度提升树系列6——GBDT在异常检测领域的应用

目录写在开头1异常检测的基本概念1.1定义和目标1.2GBDT在异常检测中的适用性2信用卡欺诈检测案例分析2.1场景介绍2.2收集数据和特征工程2.3进行异常值识别2.4模型效果评估2.5模型优化3策略和技巧

theskylife·2024-02-09 14:32

机器学习 | 深入集成学习的精髓及实战技巧挑战

算法简介泰坦尼克号乘客生存预测(实操)lightGBM算法简介《绝地求生》玩家排名预测(实操)xgboost算法简介XGBoost全名叫极端梯度提升树，XGBoost是集成学习方法的王牌，在Kaggle数据挖掘比赛中

亦世凡华、·2024-02-09 10:16

机器学习系列——（十七）聚类

其中，聚类作为机器学习领域的一个重要分支，广泛应用于数据挖掘、模式识别、图像分析等多个领域。本文旨在深入探讨聚类技术的原理、类型及其应用，为读者提供一个全面而深入的了解。一、什么是聚类？

飞影铠甲·2024-02-09 09:08

【深度学习：掌握监督学习】掌握监督学习综合指南

基本概念主要组件：输入要素和目标标签训练监督式学习模型监督学习算法的类型分类回归每个类别中的流行算法示例监督学习的数据预处理数据清洗数据转换数据缩减特征工程概念简介及其对模型性能的影响模型评估和验证评估和验证监督学习模型的重要性常见评估指标概述模型评估技术挑战和未来方向监督

jcfszxc·2024-02-09 09:11

图论与图数据应用综述：从基础概念到知识图谱与图智能

1.3邻接矩阵2探索图的高级概念2.1最短路径的关键性2.2图的直径与平均路径的意义2.3循环与路径类型的多样性3深入探讨图的广泛应用领域3.1知识图谱的知识管理3.2图智能在复杂决策中的应用3.3图数据挖掘与分析的多领域应用

cooldream2009·2024-02-09 08:08

数据挖掘应用领域

目前数据挖掘在各行各业应用广泛，尤其在金融、保险、电子商务和电信方面得到了很好的效果，下面简单阐述一下在金融行业数据挖掘的应用。

Liam_ml·2024-02-09 06:50

Titanic - 1

复习一下，完成这篇分析报告需要进行的几个步骤：一、导入数据包与数据集二、数据分析1、总体预览2、描述性统计分析：使用统计学与绘图，初步了解数据之间相关性，为构造特征工程和模型建立做准备3、数据清洗4、建模与优

silent_eyes_77·2024-02-09 04:30

数据挖掘——特征工程

文章目录特征工程3.3.1删除异常值3.3.2特征构造批量处理时间数据1.归一化2.标准化3.3.3特征筛选特征工程在EDA中我们更多的操作是针对数据本身与分析而特征工程是针对数据的进一步处理来最终选择出我们模型中需要的特征

run_session·2024-02-09 01:18

什么是数据挖掘

文章目录什么是数据挖掘1.分类问题2.聚类问题3.回归问题数据挖掘相关的标准库数据挖掘模型训练分类问题聚类问题回归问题关联问题模型集成模型评估评估指标混淆矩阵与标准率指标泛化能力评估什么是数据挖掘数据挖掘就是寻找数据中隐含的知识并用于生产产业价值

菜鸟长安·2024-02-09 01:44

特征工程：特征提取、特征预处理、特征选择

一、特征提取1.字典特征提取sklearn.feature_extraction.DictVectorizer(sparse=True,…)dict=DictVectorizer(sparse=False)data=dict.fit_transform([{'city':'北京','temperature':100},{'city':'上海','temperature':60},{'city':'

xiaobai_IT_learn·2024-02-09 00:02

特征工程：衡量特征的重要型

知乎特征选择：https://zhuanlan.zhihu.com/p/32749489结合sklearn的几种特征选择方法：https://www.cnblogs.com/hhh5460/p/5186226.html结合sklearn的几种特征选择方法2：https://blog.csdn.net/bryan__/article/details/51607215

千寻～·2024-02-09 00:32

特征工程:特征构建

前言二、正文Ⅰ.分类特征重新编码①分类特征②离散特征③多标签类别编码Ⅱ.数值特征重新编码①多项式②多个变量的多项式特征Ⅲ.文本数据的特征构建①文本词频条形图②词袋模型③TF-IDF矩阵三、结语一、前言特征工程中的特征构建的主要目的是生成新的特征

林浩杨·2024-02-09 00:31

特征工程:特征提取和降维-下

目录一、前言二、正文Ⅰ.流形学习Ⅱ.t-SNEⅢ.多维尺度分析三、结语一、前言通过上篇对线性与非线性的数据的特征提取和降维的学习之后，我们来介绍其他方法，分别有流行学习、多维尺度分析、t-SNE。二、正文Ⅰ.流形学习流形学习是借鉴拓扑流形的概念的一种降维的方法。用于数据降维，降到二维或者三维时可以对数据进行可视化。因为流形学习利用近邻的距离来计算高维空间的样本距离，所以近邻个数对其降维的结果影响甚