E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
pythonexcel数据清洗
【数据分析实战】金融评分卡建立
2.2Age2.3DebtRatio2.4Numopen2.5Numestate2.6Numdepend2.7MonthlyIncome2.8Num30-59lateNum60-89lateNum90late三、
数据清洗
Sprite.Nym
·
2022-12-14 16:55
机器学习
数据分析
金融
python
逻辑斯蒂回归
评分卡
DataWhale 9月组队学习-动手学数据分析 task2_学习记录
数据清洗
及特征处理通常原数据都是不干净的,可能存在异常值,缺失值以及其他问题。所以一般进行数据分析之前都需要先对数据进行清洗。
Kind_Jiang
·
2022-12-14 16:47
数据分析
python
r语言
机器学习
Datawhale7月组队学习task2
数据清洗
Datawhale7月task2
数据清洗
在许多数据分析工作中,缺失数据是经常发生的。pandas的目标之一就是尽量轻松地处理缺失数据。
临风而眠
·
2022-12-14 16:11
数据分析基础
python
数据科学
pandas
Kaggle
数据清洗
数据分析9 --
数据清洗
:表格数据缺失值与异常值的处理
上一篇中,我们学习了DataFrame常见的数据查询技巧。有了这些技巧,我们已经可以通过各种角度来分析DataFrame,即便DataFrame包含非常多的数据。但是在现实情况中,我们往往还会面临一个棘手的问题:现实工作中,因为在数据记录和数据存储环节偶尔会出现问题,比如互联网公司后端的行为日志记录系统时不时就会出现问题,导致部分数据的丢失。所以数据分析师拿到的原始数据中会存在很多字段或者记录是丢
搭搭里满是糖
·
2022-12-14 15:18
玩转Python数据分析
数据分析
数据挖掘
大数据
电信客户流失分析实战
分析目标找到流失用户特点预测用户是否流失提出优化建议源数据数据预处理
数据清洗
importpandasaspdf=pd.read_csv(r'D:\Data\电信用户流失'r'\WA_Fn-UseC_-Telco-Customer-Churn-Copy.csv
今晚月亮有点圆
·
2022-12-14 12:11
数据分析
数据分析
【R语言】白葡萄酒的EDA分析
项目示例1.5数据选择1.5.1选择1.5.2详细数据说明1.5.3有关项目提交的常见问题2.环境准备2.1导入相关包2.2加载数据集2数据整理2.1数据评估2.1.1质量类问题2.1.2结构性问题2.1
数据清洗
看海的四叔
·
2022-12-14 11:44
R语言学习
r语言
算法
数据分析
数据挖掘
python数据比例_#python# #数据分析# 性别比例分析
数据清洗
和数据统计的代码就不贴了,贴性别比例pie图和性别比例趋势图的代码。
燭台
·
2022-12-14 11:52
python数据比例
深入分析泰坦尼克号分析生存率
目录背景目标¶数据字典1.获取数据2.探索数据2.1.基本信息查看(Head,info)2.2.
数据清洗
2.3.数据探索及数据解释3.数据建模4.数据分析5.总结背景泰坦尼克号:英国白星航运公司下辖的一艘奥林匹克级邮轮
Noby_Ng
·
2022-12-14 08:53
Python
机器学习
Skelarn
决策树
大数据
数据分析
python
vbscript
泰坦尼克号生存预测(超详细)
由于时间原因,没有考虑文章的排版以及可能忽略了一些细节,欢迎大家一起学习交流~泰坦尼克号生存率预测通过数据堆叠、
数据清洗
、特征提取、特征选择、构建模型等方法,实现对泰坦尼克号生存人数的预测。
s_m_c
·
2022-12-14 08:22
机器学习
数据分析
python项目--物流行业项目分析
数据来源:某企业销售的6种商品所对应的送货及用户反馈数据;数据链接:物流行业项目分析数据.分析过程为:
数据清洗
数据规整数据分析并可视化准备工作首先导入包和数据,将编码设置为gbk,若用utf-8会报错。
爱学习的Amelia
·
2022-12-14 07:17
python
数据分析
python
数据处理
如何在5分钟内发现 SQL 语言中的数据血缘
数据仓库和数据湖中处理数据用的最多的工具就是SQL语言,无论是数据加载、数据转换、还是
数据清洗
,都会用到SQL查询语言,更不用说数据查询和分析了。
chensuper
·
2022-12-14 04:33
马哈鱼
数据治理
sqlflow
sql
数据库
数据仓库
【python】
数据清洗
(将list转换成dataframe)
pd.read_csv('D:\转移文件\Desktop\数据挖掘\实验数据\实验7bank.csv')data.head()想法:dataframe不能操作split函数,将dataframe转化成list,进行
数据清洗
在转化回去结果就碰到了各种头疼的事情
qq_46404625
·
2022-12-14 00:56
自我学习笔记
python
list
数据挖掘
数据分析之缺失值处理
##
数据清洗
之pandas学习最近参加了datawhale组队学数据分析,在其中task2中介绍到缺失值的处理,下面记录一点自己学习的内容,如何查看缺失值,遇到缺失值后如何处理1.
MUP_RXL
·
2022-12-13 22:13
笔记
Python
数据清洗
删除缺失值替换缺失值详情
目录一、缺失数据剔除1.python方式2.DataFrame方式二、缺失值补全三、重复值剔除(按照行和列)四、数值转换1.replace2.apply3.applymap一、缺失数据剔除1.python方式获取所有的缺失值,返回一个true和false的表df.isnull()统计缺失值,按照每一列统计df.isnull().sum()统计缺失值按行df.isnull().sum(axis='c
·
2022-12-13 18:41
Spark处理trick总结分析
目录前言trick总结前言最近做了很多
数据清洗
以及摸底的工作,由于处理的数据很大,所以采用了spark进行辅助处理,期间遇到了很多问题,特此记录一下,供大家学习。
·
2022-12-13 18:23
第5章 使用pandas进行数据预处理 课后习题
1.选择题(1)数据质量包含的要素有(D)A.准确性、完整性B.一致性、可解释性C.时效性、可信性D.以上所有要素(2)以下关于数据分析预处理的过程描述正确的是©A.
数据清洗
包括了数据标准化、数据合并和缺失值处理
爱喝水的李师傅
·
2022-12-13 18:42
Python数据分析与应用
数据项目总结 -- 深圳租房数据分析
在获得了相应的数据之后,利用Python的第三方库pandas进行前期的
数据清洗
工作,最后可视化库plotly绘制了相应的可视化图形进行了展示,并且得到了一些租房的结论,供租房者参考,自己对深圳的租房也有了一定的认识
Rich Dad
·
2022-12-13 16:57
Anaconda
Jupyter
Notebook
python
数据分析
可视化
数据项目总结 -- 深圳租房数据分析!
在获得了相应的数据之后,利用Python的第三方库pandas进行前期的
数据清洗
工作,最后可视化库plotl
文文学霸
·
2022-12-13 16:24
可视化
python
数据分析
大数据
数据可视化
银行客户违约信息分析(数据挖掘)
本文对数据进行了数据探索,对数据的基本情况、相关性进行了一定的分析;
数据清洗
使用了填充、取均值、删除异常值的方法;利用绘制热力图选择了合适的特征向量;最后,采用决策树、若决策数、AdaBoost分类模型进行比较分析并比较几种分类方法的准确率
今天不熬夜!
·
2022-12-13 14:03
数据挖掘
数据挖掘
机器学习
决策树
python数据分析及可视化(一)课程介绍以及统计学的应用、介绍、分类、基本概念及描述性统计
数据分析的核心就是数据,拿到的数据不能直接使用,通过
数据清洗
,去除无用、杂乱的数据,提取有用的信息,得到结论,侧
hwwaizs
·
2022-12-13 07:31
python数据分析
python
爬虫
pycharm
【Python
数据清洗
】np.argmax()函数用法解析
简介numpy.argmax(array,axis)用于返回一个numpy数组中最大值的索引值。当一组中同时出现几个最大值时,返回第一个最大值的索引值。在运算时,相当于剥掉一层中括号,返回一个数组,分为一维和多维。一维数组剥掉一层中括号之后就成了一个索引值,是一个数,而n维数组剥掉一层中括号后,会返回一个n-1维数组,而剥掉哪一层中括号,取决于axis的取值。n维的数组的axis可以取值从0到n-
小猪课堂
·
2022-12-13 04:40
Python数据清洗
python拉格朗日插值法_【统计学】拉格朗日插值法的一种python实现方式
昨天的一篇文章中提到了
数据清洗
中涉及缺失值,可通过删除数据、填补空值以及无视等方式进行处理。在空值填补方面,可用平均值、众数、中位数、固定值或者临近值进行填补。
weixin_39968266
·
2022-12-12 18:35
python拉格朗日插值法
7.2 python数据转换(
数据清洗
)
目录7.2.1删除重复值7.2.1删除重复值In[45]:data=pd.DataFrame({'k1':['one','two']*3+['two'],'k2':[1,1,2,3,3,4,4]})In[46]:dataOut[46]:k1k20one11two12one23two34one35two46two4DataFrame的duplicated方法返回的是一个布尔值Series,这个Ser
赵孝正
·
2022-12-12 15:45
#
7.数据清洗与准备
python
开发语言
Python
数据清洗
与处理——运动员信息的分组与聚合
运动员信息的分组与聚合3.1数据的爬取代码:importpandasaspdf=open('运动员信息表.csv')data=pd.read_csv(f,skiprows=0,header=0)print(data)运行结果:首先使用pd.read_csv(f,skiprows=0,header=0)进行数据的读取,并且将数据转换成为dataframe的格式给对象,做初始化,方便后面进行数据的分析
a Fang
·
2022-12-12 13:53
python
python
数据挖掘
数据分析
pandas
Python数据分析之特征工程
目录一、
数据清洗
:1、数据样本采集(抽样)2、异常值处理识别异常值和重复值直接丢弃(包括重复数据)集中值指代(除异常值外的均值、中位数、众数等等)插值根据不同特征值的具体形式处理二、特征预处理1、特征选择
啊心个。
·
2022-12-12 12:38
笔记
python
数据分析
数据挖掘
scikit-learn
python异常值处理_3.1
数据清洗
:缺失值、异常值和重复值的处理-2代码实操
说明:本文是《Python数据分析与数据化运营》中的“3.1
数据清洗
:缺失值、异常值和重复值的处理-2代码实操部分”。
weixin_39863161
·
2022-12-12 07:48
python异常值处理
python缺失值与异常值处理_Python
数据清洗
-缺失值、异常值、重复值处理
基于《python数据分析与数据运营》的总结与部分代码修正缺失值的处理整体思路:找到缺失值——分析缺失值在整体样本中分布占比及是否具有显著的无规律分布特征——后续使用的模型中是否能满足缺失值的自动处理——采用哪种处理方式1.丢弃缺失值超过总体的10%以及存在明显数据分布规律或特征的不宜丢弃2.补全统计法:对于数值型数据使用均值、加权均值、中位数等方法补全;对于分类数据使用类别众数最多的值补足模型法
weixin_39722946
·
2022-12-12 07:17
python缺失值与异常值处理
数据清洗
- 缺失值,异常值,重复值处理
数据清洗
数据清洗
的对象就是缺失值,重复值,异常值一重复值的处理一般用删除法,但是在业务上有意义的重复值不能删除importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportosimportmissingnoasmsnoos.chdir
随缘清风殇
·
2022-12-12 07:13
数据挖掘基础学习(1)
数据清洗
:重复值、缺失值、异常值处理
本文暂不讨论数据类型转换、离散变量重编码、冗余信息及无意义信息处理方法,仅先从最基本
数据清洗
规则:重复值、缺失值、异常值处理角度入手进行讨论,其余部分内容将在后期进行说明注:本文讨论内容基于Python
鉴于明镜
·
2022-12-12 07:36
数据挖掘
学习
pandas
数据分析的工作目标是什么
是否有合理的
数据清洗
和数据过滤。如果日志里有大量机刷数据,爬虫数据,以及其他噪音数据,基于此去做业务分析和
caoz
·
2022-12-12 03:55
大数据
人工智能
数据分析
java
编程语言
【可视化分析案例】用python分析Top100排行榜数据
目录一、数据源二、数据读取三、数据概览四、
数据清洗
五、可视化分析5.1相关性分析(Correlation)5.2饼图(Pie)5.3箱形图(Boxplot)5.4词云图(wordcloud)六、同步讲解视频一
马哥python说
·
2022-12-11 19:43
python数据分析
python数据可视化
数据分析
可视化
python可视化
可视化分析
python数据分析
数据清洗
之三:css选择器
一、css选择器介绍html上的元素的表现形式是通过css选择器一对一或者一对多选定,然后定义的。如:p{color:red}就是所有p标签的内容字体都是红色。二、常见用法类选择器:元素的class属性,比如class="box"表示选取class为box的元素;ID选择器:元素的id属性,比如id="box"表示选取id为box的元素;元素选择器:直接选择文档元素,比如p表示选择所有的p元素,d
张愿斌
·
2022-12-11 15:45
爬虫基础
数据清洗
css
信息计量学分析提纲
我们大致会怎样研究;2.研究方法和数据收集:1.共词分析、词频分析的解释,基本仿照老师的那篇论文;2.数据如何收集(检索式、数据库)、
数据清洗
;3基础分析:首先是对数据进行一些基础的
中年英雄王叔叔
·
2022-12-11 15:00
大三学习
信息管理课程设计
信息计量学
提纲
研究思路
数据预处理—
数据清洗
(3)—重复值处理
3.1.3重复值处理数据去重是处理重复值的主要方法,但如下几种情况慎重去重样本不均衡时,故意重复采样的数据分类模型,某个分类训练数据过少,可以采取简单复制样本的方法来增加样本数量重复记录用户检测业务规则问题事务型数据,尤其与钱相关的业务场景下出现重复数据时,如重复订单,重复出库申请3.1.4数据去重APIdataframe.duplicated()#判断重复数据记录dataframe.drop_d
养bug的码农
·
2022-12-11 12:53
Python
数据清洗
及预处理常用代码整理
注意代码中LONGITUDE、LATITUDE、SPEED、DIRECT等属于博主做交通数据处理时的残留模板。如要自定义使用替换为使用场景下的对应词句即可importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspit#%matplotlibinlineimportcsvimportcodecsimportopenpyxl#为添加列标题【如果原
Sueed
·
2022-12-11 12:49
Python数据处理
python
数据分析
大数据
经验分享
其他
20.数据预处理之重复值处理
数据清洗
一般是现从重复值和缺失值开始处理的重复值一般采用删除法来处理但有些重复值不能删除,例如订单明细数据或交易明细数据等#使用duplicated()方法判断数据是否重复df[df.duplicated
DLANDML
·
2022-12-11 12:43
Python
python分析保险销售数据_利用python对销售数据分析
这次学习我通过将excel表格数据导入python中进行
数据清洗
并分析,这次数据分析我们通过围绕月均消费次数,月均消费金额,客单价三个指标进行分析:将数据导入:importpandasaspdfilenamestr
weixin_39887386
·
2022-12-11 11:07
python分析保险销售数据
python医药数据分析_Python数据分析案例-药品数据分析案例
数据分析的步骤一般可以分为6个:1,明确分析的目的2,数据准备3,
数据清洗
4,数据分析5,数据可视化6,分析报告数据分析的目的:通过对朝阳区医院的药品销售数据的分析,了解朝阳医院的患者的月均消费次数,月均消费金额
Dr.Motorrad
·
2022-12-11 11:35
python医药数据分析
根据医院药品销售数据分析本年度销售情况
二、数据分析基本过程数据分析基本过程包括:获取数据、
数据清洗
、构建模型、数据可视化以及消费趋势分析。1、获取数据部分数据截图先导入包,然后读取文件。
烤红薯配鱿鱼丝
·
2022-12-11 10:30
python数据分析-可视化
数据分析
手把手教你一整套R语言数据分析+建模流程
手把手教你一整套R语言数据分析+建模流程Intro项目背景前期准备数据描述
数据清洗
预分析及预处理数值型数据类别型数据特征建模模型对比Intro近期在整理数据分析流程,找到了之前写的一篇代码,分享给大家。
zzzt151
·
2022-12-11 10:52
R
数据分析
数据分析
r语言
数据建模
自然语言处理技术及处理框架学习
一、常见的自然语言处理流程:文本抽取--》数据加载--》
数据清洗
--》构建用户自定义分词--》构建同义词列表--》去
一马平川的大草原
·
2022-12-11 09:16
后端
全文检索
自然语言处理
学习
知识图谱
《人工智能-机器学习》数据预处理和机器学习算法(以企鹅penguins数据集为例)
文章目录一、数据预处理1内容和目标:2加载和分析数据2.1导入基本库和加载数据2.2分析数据3
数据清洗
3.1重复值处理3.2数据脱敏—提取重要特征3.3缺失值处理3.4异常值处理3.5标签编码或独热编码
来包番茄沙司
·
2022-12-11 08:15
python项目
#学习记录
人工智能
算法
python
《利用Python进行数据分析》第七章——
数据清洗
与准备2
文章目录前言一、数据转换1.1删除重复值1.2使用函数或映射进行数据转换1.3替代值1.4重命名轴索引1.5离散化和分箱1.6检测和过滤异常值1.7置换和随机抽样1.8计算指标/虚拟变量总结前言在经过上文章对数据的缺失值进行过滤和补全,下面讲数据的一些转换,主要讲解数据的重新排列、过滤以及其他转换是另外一系列重要的操作。一、数据转换1.1删除重复值当DataFrame出现重复行时:importpa
PhoenixPeng-gxu
·
2022-12-11 07:50
1024程序员节
《利用Python进行数据分析》第七章——
数据清洗
与准备3
文章目录前言一、字符串操作1.1字符串对象方法1.2正则表达式1.3pandas中的向量化字符串函数总结前言由于Python在字符串和文本操作上的便利性,使得Python成为一个流行的原生数据集操作语言已经有很长时间了。字符串对象的内建方法使得大部分文本操作非常简单。但对于更为复杂的模式匹配和文本操作,正则表达式是可能需要的。pandas允许你将字符串和正则表达式简洁地应用到整个数组上,此外还能处
PhoenixPeng-gxu
·
2022-12-11 07:50
python
数据分析
pandas
数据仓库建设及数据治理总结
用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个
数据清洗
过程,工作量巨大。
000X000
·
2022-12-10 20:46
数据仓库
数据分析
数据中台
数据仓库
大数据
数据治理
数仓建设以及数据治理
,关于数仓建设及数据治理的超全概括前言数仓分层的原因:用空间换时间,通过大量的预处理来提升应用系统的用户体验,因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个
数据清洗
过程
RyanC3
·
2022-12-10 20:42
#
系统安全
大数据
数仓建设及数据治理
用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个
数据清洗
过程,工作量巨大。
'煎饼侠
·
2022-12-10 20:31
数仓
postgresql
数据库
【吊炸天毕设作品招聘数据可视化系统之基于Hadoop+数据爬虫+
数据清洗
+E chart可视化+大屏展示-哔哩哔哩】 https://b23.tv/7yOZb46
【吊炸天毕设作品招聘数据可视化系统之基于Hadoop+数据爬虫+
数据清洗
+Echart可视化+大屏展示-哔哩哔哩】https://b23.tv/7yOZb46https://b23.tv/7yOZb46
源码空间站11
·
2022-12-10 19:16
软件工程
经验分享
数据分析
其他
数据挖掘期末复习-作业(简答)
(1)数据采集(2)特征提取和
数据清洗
(3)分析处理和算法4、数据预处理的主要任务?(1)
数据清洗
:填补缺失值
小黎不爱..
·
2022-12-10 14:43
数据挖掘
人工智能
大数据的处理流程
2、
数据清洗
和预处理采集好数据,肯定不少是重复或是无用的数据,此时需要对数据进行简单的清洗和预处理,使得不同来源的数
~O2
·
2022-12-10 14:34
大数据
数据挖掘
人工智能
上一页
33
34
35
36
37
38
39
40
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他