E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
python后端数据清洗
机器学习之pandas库(二)小型案例展示
数据清洗
就是把“脏”的“洗掉”,包括检查数据一致性,处理无效值和缺失值等。
繁华三千东流水
·
2020-08-03 21:51
机器学习算法思想及代码实现
利用pandas进行数据预处理
目录:1.安装pandas2.pandas的引入3.
数据清洗
①处理缺失数据②检测和过滤异常值③移除重复数据4.数据集成A.使用键参数的DataFrame合并B.轴向连接5.数据变换A.利用函数或映射进行数据转换
Modozil
·
2020-08-03 20:55
机器学习
python
数据挖掘
Hive基于SQL创建漏斗模型
从拿到需求开始,我们经历了以下步骤来完成工作:需求分析设计测试数据集及测试用例
数据清洗
需要实现测试其中
数据清洗
主要是做了两个工作:去掉用户每一次访问中重复的页面记录,只保留每个页面的最后一次访问记录。
墨染百城
·
2020-08-03 20:34
Hive
数据清洗
什么是
数据清洗
数据清洗
(Datacleaning)对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
空格为什么不行
·
2020-08-03 19:02
笔记
Jupyter notebook使用技巧大全
只需要通过web浏览器就可以很方便地进行
数据清洗
和转换,数值模拟,统计建模,数据可视化,机器学习等。本文主要介绍JupyterNote
hitchenghengchao
·
2020-08-03 17:15
1-1 C语言手撕高斯朴素贝叶斯 - 通过身高和体重推测性别(机器学习)
目录目录目录项目介绍项目1-1的准确度项目可行性:原理简介高斯分布(正态分布)朴素贝叶斯代码流程获取数据(
数据清洗
)代码实现头文件allHead.h源文件handleData.cpp源文件及主函数naiveBayes.cpp
JoeAliao
·
2020-08-03 14:28
C语言算法
机器学习
分类算法
模式识别
大数据
c算法
为何总给外卖打差评?我们来数据分析一下!
↑关注+星标~有趣的不像个技术号每晚九点,我们准时相约本次项目使用Excel进行
数据清洗
,使用Tableau进行可视化分析。文中涉及相关数据以及文件下载地址见文末。
朱小五是凹凸君呀
·
2020-08-03 09:26
拉勾网杭州站的数据采集及可视化分析之分析报告篇
在经历了爬虫状语从句:
数据清洗
了以后,就可以建模啦〜BI链接是拉钩BI。如上图就是整个BI的界面。以下为分析报告1,学历的影响有多大?
席地而坐不谈国事
·
2020-08-03 08:15
利用Python+PowerBi进行拉勾网杭州站的数据采集及可视化分析之
数据清洗
篇
我对
数据清洗
的理解是:1、确认数据有效性2,清除异常数据3,优化数据结构非常粗糙的理解哈〜1是因为如果数据无效,爬下来都是错的......后面的也没事意义2是可能需要的去重啊,多余的介词啊,符号啊,也应该洗一洗
席地而坐不谈国事
·
2020-08-03 08:44
log4j根据业务分出多个日志文件
很多时候,我们不同的业务日志要打印到不同的日志文件,比如我们一种日志是数据库同步到数据仓库日志(db2dw),一种日志是
数据清洗
日志(washdata),要分成2个不同日志文件进行记录看,具体的做法如下
lief2liu
·
2020-08-03 03:40
零碎
文末赠书|一篇文章让你了解Hive调优
老工在职场多年,从事过海量(PB级)数据的关系型数据库数据处理工作,后由于数据平台升级的要求,将数据迁移到Hadoop集群,做了多年的数据研发和数据产品的研发工作,从业务理解、数据模型构建、数据采集、
数据清洗
文文学霸
·
2020-08-02 17:51
大数据项目之电商数据仓库简介
1.数仓分层1.1为什么要分层ODS:关系建模DWD:
数据清洗
,过滤脏数据(去空值,把不符合要求的数据过滤),把数据分类,给某些数据添加必要字段。
热情散尽
·
2020-08-02 16:29
大数据
hive
数据清洗
1.概念
数据清洗
:把脏
数据清洗
掉,提高数据质量。
Memorial*
·
2020-08-02 13:47
机器学习中的
数据清洗
与特征处理综述
本文主要介绍在美团的推荐与个性化团队实践中的
数据清洗
与特征挖
美团技术团队
·
2020-08-01 13:46
黑马程序员____
数据清洗
实验
----------------------android培训、java培训、期待与您交流!----------------------一、实验环境操作系统:WindowsSever2003数据库软件:SQLSever2005二、实验内容:本次作业给出的数据集中包含了多家银行业务处理信息,现在我们希望通过建立一个数据仓库对业绩进行分析,了解各业务的运营情况,以期对日常业务处理(诸如发放贷款额度,用
handawnc
·
2020-08-01 12:28
数据挖掘
数据挖掘考试范围
完整解释一个数据挖掘的过程(1)
数据清洗
:清除数据噪声和与挖掘主题明显无关的数据(2)数据集成:将来自多个数据源中的相关数据组合到一起(3)数据选择:根据数据挖掘的目标选取待处理的数据(4)数据转换:将数据转换为易于进行数据挖掘的数据存储形式
福尔摩洋
·
2020-08-01 05:14
BAT机器学习特征工程工作经验总结(一)如何解决数据不平衡问题(附python代码)
其实大部分人都是在跑数据,各种map-reduce,hiveSQL,数据仓库搬砖,
数据清洗
、
数据清洗
、
数据清洗
,业务分析、分析case、找特征、找特征…而复杂的模型都是极少数的数据科学家在做。
weixin_bread2008
·
2020-08-01 05:44
机器学习工作经验总结
[转] SqlServe到PG迁移错误:无效的编码序列"UTF8": 0x00
标签PostgreSQL,Greenplum,0x00,空字符,NUL,
数据清洗
,规则,过滤,非法字符背景原文http://www.codeweblog.com/sqlserve%E5%88%B0pg%
weixin_33754065
·
2020-08-01 04:12
数据清洗
+特征构造:bureau.csv
bureau.csv客户信用报告(信用历史)importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt%matplotlibinlineimportseabornassnsimportwarningswarnings.filterwarnings('ignore')bureau=pd.read_csv('data/bureau.csv')
今晚打佬虎
·
2020-08-01 02:50
信贷风险
贷款违约风险预测
kettle 入门教程 ETL 基础 介绍
TransformandLoad)数据抽取、转换、载入工具,ETL工具在数据仓库项目使用非常频繁,kettle也可以应用在以下一些场景:在不同应用或数据库之间整合数据把数据库中的数据导出到文本文件大批量数据装载入数据库
数据清洗
集成应用相关项目是个使用
0x6g1k8T
·
2020-08-01 00:49
python
AI
BlockChain
DM
Ml
DNN
Project
Manager
Python 数据挖掘之航空公司客户价值分析
Python数据挖掘之航空公司客户价值分析综述数据探索分析
数据清洗
标准差标准化K-Means聚类分析DBSCAN聚类分析结果K-Means聚类分析结果图DBSCAN聚类分析结果图综述对航空公司客户数据进行挖掘分析
你的大数据学长
·
2020-07-31 23:15
Python
SQL 数据分析
前面我们分享了8句箴言的前四句,也就是SQL数据预处理和SQL
数据清洗
,后四句呢,说的就是SQL数据分析,SQL数据分析大致说
朱元禄
·
2020-07-31 18:28
mysql
工业数据分析预处理
工业数据预处理过程(带时间标签):数据整合(不同来源数据统一形式,时间对齐)特征选择
数据清洗
(坏点剔除、噪声滤波、缺失值处理)数据整合带时间标签的数据统一时间戳由于不同来源的工业数据时间间隔和时间点可能不同
fcy^<^
·
2020-07-31 17:33
python数据分析
工业大数据分析
数据清洗
工具汇总(持续更新...)
GoogleRefine()Mr.DataConverter(试用地址:http://shancarter.github.io/mr-data-converter/)Mr.DataConverter允许你将CSV/TSV文件转化成JSON、XML或其他主流格式。就像这样:![image.png](http://upload-images.jianshu.io/upload_images/13011
LucasX
·
2020-07-31 17:51
机器学习数据、特征处理、模型融合
一解决问题流程:o了解场景和目标o了解评估准则o认识数据o数据预处理(清洗,调权)o特征工程o模型调参o模型状态分析o模型融合二数据预处理(1)
数据清洗
a:不可信的样本丢掉b:缺省值极多的字段考虑不用
abc_138
·
2020-07-31 15:45
机器学习面试题
Pandas —— 数据读取
前文
数据清洗
——Pandas的简单使用方法文章目录前文Pandas数据读取纯文本文件读取csv文件读取Excel文件读取MySQL数据表读取Pandas数据读取Pandas需要先读取表格类型的数据,然后才能进行分析数据类型说明
Woo_home
·
2020-07-31 15:02
#
数据分析
Pandas —— 数据结构
前文
数据清洗
——Pandas的简单使用方法Pandas——数据读取文章目录前文Series仅有数据列表即可产生最简单的Series获取索引获取数据创建一个具有标签索引的Series获取索引名称使用Python
Woo_home
·
2020-07-31 15:02
#
数据分析
数据科学读书笔记
文章目录数据预处理数据质量关于数据质量的一些统计学规律第一数字定律小概率定理探索性数据分析(EDA)数据审计预定义审计自定义审计可视化审计
数据清洗
处理缺失值冗余数据处理噪声数据处理数据变换数据集成基本类型主要问题其他预处理方法数据脱敏数据规约数据统计概率分布正态分布卡方分布
Peter_Luoz
·
2020-07-31 14:58
数据科学
TF-IDF
TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本
数据清洗
Geeksongs
·
2020-07-31 13:33
特征工程——特征构造
特征工程概述一、特征工程概述特征工程=数据准备(for数据挖掘)
数据清洗
、转换1.1特征工程主要内容1.2特征工程重要性好数据>多数据>好算法数据和特征决定了模型预测的上限,而算法只是逼这个上限而已应用机器学习基本上就是特征工程二
SongpingWang
·
2020-07-31 13:42
机器学习—算法及代码
T1.1 Excel-Basic
数据准备:设计表格类型、定义数据类型数据导入:文件导入、网站导入、手动录入
数据清洗
:去重、缺失值数据加工:抽取、计算、分组、转换,根据原始变量生成分析所需的变量数据分析:Wait1.单元格内容限制——如何让图表从下拉框中选择填写内容
罗尹伊
·
2020-07-31 12:09
数据清洗
---数据整合
数据整合可以使用Pandas库中merge()函数合并数据集importpandasaspd#建两个数据集df1=DataFrame({'lkey':['b','b','a','c'],'data1':range(4)})df2=DataFrame({'rkey':['a','b','b','d'],'data2':range(4)})#将两个数据集在key上做合并pd.merge(df1,df2
Scarlett·S
·
2020-07-31 09:23
数据清洗
干货 | Logstash Grok数据结构化ETL实战
Logstash写入ES之前的中间数据处理过程一般叫做:数据ETL或者
数据清洗
。本文重点介绍
数据清洗
环节的非结构数据转化为结构化数据的——Grok实现。1、认知前提老生常谈,夯实基础认知。
铭毅天下
·
2020-07-30 22:04
Logstash
Hive去重以及group by与distinct性能的比较
在hive
数据清洗
这里总结三种常用的去重方式1.distinct2.groupby3.row_number()eg:SELECTorder_id,order_name,cate_type,modify_time
微风凉
·
2020-07-30 21:16
hive
一个公式三指标,电商分析的破局之道
万物皆营销|资本永不眠|数据恒真理CSDN:https://me.csdn.net/weixin_40679090文章目录一、前言二、项目准备三、了解数据,梳理指标3.1数据字段梳理3.2指标维度梳理3.3
数据清洗
理四
Heoijin
·
2020-07-30 21:46
python
#
数据分析
Hive做一个PV,UV统计的案例记录
对hive原表做一个
数据清洗
,筛选有用的字段,新建清洗表。新建分区表,从
数据清洗
表中把输入导入到分区表。对分区表的数据进行分组统计。使用sqoop导出数据到mysql中。
madman1990
·
2020-07-30 20:59
大数据学习
电商交易
数据清洗
和分析
电商交易
数据清洗
和分析数据源:csv文件,某电商的交易数据,需要对这部分数据进行清洗和分析工具:python(matplotlib/numpy/pandas),jupyter实现
数据清洗
加载数据分析需要的库
这里是哒哒
·
2020-07-30 20:27
数据清洗
笔记
离线处理网站的PV,UV方案
流程:导入数据hdfs(flume-->hdfs)建立hive表把hdfs上的数据导入到hive表里面
数据清洗
-->(先有一个
数据清洗
表)数据分析,数据统计-->存放一张表里面把hive表的数据导出到,
小东升职记
·
2020-07-30 20:13
新手必看
编程规则
kafka
Redis
java
InAppPurchase前往AppStore支付校验-
Python后端
开发记录
文章目录非自动订阅式购买首先理流程校验所需的参数请求AppStore解析响应恢复购买的校验自动订阅式购买的校验首次购买续订结果查询取消订阅的查询Python版本是3.5.2,后端架构是Django==1.11.1和MySQL。非自动订阅式购买首先理流程iOS端发起支付请求支付成功后,携校验所需数据向服务端发起校验请求服务端将参数进行包装,向AppStore发起校验请求AppStore返回响应,包含
˚天霸动霸Tua
·
2020-07-30 19:32
python
样本不均衡案例及解决办法
样本不均衡案例及解决办法一、样本不均衡问题描述与解决办法1、样本不均衡问题描述2、常用解决办法二、实例分析1、数据集来源与介绍2、数据集导入与初探3、
数据清洗
与预处理3.1缺失值处理3.2特征筛选3.3
Joe_lee1
·
2020-07-30 19:58
机器学习
如何提高Pandas的运行速度?四大性能优化方法
像是支持GB数据处理,多样的
数据清洗
方法;支持多种开源可视化工具包,更加丰富的数据成果展示等等。因此如果能做好性能优化,就可以极大的提高Pandas的运行速度。
博斌
·
2020-07-30 19:23
超大规模文本
数据清洗
、查找、匹配神器之python模块flashtext学习使用
今天在找资料的时候无意间查找一个跟眼下工作不太相关但是一眼看到就很感兴趣的内容,讲解的是文本中数据的查找替换等的一个操作工具。之前做了比较多的相关的工作是网页html处理的工作,这里经常替换或者查找指定文本字符串的时候我们都是采用正则表达式的方法来完成的,书写相对来说也是比较灵活的,直到今天发现了flashtext,我才意识到原来同样的事情可以用不一样的方式提高很多的效率也更加便捷了。鉴于工作时间
Together_CZ
·
2020-07-30 19:42
编程技术
算法
【浪叫兽】京东JData算法赛经验总结
我们搞的是kdd,主要是知识发现,所以大多是重复eda(探索分析)etl(
数据清洗
),
数据清洗
和探索,使用现有的数据挖掘框架。重头戏还是在eda和etl,我们只是使用框架,重复edaetl。你没
Jinlong_Xu
·
2020-07-30 19:46
data
mining
Python
machine
learning
Storm+HBASE+MySQL 实时读取Kafka信息计算存储
本文是通过Storm将生产出来的数据进行实时的计算统计,整理出来之后将数据写到hbase和mysql数据中,并将结果展示在前端页面上,页面展示部分在下一篇说明题目要求一、机组运行
数据清洗
规则1、运行数据日期不是当日数据
胡卡卡啦啦
·
2020-07-30 16:24
Storm
Storm
hbase
30分钟玩转
Python后端
Flask
30分钟玩转
Python后端
什么是Flask?Flask是一个用Python编写的Web应用程序框架。它由ArminRonacher开发,他领导一个名为Pocco的国际Python爱好者团队。
易海涛
·
2020-07-30 10:59
Python后端之Flask
详解Pandas 处理缺失值指令大全
前言运用pandas库对所得到的数据进行
数据清洗
,复习一下相关的知识。
·
2020-07-30 10:25
《利用Python进行数据分析·第2版》 附录A NumPy高级应用
章准备工作第2章Python语法基础,IPython和Jupyter第3章Python的数据结构、函数和文件第4章NumPy基础:数组和矢量计算第5章pandas入门第6章数据加载、存储与文件格式第7章
数据清洗
和准备第
weixin_34195142
·
2020-07-30 03:42
《Python数据分析与挖掘实战》第四章 数据预处理
主要包括
数据清洗
、数据集成、数据变幻和数据规约。
数据清洗
删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
大美mixer
·
2020-07-30 00:50
L:python的Pandas模块:字符串处理,分组统计,数据透视表,时间序列
字符串处理Pandas为字符串提供了形如“obj.str.方法()”的一系列命令支持,这些方法一般在
数据清洗
、转换时使用。
入梦镜
·
2020-07-29 23:29
python
Python数据分析一条龙(菜鸟上手项目记录--回归分析阶段以及项目总回顾)
往期回顾爬虫阶段
数据清洗
阶段数据处理阶段4.回归分析阶段因为sklearn封装了大量的函数供我们调用,所以没有特别复杂的逻辑,talkischeap,showmethecode代码实现importnumpyasnpfromsklearn.linear_modelimportLinearRegressionfromsklearn.model_selectionimporttrain_test_spl
ChanZany
·
2020-07-29 23:21
Python爬虫
上一页
66
67
68
69
70
71
72
73
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他