E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据清理
Ubuntu与windows下配置安装jupyter-notebook以及其开机自启、后台运行与远程访问
用途包括:
数据清理
和转换,数值模拟,统计建模,数据可视化,机器学习等等。支持pythonCjavaGo等多种编程语言。同时支持markdown编辑器。
starfish55555
·
2020-08-15 08:42
frp安装配置
R语言学习笔记_
数据清理
1
导入数据之前明确需求理解数据数据质量导入数据支持多种数据源文本文件read.table、read.csv、read.delimscanExcel文件csv、prn格式+read.csv剪贴板+read.delimxlsx扩展包rodbc包数据清洗缺失值处理NA、NaN、Inf、-Inf识别缺失数据先把不合理值重编码为缺失值is.na、complete.casemice::patternVIM::a
MongoVIP
·
2020-08-15 00:05
R语言学习
R语言学习笔记_
数据清理
2
统计学是如何总结数据特点的分布(离散型、连续型)描述、相关单变量:描述集中趋势、分散趋势双变量:相关共同变化趋势(协方差、相关系数)可视化探索数据分布分布就是概率可能结果(取值)有哪些每个结果或者某个范围内的概率是多少?可视化展现概率密度图累积分布图常见分布分类变量:二项分布、泊松分布数值变量:均匀分布、正态分布、指数分布得到分布是研究的最高境界,说着容易做着难。很多时候是不能得到分部的,这时就有
MongoVIP
·
2020-08-15 00:05
R语言学习
完整的R语言预测建模实例-从
数据清理
到建模预测
概述本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战:缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异以上的几个主要挑战,对于熟悉机器学习的人来说,应该都是比较清楚的,这个案例中会涉及到五个挑战中的缺失值,量纲和共线性问
cyydjt
·
2020-08-14 23:44
机器学习算法
【数据挖掘】数据清洗
与问卷审核不同,录入后的
数据清理
一般是由计算机而不是人工完成。数据清洗的步骤缺失值的处理无效值的处理统一规格纠正错误和逻辑删除重复项转换构造缺失值的处理对于缺失值看重要性和缺失率。
「已注销」
·
2020-08-14 23:28
Algorithm
R语言数据挖掘(2) 数据预处理
一、
数据清理
检查数据质量的重要性除了在建立模型之前需要完成
数据清理
,在对数据结构的探索和对模型的描述和预测过程中都需要不断检查数据质量探索的过程中,出现任何异常情况都需要解释和处理。
albert_zlw
·
2020-08-14 22:13
记一次CDH集群日志
数据清理
背景集群运行一段时间(大概一月多)后,clouderamanager管理界面出现爆红,爆红的组件有hdfs、zookeeper。发现问题点击详细内容查看,报日志空间不够的错误。初步判断是各个组件的日志数据把空间占满了。查看各个目录下磁盘占用情况df-hcdh的各组件的日志一般在/var/log目录下,因此主要关注“/”查看/var/log下使用空间较大的文件夹,并由大到小排列cd/var/log/
weixin_30675247
·
2020-08-14 20:08
纽约出租车案例分析
#过程设计1)提出问题;2)理解数据;3)
数据清理
;4)数据分析;5)得出结论#提出如下问题:1)何时为打车需求高发期?
Hill_L
·
2020-08-14 16:44
Python
Python项目实战——纽约出租车运行情况分析建模
一、项目概述根据出租车的运营数据,针对客户旅途时间展开分析与建模,对客流趋势及区域分布进行分析,对出租车历史数据进行分析,为客户预测预计到达时间等过程设计:提出问题理解数据
数据清理
数据分析得出结论重要字段说明
小柴~
·
2020-08-14 15:42
python
Hadoop基础-HDFS
数据清理
过程之校验过程代码分析
Hadoop基础-HDFS
数据清理
过程之校验过程代码分析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。
weixin_33971977
·
2020-08-14 15:23
一文总结数据科学家常用的Python库(上)
这些库有着不同的数据科学功能,例如数据收集,
数据清理
,数据探索,建模等,接下来我们会分类介绍。您觉得我们还应该包含哪些Python库?让我们知道!
磐创 AI
·
2020-08-14 15:31
手动删除HDFS过期
数据清理
磁盘空间并将删除的数据进行挂载备份处理
磁盘挂载应用:将Hadoop集群中部分文件挂载到B服务器上应用场景:由于hdfs数据量过多,导致磁盘可用空间不足,需要删除过期的数据腾出空间,同时又要将被删除的数据进行备份处理,以免后期复用需要删除的文件的hdfs目录:bin/hdfsdfs-ls/ibc/datalogs/apachelogs/archive/2018/201801*删除的文件需要挂载备份到此目录下:/home/bigdata/
Jason_Tsui71
·
2020-08-14 15:55
大数据
自动化HDFS
数据清理
的终极方法(附代码)
一、背景二、原理fsimage:hive元数据三、使用方法本地idea运行:step1:准备工作step2:解析fsimage文件step3:清理数据yarn运行:step1:准备工作step2:解析fsimage文件step3:清理数据四、总结代码地址:https://github.com/lijufeng2016/data-manager一、背景hdfs集群从出生到成长,经历了各种各样业务和人
喜剧之皇
·
2020-08-14 15:04
大数据
Jupyter Notebook及主题更换
用途包括:
数据清理
与转换,数值模拟,统计建模,机器学习等等。
Atomwh
·
2020-08-14 09:08
神经网络
CRISP-DM:大数据挖掘
(2)数据划分2、
数据清理
(数据修正):(1)缺失值处理,删除,替换。(2)异常值的判断和处理3、数据重构(数据转换):(1)生成衍生变量。(2)改变变量分
maccoo
·
2020-08-13 15:38
使用Python开发工具Jupyter Notebook学习Tensorflow入门及Tensorboard实践
【人工智能头条导读】JupyterNotebook是一个Web应用程序,便于创建和共享文学化程序文档,支持实时代码、数学方程、可视化和Markdown,其用途包括
数据清理
和转换、数值模拟、统计建模、机器学习等等
肖永威
·
2020-08-12 14:21
人工智能及Python
数据预处理的方法有哪些
例如
数据清理
、数据集成、数据规范、数据转换等,其中最常用的是
数据清理
和数据集成,下面中琛魔方将来详细介绍一下这2种方法。
中琛魔方灬
·
2020-08-12 13:23
大数据分析平台
想学数据分析但不会Python,过来看看SQL吧(上)~
作者:贾胜杰,硕士,退役军人,电气工程专业,现成功转行K12领域数据挖掘工程师,不仅在
数据清理
、分析和预测方向,而且在自制力和高效学习方面都有丰富经验。
小詹学 Python
·
2020-08-11 20:20
oracle 查询重复数据并且删除, 只保留一条数据
数据库操作中,经常会因为导数据造成数据重复,需要进行
数据清理
,去掉冗余的数据,只保留正确的数据一:重复数据根据单个字段进行判断1、首先,查询表中多余的数据,由关键字段(name)来查询。
wuzhixing931022
·
2020-08-11 19:38
机器学习中的数据准备
数据准备需要进行的工作主要分为以下几类:
数据清理
(DataCleaning)数据转换(DataTransformation)特征选择(FeatureSelection)
数据清理
删除冗余的特征或样本#deletecolumnswithasin
sunwq06
·
2020-08-11 11:00
用户画像的生产
数据清理
,
数据清理
的过程通常位于Hadoop集群,也有可能与数据收集同时进行,这一步的主要工作,是把收集到各种来源、杂乱无章的数据进行字段提取,得到关注的目标特征。
落叶翩翩
·
2020-08-11 05:17
数据库
人工智能
数据预处理方法
数据预处理分为四步,
数据清理
、数据变换和变量筛选。
suhao0911
·
2020-08-11 04:10
数据预处理
数据清洗
【爬虫、贝叶斯、SVM、LDA一条龙服务】从数据收集到文本分类:从零开始你自己的数据挖掘工程
这不同于用一用搜狗的新闻资料库,或者是kaggle、天池等竞赛的资料库,要自己从头开始收集数据,使用爬虫收集,然后去重,
数据清理
等等。
一笑照夜
·
2020-08-11 03:18
python
数据预处理过程
概括起来,统计数据预处理的过程包括数据审查、
数据清理
、数据转换和数据验证四大步骤。
Edison0816
·
2020-08-11 02:08
数据挖掘
python库——从数据处理到人工智能
库之数据分析Python库之数据可视化Python之文本处理Python之机器学习从数据处理到人工智能数据表示->数据清洗->数据统计->数据可视化->数据挖掘->人工智能数据表示:采用合适方式用程序表达数据
数据清理
唐樽
·
2020-08-11 00:16
Python——库
方法
Docker image 存储路径 解析
这里梳理下,dockerimage的在linux系统上的存储目录,以针对性的进行
数据清理
。
raindaywhu
·
2020-08-10 20:13
Docker
慕课国家精品课,了解一下
慕课国家精品课,了解一下本项目对中国大学Mooc的国家精品栏目进行了探索分析,共815门课程,涵盖12个字段,于3月29日由webscraper爬取获得,通过python进行
数据清理
,最后由tableau
weixin_42648803
·
2020-08-10 11:30
京东联盟开发(1) 商品SKUID采集
API介绍推广商品列表的API为https://media.jd.com/gotoadv/goods相关参数说明主类目表二、采集方法使用火车头采集,采集配置如下网址采集规则内容采集规则内容发布规则三、
数据清理
及入库采集到过程如图所示同时用
weixin_30497527
·
2020-08-10 11:40
关于Redis的
数据清理
我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于Redis自动清理的速度,因此在Redis中会有大量过期Key未被及时清理。为什么有过期的Key未被清理呢?这个得先熟悉一
weixin_34408624
·
2020-08-09 14:52
pandas笔记(Data Transformation)
上一篇学习笔记学习了如何处理缺失值(
数据清理
),这一篇笔记继续学习pandas的数据处理:数据转换RemovingDuplicates去重#首先还是进入ipython,当然你也可以用python进行练习
生信start_site
·
2020-08-09 04:49
暑假实践(二)
它的用途包括:
数据清理
和转换、数值模拟、
潞雨杭
·
2020-08-08 19:00
数据分析(1-2Jupyter使用)
因此,这是一款可执行端到端的数据科学工作流程的便捷工具,其中包括
数据清理
、统计建模、构建和训练机器学习模型、可视化数据等
Beyond Limits
·
2020-08-08 12:49
零基础入门Python爬虫,一文掌握爬虫核心原理!
写在最前面这篇简单的Python教程中,我们一共采取了下面几个步骤,来爬取网页内容:连接并获取一个网页的内容用BeautifulSoup处理获得的html数据在soup对象里循环搜索需要的html元素进行简单的
数据清理
把数据写入
python588
·
2020-08-07 16:28
python
基于内容识别垃圾邮件的一些问题和思考
这种思路对一般文章,如帖子,博客,甚至严肃的论文都会有不错的分类效果.但用于识别垃圾邮件则远远不足.分类基本要素作者不是研究算法的,只是根据多年识别垃圾邮件的经验,认为分类的基本要素包括:分类算法大量高质量的样本
数据清理
特征的提取
eli960
·
2020-08-07 13:44
HONOR-SPAM
MAIL
R语言 数据处理 dplyr包
数据清理
dplyr包这个包是HadleyWickham创建和维护的。它包括了(几乎)全部可以用来加快数据处理进程的内容。它最有名的是数据探索和数据转换功能。它的链式语法让它使用起来很方便。它包括5个主要的数据处理指令:1.过滤——集于某一条件过滤数据2.选择——选出数据集中感兴趣的列3.排列——升序或降序排列数据集中的某一个值域4.变换——从已有变量生成新的变量5.概括(通过group_by)——提供常用
程志伟
·
2020-08-07 13:57
R语言
使用机器学习预测股票价格的愚蠢简便方法
这是执行此操作的步骤:收集资料导入
数据清理
和处理数据分开进行测试和培训观察选择型号训练模型将模型应用于测试数据评估结果必要时增强模型重复步骤5至10,直到对结果满意为止。在上
小几斤
·
2020-08-06 19:27
机器学习;技术;股票;
记一次清除Redis Cluster 全部数据的Shell脚本编写
文章目录Redis集群数据清除脚本Redis集群数据清除脚本通过如下脚本文件,文件名为flush-redis-cluster.sh,即可完成对Redis集群的
数据清理
#!
抠脚的大灰狼
·
2020-08-05 11:37
Linux
ORACLE--分区表
数据清理
由于分区表数据增加;没做清除操作;导致表空间告急。需要清理很久之前的数据;释放空间。步骤如下一,查看哪个表占的空间1234SELECTt.segment_name,SUM(t.bytes/1024/1024)FROMuser_segmentstGROUPBYt.segment_nameORDERBYSUM(t.bytes/1024/1024)DESC二、查看每个子分区的记录1SELECTa.tab
qq_30270931
·
2020-08-05 10:50
医疗大数据如何结构化处理助力临床科研-论电子病历
数据清理
的必要性
自2013年至今,国家出台了一系列有关健康医疗大数据的政策意见,要求规范和促进健康医疗大数据的整合共享和开放应用。卫生保健大数据已成为我国的重要战略基础数据,并被纳入国家大数据战略布局,预示着我国医疗事业即将进入大数据时代。大数据的真正价值在于历史医疗资源的再利用,借助于大数据的思维和研究方法,完成了以往传统思维、方法、技术所不能完成的任务,解决了过去不能解决的问题,使数据得以利用,形成从量变到质
后结构化
·
2020-08-05 10:22
医疗大数据
大数据医疗
电子病历系统
医疗大数据
机器学习新手必看:Jupyter Notebook入门指南
article/details/80490921【人工智能头条导读】JupyterNotebook是一个Web应用程序,便于创建和共享文学化程序文档,支持实时代码、数学方程、可视化和Markdown,其用途包括
数据清理
和转换
weixin_30751947
·
2020-08-04 19:30
机器学习(一) 基于sklearn库的数据集划分(交叉验证)
机器学习中首要环节就是数据集的处理,其中数据集的处理从个人理解(如有错误敬请谅解)的角度来说包括两个方面:数据集划分和
数据清理
。
蓉城视觉小菜鸟
·
2020-08-04 02:09
机器学习
缓存学习
缓存学习缓存学习常见的缓存设计第一种第二种第三种缓存穿透什么是缓存穿透如何避免缓存穿透缓存雪崩什么是缓存雪崩如何避免缓存雪崩缓存
数据清理
策略缓存算法常见的缓存设计第一种读操作写操作第二种左边是读操作,右边是写操作
阳明ice
·
2020-08-03 17:11
软件架构与服务
缓存
应用
Jupyter Notebook修改默认的工作目录
用途包括:
数据清理
和转换,数值模拟,统计建模,机器学习等等。JupyterNotebook是包含在了Anaconda里面的,所以你只要安装
CoderYYN
·
2020-08-03 09:17
环境搭建
Python
Windows
Linux
Power Query列操作快速了解(1)
通过本编文章,快速了解PowerQuery的列操作,提高
数据清理
效率。包括操作有:重命名列拆分列重复列合并列提取列索引列条件列自定义列列分组一、示例数据全国的每个店铺中,每个销售员的销售订单数据。
李宇飞(灰哥)
·
2020-08-03 04:29
Power
BI
使用Weka进行数据挖掘(Weka教程五)Weka数据预处理之Filter使用
加载完毕数据集后,还是不能直接进行数据挖掘模型的训练和学习,必须要进行数据预处理,数据预处理一般指的是以下四个方面:
数据清理
,数据集成,数据变换,数据归约等。
yang1young
·
2020-08-03 02:52
Weka+Java数据挖掘
手把手教小白使用Jupyter notebook
它的用途包括:
数据清理
和转换、数值模拟、统计建模、数据可视化、机器学习等等。它具有以下优势:可选择语言:支持超过40种编程语言,包括Python、R、Julia、Scala等。
夏雨薇安
·
2020-08-03 01:23
jupyter
python
编程工具
R语言 data.table包
数据清理
(二)
data.table包这个包让你可以更快地完成数据集的数据处理工作。放弃选取行或列子集的传统方法,用这个包进行数据处理。用最少的代码,你可以做最多的事。相比使用data.frame,data.table可以帮助你减少运算时间。你一定会对这个包的简洁性感到震惊。一个数据表格包含三部分,即DT[i,j,by]。你可以理解为我们告诉R用i来选出行的子集,并计算通过by来分组的j。大多数时候,by是用于类
程志伟
·
2020-08-02 23:28
R语言
R包
spring-mock单元测试新方法
在进行dao的集成测试时候,
数据清理
,察看数据都是比较麻烦的事情,使用Spring-mock.jar可以帮助我们简化着一个过程。我举一个简单的例子,说明一下如何使用spring-mock。
liaokangli_first
·
2020-08-01 13:05
使用spring-mock进行dao集成测试
进行dao的集成测试时候,
数据清理
,察看数据都是比较麻烦的事情,使用Spring-mock.jar可以帮助我们简化着一个过程。我举一个简单的例子,说明一下如何使用spring-mock。
bedweather
·
2020-08-01 11:10
测试——Java
开源——Java
数据仓库-数据仓库的简介(由来、与关系数据库的区别、数据仓库模型)
构造数据仓库涉及
数据清理
、数据集成和数据变换,可以看做数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。
weixin_30416871
·
2020-08-01 03:03
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他