E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
python后端数据清洗
产品经理即学即用的ETL
数据清洗
工具
ETL是数据仓库里最重要的数据处理过程,也是最体现工作量的环节,一般会占到整个数据仓库项目工作量的一半以上。●抽取:从数据源获取数据。●转换:转换数据,使之转变为适用于查询和分析的形式和结构。●装载:将转换后的数据导入到最终的目标数据仓库。数据仓库的本质就是要把来自于多个异构的源系统的数据集成在一起,放置于一个集中的位置用于数据分析。如果没有ETL,就无法对异构的数据进行结构化的分析。1、为什么要
Kalyn李大平
·
2023-04-20 15:04
实践应用|pandas+PyQt5制作数据(分组)透视处理工具
文章目录执行效果1.窗体可视化设计2.多文件合并(concat)2.1.获取文件夹下的文件列表2.2.根据文件类型进行文件读取2.3.对读取的文件夹下简单的
数据清洗
2.4.合并清洗后的数据3.多文件拼接
可以叫我才哥
·
2023-04-20 14:36
Python数据分析
Python后端
架构演进
做了3年的后端开发,经历一款SaaS产品从0到10(还没有到100,哈哈哈)的过程,3年间后端的架构逐步演变,在微服务的实践过程中遇到的问题也越来越多,在这里总结下.产品是一款服务于人力资源的SaaS在线服务,面向HR有WebAndroid/iOS小程序多个客户端,后端采用RESTful风格API来提供服务.主要使用Python语言,方便快速迭代.架构的演进经历了4个大的阶段:1.MVC2.服务拆
代码之路无极限
·
2023-04-20 09:18
Python框架
数据库
开发语言
kettle案例——
数据清洗
与校验(数据一致性处理)
1.数据准备准备一张名为Personnel_Information的数据表,该表中主要记录了500名职员的性别、身高、体重及健康值,在MySQL中输入以下代码:createtable`personnel_information`(`USERID`int(11),`GENDER`varchar(765),`HEIGHT`varchar(765),`WEIGHT`varchar(765),`INDEX
weixin_56944252
·
2023-04-20 08:25
数据清洗
mysql
数据库
前端
kettle案例——
数据清洗
与校验(数据规范化处理)
1.打开Kettle工具,创建转换2.配置”自定义双击“自定义常量数据”控件进入“自定义常量数据”界面配置实验用数据;单击“元数据”选项卡,添加字段常量ProductionDate、ProductionName、ProductionNumber以及CommoditySales并指定其数据类型;单击“数据”选项卡,添加自定义的数据。3.配置”计算器”控件双击“计算器”控件,进入“计算器”界面;在“字
weixin_56944252
·
2023-04-20 08:25
数据清洗
java
开发语言
kettle案例——
数据清洗
与校验(修补异常值)
1.数据准备准备有一份500人的身高调查数据表interpolation_data,其中包括id、Gender和Height字段,在MySQL中输入以下代码:createtable`interpolation_data`(`id`int(11),`Gender`varchar(30),`Height`double);insertinto`interpolation_data`(`id`,`Gend
weixin_56944252
·
2023-04-20 08:25
数据清洗
数据库
mysql
前端
kettle案例——
数据清洗
与校验(去除缺失值)
1.源数据预览2.打开kettle新建一个转换并添加下述步骤然后用跳连接3.配置文本文件输入控件单击【浏览】按钮,选择要去除缺失值的文件revenue.txt;单击【增加】按钮,将要去除缺失值的文件revenue.txt添加到“文本文件输入”控件中。单击“内容”选项卡;在清除分隔符处的默认分隔符“;”,单击【InsertTAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框,若不取消,在进
weixin_56944252
·
2023-04-20 08:55
数据清洗
microsoft
kettle案例——
数据清洗
与校验(完全去重)
1.源数据预览2.打开kettle新建一个转换并添加下述步骤然后用跳连接3.双击CSV文件输入进行配置点击浏览导入文件,然后点击获取字段最后点击预览看数据是否抽取进来4.双击唯一行(哈希值)进行配置在用来比较的字段处,添加要去重的字段,这里可以单击获取按钮,获取要去重的字段5.保存运行,成功后截图如下6.查看去重之后的数据选中唯一行(哈希值)控件,单击执行结果窗口的Previewdata选项卡,查
weixin_56944252
·
2023-04-20 08:54
数据清洗
大数据
第五章——
数据清洗
与校验
一、对文件merge.csv进行完全去重1.源数据预览2.打开kettle新建一个转换并添加下述步骤然后用跳连接3.双击CSV文件输入进行配置点击浏览导入文件,然后点击获取字段最后点击预览看数据是否抽取进来4.双击唯一行(哈希值)进行配置在用来比较的字段处,添加要去重的字段,这里可以单击获取按钮,获取要去重的字段5.保存运行,成功后截图如下6.查看去重之后的数据选中唯一行(哈希值)控件,单击执行结
Kettle9.3
·
2023-04-20 08:53
数据分析
kettle——
数据清洗
(数据表-->文本文件)
实验步骤:1.数据表(图片加分析,创建表的过程和对应的字段及记录)①选择数据库②创建表结构③插入数据2.kettle连接模块(图片加分析,每个模块实现的功能)①新建“转换”文件,”文件”——>“新建”——>“转换”。②连接数据库连接名称:表名a连接类型:MySQL连接方式:Native主机名称:localhost或者127.0.0.01数据库名称:这里是nihao端口号:3306用户名:root密
It's a cinch!
·
2023-04-20 08:22
kettle
kettle
kettle——
数据清洗
(数据表——>转换——>数据表)
目录1、表输入①点击“新建”选项,新建数据库②选择“获取SQL”③选择表a④注意:字段只显示了5个,而一共有6个字段,money字段需要手动添加2、转换①打开java控件,设置变量3、表输出①连接表b②映射字段4、保存模型为test.ktr并运行①查看日志,结果提示“转换成功”②username拼接成功准备:表a的结构表a的数据表b的结构实验步骤:1、表输入①点击“新建”选项,新建数据库点击“测试
It's a cinch!
·
2023-04-20 08:49
kettle
数据清洗
Graia简单使用
安装配置好mirai后
python后端
安装模块pipinstallgraia-application-miraipipinstallgraia-broadcast更新pipinstallgraia-application-mirai
虚幻交界
·
2023-04-20 06:44
基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析(二)——
数据清洗
、转换
2
数据清洗
、转换此实验使用S3作为数据源ETL:Eextract输入Ttransform转换Lload输出大纲2
数据清洗
、转换2.1架构图2.2
数据清洗
2.3编辑脚本2.3.1连接数据源(s3)2.3.2
试玩互动
·
2023-04-20 06:31
AWS云
etl
数据分析
大数据
serverless
spark
flume
flume大数据处理流程1、数据采集2、数据存储3、
数据清洗
4、数据分析5、数据展示在数据采集和搜索工具中flume框架占有一定的市场分量flumeflume是一种分布式,可靠的高可用的服务,用于有效的收集
leezsj
·
2023-04-20 03:55
flume
flume
大数据实战 --- 淘宝用户行为
目录开发环境数据描述功能需求数据准备
数据清洗
用户行为分析找出有价值的用户开发环境Hadoop+Hive+Spark+HBase启动Hadoop:start-all.sh启动zookeeper:zkServer.shstart
你∈我
·
2023-04-19 21:20
大数据
大数据
美国国家NCDC气候数据处理-提取中国各省最高气温、最低气温、降雨量信息。
关键点:1)建立字典存储每个站点对应的省份,以映射添加省份变量;2)
数据清洗
:降雨量为负值、-999缺失值等处理,新建DataFrame(res)存储这一年的所有站点数据。
EliteA1
·
2023-04-19 12:21
python
数据分析
大数据分析平台架构有哪些
大数据分析平台的建设是十分必要了,一方面它可以汇通企业的各个业务系统,从源头打通数据资源,另一方面也可以实现从数据提取、集成到
数据清洗
、加工、可视化的一站式分析,帮助企业真正从数据中提取价值,提高企业的经营能力
中琛源科技
·
2023-04-19 06:57
《科学背单词法》02 -- CET4数据分析
《科学背单词法》02[上一篇]:英语四六级历年真题数据爬取2_1[本文主要涉及知识点]:数据合并、
数据清洗
、分词、词频统计、读写txt、读写excel一、今日主题:英语四六级历年真题数据分析2_2(1)
Andy计算机专业
·
2023-04-19 05:27
Pandas的应用-3
本文将介绍Pandas的一些常见应用,包括DataFrame的应用、
数据清洗
、缺失值、重复值、异常值和预处理。
互联小助手
·
2023-04-19 05:04
Python
pandas
python
数据分析
Grafana与
python后端
通过get请求进行通信
插件配置请参考:Grafana获取URL地址中的json数据Grafana下载如下插件:文章目录模拟URL路由配置Grafana插件效果展示模拟URL路由fromfastapiimportFastAPI,Queryimportuvicornapp=FastAPI()@app.get("/")asyncdefhello():#测试连接
[email protected]
("/check")async
呆萌的代Ma
·
2023-04-18 21:00
grafana
Pandas2.0它来了,这些新功能你知道多少?
做过数据分析的同学,都知道pandas是开源数据分析工具,广泛用于
数据清洗
,数据处理,数据分析等相关领域。
写python的鑫哥
·
2023-04-18 18:51
数据分析入门与实战
pandas
python
数据分析
numpy
大数据
零售行业数据分析—SQL代码
本文主要介绍“黑色星期五”
数据清洗
与利用数据构建分析模型。
微秋凌白
·
2023-04-17 21:37
4.一个完整的机器学习项目步骤
特征预处理、
数据清洗
是很关键的步骤,往往能够使算法的效果和性能得到显著提升,归一
温旧酒一壶~
·
2023-04-17 20:03
机器学习
人工智能
python入门项目:
数据清洗
文章目录前言一、
数据清洗
是什么?二、重复值处理三缺失值处理四、数据类型转换前言本文是对
数据清洗
的简单学习。本文使用的数据来源为:博雅读书社所提供的数据一、
数据清洗
是什么?
简博野
·
2023-04-17 18:46
数据处理
python入门项目
python
数据分析
数据挖掘
Mongdb中常用的
数据清洗
前言分享一些Mongdb常用的
数据清洗
方式注:"Exceededmemorylimitfor$group,butdidn'tallowexternalsort.PassallowDiskUse:truetooptin
晨曦的娃哈哈
·
2023-04-17 05:20
大数据开源舆情分析系统-数据处理部分架构浅析
数据工厂,是一套多组件化
数据清洗
加工及数据存储管理平台,同时能够管理所有的数据库的备份方案。支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压,对外提供压缩后的数据。
思通数科x
·
2023-04-17 04:22
网络爬虫
分布式
开源情报
big
data
架构
大数据
网络爬虫
R数据分析:如何简洁高效地展示统计结果
之前给大家写过一篇
数据清洗
的文章,解决的问题是你拿到原始数据后如何快速地对数据进行处理,处理到你基本上可以拿来分析的地步,其中介绍了如何选变量如何筛选个案,变量重新编码,如何去重,如何替换缺失值,如何计算变量等等
Codewar
·
2023-04-16 22:53
kettle——
数据清洗
(文本文件-->数据表)
目录文本文件输入:表输出试验结束准备:文本文件表a结构实验步骤:文本文件输入:①“文件“选项点击“浏览”,选择文件“test.tsv”点击“增加”,将文件转入选中②“内容”选项分隔符换为tab键,取消复选框“头部”,编码方式改为“UTF-8”③“字段”选项选择“获取字段”点击确认,将显示“扫描结果”更改名称预览记录表输出①点击“新建“②进行如下设置后点击测试,将提示连接成功③点击“浏览”④选择“表
It's a cinch!
·
2023-04-16 18:08
kettle
kettle
数据清洗
ETL基础概念及要求详解
ETL工具设计ETL工具+SQLETL接口设计要求明确接口属性约定接口形式确定接口抽取方法规范接口格式概念ETL即Extract(抽取)Transform(转换)Load(装载)的过程,如下图,同时也包括
数据清洗
的部分
Lin-CT
·
2023-04-16 16:40
etl
数据仓库
数据库
大数据
Flink处理大型离线任务稳定性与性能调优探索
下面我们进入正题:01—离线任务情况说明对于平台处理的离线任务,任务大都是处理:从HDFS到HIVE的
数据清洗
任务。这类任务的特点是数据来一条处理一
360技术
·
2023-04-16 08:33
flink
大数据
菜鸟的挣扎
1.11爬了八个小时的爬虫给我爬啊靠(இдஇ;)1.11-1.13爬虫和
数据清洗
偏差太大,白爬了,八小时,我裂开ಥ_ಥ1.13后知后觉,吸取教训,那就先爬几半条数据test修改爬虫,name、inspect
MARNieR
·
2023-04-16 07:42
笔记
如何利用python机器学习解决空间模拟与时间预测问题及经典案例分析
目录专题一机器学习原理与概述专题二Python编译工具组合安装教程专题三掌握Python语法及常见科学计算方法专题四机器学习
数据清洗
专题五机器学习与深度学习方法专题六机器学习空间模拟实践操作专题七机器学习时间预测实践操作更多了解机器学习的发展历史
小艳加油
·
2023-04-16 04:55
教程
python
机器学习
深度学习
空间模拟
时间预测
“数据分析”分析“数据分析”岗位来啦~
有的同学选择就业有的同学想学单个方向,比如:数据分析那么今天我们来分析一下数据分析岗位薪资与经验/学历占比吧准备首先,我们要提前准备好数据没有数据的同学可以自己先行采集或者找我领取哦~可加Q君羊:582950881数据分析流程原始数据
数据清洗
数据分析结论代码展示导入模块
嘘!摸鱼中~
·
2023-04-15 22:54
数据分析小案例
数据分析
python
信息可视化
大数据测试工程师需要熟悉的数仓规范和数据测试流程
在项目中,我们制定了一系列的数据质量规范,包括
数据清洗
、数据校验、数据标准化、数据去重、数据加工等方面。我们通过使用ETL工具和自定义脚本来实现数据的清洗和加工,并结合
不考虑昵称
·
2023-04-15 21:25
大数据
数据仓库
数据挖掘
规范
Python实现处理和分析大规模文本数据集,包括
数据清洗
、标注和预处理
处理和分析大规模文本数据集,包括
数据清洗
、标注和预处理,是自然语言处理(NLP)中非常重要的一步。Python是一种非常流行的编程语言,拥有丰富的NLP库和工具,可以帮助我们完成这些任务。
SzetoZeZe
·
2023-04-15 16:29
python
开发语言
数据清洗
规范和数据质量校验
数据清洗
规范1.空值处理:一般使用默认值1)汇总类指标的空值:空值处理,填充为零。2)维度属性值为空:在汇总到对应维度上时,对于无法对应的统计事实,记录行会填充为null。
创无意
·
2023-04-15 15:49
数据治理
大数据
认识Power BI
简单易用核心理念是让业务人员无须编程就能快速上手商业大数据分析与可视化,具有丰富的可视化图表组件,跨设备使用、与各种不同系统无缝对接和兼容PowerBI既可以作为个人报表的数据处理工具,也可用作项目组、部门或整个企业的BI部署和决策引擎PowerBI功能1.
数据清洗
山茶花开时。
·
2023-04-15 14:21
Power
BI
#
Power
BI基础知识
Power
BI
数据可视化
DolphinDB +Python Airflow 高效实现
数据清洗
DolphinDB作为一款高性能时序数据库,其在实际生产环境中常有数据的清洗、装换以及加载等需求,而对于该如何结构化管理好ETL作业,Airflow提供了一种很好的思路。本篇教程为生产环境中ETL实践需求提供了一个解决方案,将PythonAirflow引入到DolphinDB的高可用集群中,通过使用Airflow所提供的功能来实现更好管理DolphinDB数据ETL作业,整体架构如下:1.Airf
DolphinDB智臾科技
·
2023-04-15 09:20
数据库
DolphinDB
airflow
ETL
数据清洗
Hive实战 --- 电子商务消费行为分析
目录数据结构Customer表Transaction表Store表Review表上传数据创建目录用于存放数据把本地文件上传到HDFS上创建外部表创建数据库创建表
数据清洗
对transaction_details
你∈我
·
2023-04-15 00:01
大数据
hive
hive
大数据
如何根据企业自身文化定向训练chatgpt及示例源码
数据清洗
:清洗数据,去掉冗余信息、拼写错误和语法错误等。建立数据集:将清洗后的数据建立数据集,分成训练集、验证集和测试集。其中,训练集用于训练ChatGPT,验证集用于调整超参数,测试集用于评估模型性
技术老张
·
2023-04-14 15:40
人工智能
Python
人工智能
chatgpt
电商数据api海量数据对接,大数据选品分析
一:整合多个数据渠道提供最全实时的标准化格式的电商数据,帮助用户以最快速度和极低成本集成查询功能到自己的商城和app二:整合了国内国外多家快递的电商数据、使用冗余通道来提供数据并进行必要的
数据清洗
,保证高可用性与商品的全面性三
技术开发者Q:1744543107
·
2023-04-14 09:32
电商api数据
大数据
传统数仓四层模型
传统数据仓库一般分为四层模型ods原始数据层存放原始数据,保持原貌不做处理dwd明细数据层对ods层
数据清洗
(去除空值,脏数据,超过极限范围的数据)dws服务数据层轻度聚合ads应用数据层具体需求
wqchibingshaonian
·
2023-04-14 08:20
大数据测试
数据中台-数仓分层思想
一、数仓分层思想1、为什么要分层通过分层管理来实现分步完成工作,用空间换时间,通过数据预处理提高效率,提升应用系统的用户体验(效率),简化
数据清洗
的过程,使每一层处理逻辑变得更简单。
weixin_44214647
·
2023-04-14 08:46
数据中台
big
data
大数据
hive
hadoop
spark
【数据挖掘】3、NumPy与Pandas 清洗、爬虫、 SciKitLearn 变换、可视化
1.8FAQ1.8.1axis1.8.2数据类型1.8.3Pycharm引入NumPy等库二、Pandas2.1Series2.2DataFrame2.3数据导入和输出2.3.1读写xlsx2.3.2
数据清洗
呆呆的猫
·
2023-04-14 08:01
#
python
数据挖掘
numpy
pandas
数据挖掘
Python
数据清洗
:Python和Pandas
数据清洗
的实用教程
前言:技术书籍是学习技术知识的重要资源之一。读技术书可以帮助我们学习新技能和知识,技术书籍提供了可靠的、全面的信息,帮助我们快速学习新技能和知识。同时技术书籍有助于保持你的竞争力,因为它们提供了最新的技术知识和实践。这在当今快速发展的技术领域尤为重要,不断学习新知识和技能才能保持竞争力。总之,读技术书对于学习技术知识、提高职业素养和保持竞争力都非常重要。Dream联合金主爸爸给大家送书啦!本期为大
是Dream呀
·
2023-04-14 07:30
Dream好书推荐
pandas
python
数据分析
有哪些功能强大,但是很小众的Python库呢?
FuzzyWuzzy:用于字符串匹配的模糊搜索库,可以进行字符串相似度匹配,非常适合解决
数据清洗
和标准化的问题。li
字节跳远
·
2023-04-14 03:38
idea
开发技术栈总结
开发语言pythonjavagojavascript开发工具vscodepycharmeclipseanaconda开发框架
python后端
:DjangoFlaskTornado前端:VueReact数据库关系型数据库
laufing
·
2023-04-14 00:19
问题
开发
python
java
技术栈
Python|泰坦尼克号幸存者画像
先给出分析框架一切的分析都建立在
数据清洗
之后幸存率的分析非常重要,下面将按性别、年龄、仓位、登船码头4个维度分别观察与幸存率的关系然后按照仓位+性别、仓位+年龄段、年龄段+性别3个二维组合维度观察与幸存率的关系最后按仓位
Sudden
·
2023-04-14 00:36
视频网站
数据清洗
整理和结论研究
利用Python整理清洗视频网站的数据,代码如下'''1、
数据清洗
-去除空值要求:创建函数2、
数据清洗
-时间标签转化要求:①将时间字段改为时间标签②创建函数3、问题1分析出不同导演电影的好评率,并筛选出
白洞_set
·
2023-04-13 23:02
有哪些AI的事实,没有一定AI基础的人不会相信?[知乎小组第一期]
大部分干人工智能的普通程序员,实际上做的是
数据清洗
和数据挖掘,就是把数据整理成可以倒入keras、tensorflow......的样子。实际上很多公开数据集,是由薪资非常低
小小尧
·
2023-04-13 21:17
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他