shiter

浅谈pandas，pyspark 的大数据ETL实践经验

文章大纲

0.序言
1. 数据接入
2. 脏数据的清洗

2.1 文件转码
2.2 指定列名
2.3 pyspark dataframe 新增一列并赋值
2.4 时间格式处理与正则匹配

3. 缺失值的处理
4. 数据质量核查与基本的数据统计

4.1 统一单位

4.1.1 年龄
4.1.2 日期
4.1.3 数字

4.2 去重操作
4.3 聚合操作与统计
4.4 Top 指标获取

5.数据导入导出
参考文献
大数据ETL 系列文章简介

0.序言

本文主要以基于AWS 搭建的EMR spark 托管集群，使用pandas pyspark 对合作单位的业务数据进行ETL ---- EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载） 等工作为例介绍大数据数据预处理的实践经验，很多初学的朋友对大数据挖掘，数据分析第一直观的印象，都只是业务模型，以及组成模型背后的各种算法原理。往往忽视了整个业务场景建模过程中，看似最普通，却又最精髓的数据预处理或者叫数据清洗过程。

1. 数据接入

我们经常提到的ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，首先第一步就是根据不同来源的数据进行数据接入，主要接入方式有三：

1.批量数据
可以考虑采用使用备份数据库导出dmp，通过ftp等多种方式传送，首先接入样本数据，进行分析
2.增量数据
考虑使用ftp，http等服务配合脚本完成
2.实时数据
消息队列接入，kafka，rabbitMQ 等

数据接入对应ETL 中的E----EXTRACT（抽取），接入过程中面临多种数据源，不同格式，不同平台，数据吞吐量，网络带宽等多种挑战。

python 这种胶水语言天然可以对应这类多样性的任务，当然如果不想编程，还有：Talend，Kettle，Informatica，Inaplex Inaport等工具可以使用.

e.g. 一个kettle 的作业流

以上不是本文重点，不同数据源的导入导出可以参考：
数据库，云平台，oracle，aws，es导入导出实战
我们从数据接入以后的内容开始谈起。

2. 脏数据的清洗

比如在使用Oracle等数据库导出csv file时，字段间的分隔符为英文逗号，字段用英文双引号引起来，我们通常使用大数据工具将这些数据加载成表格的形式，pandas ，spark中都叫做dataframe

对与字段中含有逗号，回车等情况，pandas 是完全可以handle 的，spark也可以但是2.2之前和gbk解码共同作用会有bug

数据样例

1,2,3
"a","b,
c","d"
"4","6,7","8"

pandas

# -*- coding:utf-8 -*-
"""@author:season@file:testCSV.py@time:2018/5/3110:49"""
import  pandas

def sum_analysis(filename,col_names):
    # 读csv文件
    data = pandas.read_csv(filename,names=col_names,\
    engine='python', dtype=str)
    # 返回前n行
    first_rows = data.head(n=2)
    print(first_rows)
    # 返回全部列名
    cols = data.columns
    print(cols)
    # 返回维度
    dimensision = data.shape
    print(dimensision)
    print(data.info())
    return data

def main():
    col_names = ['1','2','3']
    file_test = u'''test.csv'''
    print(sum_analysis(file_test,col_names))

if __name__=='__main__':
    main()

pandas 加载的 result

pyspark

sdf = spark.read.option("header","true") \
				 .option("charset","gbk") \
				 .option("multiLine", "true") \
				  .csv("s3a://your_file*.csv")
pdf = sdf.limit(1000).toPandas()

linux 命令

强大的sed命令，去除两个双引号中的换行

**处理结果放入新文件**
sed ':x;N;s/\nPO/ PO/;b x' INPUTFILE  > OUTPUTFILE

**处理结果覆盖源文件**
sed -i ':x;N;s/\nPO/ PO/;b x' INPUTFILE

2.1 文件转码

当然，有些情况还有由于文件编码造成的乱码情况，这时候就轮到linux命令大显神威了。

比如使用enconv 将文件由汉字编码转换成utf-8

enconv -L zh_CN -x UTF-8 filename

或者要把当前目录下的所有文件都转成utf-8

enca -L zh_CN -x utf-8 *

在Linux中专门提供了一种工具convmv进行文件名编码的转换，可以将文件名从GBK转换成UTF-8编码,或者从UTF-8转换到GBK。

下面看一下convmv的具体用法：

	convmv -f 源编码 -t 新编码 [选项] 文件名

#将目录下所有文件名由gbk转换为utf-8
convmv -f GBK -t UTF-8 -r --nosmart --notest /your_directory

2.2 指定列名

在spark 中

如何把别的dataframe已有的schame加到现有的dataframe 上呢？

from pyspark.sql.types import *
diagnosis_sdf_new = diagnosis_sdf.rdd.toDF(diagnosis_sdf_tmp.schema)

2.3 pyspark dataframe 新增一列并赋值

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=functions#module-pyspark.sql.functions

统一值


from pyspark.sql import functions
df = df.withColumn('customer',functions.lit("eng_string"))

#或者这么写
df = df.select('*', (df.age + 10).alias('agePlusTen'))

不同值，写udf

from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf

def func(fruit1, fruit2):
    if fruit1 == None or fruit2 == None:
        return 3
    if fruit1 == fruit2:
        return 1
    return 0

func_udf = udf(func, IntegerType())
df = df.withColumn('new_column',func_udf(df['fruit1'], df['fruit2']))

2.4 时间格式处理与正则匹配


#1.日期和时间的转码,神奇的任意时间识别转换接口

import dateutil.parser
d = dateutil.parser.parse('2018/11-27T12:00:00')
print(d.strftime('%Y-%m-%d %H:%M:%S'))

#如果本来这一列是数据而写了其他汉字，则把这一条替换为0，或者抛弃？，置空

is_float = re.compile(r'^[-+]?[0-9]+\.[0-9]+$')

3. 缺失值的处理

pandas

pandas使用浮点值NaN(Not a Number)表示浮点数和非浮点数组中的缺失值，同时python内置None值也会被当作是缺失值。

如果其中有值为None，Series会输出None，而DataFrame会输出NaN，但是对空值判断没有影响。DataFrame使用isnull方法在输出空值的时候全为NaN

例如对于样本数据中的年龄字段，替换缺失值，并进行离群值清洗

pdf["AGE"] = pd.to_numeric(pdf["AGE"],"coerce").fillna(500.0).astype("int")

pdf[(pdf["AGE"] > 0) & (pdf["AGE"] < 150)]

自定义过滤器过滤

#Fix gender
def fix_gender(x):
    if x is None:
        return None
    if "男" in x:
        return "M"
    if "女" in x:
        return "F"
pdf["PI_SEX"] = pdf["PI_SEX"].map(fix_gender)
or
pdf["PI_SEX"] = pdf["PI_SEX"].apply(fix_gender)

或者直接删除有缺失值的行

data.dropna()

pyspark
spark 同样提供了，.dropna(…) ，.fillna(…) 等方法，是丢弃还是使用均值，方差等值进行填充就需要针对具体业务具体分析了

#查看application_sdf每一列缺失值百分比
import pyspark.sql.functions as fn
queshi_sdf = application_sdf.agg(*[(1-(fn.count(c) /fn.count('*'))).alias(c+'_missing') for c in application_sdf.columns])

queshi_pdf  = queshi_sdf.toPandas()
queshi_pdf

4. 数据质量核查与基本的数据统计

对于多来源场景下的数据，需要敏锐的发现数据的各类特征，为后续机器学习等业务提供充分的理解，以上这些是离不开数据的统计和质量核查工作，也就是业界常说的让数据自己说话。

4.1 统一单位

多来源数据，突出存在的一个问题是单位不统一，比如度量衡，国际标准是米，然而很多北美国际习惯使用英尺等单位，这就需要我们使用自定义函数，进行单位的统一换算。
比如，有时候我们使用数据进行用户年龄的计算，有的给出的是出生日期，有的给出的年龄计算单位是周、天，我们为了模型计算方便需要统一进行数据的单位统一，以下给出一个统一根据出生日期计算年龄的函数样例。

4.1.1 年龄

import datetime

def CalculateAge(str_Date):
    '''Calculates the age and days until next birthday from the given birth date'''
    try:
      Date = str_Date.split(' ')[0].split('-')
      BirthDate = datetime.date(int(Date[0]), int(Date[1]), int(Date[2]))
      Today = datetime.date.today()
      if (Today.month > BirthDate.month):
        NextYear = datetime.date(Today.year + 1, BirthDate.month, BirthDate.day)
      elif (Today.month < BirthDate.month):
        NextYear = datetime.date(Today.year, Today.month + (BirthDate.month - Today.month), BirthDate.day)
      elif (Today.month == BirthDate.month):
        if (Today.day > BirthDate.day):
          NextYear = datetime.date(Today.year + 1, BirthDate.month, BirthDate.day)
        elif (Today.day < BirthDate.day):
          NextYear = datetime.date(Today.year, BirthDate.month, Today.day + (BirthDate.day - Today.day))
        elif (Today.day == BirthDate.day):
          NextYear = 0
      Age = Today.year - BirthDate.year
      return  Age
      # if NextYear == 0: #if today is the birthday
      #   return '%d, days until %d: %d' % (Age, Age+1, 0)
      # else:
      #   DaysLeft = NextYear - Today
      #   return '%d, days until %d: %d' % (Age, Age+1, DaysLeft.days)
    except:
      return 'Wrong date format'
## 如果用在spark 的udf 中

from pyspark.sql.functions import udf
CalculateAge = udf(CalculateAge, IntegerType())
# Apply UDF function
Member_df = Member_df.withColumn("AGE", CalculateAge(Member_df['date of birthday']))

由身份证号获取年龄

import datetime

def get_age(id):
    """通过身份证号获取年龄"""
    birth_year = int(id[6:10])
    birth_month = int(id[10:12])
    birth_day = int(id[12:14])
    
    now = (datetime.datetime.now() + datetime.timedelta(days=1))
    year = now.year
    month = now.month
    day = now.day

    if year == birth_year:
        return 0
    else:
        if birth_month > month or (birth_month == month and birth_day > day):
            return year - birth_year - 1
        else:
            return year - birth_year

4.1.2 日期

清洗日期格式字段
from dateutil import parser


def clean_date(str_date):
    try:
        if str_date:
            d = parser.parse(str_date)
            return d.strftime('%Y-%m-%d')
        else:
            return None
    except Exception as e:
         return None
        

        
def clean_schema_date(spark_df,column_Date):

    func_udf_clean_date = udf(clean_date, StringType())

    for column in column_Date:
          spark_df=spark_df.withColumn(column,  func_udf_clean_date(spark_df[column]))
            
    return spark_df

4.1.3 数字

#清洗数字格式字段

#如果本来这一列是数据而写了其他汉字，则把这一条替换为0，或者抛弃？，置空


def is_number(s):
    try:
        float(s)
        return True
    except ValueError:
        pass
    return False

def clean_number(str_number):

    try:
        if str_number:

                if is_number(str_number):
                    return str_number
                else:
                    return None
        else:
            return None
    except Exception as e:
        return None



func_udf_clean_number = udf(clean_number, StringType())

                 
def clean_schema_number(spark_df,column_number):

    for column in column_number:
          spark_df=spark_df.withColumn(column,  func_udf_clean_number(spark_df[column]))
    return spark_df

4.2 去重操作

pandas

去重操作可以帮助我们统计业务的核心数据，从而迅速抓住主要矛盾。例如，对于互联网公司来说，每天有很多的业务数据，然而发现其中的独立个体的独立行为才是数据分析人员应该注意的点。

data.drop_duplicates(['column'])

pyspark

使用dataframe api 进行去除操作和pandas 比较类似

sdf.select("column1","column2").dropDuplicates()

当然如果数据量大的话，可以在spark环境中算好再转化到pandas的dataframe中，利用pandas丰富的统计api 进行进一步的分析。

pdf = sdf.select("column1","column2").dropDuplicates().toPandas()

使用spark sql，其实我觉的这个spark sql 对于传统的数据库dba 等分析师来说简直是革命性产品，例如：如下代码统计1到100测试中每一个测试次数的人员分布情况

count_sdf.createOrReplaceTempView("testnumber")

count_sdf_testnumber = spark.sql("\
SELECT tests_count,count(1) FROM \
testnumber where tests_count < 100 and lab_tests_count > 0 \
group by tests_count \
order by count(1) desc")

count_sdf_testnumber.show()

4.3 聚合操作与统计

pyspark 和pandas 都提供了类似sql 中的groupby 以及distinct 等操作的api，使用起来也大同小异，下面是对一些样本数据按照姓名，性别进行聚合操作的代码实例
pyspark

sdf.groupBy("SEX").agg(F.count("NAME")).show()

labtest_count_sdf = sdf.groupBy("NAME","SEX","PI_AGE").agg(F.countDistinct("CODE").alias("tests_count"))

spark sql


filename = "*.csv"
df = (spark
                 .read
                 .option("header","true")
                 .csv(filename)
                 .cache()
                )

df.createOrReplaceTempView("export")
df_Parents = spark.sql("SELECT STATUS,count(1) shuliang  FROM export where  TYPE = 'Parents' group by STATUS order by count(1) desc")
df_Parents.show()

pdf_Parents= df_Parents.toPandas()
pdf_Parents.plot(kind='bar')

plt.show()

顺带一句，pyspark 跑出的sql 结果集合，使用toPandas() 转换为pandas 的dataframe 之后只要通过引入matplotlib, 就能完成一个简单的可视化demo 了。

样例数据

d2 = pd.DataFrame({
    'label': [1,2,3],
    'count': [10,2,3],})

d2.plot(kind='bar')
plt.show()
d2.plot.pie(labels=['1', '2', '3'],subplots=True, figsize=(8, 4))
plt.show()

直方图，饼图

4.4 Top 指标获取

top 指标的获取说白了，不过是groupby 后order by 一下的sql 语句

5.数据导入导出

参考：数据库，云平台，oracle，aws，es导入导出实战

参考文献

做Data Mining，其实大部分时间都花在清洗数据
http://www.raincent.com/content-10-8092-1.html
基于PySpark大规模数据预处理
https://www.jianshu.com/p/b7882e9616c7

同时发表在：

https://blog.csdn.net/insightzen_xian/article/details/80659243

大数据ETL 系列文章简介

本系列文章主要针对ETL大数据处理这一典型场景，基于python语言使用Oracle、aws、Elastic search 、Spark 相关组件进行一些基本的数据导入导出实战，如：

oracle使用数据泵impdp进行导入操作。
aws使用awscli进行上传下载操作。
本地文件上传至aws es
spark dataframe录入ElasticSearch

等典型数据ETL功能的探索。

系列文章：
1.大数据ETL实践探索（1）---- python 与oracle数据库导入导出
2.大数据ETL实践探索（2）---- python 与aws 交互
3.大数据ETL实践探索（3）---- pyspark 之大数据ETL利器
4.大数据ETL实践探索（4）---- 之搜索神器elastic search
5.使用python对数据库，云平台，oracle，aws，es导入导出实战
6.aws ec2 配置ftp----使用vsftp
7.浅谈pandas，pyspark 的大数据ETL实践经验

更多资讯，请关注公众号

Python程序中对文件名后缀为.pickle 的文件认识、创建和读取介绍和程序举例 qq_18937049 Python python pickle
Python程序中对文件名后缀为.pickle的文件认识、创建和读取介绍和程序举例目录Python程序中对文件名后缀为.pickle的文件认识、创建和读取介绍和程序举例1..pickle文件概述2..pickle文件的特点2.1序列化对象2.2二进制格式2.3兼容性3.创建和读取.pickle文件3.1创建.pickle文件——pickle.dump()3.2从.pickle文件读取——pickl
PyWakeOnLan：Python 实现的轻量级 Wake-on-LAN 工具郁虹宝Lucille
PyWakeOnLan：Python实现的轻量级Wake-on-LAN工具pywakeonlanAsmallpythonmoduleforwakeonlan.项目地址:https://gitcode.com/gh_mirrors/py/pywakeonlan项目基础介绍与编程语言PyWakeOnLan是一个由RemcoHaszing开发的小巧且易于使用的Python模块，专门用于实现Wake-on
3D U-Net CNN医学图像分割项目教程尤辰城Agatha
3DU-NetCNN医学图像分割项目教程3DUnetCNNPytorch3DU-NetConvolutionNeuralNetwork(CNN)designedformedicalimagesegmentation项目地址:https://gitcode.com/gh_mirrors/3d/3DUnetCNN1.项目介绍3DU-NetCNN是由Ellisdg开发的Python实现，专门用于医学图像
开源项目PyWakeOnLan常见问题解答李申山
开源项目PyWakeOnLan常见问题解答pywakeonlanAsmallpythonmoduleforwakeonlan.项目地址:https://gitcode.com/gh_mirrors/py/pywakeonlan项目基础介绍PyWakeOnLan是一个轻量级的Python模块，用于实现Wake-on-LAN（WOL）功能。通过这个工具，开发者可以方便地发送魔包信号来远程唤醒支持WOL
我爱读书 antd
分享自己对读书的热爱。读书能让我走进一个个奇妙的世界，与古今中外的名人对话。读《西游记》，我仿佛跟随唐僧师徒四人历经九九八十一难，去往西天取经；读《海底两万里》，又如同潜入神秘的海底世界，探索未知的奥秘。读书还能让我学到知识，开阔视野，让我在知识的海洋里畅游，感受学习的乐趣。
自学记录鸿蒙API 13：PreviewKit从文件预览到应用开发 harmonyos-next
学习了一些API13之后，我决定研究一下PreviewKit（文件预览服务）。这个模块可以快速预览多种文件类型，包括文本、图片、视频、音频和PDF等，为文件管理类应用提供了系统级支持。这次学习不仅是技术上的积累，更是个人能力的全面提升。我会从实际开发的角度，带大家了解PreviewKit的功能和实现，并分享如何利用它开发出一款实用的文件预览助手应用。通过我的实践经验，希望能为其他开发者提供灵感与帮
华为OD机试E卷 - 机器人活动区域（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od 机器人 c语言 javascript python 华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述现有一个机器人，可放置于M×N的网格中任意位置，每个网格包含一个非负整数编号，当相邻网格的数字编号差值的绝对值小于等于1时，机器人可以在网格间移动。问题：求机器人可活动的最大范围对应的网格点数目。说明：网格左上角坐标为(0,0),右下角坐标为(m−1,n−1)，机器人只能在相邻网格间上下左右移动输入描述第1行输入为M和
Python基础03（循环与选择结构） XYX的Blog Python python 数据结构开发语言
Python循环与选择结构1.条件表达式绝大部分合法的Python表达式都可以作为条件表达式。在python中除了False，0，0.0，0j，None，空列表，空元组，空集合，空字典，空字符串，空range对象，其余的都与True等价函数，生成器对象都等价于True2.选择结构Python的分支控制语句，即根据表达式的判断结果，为True还是为False，选择运行程序的其中一个分支。Python
Python学习笔记 | 类与对象 MUYUN友逹 Python学习笔记类与对象
基于Python3版本的学习。初识概念：类(class)与对象(object)生活中我们所说的类，是物以类聚的类，是分门别类的类，是多个类似事物组成的群体的统称。而在Python中我们所遇到的类（class），比如整数、字符串、浮点数等，不同的数据类型就属于不同的类。准确来说，它们的全名是整数类、字符串类、浮点数类。每一个类之下都包含无数相似的不同个例。在Python的术语里，我们把类的个例就叫做
如何使用JavaScript开发AR(增强现实)移动应用 (一)
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
Python语言的数据类型疯狂小小小码农包罗万象 golang 开发语言后端
Python中的数据类型详解Python是一种多用途的编程语言，以其简单易学的语法受到广泛欢迎。为了有效地处理和表示不同类型的数据，Python为程序员提供了多种数据类型。本文将深入探讨Python中的基本数据类型、复合数据类型、标准库中的数据类型以及各类型之间的转换。一、基本数据类型1.整数（int）整数（int）是Python中的一种基本数据类型，表示没有小数部分的整数。Python中的整数可
Python语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
Python语言的计算机基础绪论在当今信息技术飞速发展的时代，编程已经成为了一种必备技能。Python凭借其简洁、易读和强大的功能，逐渐成为初学者学习编程的首选语言。本文将以Python语言为基础，探讨计算机科学的基本概念，并帮助读者更好地理解计算机的工作原理以及如何利用Python进行编程。一、Python简介Python是一种高级编程语言，由荷兰人GuidovanRossum于1991年首次发
Windows 11安装DeepSpeed报错（Unable to pre-compile async_io）问题解决 happy coding windows gpt
Windows11安装DeepSpeed报错（Unabletopre-compileasync_io）问题解决报错如下Preparingmetadata(setup.py)...errorerror:subprocess-exited-with-error×pythonsetup.pyegg_infodidnotrunsuccessfully.│exitcode:1╰─>[17linesofout
大数据最新医学图像分割 3D nnUNet全流程快速实现_医学图像分割步骤 2401_84182020 程序员大数据
第一步：选择一个你能找的路径位置（这很重要），在这个位置打开终端，输入gitclonehttps://github.com/MIC-DKFZ/nnUNet.git，将nnUNet的代码下载到这个位置第二步：终端内定位到下载的nnUNet文件夹cdnnUNet，或者直接在对应位置打开终端第三步：开始安装，pipinstall-e.2数据整理2.1数据存放形式首先，nnUNet有自己的一套数据文件夹的
用Python做一个网页我是学习编程的人多多照顾我吧求你 python
要用Python做一个网页，你可以使用Flask或Django这样的Web框架。这里以Flask为例，给出一个简单的示例：1.首先，确保你已经安装了Flask。如果没有，可以使用以下命令安装：```bashpipinstallflask```2.创建一个名为`app.py`的文件，并在其中编写以下代码：```pythonfromflaskimportFlask,render_templateapp
华为OD机试E卷 --堆栈中的剩余数字--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java 华为od javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述向一个空栈中依次存入正整数，假设入栈元素n(1<=n<=2^31-1)按顺序依次为nx…n4、n3、n2、n1,每当元素入栈时，如果n1=n2+…+ny(y的范围[2,x]，1<=x<=1000)，则n1~ny全部元素出栈，重新入栈新元素m(m=2n1)。如：依次向栈存入6、1、2、3,当
华为OD机试E卷 --机器人活动区域--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 机器人 java javascript python js
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述现有一个机器人，可放置于M×N的网格Q中任意位置，每个网格包含一个非负整数编号。当相邻网格的数字编号差值的绝对值小于等于1时，机器人可在网格间移动问题:求机器人可活动的最大范围对应的网格点数目。说明:1)网格左上角坐标为(0,0)，右下角坐标为(m-1,n-1)2）机器人只能
Python 爬虫实战案例 - 获取社交平台事件热度并进行影响分析西攻城狮北 Python实用案例 python 爬虫事件热度影响分析
目录一、引言二、数据爬取三、数据分析四、可视化展示五、总结一、引言在当今信息爆炸的时代，社交平台成为了各类事件发酵和传播的重要场所。了解社交平台上事件的热度以及其潜在影响，对于舆情监测、市场营销、社会趋势分析等领域具有重要意义。本文将通过一个实际案例，展示如何使用Python爬虫技术获取社交平台上特定事件的相关数据，并对其热度和影响进行深入分析。在本篇博客中，我们将学习如何使用Python编写一个
Python编程与在线医疗平台数据挖掘与数据应用交互性研究 Allen_LVyingbo 数智化医院2025 python 数据挖掘
一、引言1.1研究背景与意义在互联网技术飞速发展的当下，在线医疗平台如雨后春笋般涌现，为人们的就医方式带来了重大变革。这些平台打破了传统医疗服务在时间和空间上的限制，使患者能够更加便捷地获取医疗资源。据相关报告显示，中国基于互联网的医疗保健行业已进入新的发展阶段，2023年中国在线医疗服务增长显著，高质量医院和在线医疗平台取得了长足进步，在线医疗的用户规模也在持续扩大，其中在线咨询服务的用户占比较
python封装程序Failed to execute script pyi_rth_multiprocessing错误星烨无痕 pyinstaller封装程序机器学习人工智能 python
我的python程序编写环境为win10、python3.8.6，打包成exe文件后，在win10中能正常打开，没有任何问题。将程序拷贝到另一台电脑，电脑使用的是win7系统，运行程序出现Failedtoexecutescriptpyi_rth_multiprocessing错误，错误显示如下：Traceback(mostrecentcalllast):File"C:\Users\wuhen\Ap
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
从CentOS到龙蜥：企业级Linux迁移实践记录（龙蜥开局）名为逗比 linux centos 运维
引言：在我们之前的文章中，我们详细探讨了从CentOS迁移到龙蜥操作系统的基本过程和考虑因素。今天，我们将继续这个系列，重点关注龙蜥系统的实际应用——特别是常用软件的安装和配置。龙蜥操作系统（OpenAnolis）作为一个强大的企业级Linux发行版，不仅提供了稳定的基础环境，还支持广泛的软件生态系统。对于从CentOS迁移过来的用户来说，了解如何在龙蜥上安装和管理常用软件是确保平稳过渡的关键步骤
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
python多线程锁_python:线程，多线程锁，多线程递归锁八亿中产 python多线程锁
#!usr/bin/envpython#-*-coding:utf-8-*-__author__="Samson"importthreading,timedefrun(n):print("task",n)time.sleep(2)print("currentthread:",threading.current_thread())#当前线程t_obj=[]#存线程实例start_time=time.
从小白到高手：人工智能学习中的挑战与突破博雅智信人工智能深度学习机器学习 python 大语言模型
引言：人工智能学习之路充满挑战学习过程中常见的问题与困境环境安装与配置问题简单报错反复调试，时间浪费大学习进度慢，难以找到合适的方向网上资料过多，选择困难导师催进度，任务压力大不敢多问：与同事、师兄师姐的尴尬理论与实践脱节，缺乏实战经验专注力不足，容易被干扰找一个师傅带着的好处高效解决问题，避免走弯路个性化学习路线与系统化知识框架实战经验的传授与导师的成长指导1.引言：人工智能学习之路充满挑战人工
数据仓库数据质量监控：实现准确决策的关键百度_开发者中心程序人生
随着企业数据量的不断增加，数据仓库已成为企业运营的重要支柱。为了保证数据仓库中的数据能够准确、及时地支持决策，数据仓库数据质量监控变得至关重要。本文将重点介绍数据仓库数据质量监控的相关概念和实践方法。一、数据仓库数据质量监控的概念数据质量数据质量是指数据的准确性、完整性、一致性、及时性和可利用性。在数据仓库中，数据质量问题是不可避免的，因为数据来源广泛、格式多样、转换复杂，容易引入错误。数据质量监
python线条加粗_python 加粗 weixin_39765057 python线条加粗
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！背景知识：docx文件的结构分为三层，1、docment对象表示整个文档；2、docment包含了paragraph对象的列表，每个paragraph对象用来表示文档中的一个段落；3、一个paragraph对象包含run对象的列表，一个run对象就是style相同的一段文本。问题描述：
python读取word指定内容_Python-docx 读取word.docx内容 weixin_39636176
第一次写博客，也不知道要写点儿什么好，所以就把我在学习Python的过程中遇到的问题记录下来，以便之后查看，本人小白，写的不好，如有错误，还请大家批评指正！中文编码问题总是让人头疼，想要用Python读取word中的内容，用open()经常报错，上网一搜结果发现了Python有专门读取.docx的模块python_docx（只能读取.docx文件，不能读取.doc文件），用起来很方便。安装pyth
day39——多线程实例、多线程锁 weixin_33953384 java python
python的锁可以独立提取出来1mutex=threading.Lock()2#锁的使用3#创建锁4mutex=threading.Lock()5#锁定6mutex.acquire([timeout])7#释放8mutex.release()概念资源加锁其实并不是给资源加锁,而是用锁去锁定资源，你可以定义多个锁,像下面的代码,当你需要独占某一资源时，任何一个锁都可以锁这个资源就好比你用不同的锁都
python多线程锁实战_Python多线程锁 7Nut7 python多线程锁实战
在多线程程序执行过程中，为什么需要给一些线程加锁以及如何加锁，下面就来说一说。1.给线程加锁的原因我们知道，不同进程之间的内存空间数据是不能够共享的，试想一下，如果可以随意共享，谈何安全？但是一个进程中的多个线程是可以共享这个进程的内存空间中的数据的，比如多个线程可以同时调用某一内存空间中的某些数据(只是调用，没有做修改)。试想一下，在某一进程中，内存空间中存有一个变量对象的值为num=8，假如某
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

浅谈pandas，pyspark 的大数据ETL实践经验

文章大纲

0.序言

1. 数据接入

2. 脏数据的清洗

2.1 文件转码

2.2 指定列名

2.3 pyspark dataframe 新增一列并赋值

2.4 时间格式处理与正则匹配

3. 缺失值的处理

4. 数据质量核查与基本的数据统计

4.1 统一单位

4.1.1 年龄

4.1.2 日期

4.1.3 数字

4.2 去重操作

4.3 聚合操作与统计

4.4 Top 指标获取

5.数据导入导出

参考文献

大数据ETL 系列文章简介

你可能感兴趣的:(python,spark,大数据,大数据ETL实践探索)