奥卡姆的剃刀

基于Python实现的数据质量检查

1:应用场景

2:外部数据数据质量评估

解决方案构思一：

2.1：评估维度——“三率”

2.2：评估维度——“三性”

2.3：评估维度——“三度”

2.4：外部数据质量检查案例

3:内部数据数据清洗及转换

3.1：时间戳格式转换

3.2：时间格式指定转换及清洗

3.3：异常日期类型&不规则日期类型转换为指定日期类型

3.4：一致性检验

3.5：异常值过滤

3.6：行缺失&列缺失信息

1:应用场景

数据分析工程师 & 算法工程师主要工作流程大体可分为：数据获取 -> 数据分析 -> 业务决策(通常算法工程师会多一项数据建模过程)。数据获取是前提，数据获取可以是通过数仓宽表进行多级关联得到的结构化数据，也可以是通过爬虫解析后获取的原始数据，后者可能未经过完整的ETL数据清洗过程，原始数据很可能存在空值、异常值、错误字符等情况。

在整个纵向的工作流程中，如果使用的基础数据有问题，基于这些数据得到的产出都是低价值甚至可能得出错误的结论，Garbage in... Garbage out...。而对于数据分析、数据挖掘而言，高质量的基础数据，才可以保证做出正确有用的决策。因此在引入外部数据之前，需要从多个维度评估数据的综合应用效果，从而为企业是否采用此数据产品提供理论依据与业务采纳参考。

本文分别从外部数据、内部数据，两个维度介绍基于Python实现的数据质量检查的基本思路和方法，具体包括：从哪些角度检查数据质量问题、发现数据质量问题后如何处理。

2:外部数据数据质量评估

解决方案构思一：

2.1：评估维度——“三率”

维度1——覆盖率：已匹配数据样本数量 / 分析样本总数
维度2——缺失率：特征缺失值样本数量 / 分析样本总数
维度3——准确率：验证一致样本数量 / 分析样本总数

2.2：评估维度——“三性”

维度4——相关性：特征相关性Pearson、Spearman系数
维度5——预测性：特征对目标变量的信息贡献度指标IV
维度6——解释性：特征分布趋势与实际业务理解是否匹配

2.3：评估维度——“三度”

维度7——区分度：模型区分度指标KS、AUC、Gini等
维度8——重要度：特征重要系数（importance、shap_value）
维度9——稳定度：特征在不同样本的分布稳定性PSI

2.4：外部数据质量检查案例

以下是经过某公开数据，id表示用户编号；date表示对应日期；flag表示业务上对应的用户标签；is_blacklist 表示是否为黑名单；credit_ability表示履约能力指数；consume_ability表示消费能力指数；travel_ability表示出行能力指数；stable_ability表示稳定能力指数。

其中，id和date表示自有业务中的相关数据，从外部三方数据中，通过关联关系得到对应的is_blacklist、credit_ability、consume_ability、travel_ability、stable_ability等信息。

总体数据概览：

可以看到，样本总数为8000个。is_blacklist、credit_ability、consume_ability、travel_ability、stable_ability这几个字段存在缺失值。

进一步，由于数据量比较小，可利用pandas_profiling，生成可视化数据分析报告，对数据分布，缺失，最大最小值、相关性热度图等分布，有更直观的认识，同时支持生成html文件方式，可进行预览分析。

import pandas_profiling 

data_test = pd.read_csv("test_data.csv")

pandas_profiling.ProfileReport(data_test)

维度1查看覆盖率：

定义：如果以上缺失字段同时为空，则表示该条数据没有从外部数据中获取到对应用户的数据：

miss_all = data_test[data_test['is_blacklist'].isnull()
                   & data_test['credit_ability'].isnull()
                   & data_test['consume_ability'].isnull()
                   & data_test['travel_ability'].isnull()
                   & data_test['stable_ability'].isnull()]

print(f'覆盖率为:{(len(data_test)-len(miss_all))/len(data_test)}') # 结果为 0.99025

维度2查看缺失率：

查看各个字段的缺失率：

miss_rate = data_test.isnull().sum()
miss_rate = miss_rate.reset_index()
miss_rate = miss_rate.rename(columns={'index': 'varname', 0: 'miss_num'})
miss_rate['miss_rate'] = miss_rate['miss_num'] / len(data_test)

miss_rate :

维度3查看准确率：

准确率计算逻辑：检查自有业务中的flag 标签与is_blacklist 黑名单信息是否匹配，如同时为好用户（数值为0），同时为坏用户（数值为1）。

verify_true = data_test[((data_test['is_blacklist'] == 1) & (data_test['flag'] == 1))
                        | ((data_test['is_blacklist'] == 0) & (data_test['flag'] == 0))]

print(f'准确率为:{(len(verify_true))/len(data_test)}') # 结果为 0.780875

维度4相关性：

var_corr = data_test[['is_blacklist',
                      'credit_ability',
                      'consume_ability',
                      'travel_ability',
                      'stable_ability']].corr(method='pearson')
var_corr

维度5和6: 预测性及可解释性(针对建模人员)

def cal_iv(data:pd.DataFrame, cut_num:int, feature:str, target:str):
    data_cut = pd.cut(data[feature], cut_num)
    cut_group_all = data[target].groupby(data_cut).count()
    cut_y = data[target].groupby(data_cut).sum()
    cut_n = cut_group_all - cut_y
    df = pd.DataFrame()
    df['sum'] = cut_group_all
    df['bad_count'] = cut_y
    df['good_count'] = cut_n
    df['bad_rate'] = df['bad_count'] / df['bad_count'].sum()
    df['good_rate'] = df['good_count'] / df['good_count'].sum()
    df['woe'] = np.log(df['bad_rate'] / df['good_rate'])
    df['iv'] = df['woe'] * (df['bad_rate'] - df['good_rate'])
    iv = df['iv'].sum()
    print(feature, 'IV:', iv)

cal_iv(data_test,10,'credit_ability','flag')

维度7区分度：以二分类模型评估指标ks值为例(针对建模人员)

def cal_ks(data:pd.DataFrame, cut_num, feature:str, target:int) ->pd.DataFrame:
    data_cut = pd.cut(data[feature], cut_num)
    cut_group_all = data[target].groupby(data_cut).count()
    cut_y = data[target].groupby(data_cut).sum()
    cut_n = cut_group_all - cut_y
    df = pd.DataFrame()
    df['sum'] = cut_group_all
    df['bad_count'] = cut_y
    df['good_count'] = cut_n
    df['bad_rate'] = df['bad_count'] / df['bad_count'].sum()
    df['good_rate'] = df['good_count'] / df['good_count'].sum()
    df['good_rate_sum'] = df['good_rate'].cumsum()
    df['bad_rate_sum'] = df['bad_rate'].cumsum()
    df['ks'] = abs(df['good_rate_sum'] - df['bad_rate_sum'])
    ks = df['ks'].max()
    print(feature, 'KS:', ks)

cal_ks(data_test, 10, 'credit_ability', 'flag')

维度8重要度：以决策树(faeture importance) 值为例(针对建模人员)

from sklearn.ensemble import ExtraTreesClassifier

#缺失值处理
import copy
data_test_s = copy.deepcopy(data_test)
data_test_s['credit_ability'] = data_test['credit_ability'].fillna(data_test['credit_ability'].mean())
data_test_s['consume_ability'] = data_test['consume_ability'].fillna(data_test['consume_ability'].mean())
data_test_s['travel_ability'] = data_test['travel_ability'].fillna(data_test['travel_ability'].mean())
data_test_s['stable_ability'] = data_test['stable_ability'].fillna(data_test['stable_ability'].mean())
data_test_s['is_blacklist'] = data_test['is_blacklist'].fillna(data_test['is_blacklist'].mean())

miss_rate = data_test_s.isnull().sum()

data_x=data_test_s.loc[:,['credit_ability','consume_ability','travel_ability',
                          'stable_ability','is_blacklist']]
data_y=data_test_s.loc[:,['flag']]

model = ExtraTreesClassifier()
model.fit(data_x,data_y)
var_importance = model.feature_importances_

for feature, importance in zip(data_x.columns, model.feature_importances_):
    print(feature,'importance',importance)

维度9稳定度：以批量计算PSI为例(针对建模人员)

def cal_psi(data:pd.DataFrame, feature:str, cut_num:int):
    data_bin = pd.cut(data[feature], cut_num)
    data_test_n = data.loc[:, ['date', feature]]
    data_bin = data_bin.reset_index()
    data_test_n = data_test_n.reset_index()
    data_bin = data_bin.rename(columns={feature: 'bin'})
    data_test_bin = data_test_n.merge(data_bin, on='index', how='inner')
    data_test1 = data_test_bin[(data_test_bin['date'] == '2021/06') | (data_test_bin['date'] == '2021/07')]
    data_test2 = data_test_bin[(data_test_bin['date'] == '2021/08') | (data_test_bin['date'] == '2021/09')]
    data_test1 = data_test1.loc[:, [feature, 'bin']]
    data_test2 = data_test2.loc[:, [feature, 'bin']]
    var_bin1 = pd.DataFrame()
    var_bin1 = data_test1.groupby(['bin']).count()
    var_bin1 = var_bin1.reset_index()
    var_bin1 = var_bin1.rename(columns={feature: 'date1_count'})
    var_bin2 = pd.DataFrame()
    var_bin2 = data_test2.groupby(['bin']).count()
    var_bin2 = var_bin2.reset_index()
    var_bin2 = var_bin2.rename(columns={feature: 'date2_count'})
    var_bin3 = var_bin1.merge(var_bin2, on='bin', how='inner')
    var_bin3.loc['10'] = ['nan', 4188 - var_bin3['date1_count'].sum(), 3812 - var_bin3['date2_count'].sum()]
    var_bin3['date1_pct'] = var_bin3['date1_count'] / 4188
    var_bin3['date2_pct'] = var_bin3['date2_count'] / 3812
    var_bin3['psi'] = (np.log(var_bin3['date1_pct'] / var_bin3['date2_pct'])) * (
            var_bin3['date1_pct'] - var_bin3['date2_pct'])
    var_bin3['psi_sum'] = var_bin3['psi'].sum()
    psi = var_bin3['psi'].sum()
    print(feature, 'PSI:', psi)

3:内部数据数据清洗及转换

这里内部数据指的是业务自有数据、数据库沉淀数据，该部分数据质量分析主要涉及数据清洗、数据转换，异常值过滤等。

3.1：时间戳格式转换

import time
import numpy as np
from math import isnan
# 输入毫秒级的时间，转出正常格式的时间
def timeStamp(timeNum):
    if timeNum is None or timeNum is np.nan or isnan(timeNum):
        return np.nan
    else:
        timeStamp = float(timeNum/1000)
        timeArray = time.localtime(timeStamp)
        otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
        return otherStyleTime

timeStamp(142343433244)

3.2：时间格式指定转换及清洗

import calendar
from datetime import datetime
from dateutil.relativedelta import relativedelta


class DateTimeUtil():

    def get_cur_month(self):
        # 获取当前月
        return datetime.now().strftime("%Y-%m")

    def get_last_month(self, number=1):
        # 获取前几个月
        month_date = datetime.now().date() - relativedelta(months=number)
        return month_date.strftime("%Y-%m")

    def get_next_month(self, number=1):
        # 获取后几个月
        month_date = datetime.now().date() + relativedelta(months=number)
        return month_date.strftime("%Y-%m")

    def get_cur_month_start(self):
        # 获取当前月的第一天
        month_str = datetime.now().strftime('%Y-%m')
        return '{}-01'.format(month_str)

    def get_cur_month_end(self):
        # 获取当前月的最后一天
        '''
        param: month_str 月份，2021-04
        '''
        # return: 格式 %Y-%m-%d

        month_str = datetime.now().strftime('%Y-%m')
        year, month = int(month_str.split('-')[0]), int(month_str.split('-')[1])
        end = calendar.monthrange(year, month)[1]
        return '{}-{}-{}'.format(year, month, end)

    def get_last_month_start(self, month_str=None):
        # 获取上一个月的第一天
        '''
        param: month_str 月份，2021-04
        '''
        # return: 格式 %Y-%m-%d
        if not month_str:
            month_str = datetime.now().strftime('%Y-%m')
        year, month = int(month_str.split('-')[0]), int(month_str.split('-')[1])
        if month == 1:
            year -= 1
            month = 12
        else:
            month -= 1
        return '{}-{}-01'.format(year, month)

    def get_next_month_start(self, month_str=None):
        # 获取下一个月的第一天
        '''
        param: month_str 月份，2021-04
        '''
        # return: 格式 %Y-%m-%d
        if not month_str:
            month_str = datetime.now().strftime('%Y-%m')
        year, month = int(month_str.split('-')[0]), int(month_str.split('-')[1])
        if month == 12:
            year += 1
            month = 1
        else:
            month += 1
        return '{}-{}-01'.format(year, month)

    def get_last_month_end(self, month_str=None):
        # 获取上一个月的最后一天
        '''
        param: month_str 月份，2021-04
        '''
        # return: 格式 %Y-%m-%d
        if not month_str:
            month_str = datetime.now().strftime('%Y-%m')
        year, month = int(month_str.split('-')[0]), int(month_str.split('-')[1])
        if month == 1:
            year -= 1
            month = 12
        else:
            month -= 1
        end = calendar.monthrange(year, month)[1]
        return '{}-{}-{}'.format(year, month, end)

    def get_next_month_end(self, month_str=None):
        # 获取下一个月的最后一天
        '''
        param: month_str 月份，2021-04
        '''
        # return: 格式 %Y-%m-%d
        if not month_str:
            month_str = datetime.now().strftime('%Y-%m')
        year, month = int(month_str.split('-')[0]), int(month_str.split('-')[1])
        if month == 12:
            year += 1
            month = 1
        else:
            month += 1
        end = calendar.monthrange(year, month)[1]
        return '{}-{}-{}'.format(year, month, end)


if __name__ == '__main__':
    # 获取当前月
    print('当前月', DateTimeUtil().get_cur_month())
    # 获取上一个月
    print('上一个月', DateTimeUtil().get_last_month())
    # 获取上两个月
    print('上两个月', DateTimeUtil().get_last_month(number=2))
    # 获取下一个月
    print('下一个月', DateTimeUtil().get_next_month())
    # 获取下两个月
    print('下两个月', DateTimeUtil().get_next_month(number=2))
    # 获取当前月的第一天
    print('当前月的第一天', DateTimeUtil().get_cur_month_start())
    # 获取当前月的最后一天
    print('当前月的最后一天', DateTimeUtil().get_cur_month_end())
    # 获取上个月的第一天
    print('上个月的第一天', DateTimeUtil().get_last_month_start())
    # 获取下个月的第一天
    print('下个月的第一天', DateTimeUtil().get_next_month_start())
    # 获取上个月的最后一天
    print('上个月的最后一天', DateTimeUtil().get_last_month_end())
    # 获取下个月的最后一天
    print('下个月的最后一天', DateTimeUtil().get_next_month_end())

3.3：异常日期类型&不规则日期类型转换为指定日期类型

str1='2019-01-08'
str2='2019-1-8 00:00:00'
str3='2019年1月8日'
str4='2019年01月08日'
str5='2019/1/8'
str6='2019/01/08 00:00'
str7='2019-1-8'
 
def strToDate(str_date):
    str_date=str_date.strip()
    year=1900
    month=1
    day=1
    if(len(str_date)>11):
        str_date=str_date[:11]
    if(str_date.find('-')>0):
        year=str_date[:4]
        if(year.isdigit()):
            year=int(year)
        else:
            year=0
        month=str_date[5:str_date.rfind('-')]
        if(month.isdigit()):
            month=int(month)
        else:
            month=0
        if(str_date.find(' ')==-1):
            day=str_date[str_date.rfind('-')+1:]
        else:
            day=str_date[str_date.rfind('-')+1:str_date.find(' ')]
        if(day.isdigit()):
            day=int(day)
        else:
            day=0
    elif(str_date.find('年')>0):
        year=str_date[:4]
        if(year.isdigit()):
            year=int(year)
        else:
            year=0
        month=str_date[5:str_date.rfind('月')]
        if(month.isdigit()):
            month=int(month)
        else:
            month=0
        day=str_date[str_date.rfind('月')+1:str_date.rfind('日')]
        if(day.isdigit()):
            day=int(day)
        else:
            day=0
    elif(str_date.find('/')>0):
        year=str_date[:4]
        if(year.isdigit()):
            year=int(year)
        else:
            year=0
        month=str_date[5:str_date.rfind('/')]
        if(month.isdigit()):
            month=int(month)
        else:
            month=0
        if(str_date.find(' ')==-1):
            day=str_date[str_date.rfind('/')+1:]
        else:
            day=str_date[str_date.rfind('/')+1:str_date.find(' ')]
        if(day.isdigit()):
            day=int(day)
        else:
            day=0
    else:
        year=1900
        month=1
        day=1
    if month<10:
        month='0'+str(month)
    if day<10:
        day='0'+str(day)
    return '%s-%s-%s' % (year,month,day)

if __name__ == '__main__':
    print(strToDate('2017/12/22  a'))
    print(strToDate('2017/12/22'))
    print(strToDate('2017-12-22  a'))
    print(strToDate('2017-12-22  --   '))
    print(strToDate('   2017-12-22'))

    print(strToDate('2017年12月22日 a'))
    print(strToDate('2017年12月22日'))
    print(strToDate('2017年12月22日     '))

3.4：一致性检验

def feature_Percentage(data_frame:pd.DataFrame,percentage:float,col_remain:list)->pd.DataFrame:
    set1 = set()
    feature_more_data = []
    feature_remain = []
    for col in data_frame.columns:
        res = data_frame[col].value_counts()
        for value in res.values:
            if value/data_frame.shape[0] > percentage:
                set1.add(col)
    if(isinstance(data_frame,pd.DataFrame)):
        feature_more_data = list(set1)
        for col in data_frame.columns:
            if col not in feature_more_data:
                if col not in col_remain:
                    feature_remain.append(col)
        feature_remain.extend(col_remain)
        return data_frame[feature_remain]
    else:
        return 0
    return data_frame[feature_remain]

3.5：异常值过滤

def outlier_processing(df:pd.DataFrame, col:str)->pd.DataFrame:
    """
    离群值处理
    :param df:
    :param col:
    :return:
    """
    s = df[col]
    oneQuoter = s.quantile(0.25)
    threeQuote = s.quantile(0.75)
    irq = threeQuote-oneQuoter
    min = oneQuoter-1.5*irq
    max = threeQuote+1.5*irq
    df = df[df[col] <= max]
    df = df[df[col] >= min]
    return df

3.6：行缺失&列缺失信息

过滤掉指定字段中，缺失值占比超过指定比例的字段

#  统计列缺失
def analyseColLackPer(data:pd.DataFrame,number:float)->pd.DataFrame:
    col_percent = data.apply(lambda x : np.sum(x.isna())/len(data))
    col_lack_list = list(col_percent[col_percent > number].index)
    col_remian = [col for col in data.columns if col not in col_lack_list]
    return data[col_remian]

data = analyseColLackPer(data,0.6)

过滤掉指定行记录中，缺失值占比超过指定比例的字段


#  统计行缺失
def analyseRowLackPer(data:pd.DataFrame,percentage:float)->pd.DataFrame:
    row_percent = data.isnull().sum(axis = 1)
    row_index = []
    for number,value in enumerate(row_percent):
        percent = value/data.shape[1]
        if(percent > percentage):
            row_index.append(number)
    data = data.drop(index = row_index)
    return data

data = analyseRowLackPer(data,0.5)

Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
python笔记1 lu_32 python
1.计算面积与周长：r=8s=r*rprint("面积是")print(s)z=r+r+r+rprint("周长是")print(z)#面积是#64#周长是#322.输入圆的半径，计算出圆的面积和周长：r=input("请输入半径：")r=float(r)s=3.14*r*rprint("圆的面积：",s)r=input("请输入圆的半径")r=int(r)s=3.14*r*rprint("圆的半
String类型为什么不可变 27xixi java高频 java
在大多数编程语言（如Java、Python、C#等）中，String类型被设计为不可变（Immutable），这意味着一旦一个字符串对象被创建，它的值就不能被修改。以下是这一设计的原因及具体表现：一、不可变性的表现直接修改字符串会创建新对象Stringstr="Hello";str=str+"World";//实际是创建了一个新字符串对象，而非修改原对象原字符串“Hello”未被修改，而是生成了新
Flet 项目常见问题解决方案龙香令Beatrice
Flet项目常见问题解决方案fletFletenablesdeveloperstoeasilybuildrealtimeweb,mobileanddesktopappsinPython.Nofrontendexperiencerequired.项目地址:https://gitcode.com/gh_mirrors/fl/flet1.项目基础介绍和主要编程语言Flet是一个开源框架，允许开发者在Py
Flet 框架教程樊贝路Strawberry
Flet框架教程fletFletenablesdeveloperstoeasilybuildrealtimeweb,mobileanddesktopappsinPython.Nofrontendexperiencerequired.项目地址:https://gitcode.com/gh_mirrors/fl/flet1.项目介绍Flet是一个框架，它允许开发者使用Python轻松构建实时的Web、
Python字符串 DDD小小小宇宙 python 开发语言
字符串1.程序中需要加上双引号或者双引号来表示字符串2.字符串可以存放任意数量的字符，无法修改的数据容器字符串运算：加法：多个字符串按照次序合并为一个字符串在实际使用的时候，数字和字符串的加法通常需要将数字的类型转换成str乘法：1个字符串乘以n，可以得到n个复制的字符串例子：输入一个字符，使用该字符打印一个3层的金字塔x=input(':')print(""+x)print(""+x+x+x)p
Python入门指南：从简介到安装小团团0 开发语言 python
Python简介Python是一种高级编程语言，由荷兰程序员GuidovanRossum于1989年圣诞节期间开始设计，并于1991年发布了第一个公开发行版。Python的命名源于英国喜剧团体MontyPython，Guido以此表达对该喜剧团体的喜爱。Python的特点主要体现在以下几个方面：解释型语言：Python是一种解释型语言，这意味着在开发过程中无需编译，可以直接运行源代码。交互式语言：
Python扑克牌小游戏 Small踢倒coffee_氕氘氚笔记经验分享
1.游戏规则概述玩家人数：3人牌数：一副扑克牌，共54张（包括大小王）发牌：每人17张牌，剩余3张作为底牌出牌规则：玩家依次出牌，必须出比上家更大的牌型，或者选择不出胜利条件：先出完手中牌的玩家获胜2.游戏框架设计2.1牌型定义classCard:def__init__(self,suit,rank):self.suit=suit#花色：♠,♥,♣,♦self.rank=rank#牌面：3,4,5
探索Pydoll：基于Python的无驱动浏览器自动化新星几道之旅人工智能智能体及数字员工 python 自动化人工智能
在当今Web自动化与数据抓取领域，基于Chromium的工具层出不穷，但大多数方案依赖WebDriver或额外的浏览器插件。Pydoll作为一款新兴的Python库，以无驱动架构和原生异步支持迅速成为开发者关注的焦点。本文将从技术原理、核心功能、应用场景及实战案例多角度解析这一工具。一、Pydoll项目概览Pydoll由开发者thalissonvs等团队维护，旨在通过Python实现对Chromi
python opencv轮廓检测_python opencv中的不规则形状检测和测量 weixin_39584529 python opencv轮廓检测
正如我在评论中提到的那样,对于这个问题,分水岭似乎是一个很好的方法.但是当你回答时,定义标记的前景和背景是困难的部分！我的想法是使用形态梯度沿着冰晶获得良好的边缘并从那里开始工作;形态梯度似乎很有效.importnumpyasnpimportcv2img=cv2.imread('image.png')blur=cv2.GaussianBlur(img,(7,7),2)h,w=img.shape[:
【DuodooTEKr】基于Python+OCR+DeepSeek的英国购物小票识别系统开发实战邹工拆解甲方需求风吟九宵 Odoo18开源 Duodoo开源人工智能物联网制造开源 python
作者：Odoo技术开发/资深信息化负责人日期：2025年3月11日本方案从甲方信息化负责人视角，分析梳理现状，并给出代码开发案例。一、行业现状与痛点分析1.英国零售业数字化现状根据英国零售协会（BRC）2023年度报告显示：英国年均纸质小票签发量达78亿张87%的企业仍采用人工录入方式处理小票数据零售业每年因小票管理产生的直接成本超12亿英镑2.传统小票管理痛点数据孤岛问题：门店POS系统、财务系
用Python打造AI玩家：挑战2048，谁与争锋穿梭的编织者人工智能 python
文章目录一、创作背景二、效果图三、准备工作1.安装Chrome和ChromeDriver2.安装Python库四、代码说明‌1.init_driver函数‌2.play_2048函数‌五、完整代码六、改进版本七、主要模块八、核心算法分析1.棋盘状态获取2.位置权重系统3.连续性评估4.单调性评估5.移动模拟系统九、评估系统1.评估标准2.决策机制十、性能优化1.延迟控制2.错误处理十一、完整代码编
Python爬虫相关内容猫猫头有亿点炸 python 爬虫开发语言
一、打开源代码的方式鉴于时间过很久后我们可能会忘记的源代码位置所以写下以下文章便于实时查看:一般有两种方法打开源代码:第一是f12第二右键查看网页源代码二、特殊情况第三种情况当你用爬虫爬取内容的时候可能用xpath还是匹配不到任何结果因为页面可能会自动刷新所以使用xpath的时候匹配不到任何内容查找源代码的示例图片三、解决办法这个时候你可以先->f12(笔记本电脑fn+f12)再->ctrl+sh
CESM1.2.1移植使用说明 ༊.枕星＇听光.ঌ 人工智能 linux
文章目录概述环境配置cesm1_2_1配置部分环境软件压缩包改变CLM陆面模式结果文件的输出变量、特征值及频率小结概述记录用户如何在Linux系统上移植CESM1.2.1模型，并且使用CLM4.5模式创建并单点模拟算例I_2000_CLM45。环境配置1.更新系统软件源2.更新系统安装软件安装git、make、python等。3.安装MPI(openmpi4.1.5)//下载并解压进入文件夹wge
vs2019 Qt C++中调用python代码路奇怪 Visual Studio qt c++
目录1.添加依赖库，.lib，include2.修改python.h文件3.环境搭建好了下面是测试代码部分4.如果按照面上走可能会出现的问题：5.Qt+vs+python6.说一下这里调py的主要步骤借鉴几位大佬（吐槽一下各种坑啊）混合编程之——C++调用python2.7&python3.5-CSDN博客c++调用python(复杂版)_c++调用python复杂库-CSDN博客环境配置：1.添
python 基于混合式推荐算法的学术论文投稿系统 mosquito_lover1 python 知识图谱
基于混合式推荐算法的学术论文投稿系统是一个结合多种推荐技术（如基于内容的推荐、协同过滤、知识图谱等）来为研究者推荐合适期刊或会议投稿的系统。以下是实现该系统的关键步骤和Python代码示例。系统设计思路1.数据收集与预处理：-收集论文数据（标题、摘要、关键词、作者信息等）。-收集期刊/会议数据（领域、主题、影响因子、投稿要求等）。-对文本数据进行预处理（分词、去停用词、向量化等）。2.推荐算法设计
python hack库_这里有123个黑客必备的Python工具！ weixin_39637571 python hack库
123个Python渗透测试工具，当然不仅于渗透~如果你想参与漏洞研究、逆向工程和渗透，我建议你时候用Python语言。Python已经有很多完善可用的库，我将在这里把他们列出来。这个清单里的工具大部分都是Python写成的，一部分是现有C库的Python绑定，这些库在Python中都可以简单使用。一些强力工具(pentestframeworks、bluetoothsmashers、webappl
如何用爬虫根据关键词获取商品列表：一份简单易懂的代码示例 API小爬虫爬虫
在当今数字化时代，网络爬虫已经成为数据收集和分析的强大工具。无论是市场调研、价格监控还是产品分析，爬虫都能帮助我们快速获取大量有价值的信息。今天，我们就来探讨如何通过编写一个简单的爬虫程序，根据关键词获取商品列表。以下是一个基于Python语言的代码示例，适合初学者学习和实践。一、准备工作在开始编写爬虫之前，我们需要准备以下工具和库：Python环境：确保你的电脑上安装了Python。推荐使用Py
【Python】构建Web应用的首选：Flask框架基础与实战萧鼎 python基础到进阶教程 python 前端 flask
构建Web应用的首选：Flask框架基础与实战在Python的Web开发生态中，Flask框架以其轻量、灵活和易用的特性成为构建Web应用的首选之一。无论是快速搭建一个小型应用原型，还是构建复杂的后端服务，Flask都提供了便捷的接口和丰富的扩展支持。本博客将介绍Flask的基础知识和核心概念，并通过一个简单的实例展示如何用Flask构建Web应用。一、Flask框架简介Flask是由ArminR
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
fastapi和php,Sanic vs Fastapi 性能对比扫盲君 fastapi和php
Sanic，Fastapi都是优秀的pythonweb异步框架，找了半天没找到靠谱的性能对比测试，只能自己做一个。测试内容：纯get请求、异步ORM读测试工具：WRK测试代码：由于两者代码非常相似，本文就直接放上fastapi的代码demo了。1、纯get请求压测：1.1：代码代码demo1.2:结果1.2.1SanicRunning30stest@http://0.0.0.0:7006/4thr
基于异构特征融合与轻量级集成学习的软件漏洞挖掘方案设计与Python实现 rockmelodies 信息安全网络安全机器学习集成学习 python 机器学习人工智能
标题：基于异构特征融合与轻量级集成学习的软件漏洞挖掘方案设计与Python实现一、方案设计原理异构特征工程静态特征：基于AST的代码属性图（CPG）解析（使用Joern+NetworkX）动态特征：内存访问模式分析（通过QEMU模拟执行）上下文特征：CWE漏洞模式匹配（集成Semgrep规则引擎）轻量级模型架构
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
《Operating System Concepts》阅读笔记：p309-p330 操作系统
《OperatingSystemConcepts》学习第29天，p309-p330总结，总计22页。一、技术总结1.Python中的并发编程(1)semaphoreclassthreading.Semaphore(value=1)。(2)conditionvariableclassthreading.Condition(lock=None)书上使用的是Java,因本人在开发工作中使用的是Pytho
PDF合并工具，免费快捷开源。python脚本实例演示 zhangood pdf python 开源
主要功能：完全免费相当方便可以合并PDF合并后自动删除原始PDF可设置原始文件夹，和目标文件夹路径支持生成EXE可执行文件，可在非python环境运行通过python脚本编写的，先给大家看脚本，方便了解配置和学习。importosfromPyPDF2importPdfMergerfromosimportlistdirresource_path='D:/111111/'#设定源文件夹，把要合并的pd
Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
Python包管理不再头疼：uv工具快速上手马岛 python uv 开发语言
Python包管理生态中存在多种工具，如pip、pip-tools、poetry、conda等，各自具备一定功能。而今天介绍的uv是Astral公司推出的一款基于Rust编写的Python包管理工具，旨在成为“Python的Cargo”。它提供了快速、可靠且易用的包管理体验，在性能、兼容性和功能上都有出色表现，为Python项目的开发和管理带来了新的选择。1.为什么用uv与其他Python中的包管
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
利用python 执行统计模型: 渔好学 python
利用python执行统计模型:http://www.statsmodels.org/stable/index.html
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

基于Python实现的数据质量检查

1:应用场景

2:外部数据数据质量评估

解决方案构思一：

2.1：评估维度——“三率”

2.2：评估维度——“三性”

2.3：评估维度——“三度”

2.4：外部数据质量检查案例

3:内部数据数据清洗及转换

3.1：时间戳格式转换

3.2：时间格式指定转换及清洗

3.3：异常日期类型&不规则日期类型 转换为指定日期类型

3.4：一致性检验

3.5：异常值过滤

3.6：行缺失&列缺失信息

你可能感兴趣的:(Python,python)

3.3：异常日期类型&不规则日期类型转换为指定日期类型