风度78

【机器学习】机器学习中缺失值处理方法大全（附代码）

今天我们来看看数据预处理中一个有趣的问题：数据清理中，如何处理缺失值。在我们探讨问题之前，我们一起回顾一些基本术语，帮助我们了解为什么需要关注缺失值。

数据预处理中的数据清洗与机器学习方法、深度学习架构或数据科学领域的任何其他复杂方法无关。我们有数据收集、数据预处理、建模（机器学习、计算机视觉、深度学习或任何其他复杂方法）、评估，以及最后的模型部署等等。因此数据处理建模技术是一个非常大热门话题，但数据预处理有很多工作等着我们去完成。

在数据分析与挖掘过程中，会熟悉这个比例：60:40 ，这意味着 60% 的工作与数据预处理有关，有时这个比例会高至80%以上。

在这篇文章中，我们将一起学习数据预处理模块中的数据清洗。即从数据集中纠正或消除不准确、损坏、格式错误、重复或不完整的数据的做法称为数据清理。

填补缺失值的重要性

为了有效地管理数据，理解缺失值的概念很重要。如果数据工作者没有正确处理缺失的数字，他或她可能会对数据得出错误的结论，这将对建模阶段产生重大影响。这是数据分析中的一个重要问题，因为它会影响结果。在分析数据过程，当我们发现有一个或多个特征数据缺失时，此时就很难完全理解或相信由此所得到的结论或建立的模型。数据中的缺失值可能会降低研究对象的统计能力，甚至由于估计的偏差而导致错误的结果。

缺失值导致的问题

在缺乏证据的情况下，统计能力，即检验在零假设错误时拒绝该零假设的几率会降低。
数据的丢失可能导致参数估计出现偏差。
具有降低样本代表性的能力。
这可能会使研究分析更具挑战性。

缺失数据类型

根据数据集或数据中不存在的模式或数据，可以将其分类。

完全随机缺失(MCAR)
当丢失数据的概率与要获得的精确值或观察到的答案的集合无关时。
随机缺失(MAR)
当丢失响应的概率由观察到的响应的集合而不是预期达到的精确缺失值决定时。
非随机缺失(MNAR)

除了上述类别之外，MNAR 是缺失数据。MNAR 数据案例很难处理。在这种情况下，对缺失数据进行建模是获得参数的公平近似值的唯一方法。

缺失值的类别

具有缺失值的列分为以下几类：

连续变量或特征 — — 数值数据集，即数字可以是任何类型
分类变量或特征 — — 它可以是数值的或客观的类型。
例如：
客户评分 -- 差、满意、好、更好、最好
或性别 -- 男性或女性。

缺失值插补类型

插补有多种大小和形式。这是在为我们的应用程序建模以提高精度之前解决数据集中缺失数据问题的方法之一。

单变量插补或均值插补是指仅使用目标变量对值进行插补。
多元插补： 根据其他因素插补值，例如使用线性回归根据其他变量估计缺失值。
单一插补： 要构建单个插补数据集，只需在数据集中插补一次缺失值。
大量插补： 在数据集中多次插补相同的缺失值。这本质上需要重复单个插补以获得大量插补数据集。

如何处理数据集中缺失的数据

有很多方法可以处理缺失的数据。首先导入我们需要的库。

# 导入库
import pandas as pd
import numpy as np
dataset = pd.read_csv("SalaryGender.csv",sep='\t')

# 然后我们需要导入数据集，
dataset.head()

检查数据集的维度

dataset.shape

检查缺失值

print(dataset.isnull().sum())

Salary    0
Gender    0
Age       0
PhD       0
dtype: int64

01 不作任何处理

不对丢失的数据做任何事情。一方面，有一些算法有处理缺失值的能力，此时我们可以将完全控制权交给算法来控制它如何响应数据。另一方面，各种算法对缺失数据的反应不同。例如，一些算法基于训练损失减少来确定缺失数据的最佳插补值。以 XGBoost 为例。但在某些情况下算法也会出现错误，例如线性回归，此时意味着我们必须在数据预处理阶段或模型失败时处理数据缺失值，我们必须弄清楚出了什么问题。

实际工作中，我们需要根据实际情况具体分析，这里为了演示缺失值的处理方法，我们运用试错法，根据结果反推缺失值的处理方法。

# 带有缺失值的旧数据集
dataset["Age"][:10]

0    47
1    65
2    56
3    23
4    53
5    27
6    53
7    30
8    44
9    63
Name: Age, dtype: int64

02 不使用时将其删除（主要是 Rows）

排除具有缺失数据的记录是一个最简单的方法。但可能会因此而丢失一些关键数据点。我们可以通过使用 Python pandas 包的 dropna() 函数删除所有缺失值的列来完成此操作。与其消除所有列中的所有缺失值，不如利用领域知识或寻求领域专家的帮助来有选择地删除具有与机器学习问题无关的缺失值的行/列。

优点： 删除丢失的数据后，模型的鲁棒性将会变得更好。
缺点： 有用的数据丢失，不能小看了这点，这也可能很重要。但如果数据集中缺失值很多，将会严重影响建模效率。

#deleting 行 - 错过的值
dataset.dropna(inplace=True)
print(dataset.isnull().sum())

Salary    0
Gender    0
Age       0
PhD       0
dtype: int64

03 均值插补

使用这种方法，可以先计算列的非缺失值的均值，然后分别替换每列中的缺失值，并独立于其他列。最大的缺点是它只能用于数值数据。这是一种简单快速的方法，适用于小型数值数据集。但是，存在例如忽略特征相关性的事实的限制等。每次填补仅适用于其中某一独立的列。

此外，如果跳过离群值处理，几乎肯定会替换一个倾斜的平均值，从而降低模型的整体质量。

缺点： 只适用于数值数据集，不能在独立变量之间的协方差

#Mean - 缺失值
dataset["Age"] = dataset["Age"].replace(np.NaN, dataset["Age"].mean())
print(dataset["Age"][:10])

0    47
1    65
2    56
3    23
4    53
5    27
6    53
7    30
8    44
9    63
Name: Age, dtype: int64

04 中位数插补

解决上述方法中的异常值问题的另一种插补技术是利用中值。排序时，它会忽略异常值的影响并更新该列中出现的中间值。

缺点： 只适用于数值数据集，不能在独立变量之间的协方差

#Median - 缺失值
dataset["Age"] = dataset["Age"].replace(np.NaN, dataset["Age"].median())
print(dataset["Age"][:10])

05 众数插补

这种方法可应用于具有有限值集的分类变量。有些时候，可以使用最常用的值来填补缺失值。

例如，可用的选项是名义类别值（例如 True/False）还是条件（例如正常/异常）。对于诸如受教育程度之类的序数分类因素尤其如此。学前、小学、中学、高中、毕业等等都是教育水平的例子。不幸的是，由于这种方法忽略了特征连接，存在数据偏差的危险。如果类别值不平衡，则更有可能在数据中引入偏差（类别不平衡问题）。

优点： 适用于所有格式的数据。
缺点： 无法预测独立特征之间的协方差值。

#Mode - 缺失值
import statistics
dataset["Age"] = dataset["Age"].replace(np.NaN, statistics.mode(dataset["Age"]))
print(dataset["Age"][:10])

06 分类值的插补

当分类列有缺失值时，可以使用最常用的类别来填补空白。如果有很多缺失值，可以创建一个新类别来替换它们。

优点： 适用于小数据集。通过插入新类别来弥补损失
缺点： 不能用于除分类数据之外的其他数据，额外的编码特征可能会导致精度下降

dataset.isnull().sum() # 确实值 - 分类 - 解决方案 dataset["PhD"] = dataset["PhD"].fillna('U') # 检查分类中的缺失值 - 机舱 dataset.isnull().sum()

07 前一次观测结果(LOCF)

这是一种常见的统计方法，用于分析纵向重复测量数据时，一些后续观察缺失。

#LOCF - 前一次观测结果
dataset["Age"] = dataset["Age"].fillna(method ='ffill')
dataset.isnull().sum()

08 线性插值

这是一种近似于缺失值的方法，沿着直线将点按递增顺序连接起来。简而言之，它以与在它之前出现的值相同的升序计算未知值。因为线性插值是默认的方法，我们不需要在使用它的时候指定它。这种方法常用于时间序列数据集。

#interpolation - 线性
dataset["Age"] = dataset["Age"].interpolate(method='linear', limit_direction='forward', axis=0)

dataset.isnull().sum()

09 KNN 插补

一种基本的分类方法是 k 最近邻 (kNN) 算法。类成员是 k-NN 分类的结果。

项目的分类取决于它与训练集中的点的相似程度，该对象将进入其 k 个最近邻中成员最多的类。如果 k = 1，则该项目被简单地分配给该项目最近邻居的类。使用缺失数据找到与观测值最近的 k 邻域，然后根据邻域中的非缺失值对它们进行插补可能有助于生成关于缺失值的预测。

# for knn imputation - 我们需要移除归一化数据和我们需要转换的分类数据
cat_variables = dataset[['PhD']]
cat_dummies = pd.get_dummies(cat_variables, drop_first=True)
cat_dummies.head()
dataset = dataset.drop(['PhD'], axis=1)
dataset = pd.concat([dataset, cat_dummies], axis=1)
dataset.head()

# 删除不需要的功能
dataset = dataset.drop(['Gender'], axis=1)
dataset.head()

# scaling 在 knn 之前是强制性的
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
dataset = pd.DataFrame(scaler.fit_transform(dataset), columns = dataset.columns)
dataset.head()

# knn 插值
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=3)
dataset = pd.DataFrame(imputer.fit_transform(dataset),columns = dataset.columns)

#检查是否丢失
dataset.isnull().sum()

10 由链式方程 (MICE) 进行多元插补的插补

MICE 是一种通过多重插补替换数据收集中缺失数据值的方法。可以首先制作一个或多个变量中缺失值的数据集的重复副本。

#MICE
import numpy as np 
import pandas as pd
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
df = df.drop(['PassengerId','Name'],axis=1)
df = df[["Survived", "Pclass", "Sex", "SibSp", "Parch", "Fare", "Age"]]
df["Sex"] = [1 if x=="male" else 0 for x in df["Sex"]]

df.isnull().sum()
imputer=IterativeImputer(imputation_order='ascending',max_iter=10,random_state=42,n_nearest_features=5)
imputed_dataset = imputer.fit_transform(df)

写作最后

对于我们的数据集，我们可以使用上述想法来解决缺失值。处理缺失值的方法取决于我们的特征中的缺失值和我们需要应用的模型。因此，我们可以通过实错的方法来确定模型的最佳选择。

如果你对缺失值的查看感兴趣，我想你推荐这篇文章，总结了数据分析过程中非常常用的缺失值分析方法。缺失值处理，你真的会了吗？

END

往期精彩回顾




适合初学者入门人工智能的路线及资料下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载本站qq群955171419，加入微信群请扫码：

知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
输入某年某月某日，判断这一天是这一年的第几天python 发现文化fu python python
题目：输入某年某月某日，判断这一天是这一年的第几天python输入某年某月某日，判断这一天是这一年的第几天python思路：*判断闰年能被4整除但不能被100整除，年份能被400整除#方法1sum=0if(year%4==0andyear%100!=0)oryear%400==0:feb=29else:feb=28month_day=[0,31,feb,31,30,31,30,31,31,30,3
RSA加密算法不会搬砖的淡水鱼网络服务器安全
RSA加密算法：数学魔术背后的安全守护者RSA加密算法（Rivest-Shamir-Adleman）是一种广泛使用的公钥加密算法，它在信息安全领域具有重要作用。RSA是由罗纳德·李维斯特（RonRivest）、阿迪·萨莫尔（AdiShamir）和伦纳德·阿德曼（LeonardAdleman）在1977年一起提出的。当时他们三人都在麻省理工学院工作。RSA就是他们三人姓氏开头字母拼在一起组成的。RS
基础算法--欧拉函数不会搬砖的淡水鱼基础算法算法 java 数据结构
欧拉函数（Euler’stotientfunction），也称为费马函数，是一个与正整数相关的数论函数，用符号φ(n)表示。欧拉函数φ(n)定义为小于或等于n的正整数中与n互质的数的个数。RSA加密算法（Rivest-Shamir-Adleman）就是通过欧拉函数进行公钥加密。具体而言，对于给定的正整数n，欧拉函数φ(n)计算满足以下条件的k的个数：1≤k≤n，且k与n互质（即k和n的最大公约数为
基础算法--背包问题不会搬砖的淡水鱼基础算法算法 java 动态规划贪心算法
背包问题概念完全背包（无限背包）0-1背包概念背包问题是一个经典的组合优化问题，其目标是在给定的一组物品中选择一些物品放入背包中，使得物品的总价值最大化，同时要求背包的总重量不超过背包的容量限制。背包问题有两种常见的变体：完全背包和0-1背包。鉴于完全背包计算过程相对0-1背包简单，这里先讲完全背包。完全背包（无限背包）在完全背包问题中，每个物品可以选择放入背包中的次数是无限的，即可以重复选择。每
python练习3：输入某年某月某日，判断这一天是这一年的第几天？柯.姐姐 python
#输入某年某月某日，判断这一天是这一年的第几天？list=[0,31,59,90,120,151,181,212,243,273,304,334]year=int(input('请输入年份：'))month=int(input('请输入月份：'))day=int(input('请输入天：'))ifmonth>0andmonth2:result=result+1print("这是第%d天"%resu
CUDA编程基础清澜算法面试人工智能 c++算法 nvidia cuda编程
一、快速理解CUDA编程1.1CUDA简介CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法
初学python100例-案例4 计算一年第几天多种不同解法少儿编程案例讲解小兔子编程初学python100例 python学习 python100例 python计算天数 python算法 python案例
题目输入某年某月某日，判断这一天是这一年的第几天？解法1程序分析1、以5月2日为例，应该先把前四个月的加起来，2、然后再加上2天即本年的第几天，3、特殊情况，闰年且输入月份大于2时需考虑多加一天：4、闰年1、年份能被4整除；2、年份若是100的整数倍的话需被400整除，否则是平年。程序源代码：year=int(input('year:\n'))month=int(input('month:\n')
Python 的类中，self 是一个特殊的参数可可乐不加冰知识学习专栏 python 开发语言
在Python的类中，self是一个特殊的参数，它代表类的实例本身。self是方法的第一个参数，用于访问实例的属性和方法。下面我将从多个角度解释self的含义、作用以及如何使用它。1.self表示类的实例本身在Python中，当你创建一个类的实例时，实际上是在内存中创建了一个对象。self参数代表的就是这个对象本身。通过self，你可以在类的方法中访问和修改实例的属性。2.为什么需要self？se
Trae AI 上新 SSHremote：服务器 Python 接口日志排查实战指南芯作者 DD：日记人工智能深度学习机器学习
在当今的软件开发中，服务器端的稳定性和可靠性至关重要。然而，生产环境中的问题往往难以预测，尤其是接口返回502错误却无日志记录的情况，更是让开发者头疼不已。幸运的是，字节跳动推出的AI原生IDE——Trae，近期上线的SSHremote功能，为远程服务器日志排查提供了全新的解决方案。本文将结合实战案例，深入探讨如何利用TraeAI的SSHremote功能高效排查Python接口日志问题，并分享创新
Python入门程序练习004：输入某年某月某日，判断这一天是这一年的第几天？若北辰 Python实战练习
【程序4】题目：输入某年某月某日，判断这一天是这一年的第几天？1.程序分析：其实这一题的难度不在于编程，而在于对闰年有没有一些基本的认识，相信很多人都知道闰年，但是又不太清楚具体怎么判断闰年。在下面两个条件中只要满足一个即是闰年：1、能被4整除但是不能被一百整除2、能被四百整除。为了方便记忆，总结为：四年一闰,百年不闰,四百年再闰那么判断出闰年和平年（除了闰年其他都是平年）之后呢，其实只要记住：闰
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
泛目录程序：2025快云站群程序的SEO优化功能云惠科技大数据泛目录
快云站群程序的SEO优化功能围绕搜索引擎算法设计，具体包含以下核心模块：1.关键词智能布局密度检测与优化：自动分析内容关键词密度，建议合理区间（2%-8%），避免堆砌或遗漏；多词策略支持：可针对单篇内容设置主关键词+长尾词组合，覆盖更多搜索场景；标题/摘要自动生成：根据关键词智能生成高点击率的标题和Meta描述，提升搜索展示效果。2.内链自动化系统内容关联推荐：基于语义分析，自动在文章中插入相关内
python进阶，类的继承，封装，多态，super 胡萝卜糊了 python 开发语言
#单继承#子类只继承一个父类classPerson:defsay(self,value):print('say:',value)defwalk(self,value):print('walk:',value,'km')#Student类继承PersonclassStudent(Person):defstudy(self,value):print('study:',value)#Teacher类继承
python进阶，迭代器和生成器，函数式编程，闭包，装饰器胡萝卜糊了 python 开发语言
l=[1,2,3,4]it=iter(l)print(next(it))print(next(it))print(next(it))print(next(it))#while循环l=[1,2,3,4]len=len(l)i=0it=iter(l)whilei=self.end:raiseStopIterationself.current+=1returnself.current-1it=MyIte
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo