简说Python

用 Pyjanitor 更好地进行数据清洗与处理

作者｜100gle

来源｜zhihu.com/p/166552799

编辑｜Python中文社区

随着使用 Python 和 R 语言次数的增加，对于这两门语言在数据科学领域的优劣性有着深刻的体会。

R 语言社区活跃且包丰富多样，Tidyverse 风潮更是让这门语法怪异的编程语言焕发新生，也让其在数据处理和分析的能力上更进一步，但 R 语言相比于 Python 来说又缺乏了通用性；数据科学对于 Python 来说仅仅只是其中一个领域，随着 Numpy 和 Pandas 构建起来的生态圈蓬勃发展，也成为了一个与 R 语言在数据科学领域强有力的竞争对手，但尽管 Pandas 已经涵盖了大部分我们平时处理和分析数据时的基本需求，可在流程和方法上却又总比 R 语言匮乏不少。

通常来说，如果是一些数据处理或清洗的工作或任务，我更喜欢使用 R 语言，因为得益于 Hadly Wickham 等人的努力，R 语言有着一套舒服的操作流程，如管道操作符 %>%、函数式编程 purrr 包、使用 nest() 函数来构造统一颗粒度的包裹性数据等。但在工作中使用一门编程语言往往既要考虑通用性，还要考虑团队的协作性，因此在实际工作中我使用更多的是 Python 而非 R 语言。

在使用 Pandas 进行数据处理时，有时候会碰上一些本该很容易处理但却还要额外多定义一个函数的情况。

比如我数据中有两个字段 a 和 b，但是两个字段或多或少都有缺失值。

In [2]: import pandas as pd
   ...: import numpy as np
   ...:
   ...: df = pd.DataFrame(
   ...:     {
   ...:         "a": [None, 2, None, None, 5, 6],
   ...:         "b": [1, None, None, 4, None, 6]
   ...:     }
   ...: )
   ...: df
Out[2]:
     a    b
0  NaN  1.0
1  2.0  NaN
2  NaN  NaN
3  NaN  4.0
4  5.0  NaN
5  6.0  6.0

所以我需要定义一个新的字段 c，它由两个字段构建而来。如果第一个字段中存在缺失值，则取第二个字段中的值，反之亦可；如果两者都为缺失，则保留缺失值。

为了实现这个目的通常来说都是定义一个函数，然后用 apply() 方法来生成：

In [3]: def get_valid_value(col_x, col_y):
   ...:     if not pd.isna(col_x) and pd.isna(col_y):
   ...:         return col_x
   ...:     elif pd.isna(col_x) and not pd.isna(col_y):
   ...:         return col_y
   ...:     elif not (pd.isna(col_x) or pd.isna(col_y)):
   ...:         return col_x
   ...:     else:
   ...:         return np.nan
   ...:
   ...: df['c'] = df.apply(lambda x: get_valid_value(x['a'], x['b']), axis=1)
   ...: df
Out[3]:
     a    b    c
0  NaN  1.0  1.0
1  2.0  NaN  2.0
2  NaN  NaN  NaN
3  NaN  4.0  4.0
4  5.0  NaN  5.0
5  6.0  6.0  6.0

这种需求其实很常见，在 SQL 中存在 coalesc() 这样一个函数，实现的就是上述我所描述的这种拼凑字段的做法；在 R 语言的 dplyr 包中也已经实现了 SQL 同名函数一样的方法。而 Pandas 只实现了不同 DataFrame 间的方法 DataFrame.combine()，并没有实现单个 DataFrame 中字段的 coalesc() 方法。但好在 pyjanitor 弥补了 Pandas 在处理数据时的一些不足，而且也能更好地嵌入到我们的工作流中。这也就是为什么本文要谈论 pyjanitor 的原因。

与链式方法紧密结合的操作方式

pyjanitor 库的灵感来自于 R 语言的 janitor 包，英文单词即为清洁工之意，也就是通常用来进行数据处理或清洗数据。pyjanitor 脱胎于 Pandas 生态圈，其使用的核心也是围绕着链式展开，可以使得我们更加专注于每一步操作的动作或谓词（Verbs）。

pyjanitor 的 API 文档并不复杂，大多数 API 都是围绕着通用的清洗任务而设计。这主要涉及为几部分：

操作列的方法（Modify columns）
操作值的方法（Modify values）
用于筛选的方法（Filtering）
用于数据预处理的方法（Preprocessing），主要是机器学习特征处理的一些方法
其他方法

由于篇幅有限，不能将每个方法都一一举例，这里我就只挑其中几个方法给出使用示例。

需要注意的是，尽管 pyjanitor 库名称带有 py 二字，但是在导入时则是输入 janitor；就像 Beautifulsoup4 库在导入时写为 bs4 一样，以免无法导入而报错。

coalesc

有了 pyjanitor 之后，开头我举的例子其实就可以通过 coalesc() 方法来快速实现，就像这样：

In [8]: import pandas as pd
   ...: import janitor
   ...:
   ...: df = pd.DataFrame(
   ...:     {
   ...:         "a": [None, 2, None, None, 5, 6],
   ...:         "b": [1, None, None, 4, None, 6]
   ...:     }
   ...: )
   ...:
   ...: df.coalesce(column_names=['a','b'],
   ...:             new_column_name='c',
   ...:             delete_columns=False)
Out[8]:
     a    b    c
0  NaN  1.0  1.0
1  2.0  NaN  2.0
2  NaN  NaN  NaN
3  NaN  4.0  4.0
4  5.0  NaN  5.0
5  6.0  6.0  6.0

从结果上可以看到，我们不需要再额外写一个方法，直接就可以以符合直觉的方式来完成相应的操作。

concatenate_columns 和 deconcatnate_column

如果你有使用过 R 语言 tidyr 包的 unite() 函数和 separate() 函数，那么其实使用 pyjanitor 的 concatenate_columns() 和 deconcatnate_column() 就不会陌生，前者是将多个列根据某个分隔符合并成一个新列，而后者则是将单个列拆分成多个列。这里我们假设数据中有一个关于日期时间的字段，围绕这个字段来进行演示：

In [1]: import pandas as pd
   ...: import janitor
   ...:
   ...: df = pd.DataFrame({"date_time": ["2020-02-01 11:00:00",
   ...:                                  "2020-02-03 12:10:11",
   ...:                                  "2020-03-24 13:24:31"]})

In [2]: (
   ...:     df
   ...:     .deconcatenate_column(
   ...:         column_name="date_time",
   ...:         new_column_names=['date', 'time'],
   ...:         sep=' ',
   ...:         preserve_position=False
   ...:     )
   ...:     .deconcatenate_column(
   ...:         column_name="date",
   ...:         new_column_names=['year', 'month', 'day'],
   ...:         sep='-',
   ...:         preserve_position=True
   ...:     )
   ...:     .concatenate_columns(
   ...:         column_names=['year', 'month', 'day'],
   ...:         new_column_name='new_date',
   ...:         sep='-'
   ...:     )
   ...: )
Out[2]:
             date_time  year month day      time    new_date
0  2020-02-01 11:00:00  2020    02  01  11:00:00  2020-02-01
1  2020-02-03 12:10:11  2020    02  03  12:10:11  2020-02-03
2  2020-03-24 13:24:31  2020    03  24  13:24:31  2020-03-24

这个例子可能有些无聊，但是能很清楚地看到这两个方法帮我们顺利地将数据中的字段进行拆分和合并，虽然说我们可以直接通过 assign() 方法来实现变量赋值，但是不可避免的要写三遍；同时尽管 Pandas 已经可以通过 str.split(sep, expand=True) 的方式来对字符类型字段进行分隔并转换成相应的字段，但是最后返回的是一个新的 DataFrame，不能直接和原有的数据合并在一起。

从结果中我们可以看到，pyjanitor 提供的方法可以帮助我们很好地保持数据的一致性和统一性。

take_first

有的时候，我们会 groupby() 某个字段并对一些数值列进行操作、倒序排列，最后每组取最大的数即倒序后的第一行。在 R 语言中我们可以很轻易直接这么实现：

library(dplyr)

df <- data.frame(a = c("x", "x", "y", "y", "y"),
                 b = c(1, 3, 2, 5, 4))

df %>% 
  group_by(a) %>% 
  arrange(desc(b)) %>% 
  slice(1) %>% 
  ungroup()

#  A tibble: 2 x 2
#   a         b
#    
# 1 x         3
# 2 y         5

在没使用 pyjanitor 之前，我往往都是通过 Pandas 这么实现的：

In [1]: import pandas as pd
   ...:
   ...: df = pd.DataFrame({"a":["x", "x", "y", "y", "y"],
   ...:                    "b":[1,3,2,5,4]})
   ...: (
   ...:     df
   ...:     .groupby("a")
   ...:     .apply(lambda grp: grp
   ...:                 .sort_values(by="b", ascending=False)
   ...:                 .head(1))
   ...:     .reset_index(drop=True)
   ...: )
Out[1]:
   a  b
0  x  3
1  y  5

这里利用了 groupby 之后的生成的 DataFrameGroupBy 对象再进行多余的降序取第一个的操作，最后将分组后产生的索引值删除。现在可以直接使用 pyjanitor 中的 take_first 方法直接一步到位：

In [1]: import pandas as pd
   ...: import janitor
   ...:
   ...: df = pd.DataFrame({"a":["x", "x", "y", "y", "y"],
   ...:                    "b":[1,3,2,5,4]})
   ...: df.take_first(subset="a", by="b", ascending=False)
Out[1]:
   a  b
3  y  5
1  x  3

除了以上列举的方法之外，还有许多方法等待各位去探索，详见官方文档，官方文档上还贴心的给出了一些实际的用法和案例；只要你熟练使用了 Pandas 那么很快就能掌握 pyjanitor 库的大部分方法。

「有 Pandas 内味儿」——实现你的 janitor 方法

pyjanitor 中的方法仅仅只是一些通用的实现方法，不同的人在使用过程中可能也会有不同的需要。但好在我们也可以实现自己的「janitor」方法。

pyjanitor 得益于 pandas-flavor 库的加持得以轻松实现链式方法，链式方法的简单实现原理见我之前的文章《5 分钟解读 Python 中的链式调用》。

pandas-flavor 提供了能让使用者简单且快速地编写出**带有「 Pandas 味儿」**的方法：

第一步，只需要在你编写的函数、方法或类中添加对应的装饰器即可；
第二步，确保最后返回的是 DataFrame 或 Series 类的对象即可。

比如我们写一个简单清理数据字段或变量名称多余空格的方法：

import pandas as pd
import pandas_flavor as pf

@pf.register_dataframe_method
def strip_names(df):
    import re

    colnames = df.columns.tolist()
    colnames = list(map(lambda col: '_'.join(re.findall(r"\w+", col)), colnames))
    df.columns = colnames
    return df

最后结果如下：

In [14]: data = pd.DataFrame({" a ": [1,1], "  b  zz  ": [2,1]})
    ...: data
Out[14]:
    a     b  zz
0    1          2
1    1          1

In [15]: data.strip_names()
Out[15]:
   a  b_zz
0  1     2
1  1     1

本质上来说，pandas-flavor 库中提供的装饰器就等价于重写或新增了 DataFrame 类的方法，在使用过程中如果方法有报错，那就需要还原加载 pandas 库之后再重新写入。

关于 pandas-flavor 装饰器的用法，详见项目的 Github（https://github.com/Zsailer/pandas_flavor）

结尾

通过 pyjanitor 库我们可以更进一步地丰富我们在处理数据时的工作流，并且借助链式方法的特性来缩短数据分析或挖掘过程的耗时。

但也正如我在之前谈论有关链式调用的文章中所提到的，随着链式调用的方法或过程的增多，出错的几率也会大大增加。只有当你确定以及肯定经过每一步处理后返回的结果与你预期中的呈现形式相符时，才能保证链式方法链的稳健。

无论如何，pyjanitor 从一定程度上也扩展了 Pandas 生态在处理数据上的多样性和玩法。

作者：100gle，练习时长不到两年的非正经文科生一枚，喜欢敲代码、写写文章、捣鼓捣鼓各种新事物；现从事有关大数据分析与挖掘的相关工作。



一起学Java




一起学Python

------------------


如果觉得文章有点用的话，请毫不留情地素质三连吧，分享、点赞、在看、收藏，我不挑，因为这将是我写作更多优质文章的最强动力。
往期精选（????猛戳可查看）
1、Python 实现Excel自动化办公《中》
2、Python 实现Excel自动化办公《下》

3、整理了我开始分享学习笔记到现在超过250篇优质文章，涵盖数据分析、爬虫、机器学习等方面，别再说不知道该从哪开始，实战哪里找了

Python基础知识9 ylfhpy Python基础 python 开发语言爬虫
1.列表推导式核心概念列表推导式（ListComprehension）是Python中基于现有可迭代对象快速生成新列表的语法结构，具有以下特点：简洁性：用单行代码替代多行循环，极大地简化了代码的编写。例如，要生成一个包含1到10的平方数的列表，使用普通循环需要多行代码，而列表推导式只需一行[x**2forxinrange(1,11)]，代码量大幅减少，编程效率显著提高。高效性：执行速度通常快于普通
DeepSeek再传重大突破！新发布原生稀疏注意力（NSA）机制，重新定义AI效率天花板 shelly聊AI 人工智能 deepseek 注意力机制深度学习
大家好，我是Shelly，一个专注于输出AI工具和科技前沿内容的AI应用教练，体验过300+款以上的AI应用工具。关注科技及大模型领域对社会的影响10年+。关注我一起驾驭AI工具，拥抱AI时代的到来。人工智能&AIGC术语100条Shelly聊AI-重磅发布Shelly聊AI：年度展望：2025年AI与社会发展关键事件的深度思考（每年一篇，十年为期）2025年2月18日，中国AI领域迎来一枚“技术
python-leetcode 32.随机链表的复制 SylviaW08 leetcode 链表算法
题目：给定一个长度为n的链表，每个节点包含一个额外增加的随机指针random,该指针可以指向链表中的任何节点或空节点。构造这个链表的深拷贝。深拷贝应该正好由n个全新节点组成，其中每个新节点的值都设为其对应的原节点的值。新节点的next指针和random指针也都应指向复制链表中的新节点，并使原链表和复制链表中的这些指针能够表示相同的链表状态。复制链表中的指针都不应指向原链表中的节点。例如，如果原链表
详解多模态（红外-可见光图像）目标检测模型SuperYOLO源码，真正搞清代码逻辑！弗兰随风小欢目标检测实验系列深度学习目标检测 YOLO 计算机视觉多模态目标检测视觉检测人工智能
目录1.文章主要内容2.相关说明3.基于SuperYOLO的多模态目标检测3.1详解代码流程（重点）3.1.1train.py文件（入口）3.1.2SRyolo.py文件3.1.3datasets.py文件3.1.4再次回到train.py文件3.1.5再次回到SRyolo.py文件3.总结1.文章主要内容本文主要是详细分析SuperYOLO多模态源代码，包括如何启动，以及详细代码部分如何改进，从
【Python自动化办公脚本】Excel文件批量转PDF文件一只小哪吒AE python
importosimportwin32com.clientimporttkinterastkfromtkinterimportttkfromttkbootstrapimportStylefromtkinterimportfiledialog,messageboxfromthreadingimportThreadclassExcelToPDFConverter:def__init__(self,ma
代码随想录day12-堆栈的应用 huifeideapei python 数据结构算法
有效的括号题目链接题目思路：字符串的匹配优先考虑堆栈这种结构，实际上也是数组，但具有先入后出的结构，但放入相反的元素这种思路值得注意代码实现：classSolution:defisValid(self,s:str)->bool:#字符串的匹配问题优先考虑堆栈，在python中堆栈的底层也是数组结构tempStack=[]foriins:ifi=="(":tempStack.append(")")e
生成式AI如何重塑计算机视觉：自监督学习与稀疏计算的革命 ProgramHan 人工智能计算机视觉学习
生成式AI如何重塑计算机视觉：自监督学习与稀疏计算的革命引言：从“数据饥渴”到“智能涌现”传统计算机视觉高度依赖海量标注数据，但现实场景中标注成本高昂且覆盖范围有限。例如，医疗影像标注需专业医生耗时数月，工业缺陷检测需针对特定产线定制数据集。生成式AI（如Diffusion模型、自监督学习）的崛起，正在打破这一瓶颈——通过更高效的训练范式与计算架构，让机器学会“从无标注数据中看见世界”。（示意图：
DeepSeek技术跟踪和本地部署实践一望无际的大草原人工智能学习笔记 deepseek 大模型技术跟踪 deepseek
春节期间，我也紧跟技术潮流，跟踪学习了并部署了一下DeepSeek，应该说DeepSeek是中国人在AI领域一次技术创新，甚至超越，给各大AI公司提供了一条全新的赛道，其推出的强化学习等技术提醒大家AI不单单是Transformer架构下的堆算力、堆数据，还需要在算法和工程落地方面的不断创新实践，下面具体来说说，供大家参考学习。DeepSeek（深度求索）是一家杭州地区量化私募巨头幻方量化旗下的A
【大模型系列】入门常识备忘万物皆字节 LLM ai
模型库(相当于maven仓库的原理）1、huggingface网址https://huggingface.co/2、魔塔社区网址：https://modelscope.cn/home使用pythonsdk方式下载模型到本地python使用modelscope库从魔塔社区下载，示例：安装modelscopepipinstallmodelscope执行sdk下载frommodelscopeimport
Python爬虫实战：获取笔趣阁图书信息，并做数据分析 ylfhpy 爬虫 python 爬虫数据分析
注意：以下内容仅供技术研究，请遵守目标网站的robots.txt规定，控制请求频率避免对目标服务器造成过大压力！1.环境准备与反爬策略pythonimportrequestsfrombs4importBeautifulSoupimportpandasaspdimportreimporttimeimportrandomfromfake_useragentimportUserAgent#需安装：pip
【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测 IT古董深度学习人工智能深度学习计算机视觉目标检测
1.什么是DETR？DETR（DEtectionTRansformer）是FacebookAI（FAIR）于2020年提出的端到端目标检测算法，它基于Transformer架构，消除了FasterR-CNN、YOLO等方法中的候选框（AnchorBoxes）和非极大值抑制（NMS）机制，使目标检测变得更简单、高效。论文：End-to-EndObjectDetectionwithTransforme
在 Python 中生成随机数字有多种方法，具体取决于需求场景（如整数/浮点数、安全要求、分布类型等）梦幻南瓜 python python 安全开发语言
在Python中生成随机数字有多种方法，具体取决于需求场景（如整数/浮点数、安全要求、分布类型等）。以下是全面的实现方案及代码示例：一、基础场景：标准库random模块适用于大多数非安全敏感的随机数生成需求。生成随机整数importrandom#生成[a,b]范围内的随机整数random_int=random.randint(1,100)print(random_int)#示例输出：57#生成[0
chatgpt赋能Python-python_dag yakuchrisfor ChatGpt python chatgpt matplotlib
PythonDAG学习指南在数据处理和机器学习领域，处理复杂问题通常需要执行多个任务，并按特定顺序执行这些任务。DAG（有向无环图）被用于逻辑顺序的表示，这是标准的处理方式，以及一些技术，如Airflow。这篇文章将为你介绍PythonDAG，并为你提供一个学习指南。什么是PythonDAG？PythonDAG是用Python编程语言创建和处理DAG的框架。由于Python的灵活性、易于学习和使用
详细学习PyQt5中的多线程 CClaris PyQt5 学习 qt python GUI Pyqt5 开发语言 Python UI
Pyqt5相关文章:快速掌握Pyqt5的三种主窗口快速掌握Pyqt5的2种弹簧快速掌握Pyqt5的5种布局快速弄懂Pyqt5的5种项目视图（ItemView）快速弄懂Pyqt5的4种项目部件（ItemWidget）快速掌握Pyqt5的6种按钮快速掌握Pyqt5的10种容器（Containers）快速掌握Pyqt5的20种输入控件（InputWidgets）快速掌握Pyqt5的9种显示控件详细学习P
python --写入csv文件(原生) 像风一样的男人@ 笔记 python django 开发语言
classExportExcel(object):'''日志导出excel'''def__init__(self,queryset):self._queryset=queryset@propertydefqueryset(self):returnself._queryset@queryset.setterdefqueryset(self,value):self._queryset=value@pr
python文件操作相关（csv） Colin♛ python python 开发语言学习笔记
python文件操作相关（csv）1.csv模块读取CSV文件读取CSV文件并转换为字典写入CSV文件写入CSV文件并使用字典2.pandas库读取CSV文件读取特定列写入CSV文件写入CSV文件并指定分隔符3.其他高级功能处理大文件读取数据数据清洗参考资料在Python中，操作CSV文件通常使用csv模块和pandas库，这两个工具提供了丰富的功能，可以方便地读取、写入和处理CSV文件1.csv
python写文件追加按行追加_一文搞懂Python文件读写 weixin_39979332 python写文件追加按行追加 python将txt转为字符串 with open新创建的文件在哪找
在使用python编程时，经常会遇到读写文件的操作。很多童鞋困扰于读写文件的各种模式（如阅读、写入、追加等），以及搞不清open、read、readline、readlines、write等方法的使用。这篇文章就是要告诉你Python文件读写的所有秘密！open函数如果你想用python读取文件（如txt、csv等），第一步要用open函数打开文件。open()是python的内置函数，它会返回一
python dag调度系统开发_DAG（有向无环图）动态作业调度程序 weixin_39913628 python dag调度系统开发
IneedtomanagealargeworkflowofETLtasks,whichexecutiondependsontime,dataavailabilityoranexternalevent.Somejobsmayfailduringexecutionoftheworkflowandthesystemshouldhavetheabilitytorestartafailedworkflowb
《短视频AI制作管理：用智能工具应对AI生成内容的碎片化问题》机器学习人工智能图像识别
AIGC时代的“效率围城”2025年，生成式AI彻底颠覆内容生产：ChatGPT日活突破5亿，视频生成工具Sora让单人团队周产百条短视频成为可能，而全球AI生成内容占比已超30%。但繁荣背后，一场“效率危机”正在蔓延——某MCN机构调研显示，使用AI工具的团队中，73%遭遇“创意碎片化”，65%因多平台协作混乱导致项目延期，更有团队因未及时审核AI生成内容引发版权纠纷，单次损失超百万。[]()当
Python在实际工作中的运用-拆分Excel表格老胖闲聊 Python excel python
每次遇到表格按地区、按行数进行拆分都特别麻烦，每次都搞的头昏眼花，还容易出错，现在有了Python实在是各位“表哥”们的福音，下面我们就按行数和sheet两种场景来说明吧。首先需要安装openpyxl和pandaspipinstallopenpyxlpandas按行数拆分.pyimportopenpyxlimportosxlsfile="E:/表格目录/带拆分表格.xlsx"#加载现有的Excel
.NET 6应用程序适配国产银河麒麟V10系统随记虚幻私塾 python .net 计算机
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统最近想在麒麟系统上运行.NET6程序，经过一番折腾最终完成了，简单记录一下。目标系统:CPU:aarch64架构（ARM6
python实现有向无环图(DAG) 少年白char python
摘自dagobah项目dagfromcollectionsimportOrderedDict,defaultdictfromcopyimportcopy,deepcopyclassDAG(object):"""Directedacyclicgraphimplementation."""def__init__(self):"""ConstructanewDAGwithnonodesoredges."
火山引擎数据飞轮2.0助力中信银行，用“AI”开启新年新气象大数据
新年年初，是银行旺季营销的开端，也是产品、服务与创意的比拼擂台。在今年的春节中，中信银行基于火山引擎豆包大模型，首次上线了新春祝福视频共创活动，让用户切实体验到传统年味与科技创新的奇妙融合，为今年的旺季营销增添满满“AI”意。当下，大模型应用的创新成果正加速涌现。对企业而言，如何将技术范儿的大模型能力，转化为用户喜闻乐见、零门槛上手的“玩法”，是极具挑战性的命题。本次活动紧扣中信银行新春“幸福就是
python csv写入文件 HarryPoFly python
#Python的csv文件写入importcsvheaders=['姓名','性别','年龄']#制作表头#制作表内容data_list=[['张三','男','18'],['李四','男','19'],['王五','男','20']]withopen('example.csv','w',newline='')asf:#newline参数防止出现空行w为写,其它方式https://www.runo
【HarmonyOS NEXT】异步编程的神器之Promise androidios前端
1.背景异步编程对ArkTS这门语言来说实在太重要。因为ArkTS是单线程模型【单线程模型指的是，JavaScript只在一个线程上运行。也就是说，JavaScript同时只能执行一个任务，其他任务都必须在后面排队等待。】如果没有异步编程，很容易就写出回调地狱般的屎山代码。现在在ArkTS中要实现异步并发任务时，最合适的就是使用Promise和async/await【在此之前JS异步的发展历程是c
正式开源：从 Greenplum 到 Cloudberry 迁移工具 cbcopy 发布 greenplum
Hi社区小伙伴们！酷克数据HashData正式宣布：大家期待已久的从Greenplum到Cloudberry数据迁移工具cbcopy正式开源啦！GitHub仓库：https://github.com/hashDataInc/cbcopy/从今日起，大家可以访问GitHub仓库，获取cbcopy源代码以及快速使用指南，期待大家积极反馈使用过程中遇到的问题、以及期待的新增功能与优化。背景随着Green
「QT」布局类之 QGridLayout 网格布局类何曾参静谧「QT」QT5程序设计 qt 开发语言
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）文章专栏「QT」QT5程序设计全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制开发「Py」Python程序设计「Ma
如何使用PyQt5创建一个简单的主窗口应用程序星际编程喵 Python探索之旅 qt 开发语言 python pyqt
PyQt5是一个功能强大且易于使用的PythonGUI框架，它可以帮助开发者创建各种类型的图形用户界面应用程序。使用PyQt5，你可以轻松地创建主窗口应用程序，为用户提供直观且交互式的界面。创建一个简单的主窗口应用程序，只需几行代码即可完成。首先，你需要安装PyQt5库，并确保你的Python环境中已经安装了相应的依赖项。一旦完成安装，你就可以开始编写代码了。在创建主窗口应用程序之前，让我们先了解
Python生成依赖性应用的DAG(有向无环图)拓扑 Sawakita1122 算法
因为研究方向设计到依赖性的应用，做实验需要用到一些随机的DAG(有向无环图)拓扑来作为应用的表示，找了找网上没有符合的代码，于是决定自己写个小脚本来生成大量随机的DAG拓扑。我实验中要用到的依赖性应用拓扑类似于下面这种模式：观察到，DAG包括一个入口节点和一个出口节点，其余的节点都是具有依赖关系的中继节点图中入口节点的入度和出口节点的出度都为0，其余任意节点都至少有一条入边和一条出边。根据有向无环
vue中多功能上传文件图片按钮二次封装蚂蚁家的砖封装前端 vue vue.js javascript ecmascript
beforeFileUpload(file)":disabled="inlineFileList.length>=limit||disabled":on-preview="onPreview":show-file-list="false">=limit||disabled":type="type":plain="plain":size="size">{{name}}{{description}}{
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在