Never give up

第九章分类数据

文章目录

一、cat对象
- 1. cat对象的属性
- 2. 类别的增加、删除和修改
二、有序分类
- 1. 序的建立
- 2. 排序和比较
三、区间类别
- 1. 利用cut和qcut进行区间构造
- 2. 一般区间的构造
- 3. 区间的属性与方法
四、练习
- Ex1：统计未出现的类别
- Ex2：钻石数据集

import numpy as np
import pandas as pd

一、cat对象

1. cat对象的属性

在pandas中提供了category类型，使用户能够处理分类类型的变量，将一个普通序列转换成分类变量可以使用astype方法。

df = pd.read_csv('../data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'])
s = df.Grade.astype('category')
s.head()

在一个分类类型的Series中定义了cat对象，它和上一章中介绍的str对象类似，定义了一些属性和方法来进行分类类别的操作。

s.cat

对于一个具体的分类，有两个组成部分，其一为类别的本身，它以Index类型存储，其二为是否有序，它们都可以通过cat的属性被访问：

s.cat.categories

s.cat.ordered

另外，每一个序列的类别会被赋予唯一的整数编号，它们的编号取决于cat.categories中的顺序，该属性可以通过codes访问：

s.cat.codes.head()

2. 类别的增加、删除和修改

通过cat对象的categories属性能够完成对类别的查询，那么应该如何进行“增改查删”的其他三个操作呢？

【NOTE】类别不得直接修改
在第三章中曾提到，索引 Index 类型是无法用 index_obj[0] = item 来修改的，而 categories 被存储在 Index 中，因此 pandas 在 cat 属性上定义了若干方法来达到相同的目的。

首先，对于类别的增加可以使用add_categories：

s = s.cat.add_categories('Graduate') # 增加一个毕业生类别
s.cat.categories

若要删除某一个类别可以使用remove_categories，同时所有原来序列中的该类会被设置为缺失。例如，删除大一的类别：

s = s.cat.remove_categories('Freshman')
s.cat.categories

s.head()

此外可以使用set_categories直接设置序列的新类别，原来的类别中如果存在元素不属于新类别，那么会被设置为缺失。

s = s.cat.set_categories(['Sophomore','PhD']) # 新类别为大二学生和博士
s.cat.categories

s.head()

如果想要删除未出现在序列中的类别，可以使用remove_unused_categories来实现：

s = s.cat.remove_unused_categories() # 移除了未出现的博士生类别
s.cat.categories

最后，“增改查删”中还剩下修改的操作，这可以通过rename_categories方法完成，同时需要注意的是，这个方法会对原序列的对应值也进行相应修改。例如，现在把Sophomore改成中文的本科二年级学生：

s = s.cat.rename_categories({'Sophomore':'本科二年级学生'})
s.head()

二、有序分类

1. 序的建立

有序类别和无序类别可以通过as_unordered和reorder_categories互相转化，需要注意的是后者传入的参数必须是由当前序列的无序类别构成的列表，不能够增加新的类别，也不能缺少原来的类别，并且必须指定参数ordered=True，否则方法无效。例如，对年级高低进行相对大小的类别划分，然后再恢复无序状态：

s = df.Grade.astype('category')
s = s.cat.reorder_categories(['Freshman', 'Sophomore', 'Junior', 'Senior'],ordered=True)
s.head()

s.cat.as_unordered().head()

【NOTE】类别不得直接修改
如果不想指定ordered=True参数，那么可以先用s.cat.as_ordered()转化为有序类别，再利用reorder_categories进行具体的相对大小调整。

2. 排序和比较

在第二章中，曾提到了字符串和数值类型序列的排序，此时就要说明分类变量的排序：只需把列的类型修改为category后，再赋予相应的大小关系，就能正常地使用sort_index和sort_values。例如，对年级进行排序：

df.Grade = df.Grade.astype('category')
df.Grade = df.Grade.cat.reorder_categories(['Freshman', 'Sophomore', 'Junior', 'Senior'],ordered=True)
df.sort_values('Grade').head() # 值排序

df.set_index('Grade').sort_index().head() # 索引排序

由于序的建立，因此就可以进行比较操作。分类变量的比较操作分为两类，第一种是==或!=关系的比较，比较的对象可以是标量或者同长度的Series（或list），第二种是>,>=,<,<=四类大小关系的比较，比较的对象和第一种类似，但是所有参与比较的元素必须属于原序列的categories，同时要和原序列具有相同的索引。

res1 = df.Grade == 'Sophomore'
res1.head()

res2 = df.Grade == ['PhD']*df.shape[0]
res2.head()

res3 = df.Grade <= 'Sophomore'
res3.head()

res4 = df.Grade <= df.Grade.sample(frac=1).reset_index(drop=True) # 打乱后比较
res4.head()

三、区间类别

1. 利用cut和qcut进行区间构造

区间是一种特殊的类别，在实际数据分析中，区间序列往往是通过cut和qcut方法进行构造的，这两个函数能够把原序列的数值特征进行装箱，即用区间位置来代替原来的具体数值。

首先介绍cut的常见用法：

其中，最重要的参数是bins，如果传入整数n，则代表把整个传入数组的按照最大和最小值等间距地分为n段。由于区间默认是左开右闭，需要在调整时把最小值包含进去，在pandas中的解决方案是在值最小的区间左端点再减去0.001*(max-min)，因此如果对序列[1,2]划分为2个箱子时，第一个箱子的范围(0.999,1.5]，第二个箱子的范围是(1.5,2]。如果需要指定左闭右开时，需要把right参数设置为False，相应的区间调整方法是在值最大的区间右端点再加上0.001*(max-min)。

s = pd.Series([1,2])
pd.cut(s, bins=2)

pd.cut(s, bins=2, right=False)

bins的另一个常见用法是指定区间分割点的列表（使用np.infty可以表示无穷大）：

pd.cut(s, bins=[-np.infty, 1.2, 1.8, 2.2, np.infty])

另外两个常用参数为labels和retbins，分别代表了区间的名字和是否返回分割点（默认不返回）：

s = pd.Series([1,2])
res = pd.cut(s, bins=2, labels=['small', 'big'], retbins=True)
res[0]

res[1] # 该元素为返回的分割点

从用法上来说，qcut和cut几乎没有差别，只是把bins参数变成的q参数，qcut中的q是指quantile。这里的q为整数n时，指按照n等分位数把数据分箱，还可以传入浮点列表指代相应的分位数分割点。

s = df.Weight
pd.qcut(s, q=3).head()

pd.qcut(s, q=[0,0.2,0.8,1]).head()

2. 一般区间的构造

对于某一个具体的区间而言，其具备三个要素，即左端点、右端点和端点的开闭状态，其中开闭状态可以指定right, left, both, neither中的一类：

my_interval = pd.Interval(0, 1, 'right')
my_interval

其属性包含了mid, length, right, left, closed,，分别表示中点、长度、右端点、左端点和开闭状态。

使用in可以判断元素是否属于区间：

0.5 in my_interval

使用overlaps可以判断两个区间是否有交集：

my_interval_2 = pd.Interval(0.5, 1.5, 'left')
my_interval.overlaps(my_interval_2)

一般而言，pd.IntervalIndex对象有四类方法生成，分别是from_breaks, from_arrays, from_tuples, interval_range，它们分别应用于不同的情况：

from_breaks的功能类似于cut或qcut函数，只不过后两个是通过计算得到的分割点，而前者是直接传入自定义的分割点：

pd.IntervalIndex.from_breaks([1,3,6,10], closed='both')

from_arrays是分别传入左端点和右端点的列表，适用于有交集并且知道起点和终点的情况：

pd.IntervalIndex.from_arrays(left = [1,3,6,10], right = [5,4,9,11], closed = 'neither')

from_tuples传入的是起点和终点元组构成的列表：

pd.IntervalIndex.from_tuples([(1,5),(3,4),(6,9),(10,11)], closed='neither')

一个等差的区间序列由起点、终点、区间个数和区间长度决定，其中三个量确定的情况下，剩下一个量就确定了，interval_range中的start, end, periods, freq参数就对应了这四个量，从而就能构造出相应的区间：

pd.interval_range(start=1,end=5,periods=8)

pd.interval_range(end=5,periods=8,freq=0.5)

【练一练】
无论是interval_range还是下一章时间序列中的date_range都是给定了等差序列中四要素中的三个，从而确定整个序列。请回顾等差数列中的首项、末项、项数和公差的联系，写出interval_range中四个参数之间的恒等关系。

start + periods * freq = end

除此之外，如果直接使用pd.IntervalIndex([...], closed=...)，把Interval类型的列表组成传入其中转为区间索引，那么所有的区间会被强制转为指定的closed类型，因为pd.IntervalIndex只允许存放同一种开闭区间的Interval对象。

my_interval

my_interval_2

pd.IntervalIndex([my_interval, my_interval_2], closed='left')

3. 区间的属性与方法

IntervalIndex上也定义了一些有用的属性和方法。同时，如果想要具体利用cut或者qcut的结果进行分析，那么需要先将其转为该种索引类型：

id_interval = pd.IntervalIndex(pd.cut(s, 3))
id_interval[:3]

与单个Interval类型相似，IntervalIndex有若干常用属性：left, right, mid, length，分别表示左右端点、两端点均值和区间长度。

id_demo = id_interval[:5] # 选出前5个展示
id_demo

id_demo.left

id_demo.right

id_demo.mid

id_demo.length

IntervalIndex还有两个常用方法，包括contains和overlaps，分别指逐个判断每个区间是否包含某元素，以及是否和一个pd.Interval对象有交集。

id_demo.contains(4)

id_demo.overlaps(pd.Interval(40,60))

四、练习

Ex1：统计未出现的类别

在第五章中介绍了crosstab函数，在默认参数下它能够对两个列的组合出现的频数进行统计汇总：

df = pd.DataFrame({'A':['a','b','c','a'], 'B':['cat','cat','dog','cat']})
pd.crosstab(df.A, df.B)

但事实上有些列存储的是分类变量，列中并不一定包含所有的类别，此时如果想要对这些未出现的类别在crosstab结果中也进行汇总，则可以指定dropna参数为False：

df.B = df.B.astype('category').cat.add_categories('sheep')
pd.crosstab(df.A, df.B, dropna=False)

请实现一个带有dropna参数的my_crosstab函数来完成上面的功能。

def my_crosstab(s1, s2, dropna=True):
    idx1 = (s1.cat.categories if s1.dtype.name == 'category' and not dropna else s1.unique())
    idx2 = (s2.cat.categories if s2.dtype.name == 'category' and not dropna else s2.unique())
    res = pd.DataFrame(np.zeros((idx1.shape[0], idx2.shape[0])), index=idx1, columns=idx2)
    for i, j in zip(s1, s2):
        res.at[i, j] += 1
    res = res.rename_axis(index=s1.name, columns=s2.name).astype('int')
    return res
df = pd.DataFrame({'A':['a','b','c','a'], 'B':['cat','cat','dog','cat']})
df.B = df.B.astype('category').cat.add_categories('sheep')
my_crosstab(df.A, df.B)
my_crosstab(df.A, df.B, dropna=False)

Ex2：钻石数据集

现有一份关于钻石的数据集，其中carat, cut, clarity, price分别表示克拉重量、切割质量、纯净度和价格，样例如下：

df = pd.read_csv('../data/diamonds.csv') 
df.head(3)

分别对df.cut在object类型和category类型下使用nunique函数，并比较它们的性能。

df = pd.read_csv('../data/diamonds.csv')
s_obj, s_cat = df.cut, df.cut.astype('category')

%timeit -n 30 s_obj.nunique()

%timeit -n 30 s_cat.nunique()

钻石的切割质量可以分为五个等级，由次到好分别是Fair, Good, Very Good, Premium, Ideal，纯净度有八个等级，由次到好分别是I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF，请对切割质量按照由好到次的顺序排序，相同切割质量的钻石，按照纯净度进行由次到好的排序。

df.cut = df.cut.astype('category').cat.reorder_categories(['Fair', 'Good', 'Very Good', 'Premium', 'Ideal'],ordered=True)
df.clarity = df.clarity.astype('category').cat.reorder_categories(['I1', 'SI2', 'SI1', 'VS2', 'VS1', 'VVS2', 'VVS1', 'IF'],ordered=True)
res = df.sort_values(['cut', 'clarity'], ascending=[False, True])
res.head(3)

res.tail(3)

分别采用两种不同的方法，把cut, clarity这两列按照由好到次的顺序，映射到从0到n-1的整数，其中n表示类别的个数。

df.cut = df.cut.cat.reorder_categories(df.cut.cat.categories[::-1])
df.clarity = df.clarity.cat.reorder_categories(df.clarity.cat.categories[::-1])

df.cut = df.cut.cat.codes # 方法一：利用cat.codes

clarity_cat = df.clarity.cat.categories
df.clarity = df.clarity.replace(dict(zip(clarity_cat, np.arange(len(clarity_cat))))) # 方法二：使用replace映射

df.head(3)

对每克拉的价格分别按照分位数（q=[0.2, 0.4, 0.6, 0.8]）与[1000, 3500, 5500, 18000]割点进行分箱得到五个类别Very Low, Low, Mid, High, Very High，并把按这两种分箱方法得到的category序列依次添加到原表中。

q = [0, 0.2, 0.4, 0.6, 0.8, 1]
point = [-np.infty, 1000, 3500, 5500, 18000, np.infty]
avg = df.price / df.carat
df['avg_cut'] = pd.cut(avg, bins=point, labels=['Very Low', 'Low', 'Mid', 'High', 'Very High'])
df['avg_qcut'] = pd.qcut(avg, q=q, labels=['Very Low', 'Low', 'Mid', 'High', 'Very High'])
df.head()

第4问中按照整数分箱得到的序列中，是否出现了所有的类别？如果存在没有出现的类别请把该类别删除。

df.avg_cut.unique()

df.avg_cut.cat.categories

df.avg_cut = df.avg_cut.cat.remove_categories(['Very Low', 'Very High'])
df.avg_cut.head(3)

对第4问中按照分位数分箱得到的序列，求每个样本对应所在区间的左右端点值和长度。

interval_avg = pd.IntervalIndex(pd.qcut(avg, q=q))
interval_avg.right.to_series().reset_index(drop=True).head(3)

interval_avg.left.to_series().reset_index(drop=True).head(3)

interval_avg.length.to_series().reset_index(drop=True).head(3)

你可能感兴趣的:(pandas,分类,pandas,python)

python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
【实战派×学院派】32｜上线后一堆优化需求，到底是 Bug 还是改进？郭菁菁 (BA/PM)实战派常踩的坑学院派如何补上 bug 业务分析需求分析 BA
学院派：用Bug/Enhancement分类机制+优化反馈池+二次迭代评审机制，避免优化失控、节奏紊乱你是不是也遇到过这样的场景：“这个报表逻辑不太合理，麻烦调整下。”“那个按钮位置不合适，顺便挪一挪吧。”“这个功能可以加个提醒吗？体验会好一点。”项目刚上线没多久，各路优化意见像潮水一样涌来。最让人头疼的是：到底这些算Bug（缺陷）还是Enhancement（优化改进）？该优先处理哪个？哪些该打回
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
C#.NET log4net 详解 c#.net
简介log4net是.NET平台上非常成熟的日志组件，源自Java世界的log4j。它功能丰富、性能高、配置灵活，是企业应用中常见的日志框架之一。核心特点支持多种输出目标（Appender）：文件、数据库、控制台、远程服务等支持多种格式化（Layout）支持按级别（Level）记录日志支持日志分类（Logger分组、命名空间隔离）配置灵活，可通过XML文件配置，也可通过代码配置支持异步日志、按文件
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
从单体脚本到模块化设计：Python工程师的架构思维跃迁
引言：从“一团乱麻”到“乐高积木”你是否曾经打开一个Python脚本，里面密密麻麻挤着上千行代码？函数相互缠绕，全局变量随处可见，想改一个小功能却心惊胆战，生怕牵一发而动全身？这就是典型的“单体脚本”(MonolithicScript)困境。作为过来人，我深知这种痛苦。本文将手把手带你跳出这个泥潭，掌握模块化设计的核心思想，并初步建立宝贵的架构设计思维，让你的代码从“勉强运行”跃迁到“优雅可维护”
python json 反序列化-V1 CATTLECODE python json 开发语言
在编程中，‌反序列化函数‌用于将序列化后的数据（如JSON、XML等格式）重新转换为程序可操作的对象或数据结构。以下是不同语言和场景下的实现方式及特点：‌1.Python中的反序列化‌‌(1)标准库json模块‌‌json.loads()‌：将JSON字符串反序列化为Python对象（如字典、列表）。importjsonjson_str='{"name":"Alice","age":25}'dat
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
day49-ansible初体验朱包林 linux python 运维服务器云计算
1.选型工具说明缺点xshell不适应机器过多场景，需要连接后才能用for+ssh/scp+密钥认证密钥认证，免密码登录scp传输文本/脚本ssh远程执行命令或脚本串行saltstack需要安装客户端ansible无客户端（密钥认证）批量部署环境需要新python版本，被红帽收购了Terraform关注基础设施（云环境），一键创建100台云服务器，一键创建负载均衡，数据库产品2.ansible架构
Python 通过IP地址查询地理位置
文章目录Python通过IP地址查询地理位置一、在线API查询（简单快速，依赖网络）1.**使用`requests`+ipinfo.io**2.**使用`requests`+ip-api.com**二、本地数据库查询（离线高效，需下载数据库）1.**使用`geoip2`+GeoLite2数据库**2.**其他本地库对比**️三、结果可视化（增强展示）使用`folium`生成交互地图⚖️四、方法选择
从零构建MCP服务器：FastMCP实战指南炼丹上岸大模型 #MCP 服务器运维人工智能大模型 python MCP
引言：MCP协议与FastMCP框架ModelContextProtocol（MCP）是连接AI模型与外部服务的标准化协议，允许LLM（如Claude、Gemini）调用工具、访问数据。然而，直接实现MCP协议需要处理JSON-RPC、会话管理等繁琐细节。FastMCP作为Python框架，封装了这些底层逻辑，让开发者专注于业务功能。本文将通过分步实战，从零构建一个完整的MCP服务器，涵盖工具、资
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
python学习试题（选择，问答，代码等）爱莉希雅&&& python 学习开发语言
python选择题（1）以下哪个是合法的Python变量名？[email protected]答案：B（2）表达式True+2的结果是？A.TrueB.3C.2D.TypeError答案：B（3）以下哪个表达式会引发错误？A."1"+"2"B.[1,2]+[3,4]C.(1,2)+(3,4)D.{1,2}+{3,4}答案：D（4）以下哪个是将字符串转换为整数的正确方法？A.str
Vlang编写爬虫可行性分析
最近有人问V(Vlang)语言可以用来做数据采集么，那么我在这里明确告诉你，V(Vlang)完全可以用来编写网络爬虫。虽然它主打的是系统编程语言，但其设计目标包括简洁、高效和实用性，这使得它在处理像爬虫这样的网络任务时也表现出色。V的并发模型适合高并发爬虫，但实际效果待测试。最后给出一个简单例子展示基础流程，同时指出生态限制，避免用户期望过高。个人建议如果项目复杂，可能选Python更省力，毕竟p
传统乐器的音域革新：多管设计与超孔结构的探索 109702008 杂谈人工智能
——从陶笛到葫芦丝的扩展艺术一、多管陶笛：音域突破的经典方案1.结构分类与音域特性多管陶笛通过增加独立音管扩展音域，分为双管、三管、四管三种主流类型：双管陶笛（1主管+1附管）：音域≥2个八度，吹奏高音需切换附管，适合进阶曲目。三管陶笛（1主管+2附管）：音域近3个八度（如AC三管覆盖G4-E7），可驾驭古典与流行乐。四管陶笛（1主管+3附管）：音域近4个八度（BC四管达C3-C7），属顶级专业配
AI人工智能领域中AI作画的技术优势 AI大模型应用之禅人工智能 AI作画 ai
AI人工智能领域中AI作画的技术优势关键词：AI作画、技术优势、人工智能、艺术创作、图像生成摘要：本文深入探讨了AI人工智能领域中AI作画的技术优势。从背景介绍出发，阐述了AI作画的起源与发展，明确了文章的目的、范围、预期读者以及文档结构。接着详细分析了AI作画的核心概念，包括其原理和架构，并通过Mermaid流程图进行直观展示。对核心算法原理进行了深入剖析，结合Python代码示例进行讲解。同时
Python爬虫实战：研究python-nameparser库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 nameparser
1.引言在当今数字化时代，姓名作为个人身份的重要标识，在许多领域都有着广泛的应用需求。例如，在客户关系管理系统中，准确解析姓名可以帮助企业更好地了解客户背景；在学术研究中，分析作者姓名分布有助于发现研究团队的地域特征；在社交网络分析中，姓名信息可以辅助进行用户画像构建。然而，由于不同文化背景下姓名结构的多样性以及书写方式的差异，准确解析姓名成为一项具有挑战性的任务。Python作为一种功能强大的编
快速掌握Python编程基础张彦峰ZYF python
干货分享，感谢您的阅读！备注：本博客将自己初步学习Python的总结进行分享，希望大家通过本博客可以在短时间内快速掌握Python的基本程序编码能力，如有错误请留言指正，谢谢！（持续更新）一、快速了解Python和环境准备（一）Python快速介绍Python是一种简洁、强大、易读的编程语言，广泛应用于Web开发、数据分析、人工智能、自动化运维等领域。它由GuidovanRossum在1991年设
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

第九章 分类数据