Steven灬

数据分析初步之数据预处理

有段时间没写博客了，最近一直在忙自己的事。听说今天发一篇原创博客就可以领个勋章，想想没啥可写的，就把之前的学习笔记整理一下，1024，请赐我一枚勋章，哈哈哈……

数据分析初步之数据预处理

一、生成数据表

import numpy as np
import pandas as pd

1 导入数据表

df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

2 创建数据表

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
                  "date":pd.date_range('20190102',periods=6),
                  "city":['Beijing','SH','guangzhou','shenzhen','shanghai','BEIJING'],
                  "age":[23,44,54,32,34,32],
                  "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
                  "price":[1200,np.nan,2133,5433,np.nan,4432]},
                 columns=['id','date','city','category','age','price'])
print(df)

     id       date       city category  age   price
0  1001 2019-01-02    Beijing    100-A   23  1200.0
1  1002 2019-01-03         SH    100-B   44     NaN
2  1003 2019-01-04  guangzhou    110-A   54  2133.0
3  1004 2019-01-05   shenzhen    110-C   32  5433.0
4  1005 2019-01-06   shanghai    210-A   34     NaN
5  1006 2019-01-07    BEIJING    130-F   32  4432.0

二、数据表检查

1 数据维度（行列）

df.shape

(6, 6)

2 数据表信息

df.info()


RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
id          6 non-null int64
date        6 non-null datetime64[ns]
city        6 non-null object
category    6 non-null object
age         6 non-null int64
price       4 non-null float64
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 368.0+ bytes

3 查看数据格式

df.dtypes

id                   int64
date        datetime64[ns]
city                object
category            object
age                  int64
price              float64
dtype: object

查看单列格式

df['id'].dtype

dtype('int64')

4 查看空值

#检查数据空值
df.isnull()


       id     date	city	categoryage	price
0	False	False	False	False	False	False
1	False	False	False	False	False	True
2	False	False	False	False	False	False
3	False	False	False	False	False	False
4	False	False	False	False	False	True
5	False	False	False	False	False	False

检查特定列空值

df['price'].isnull()

0    False
1     True
2    False
3    False
4     True
5    False
Name: price, dtype: bool

5 查看唯一值

df['city'].unique()

array(['Beijing', 'SH', 'guangzhou', 'shenzhen', 'shanghai', 'BEIJING'], dtype=object)

6 查看数据表数值

df.values

array([[1001, Timestamp('2019-01-02 00:00:00'), 'Beijing', '100-A', 23,
        1200.0],
       [1002, Timestamp('2019-01-03 00:00:00'), 'SH', '100-B', 44, nan],
       [1003, Timestamp('2019-01-04 00:00:00'), 'guangzhou', '110-A', 54,
        2133.0],
       [1004, Timestamp('2019-01-05 00:00:00'), 'shenzhen', '110-C', 32,
        5433.0],
       [1005, Timestamp('2019-01-06 00:00:00'), 'shanghai', '210-A', 34,
        nan],
       [1006, Timestamp('2019-01-07 00:00:00'), 'BEIJING', '130-F', 32,
        4432.0]], dtype=object)

7 查看列名称

df.columns

Index(['id', 'date', 'city', 'category', 'age', 'price'], dtype='object')

8 查看前10行数据，默认显示前十行

df.head(3)

      id	date	    city	category age	price
0	1001	2019-01-02	Beijing	100-A	23	1200.0
1	1002	2019-01-03	SH	100-B	44	NaN
2	1003	2019-01-04	guangzhou	110-A	54	2133.0

9 查看后10行数据，默认显示后十行

df.tail(3)

三、数据表清洗

1 处理空值（删除或填充）

#删除数据表中含有空值的行
df.dropna(how='any')

#使用数值0填充数据表中的空值

df.fillna(value=0)

#使用price平均值对空值NA进行填充

df['price'].fillna(df['price'].mean())

0    1200.0
1    3299.5
2    2133.0
3    5433.0
4    3299.5
5    4432.0
Name: price, dtype: float64

df['price']=df['price'].fillna(df['price'].mean())
print(df)

2 清理空格

#清除city字段中的字符空格

df['city']=df['city'].map(str.strip)

3 大小写转换 lower upper title(首字母大写)

#city列大小写转换
df['city']=df['city'].str.lower()
print(df)

4 更改数据格式

df['price']=df['price'].astype('int')

5 更改列名称

df.rename(columns={'category':'category-size'})

6 删除重复值 默认删除后重复的值

df['city'].drop_duplicates()

0      beijing
1           sh
2    guangzhou
3     shenzhen
4     shanghai
Name: city, dtype: object

#删除先重复的值

df['city'].drop_duplicates(keep='last')

1           sh
2    guangzhou
3     shenzhen
4     shanghai
5      beijing
Name: city, dtype: object

7 数值的修改及替换

#数据替换
df['city'] = df['city'].replace('sh','shanghai')
print(df)

四、数据预处理

1 数据表合并

df1 = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
                   "gender":['male','female','male','female','male','female','male','female',],
                   "pay":['Y','N','Y','Y','N','Y','N','Y'],
                   "m-point":[10,12,20,40,40,40,30,20]})
print(df1)

#数据表匹配合并

df_inner=pd.merge(df,df1,how='inner')
print(df_inner)

#除了inner方式之外，合并方式还有left,right,outer方式
#=pd.merge(df,df1,how='left')
#df_right=pd.merge(df,df1,how='right')
#df_outer=pd.merge(df,df1,how='outer')

2 设置索引列

df_inner.set_index('id')

3 排序（按索引值、按数值）

#按特定列的值排序

df_inner = df_inner.sort_values(by=['age'])
print(df_inner)

#按索引列排序

df_inner.sort_index()

4 数据分组

#如果price列的值>3000,group列显示high,否则显示low

df_inner['group'] = np.where(df_inner['price']>3000,'high','low')
print(df_inner)

#对复合多个条件的数据进行分组标记

df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000),'sign']=1
print(df_inner)

5 数据分列

#对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size
split = pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,
            columns=['category','size'])
print(split)

#将完成分列后的数据表与原df_inner数据表进行匹配

df_inner = pd.merge(df_inner,split,right_index=True,left_index=True)
print(df_inner)

五、数据提取

1 按标签提取(loc)

#按索引提取单行的数值

df_inner.loc[3]

#按索引提取区域行数值

df_inner.loc[0:5]

#重设索引

df_inner.reset_index()

#设置日期为索引

df_inner = df_inner.set_index('date')
print(df_inner)

#提取4日之前的所有数据

df_inner[:'2019-01-04']

2 按位置提取（iloc）

#使用iloc按位置区域提取数据

df_inner.iloc[:3,:2]

#使用iloc按位置单独提取数据 [0,2,5]代表行的位置 [4,5]代表列的位置

df_inner.iloc[[0,2,5],[4,5]]

3 按标签和位置提取（ix）

#使用ix按索引标签和位置混合提取数据
df_inner.ix[:'2019-01-03',:4]

4 按条件提取（区域和条件值）

##判断city列的值是否为beijing

df_inner['city'].isin(['beijing'])

date
2019-01-02     True
2019-01-05    False
2019-01-07     True
2019-01-06    False
2019-01-03    False
2019-01-04    False
Name: city, dtype: bool

#先判断city列里是否包含beijing和shanghai，然后将复合条件的数据提取出来

df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

category = df_inner['category_x']
print(category)

date
2019-01-02    100-A
2019-01-05    110-C
2019-01-07    130-F
2019-01-06    210-A
2019-01-03    100-B
2019-01-04    110-A
Name: category_x, dtype: object

#提取前三个字符，并生成数据表

pd.DataFrame(category.str[:3])

第六章数据筛选

#按条件筛选（与、或、非）

##使用“与”条件进行筛选

df_inner.loc[(df_inner['age']>25) & (df_inner['city'] == 'beijing'),['id','city','age','category_x','gender']]

##使用“或”进行筛选

df_inner.loc[(df_inner['age']>25) | (df_inner['city'] == 'beijing'),['id','city','age','category_x','gender']].sort_values('age')

##对筛选后的数据按price字段进行求和

df_inner.loc[(df_inner['age']>25) | (df_inner['city'] == 'beijing'),['id','city','age','category_x','gender','price']].sort_values('age').price.sum()

结果：19796

##使用“非”条件进行筛选

df_inner.loc[(df_inner['city'] != 'beijing'),['id','city','age','category_x','gender']].sort_values('id')

#对筛选后的数据按city列进行计数

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort_values('id').city.count()

结果：4

##使用query函数进行筛选

df_inner.query('city == ["beijing","shanghai"]')

##对筛选后的结果按price进行求和

df_inner.query('city == ["beijing","shanghai"]').price.sum()

结果：12230

七、数据汇总

1 分类汇总

##对所有列进行计数汇总

df_inner.groupby('city').count()

#对特定的ID列进行计数汇总

df_inner.groupby('city')['id'].count()

city
beijing      2
guangzhou    1
shanghai     2
shenzhen     1
Name: id, dtype: int64

#对两个字段进行汇总计数

df_inner.groupby(['city','size'])['id'].count()

#对city字段进行汇总并计算price的合计和均值

df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

2 数据透视

#数据透视表
pd.pivot_table(df_inner,index=["city"],values=["price"],columns=[
"size"],aggfunc=[len,np.sum],fill_value=0,margins=True)

八数据统计

1.数据采样

#简单的数据采样
df_inner.sample(n=3)

#手动设置采样权重

weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)

#采样后不放回

df_inner.sample(n=6, replace=False)

#采样后放回

df_inner.sample(n=6, replace=True)

2 描述统计 Describe

#数据表描述性统计
df_inner.describe().round(2).T

3 标准差

df_inner['price'].std()

结果：1523.3516556155596

4 协方差

#两个字段间的协方差

df_inner['price'].cov(df_inner['m-point'])

结果：17263.200000000001

#数据表中所有字段间的协方差

df_inner.cov()

5 相关分析

##相关性分析

df_inner['price'].corr(df_inner['m-point'])

结果：0.77466555617085253

#数据表相关性分析

df_inner.corr()

九、数据输出

1 写入Excle

#输出到Excel格式
df_inner.to_excel('Excel_to_Python.xlsx', sheet_name='bluewhale_cc')

2 写入csv

#输出到CSV格式
df_inner.to_csv('Excel_to_Python.csv')

下一篇：案例之990万次骑行：纽约自行车共享系统分析

学习资料：《从Excel到Python——数据分析进阶指南》

你可能感兴趣的:(机器学习,Python,文本预处理)

Python Cookbook-2.28 使用跨平台的文件锁我不会编程555 #Python学习 python 开发语言
任务希望某个能同时运行在Windows和类UNIX平台的程序具有锁住文件的能力，但Python标准库提供的锁定文件的方法却是平台相关的。解决方案如果Python标准库没有提供合适的跨平台解决方案，我们可以自己实现一个:importos#需要win32all来工作在windows下(NT、2K、XP、不包括9x)ifos.name=='nt':importwin32con,win32file,pyw
Python Cookbook-2.29 带版本号的文件名我不会编程555 #Python学习 python 数据库 linux
任务如果你想在改写某文件之前对其做个备份，可以在老文件的名字后面根据惯例加上三个数字的版本号。解决方案我们需要编写一个函数来完成备份工作:defVersionFile(file_spec,vtype='copy'):importos,shutilifos.path.isfile(file_spec):#检查'vtype'参数ifvtypenotin('copy','rename'):raiseVa
Python Cookbook-1.24 让某些字符串大小写不敏感我不会编程555 #Python学习 python 开发语言
任务让某些字符串在比较和查询的时候是大小写不敏感的，但在其他操作中却保持原状。解决方案最好的解决方式是，将这种字符串封装在str的一个合适的子类中：classiStr(str):"""大小写不敏感的字符串类行为方式类似于str，只是所有的比较和查询都是大小写不敏感的"""def__init__(self,*args):self._lowered=str.lower(self)def__repr__
Python Cookbook（第2版）中文版 weixin_34248258 python 数据库 c/c++
PythonCookbook（第2版）中文版基本信息作者：AlexMartelliAnnaRavenscroftDavidAscher译者：高铁军[同译者作品]出版社：人民邮电出版社ISBN：9787115222664上架时间：2010-5-7出版日期：2010年5月开本：16开更多详细信息请查看：http://www.china-pub.com/196697前五章样张试读地址：http://ww
django数据迁移失败，数据库未创建 No changes detected 随心但不率性 django python 后端
接手一个django新项目，启动服务前首先需要做数据迁移python3manage.pymakemigrationspython3manage.pymigrate如果执行上述命令后需要的数据表未创建，且报Nochangesdetected可以检查下每个app目录下是否有migrations目录，若没有，则需要新建，且在该目录下创建文件__init__.py该文件可以为空migrations/__i
《AI大模型开发笔记》DeepSeek技术创新点 Richard Chijq AI大模型开发笔记人工智能笔记
一、DeepSeek横空出世DeepSeekV3以颠覆性技术架构创新强势破局！革命性的上下文处理机制实现长文本推理成本断崖式下降，综合算力需求锐减90%，开启高效AI新纪元！最新开源的DeepSeekV3模型不仅以顶尖基准测试成绩比肩业界SOTA模型，更以惊人的训练效率引发行业震动——仅耗费280万H800GPU小时（对应4e24FLOP@40%MFU）即达成巅峰性能。对比同级别Llama3-40
基于Django框架的服务器监控系统详细设计与具体代码实现杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
基于Django框架的服务器监控系统详细设计与具体代码实现1.背景介绍1.1问题由来在互联网和云计算时代，服务器作为数据中心的基础设施，其稳定性和可靠性直接影响着整个系统的运行。随着服务器的数量和复杂度的增加，服务器监控系统变得尤为重要。传统的服务器监控系统往往依赖于单一的工具或平台，难以实现全面、高效的监控需求。Django作为一种流行的PythonWeb框架，因其灵活性、可扩展性和社区支持，成
Python Cookbook-2.13 使用C++的类iostream语法我不会编程555 #Python学习 python 开发语言 windows c++
任务C++的基于ostream和操纵符(插入了这种特定的对象后,它会在stream中产生特定的效果)的I/O方式，并想将此形式用在自己的Python程序中。解决方案Python允许使用对特殊方法(即名字前后带有连续两个下划线的方法)进行了重定义的类来重载原有的操作符。为了将>somewhere,"Theaverageof&dand&dis$f\n"%(1,3,(1+3)/2)这种方式是Python
Django数据迁移 jay丿 django 数据库 sqlite
在Django中，数据迁移是一个核心功能，它允许你通过定义模型（Models）来自动生成数据库表，并且能够随着模型的变化更新数据库结构。下面是对上述命令的详细解释和扩写，以及一些额外的注意事项和技巧。1.检查应用下的模型是否存在异常在执行任何迁移之前，确保你的模型没有语法错误或逻辑问题是很重要的。你可以使用以下命令来检查特定应用下的模型：pythonmanage.pycheckappNameapp
Python笔记默默前行的蜗牛 python 笔记开发语言
1.如何在windows同时存在两个版本的Python2，Python3将Python2，Python3的路径添加到path中2.如何使用指定的Python版本pippython3-mpipinstalljupyter3.jupyternotebook使用http://blog.csdn.net/lee_j_r/article/details/52791228jupyternotebook4.中文
LangChain解锁LLM大语言模型的结构化输出能力：调用 with_structured_output() 方法晨欣 langchain 语言模型人工智能
什么是LLM的结构化输出能力？在一些工业级LLM应用或比较复杂的LLM应用编排环节，我们需要用LLM的输出作为下一环节的输入，而这个过程往往对LLM输出的格式有一定要求，比如JSON、XML、YAML、CSV、Markdown表格和HTML等比较常见的格式。因此我们需要通过各种方式手段让LLM具备符合我们期望的结构化输出能力，即模型能够按照用户指定的格式或规则生成内容（而不仅仅是自由形式的文本）的
C++输入输出语句 sir___sir6 c++开发语言
在C++中，常用的输入输出语句主要是通过iostream库提供的cin和cout。这些语句用于从控制台获取输入和向控制台输出内容cin：cin用于从控制台获取输入，通常与提供的变量结合使用。示例：intnum;cin>>num;//从控制台读取一个整数并存储在变量num中输出语句：cout：cout用于向控制台输出内容，可以输出变量的值、文本等。示例：intage=25;coutusingname
LLaMA Factory添加新模型template的实战解析 herosunly 大模型 llama factory 新模型 template 实战解析
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
Python 与Java 开发人形机器人远程控制APP Geeker-2025 python java
开发一款人行开发机器人远程控制App是一个复杂且高度技术性的项目。该项目涉及多个技术领域，包括前端开发、后端开发、物联网（IoT）通信、实时数据处理、数据加密、安全性保障等。使用Python和Java联合开发可以充分利用每种语言的优势，构建一个高性能、可扩展且功能丰富的应用。以下是一个高层次的设计概述，涵盖主要的技术栈和功能模块，并提供使用Python和Java联合开发的示例。##技术栈概述###
基于Python爬虫技术抓取餐饮优惠信息：从数据抓取到趋势分析的完整实践 Python爬虫项目 2025年爬虫实战项目 python 爬虫信息可视化开发语言数据分析 oracle
一、引言随着互联网的发展，餐饮行业逐渐转向在线化，许多餐饮网站和平台发布了大量的优惠信息，吸引消费者在特定时间购买商品。对于商家而言，实时获取餐饮优惠信息能够帮助他们掌握市场趋势，制定有针对性的促销策略。而对于消费者来说，及时了解餐饮优惠信息能够帮助他们做出更加经济和理性的选择。在这篇博客中，我们将探讨如何使用Python爬虫技术抓取餐饮网站上的优惠信息，并进行数据清洗、存储、分析及可视化。我们将
Wireshark 插件开发实战指南轻口味开发工具 wireshark junit 测试工具
Wireshark插件开发实战指南环境搭建流程图开始使用TortoiseSVN获取Wireshark源码配置编译MSVC,Python等工具链验证依赖库与工具链完整性环境搭建完成一、开发环境与工具准备（一）开发语言选择在Wireshark插件开发中，选择合适的开发语言是至关重要的第一步。不同的语言有其各自的优势和适用场景。Lua脚本语言是一种轻量级的编程语言，它的语法简洁明了，学习曲线平缓，非常适
《Python实战进阶》No 8：部署 Flask/Django 应用到云平台（以Aliyun为例）带娃的IT创业者 Python实战进阶 python flask django
第8集：部署Flask/Django应用到云平台（以Aliyun为例）2025年3月1日更新增加了Ubuntu服务器安装Python详细教程链接。引言在现代Web开发中，开发一个功能强大的应用只是第一步。为了让用户能够访问你的应用，你需要将其部署到生产环境中。阿里云（Aliyun）作为国内领先的云服务提供商，提供了丰富的工具和服务来支持开发者快速、安全地部署和管理应用。本篇将详细介绍如何将Flas
快速上手 Unstructured：安装、Docker部署及PDF文档解析示例大F的智能小课大模型理论和实战 docker pdf 容器
1.核心概念1.1Unstructured简介Unstructured是一个强大的Python库，专注于从非结构化数据中提取和预处理文本信息，广泛应用于PDF、Word文档、HTML等多种格式的文件处理。其核心功能包括分区、清理、暂存和分块，能够将复杂的非结构化文档转换为结构化输出，为后续的自然语言处理任务提供高质量的数据支持。分区功能：Unstructured能够将原始文档分解为标准的结构化元素
Java爬虫——jsoup xxxmine java 爬虫开发语言
JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。Jsoup能做什么？从URL、文件或字符串中抓取和解析HTML（爬虫）使用DOM遍历或CSS选择器查找和提取数据操作HTML元素、属性和文本根据安全列表清理用户提交的内容，以防止XSS攻击输出整洁的网页Jsoup相关概念Document：文档对象。每份HTML页面
【AI大模型】Transformers大模型库（九）：大模型微调之计算微调参数占比 LDG_AGI 人工智能
目录一、引言二、计算微调参数占比2.1概述2.2模型参数结构一览2.3微调参数占比计算三、总结一、引言这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测、训练等服务。Transformers提供了数以千计的预训练模型，支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的NLP技术人人
机器学习之经典算法（十六） Birch算法 AI专家机器之心修炼之路
（一）Birch算法简介：BIRCH（BalancedIterativeReducingandClusteringUsingHierarchies）全称是：利用层次方法的平衡迭代规约和聚类。BIRCH算法是1996年由TianZhang提出来的。Birch算法就是通过聚类特征(CF)形成一个聚类特征树，root层的CF个数就是聚类个数。整个算法实现共分为4个阶段：1.扫描所有数据，建立初始化的CF
【Django REF】Django REF 常用知识点汇总小C学安全 Python django sqlite 数据库
1.序列化器（Serializers）1.1自定义字段1.1.1、直接继承**serializers.Field**并重写关键方法通过继承serializers.Field类，并重写to_representation和to_internal_value方法来实现自定义序列化逻辑。to_representation用于控制从Python对象到原始数据类型的转换（例如，在返回给客户端之前将数据库中的d
如何使用vscode启动Flask并实现无公网IP远程访问内网服务 m0_74823878 面试学习路线阿里巴巴 tcp/ip java
文章目录1.安装部署Flask2.安装Cpolar内网穿透3.配置Flask的web界面公网访问地址4.公网远程访问Flask的web界面本篇文章主要讲解如何在本地安装Flask，以及如何将其web界面发布到公网进行远程访问。Flask是目前十分流行的web框架，采用Python编程语言来实现相关功能。较其他同类型框架更为灵活、轻便、安全且容易上手。它可以很好地结合MVC模式进行开发，开发人员分工
Flask在docker中运行 jackson_hou03 flask docker python
Flask在docker中运行FROMpython:3.11ADD./code/codeWORKDIR/codeRUNpipinstall-rrequirements.txt-ihttps://pypi.tuna.tsinghua.edu.cn/simple/CMD["python","/code/main.py"]dockerbuild-texecutor:1.0.0.
Flask笔记黑色火種 flask 笔记 python
一、Flask基础1.Flask环境搭建Python解释器安装Flask安装PyCharm2.Flask项目创建fromflaskimportFlask#创建应用实例app=Flask(__name__)@app.route('/zs')#路由#视图函数defhello_zs():return'Hello张三!'@app.route('/')#路由#视图函数defhello_world():ret
贪心算法理解与Python实现 LWENBiN8668 贪心算法 python 算法
贪心算法理解与Python实现什么是贪心算法？贪心算法是一种每一步选择当前最优解的算法策略，通过局部最优解的累积达到全局最优解。其核心思想是：在每一步做出对当前最有利的选择，不考虑未来影响。贪心算法适用条件贪心选择性质：局部最优解能导致全局最优解最优子结构：问题的最优解包含子问题的最优解实现步骤将问题分解为多个子问题定义每个步骤的最优选择标准执行贪心选择并缩小问题规模重复直到问题解决示例1：会议室
《基于鸿蒙系统的类目标签AI功能开发实践》程序猿阿伟 harmonyos 人工智能华为
在数字化时代，类目标签AI功能对于数据管理、信息检索等领域至关重要。本文将聚焦于在HarmonyOSNEXTAPI12及以上版本上，利用Python进行类目标签AI功能开发，以电商商品分类这一行业垂域为例，为开发者提供实操性强的学习资源，助力推动鸿蒙技术应用与创新。一、开发环境搭建在开始开发前，确保已经安装好以下工具：DevEcoStudio：鸿蒙应用开发的官方集成开发环境，可从华为官方网站下载并
Aigc 本地接入deepseek-api Mr_Chenph AI乱炖 AIGC deepseek pycharm python
开发环境开发环境：MacBookProSonoma14.5开发工具：PyCharm24.3.3需求整理（提示词）直接使用PyCharm安装Continue插件，配置好deepseek参数后生成代码一次：请帮我用python编写一个程序，功能如下：功能分为服务端和客户端（浏览器），服务端启动后，用户使用浏览器提出问题，服务端调用deepseek的api接口进行消息回复。二次：index页面中的英文变
Pwntools 的详细介绍、安装指南、配置说明程序员的世界你不懂效率工具提升百度新浪微博
Pwntools：Python开源安全工具箱一、Pwntools简介Pwntools是一个由Securityresearcher开发的高效Python工具库，专为密码学研究、漏洞利用、协议分析和逆向工程设计。它集成了数百个底层工具的功能，提供统一的PythonAPI接口，广泛用于CTF竞赛、渗透测试和安全开发。其核心优势包括：模块化设计：支持密码学、网络协议、shellcode生成等全栈操作跨平台
编程江湖：Python探秘之旅-----项目实战(八) 编程漫步者编程江湖：Python探秘之旅 python 开发语言
团队终于开始了一个实际项目，每个人都准备好运用他们所学的知识和技能。龙：（展示项目计划）我们的新项目开始了。我们需要明确地规划，确保每个人都知道他们的任务。码娜：（兴奋地）我已经迫不及待要把我们学到的东西用起来了！1.项目规划龙：首先，我们需要确定项目的需求和目标。接着，我们会分配任务，并设置里程碑。#项目需求requirements={"功能1":"实现用户登录","功能2":"数据可视化","
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

数据分析初步之数据预处理

数据分析初步之数据预处理

一、生成数据表

二 、数据表检查

三、数据表清洗

四、数据预处理

五、数据提取

第六章 数据筛选

七、数据汇总

八 数据统计

九、数据输出

你可能感兴趣的:(机器学习,Python,文本预处理)

二、数据表检查

第六章数据筛选

八数据统计