一见已难忘的申公豹

Pandas文本数据处理技术指南—从查找到时间序列分析【第66篇—python：文本数据处理】

文章目录

Pandas文本数据处理技术指南
- 引言
1. 查找文本数据
2. 替换文本数据
3. 拼接文本数据
4. 正则表达式操作
5. 虚拟变量
6. 处理缺失值
7. 分割文本数据
8. 字符串处理方法
9. 文本数据的合并与连接
10. 文本数据的排序
11. 文本数据的统计分析
12. 文本数据的分组与聚合
13. 文本数据的自定义函数应用
14. 文本数据的时间序列分析
心得
总结

Pandas文本数据处理技术指南

引言

在数据分析和机器学习领域，文本数据处理是一个至关重要的步骤。Pandas库作为Python中最常用的数据处理库之一，提供了丰富的文本数据处理方法。本文将深入探讨Pandas中文本数据处理的几个关键方向：查找、替换、拼接、正则表达式和虚拟变量。通过详细的代码实例和解析，帮助读者更好地理解和应用这些技术。

1. 查找文本数据

在处理文本数据时，查找特定的文本片段是常见的需求。Pandas提供了str.contains()方法来实现文本查找。下面是一个简单的例子：

import pandas as pd

# 创建一个包含文本数据的DataFrame
data = {'text': ['apple', 'banana', 'orange', 'grape']}
df = pd.DataFrame(data)

# 查找包含 'apple' 的行
result = df[df['text'].str.contains('apple')]

print(result)

这段代码将输出包含 ‘apple’ 的行。通过灵活使用str.contains()，可以根据实际需求找到所需的文本数据。

2. 替换文本数据

替换文本数据是清理和标准化数据的一部分。Pandas中的str.replace()方法提供了强大的替换功能。以下是一个简单的例子：

# 替换 'apple' 为 'pear'
df['text'] = df['text'].str.replace('apple', 'pear')

print(df)

这段代码将替换DataFrame中的文本数据，将 ‘apple’ 替换为 ‘pear’。

3. 拼接文本数据

有时候，我们需要将多个文本列合并成一个。Pandas中的str.cat()方法可以实现文本拼接。以下是一个示例：

# 创建两个包含文本数据的列
df['color'] = ['red', 'yellow', 'orange', 'purple']

# 将 'text' 和 'color' 列拼接成一个新列 'fruit_color'
df['fruit_color'] = df['text'].str.cat(df['color'], sep='_')

print(df)

这段代码将创建一个新列 ‘fruit_color’，将 ‘text’ 和 ‘color’ 列的值以下划线分隔拼接在一起。

4. 正则表达式操作

正则表达式是处理复杂文本模式的强大工具。在Pandas中，str.extract()方法可以根据正则表达式提取特定模式的文本。以下是一个简单的示例：

# 提取文本中的数字
df['numbers'] = df['text'].str.extract('(\d+)')

print(df)

这段代码将提取 ‘text’ 列中的数字，并将其存储在新列 ‘numbers’ 中。

5. 虚拟变量

虚拟变量通常用于将分类数据转换为机器学习模型可用的形式。Pandas中的get_dummies()方法可以实现虚拟变量的创建。以下是一个例子：

# 创建虚拟变量
df_dummies = pd.get_dummies(df['color'], prefix='color')

# 将虚拟变量合并到原始DataFrame
df = pd.concat([df, df_dummies], axis=1)

print(df)

这段代码将创建一个新的DataFrame，其中包含原始数据列 ‘color’ 的虚拟变量。

6. 处理缺失值

在文本数据处理中，我们常常会遇到包含缺失值的情况。Pandas中的str.replace()方法可以用于处理文本数据中的缺失值，例如将缺失值替换为特定的默认值：

# 将缺失值替换为 'unknown'
df['text'] = df['text'].str.replace(r'^\s*$', 'unknown', regex=True)

print(df)

这段代码将使用正则表达式替换空白字符（包括空字符串）为 ‘unknown’。

7. 分割文本数据

有时，我们需要将包含多个元素的文本数据进行分割。Pandas中的str.split()方法可以实现文本数据的分割。以下是一个示例：

# 分割 'text' 列中的单词，并创建新的列 'word_list'
df['word_list'] = df['text'].str.split()

print(df)

这段代码将创建一个新列 ‘word_list’，其中包含 ‘text’ 列中每个单词组成的列表。

8. 字符串处理方法

Pandas提供了丰富的字符串处理方法，如str.upper()、str.lower()、str.strip()等，用于处理字符串的大小写、空格等。以下是一个示例：

# 将 'text' 列中的文本转换为大写
df['text_upper'] = df['text'].str.upper()

print(df)

这段代码将创建一个新列 ‘text_upper’，其中包含 ‘text’ 列中文本的大写版本。

9. 文本数据的合并与连接

在实际的数据处理中，有时我们需要将不同来源或格式的文本数据进行合并和连接。Pandas中的str.cat()方法是一种简便的合并文本数据的方式。以下是一个例子：

# 创建两个包含文本数据的Series
series1 = pd.Series(['apple', 'banana', 'orange'], name='fruits')
series2 = pd.Series(['red', 'yellow', 'orange'], name='colors')

# 使用str.cat()合并两个Series
result_series = series1.str.cat(series2, sep='_')

print(result_series)

这段代码将创建一个新的Series，将两个原始Series的元素以下划线分隔合并在一起。

10. 文本数据的排序

排序对于理解和分析文本数据非常重要。Pandas中的sort_values()方法可以用于按照文本数据的字母顺序进行排序。以下是一个简单的例子：

# 按照 'text' 列的字母顺序升序排序
df_sorted = df.sort_values(by='text')

print(df_sorted)

这段代码将按照 ‘text’ 列的字母顺序对DataFrame进行升序排序。

11. 文本数据的统计分析

在处理文本数据时，经常需要对文本进行统计分析，例如计算每个单词出现的频率。Pandas中的value_counts()方法可以用于统计唯一值的频率。以下是一个示例：

# 计算 'text' 列中每个单词的频率
word_counts = df['text'].str.split(expand=True).stack().value_counts()

print(word_counts)

这段代码将统计 ‘text’ 列中每个单词的频率，并以Series形式输出。

12. 文本数据的分组与聚合

在处理大规模文本数据时，分组和聚合是必不可少的步骤。Pandas中的groupby()和agg()方法可以用于对文本数据进行分组和聚合。以下是一个例子：

# 创建一个包含文本数据的DataFrame
data = {'category': ['fruit', 'fruit', 'vegetable', 'fruit', 'vegetable'],
        'text': ['apple', 'banana', 'carrot', 'orange', 'cucumber']}
df = pd.DataFrame(data)

# 按照 'category' 列进行分组，并统计每个类别下的文本数量
grouped_df = df.groupby('category')['text'].agg(['count', 'unique'])

print(grouped_df)

这段代码将按照 ‘category’ 列进行分组，并统计每个类别下的文本数量以及唯一的文本列表。

13. 文本数据的自定义函数应用

有时，我们需要应用自定义函数来处理文本数据。Pandas中的apply()方法可以用于对文本数据应用自定义函数。以下是一个简单的例子：

# 创建一个自定义函数，将文本转换为大写并加上感叹号
def custom_function(text):
    return text.upper() + '!'

# 应用自定义函数到 'text' 列
df['text_processed'] = df['text'].apply(custom_function)

print(df)

这段代码将创建一个新列 ‘text_processed’，其中包含 ‘text’ 列中文本经过自定义函数处理后的结果。

14. 文本数据的时间序列分析

如果文本数据包含时间信息，我们可以进行时间序列分析。Pandas中的to_datetime()方法和resample()方法可以用于处理时间序列数据。以下是一个简单的例子：

# 创建包含时间信息的DataFrame
date_data = {'date': ['2022-01-01', '2022-01-02', '2022-01-03'],
             'text': ['apple', 'banana', 'orange']}
df_time = pd.DataFrame(date_data)

# 将 'date' 列转换为时间格式
df_time['date'] = pd.to_datetime(df_time['date'])

# 将 'date' 列设置为索引，然后按照月份进行聚合
df_time = df_time.set_index('date')
monthly_counts = df_time.resample('M')['text'].count()

print(monthly_counts)

这段代码将按照月份对时间序列数据进行聚合，统计每月文本数据的数量。

心得

通过深入学习Pandas库在文本数据处理方面的各项技术，我对如何更有效地处理和分析文本数据有了更深刻的理解。以下是我在学习过程中得出的一些心得体会：

工具的威力： Pandas作为Python中强大的数据处理工具，提供了丰富而灵活的文本数据处理方法。深入了解这些方法，能够使数据处理任务更加高效、简便。
多方向技术的综合运用： 文本数据处理不是一成不变的，不同的任务和数据情境需要不同的处理方法。通过掌握查找、替换、拼接、正则表达式、虚拟变量等多方向的技术，我可以更灵活地应对各种文本数据处理的挑战。
数据清洗的重要性： 处理缺失值、替换异常值、分割文本数据等清洗步骤是确保数据质量的关键。在这一过程中，我学到了保持数据一致性和完整性的重要性。
个性化处理的实现： 通过自定义函数的应用，我可以对文本数据进行个性化处理，满足特定需求。这种灵活性是Pandas库在文本数据处理中的一大优势。
时间序列分析的应用： 学会使用Pandas进行时间序列分析，我能够更好地理解和利用包含时间信息的文本数据，对数据趋势和周期性有更深入的洞察。
统计分析与可视化： 利用value_counts()等统计方法，我能够更直观地了解文本数据的分布情况，结合可视化工具，提高对数据的洞察力。

通过不断实践和应用这些技术，我逐渐感受到自己在文本数据处理方面的进步。这些技能不仅对于数据分析师和科学家们在处理实际工作中的数据具有重要意义，同时也为机器学习任务提供了强有力的数据准备工具。我将继续深入学习和实践，不断提升在文本数据处理领域的能力。

总结

本文深入探讨了Pandas库在文本数据处理方面的多项技术，旨在帮助读者更好地理解和应用这些功能。以下是本文主要内容的总结：

查找文本数据： 使用str.contains()方法可以方便地查找包含特定文本片段的行，提高数据筛选的效率。
替换文本数据： 利用str.replace()方法可以对文本数据进行替换，清理和标准化数据。
拼接文本数据： 通过str.cat()方法可以将多个文本列合并成一个，灵活应对不同数据的拼接需求。
正则表达式操作： 使用str.extract()方法结合正则表达式，能够高效地提取特定模式的文本信息。
虚拟变量： 利用get_dummies()方法可以将分类数据转换为虚拟变量，为机器学习模型做准备。
处理缺失值： 使用str.replace()方法处理文本数据中的缺失值，保证数据的完整性。
分割文本数据： 利用str.split()方法可以将文本数据进行分割，生成新的列或Series。
字符串处理方法： 掌握str.upper()、str.lower()、str.strip()等方法，能够方便地处理字符串的大小写和空格。
合并与连接： 通过str.cat()方法以及合并DataFrame的方式，实现文本数据的合并和连接。
排序文本数据： 使用sort_values()方法按照字母顺序对文本数据进行排序，提高数据观察和理解的便利性。
统计分析： 利用value_counts()方法对文本数据进行统计分析，了解数据分布和频率。
分组与聚合： 使用groupby()和agg()方法进行文本数据的分组和聚合，获取汇总信息。
自定义函数应用： 利用apply()方法能够应用自定义函数，实现对文本数据的个性化处理。
时间序列分析： 利用to_datetime()和resample()方法处理包含时间信息的文本数据，进行时间序列分析。

通过综合运用以上技术，读者可以更灵活地处理各类文本数据，满足不同任务的需求。文本数据处理是数据分析和机器学习过程中不可或缺的一环，通过掌握这些技术，读者将能够更加高效地进行数据清理、探索性分析和建模工作，提升数据处理的水平和效果。希望本文能够为读者提供实用的知识和技能，使其在文本数据处理领域更具信心和实力。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它