程序员进化者

十分钟快速上手Pandas数据处理

十分钟快速上手Pandas数据处理

一、常用操作
- 1、csv读取和导出
- 2、列名更换
- 3、某一列统计值
- 4、某一列格式转换
- 5、删除列
- 6、选择数据
- 7、修改数据
- 8、删除数据
- 9、处理NaN值
- 10、保留小数和百分数处理
- 11、相关值替换
- 12、获得某列去重后的数据
- 13、df列转换为列表
- 14、复制
- 15、筛选包含指定字符的数据
- 16、dataframe转列表字典
二、合并数据
- 1、concat
- 2、merge
三、排名与排序
- 1、排名，生成排序序号列。不改变数据顺序
- 2、排序，改变数据顺序
四、分组和切分
- 1、分组统计
- 2、分组求和
- 3、分组计数
- 4、分组求累加值
- 5、切分
五、复杂操作
- 1、apply
- 2、pivot_table和pivot

一、常用操作

1、csv读取和导出

df = pd.read_csv('data/train.csv', encoding='utf-8',header=None,names=['timestamp','value','label'])
df.to_csv('data/data.csv',header=None,index=None)

读取数据之后，要先对数据有个初步了解，有空值的先处理空值

df.head()
df.info()
df.describe()
# 统计各种标签的数量
df['label'].value_counts()
# 筛选出有缺失值的列
df.isnull().any()
# 筛选出有缺失值的行
df.isnull().T.any()

查看两列数据是否存在关系，画两者的关系图

import seaborn as sns
sns.residplot(df['A'],df['B'])
# 另一种方式
sns.regplot(x='A',y='B',data=df)
plt.ylim(0,)
# 一图两线
ax1 = sns.distplot(df['price'],hist=False,color="r",label="Actual Value")
sns.distplot(Yhat,hist=False,color="b",label="Fitted Value",ax=ax1)

2、列名更换

df.rename(columns={
     "A": "姓名", "B": "年龄",inplace=True)

3、某一列统计值

df['A'].sum() # 求和
df['A'].max() # 求最大值
df['A'].min() # 求最小值
df['A'].mean() # 求均值
df['A'].std() # 求标准差
df['A'].median() # 求中位数

4、某一列格式转换

df['value'] = df_train['value'].map(str)
# 效率下者比上者高70倍以上
df['value'] = df_train['value'].astype(int)

5、删除列

df.drop(["A", "B"], axis=1, inplace=True)

6、选择数据

df[2:3]
df['20180709':'20180710']
df[df.A > 3]
# 
df.loc['20180711']
df.loc[:,['B','C']]
df.loc[(df['A']>1) & (df['B']=='male'),:]
# 
df.iloc[1:3, 2:4]
df.iloc[[0, 2], 2:4]
# 查看某一行某一列的值
df1 = df[df["id"]=="2301"]
value = df1.iloc[0]["A"]

7、修改数据

df.loc[index, 'B'] = 1
df.loc[df.A>0, 'B'] = 1
df.iloc[2, 2] = 1
df.A[df.A > 3] = 1

8、删除数据

df.drop(index=del_indexs, axis=0, inplace=True)

9、处理NaN值

# 删除NaN值，how：'any'（只要含有NaN数据就丢弃），'all'（所有数据都为NaN时丢弃）
df.dropna(axis=1, how='all',inplace=True)
# 删除某个字段为空的数据
df.dropna(subset=['A'],inplace=True)
# 全部填充
df.fillna(value=0,inplace=True))
# 对不同列填充不同的值
df.fillna({
     "A":0,"B":1})
# method：ffill（用前面的数进行填充），bfill（用后面的值填充）
df.fillna(method='ffill')
# 用均值填充
df.fillna(df["score"].mean(),inplace=True)

10、保留小数和百分数处理

# 保留两位小数
df["A"] = round(df["A"], 2)
# 百分比显示
df["ratio"] = df["ratio"].apply(lambda x: '%.2f%%' % (x * 100))

11、相关值替换

# 这种方法会将math列中非0元素变为NaN
df1["math"] = df1["math"].map({
     0:100}) 
df1.loc[df1["math"]==0,"math"] = 100
# 推荐这种方式，效率是上者的两倍以上
df.replace(to_replace=0, value=100)

12、获得某列去重后的数据

# 删除完全重复的行
df.drop_duplicates()
# 删除字段A重复的数据，保留第一行
df.drop_duplicates(subset = 'A')
# 删除字段A重复的数据，保留最后一行
df.drop_duplicates(subset = 'A',keep='last')

13、df列转换为列表

ids = np.array(df["id"]).tolist()

14、复制

df2 = df.copy(deep=True)

15、筛选包含指定字符的数据

df = df.loc[df["remarks"].str.contains('测试')]

16、dataframe转列表字典

df_list = df.to_dict('records')

二、合并数据

1、concat

# join：'outer'（默认，取并集）， 'inner'（取交集），以下为按列合并，数据行取交集
# ignore_index：是否重排行索引
df = pd.concat([df1, df2], join='inner', axis=1, ignore_index=True)
# 纵向合并
df = pd.concat([df1, df2], axis=0)

2、merge

# how：'inner', 'outer', 'left', 'right'
pd.merge(df3, df4, on=['key1', 'key2'], how='right')

注意问题：
1、有时候merge会出错，主要由于数据中有重复数据，要先去掉重复数据再merge

df.drop_duplicates(subset='game_id', keep=False, inplace=True)

2、合并之后，最好先删除之前的索引，方便以后的计算

df.reset_index(drop=True, inplace=True)

三、排名与排序

1、排名，生成排序序号列。不改变数据顺序

df["rank"] = df["A"].rank(ascending=False, method='min')

排名列数据格式为float64。

method有四种类型：“first”: 根据值在数组中出现的顺序进行排名 ,

“min”: 用整个分组的最小排名 ,“max”: 用整个分组的最大排名 ," average ":默认方式，平均排名

2、排序，改变数据顺序

df = df.sort_values(by=["B"],ascending=[False])

四、分组和切分

1、分组统计

df_group1 = df1.groupby(by=["class_id"], as_index=False).apply(max)
df_group2 = df1.groupby(by=["class_id"])[["math","english"]].apply(max).reset_index()

2、分组求和

df_sum = df.groupby(by=["A","B"], as_index=False)["math", "english", "chinese"].sum().reset_index()

3、分组计数

df_count = df.groupby(by=["A","B"], as_index=False)["id"].count().reset_index()

4、分组求累加值

df["cumsum"] = df["A"].groupby(by=["id"], as_index=False).cumsum().reset_index()

注：在分组统计时，如果某列含有空值（“”），会造成对该列分组统计出现问题。

解决方式：再分组统计之前先对空值进行替换。

df.replace("",0,inplace=True)

groupby分组默认会把分组依据列变成索引，可以用reset_index方法重置或者说取消索引，将它保留在列的位置，维持DataFrame格式，方便后续匹配。

5、切分

切分常用于一维数组的分类和打标

df["label"] = pd.cut(x = df['A'],bins = [0,60,80,90，100],right = False,labels = ['不及格','及格','良','优'])

五、复杂操作

1、apply

def f(x):
    if x == 'male':
        return '男'
    if x == 'female':
        return '女'
df["sex"] = df["sex"].apply(f)
# 还可以采用以下两种方式
df["sex"] = df["sex"].apply(lambda x: '男' if x == 'male' else '女')
df["sex"] = df["sex"].map({
     'male': '男'})

注：map比apply效率要高。简单的替换优先选用map，复杂操作需要使用apply配合编写的规则函数来实现。
apply传参

def circle_rate(df,arg1,arg2,arg3):
    df1 = df[arg1]
    df2 = df[arg2]
    df3 = df[arg3]
    return df1 - df2 if df2==df3 else (df1-df2)/(df2-df3)
df["day_bef"] = df.apply(circle_rate, axis=1, arg1="anzhuang", arg2="anzhuang_bef", arg3="anzhuang_bef_bef")

2、pivot_table和pivot

透视表函数

df_pivot = pd.pivot(df, index="cs", columns="rate").reset_index()
df_pivot_table = pd.pivot_table(df,index=["A","B"],columns="rate",aggfunc="count").reset_index()
#画Heatmap图
df_pivot = pd.pivot(df, index="cs", columns="rate")
plt.pcolor(df_pivot ,cmap='RdBu')
plt.colorbar()
plt.show()

pivot与pivot_table区别：
pivot要求行与列的交叉值的索引必须唯一，否则会报错。
pivot_table会将重复索引的值求均值。

你可能感兴趣的:(大数据,Python,python,数据分析,大数据)

Python爬虫-爬取汽车之家燃油车月销量榜数据写python的鑫哥爬虫案例1000讲 python 爬虫汽车之家燃油车月销量榜单数据
前言本文是该专栏的第48篇，后面会持续分享python爬虫干货知识，记得关注。在本文中，笔者已整理18篇汽车平台相关的爬虫项目案例。对此感兴趣的同学，可以直接翻阅查看。而本文，笔者将以汽车之家平台为例子。基于Python爬虫，实现批量爬取全部“燃油车”的月销量数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文
Python 函数的关键字参数与位置参数是什么？ Python趣味知识 AI Agent首席体验官 python java 前端
1.关键字参数（KeywordArguments）详解在Python中，关键字参数是通过指定参数名称来传递的参数。这与位置参数（PositionalArguments）不同，位置参数是根据参数的位置来传递的，而关键字参数通过明确指定参数的名称进行传递。1.关键字参数的定义关键字参数是在函数调用时通过指定参数名称来传递的。其格式是：函数名(参数名=参数值)例如：defgreet(name,age):
Trae智能协作AI编程工具IDE：如何在MacBook Pro下载、安装和配置使用Trae？
Trae智能协作AI编程工具IDE：如何在MacBookPro下载、安装和配置使用Trae？一、为什么选择Trae智能协作IDE？在AI编程新时代，Trae通过以下突破性功能重新定义开发体验：双向智能增强：AI不仅提供代码补全，更能理解上下文主动建议架构优化方案自然语言编程：支持"用Python写一个带JWT验证的FastAPI用户系统"式开发实时协作画布：可视化呈现AI生成的代码逻辑，支持多模态
【总结】Pytest vs Behave，BDD 测试框架哪家强？软件测试 pytest behave
引言在测试驱动开发(TDD)和行为驱动开发(BDD)流行的今天，Pytest和Behave成为了Python生态中最常见的自动化测试框架。那么，究竟该选择哪一个？它们各自有哪些优缺点？本篇文章将为你全面解析！1.什么是Pytest？Pytest是一个强大且灵活的Python测试框架，适用于单元测试、功能测试和API测试。它支持简单的函数式测试，同时具备强大的插件机制。Pytest的核心特点：✅语法
服务器数据恢复—服务器raid5阵列中多块硬盘故障离线的数据恢复案例数据恢复
服务器数据恢复环境&故障：某公司一台服务器，服务器上有一组由8块硬盘组建的raid5磁盘阵列。磁盘阵列中2块硬盘的指示灯显示异常，其他硬盘指示灯显示正常。上层应用不可用。服务器数据恢复过程：1、将服务器中所有硬盘编号后取出，经过硬件工程师的检测发现2块异常硬盘磁头损坏。将完好的硬盘以只读方式进行全盘镜像，将2块存在坏道的硬盘进行更换磁头后镜像。后续的数据分析和数据恢复操作都基于镜像文件进行，避免对
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
算力未来演进与多场景创新智能计算研究中心其他
内容概要算力作为数字经济的核心生产力，其技术架构与应用场景正经历多维突破。从技术架构层面来看，异构计算通过整合CPU、GPU、FPGA等多元芯片实现性能跃升，边缘计算则借助分布式节点降低时延并提升响应效率，而量子计算在特定领域的指数级加速潜力已进入验证阶段。在应用场景维度，工业互联网通过实时数据分析优化产线效率，智能安防依托视频流结构化处理增强预警能力，元宇宙则依赖高密度渲染与低延迟传输构建沉浸式
意境级讲解二分查找算法、python 炫云云大数据算法和数据结构机器学习数据结构算法 python 人工智能
文章目录问题定义模版一查找一个数寻找第一个的满足条件的位置寻找最后一个的满足条件的值二分查找的问题变种把待搜索区间分成两个部分搜索插入位置模版二寻找第一个的满足条件的位置寻找最后一个的满足条件的值x的平方根方法二：牛顿迭代猜数字大小搜索旋转排序数组搜索旋转排序数组II第一个错误的版本寻找峰值寻找旋转排序数组中的最小值模板三在排序数组中查找元素的第一个和最后一个位置查找最接近且小于target的元素
Java、Python、PHP、Go：网站开发语言全维度对比与选择指南生信天地开发语言 java python
在数字化转型浪潮中，网站开发技术的选择直接影响着项目的成败。Java、Python、PHP、Go四门语言凭借各自特性，在不同场景中展现出独特的竞争力。根据Statista2024年开发者调查报告，Java仍以34%的企业级应用占比位居榜首，而Go以27%的增速成为云原生领域新宠。本文基于技术特性、行业案例及发展趋势，深度解析四大语言的优劣势，助您做出精准技术选型。一、性能与并发能力：高负载场景的生
PyCharm 2024.1最新变化望舒巴巴 pycharm
截至2024年1月，PyCharm2024.1的最新变化是：支持Python4.0：PyCharm2024.1更新了对Python4.0的支持，包括语法高亮、代码补全和调试功能等。新的代码分析工具：PyCharm2024.1引入了新的代码分析工具，可以更准确地检测代码中的错误和潜在问题，并提供相关建议。增强的调试功能：PyCharm2024.1改进了调试器，增加了更多的调试选项和功能。现在，开发人
基于Python的tkinter开发的一个工具，解析图片文件名并将数据自动化导出为Excel文件帅帅的Python GUI python基础知识 python 自动化 excel
文章目录一、开发背景与业务价值二、系统架构设计1.分层架构图解2.核心类结构3.文件解析流程三、关键技术实现详解1.高性能文件名解析引擎2.可视化数据展示3.智能Excel导出模块四、完整代码五、行业应用展望一、开发背景与业务价值在零售行业会员管理场景中，线下门店每日会产生大量客户充值凭证照片。传统人工整理方式存在三个痛点：效率低下：运营人员需要手动截图-粘贴-重命名图片文件数据孤立：财务系统无法
最新xhs旋转滑块验证码分析（含识别与轨迹算法）吴秋霖深耕爬虫领域算法验证码滑块验证 Python
文章目录1.写在前面2.接口分析3.验证轨迹4.算法还原【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！
使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序呱牛 do IT 人工智能 deepseek
让我们使用Gradio构建一个简单的演示应用程序，以使用DeepSeek-R1查询和分析文档。第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成Chromadb：一个高性能的向量数据库，专为高效的相似性搜索和嵌入存储而设计。Gradio
大语言模型的训练数据清洗策略 gs80140 AI python
目录大语言模型的训练数据清洗策略1.数据去重与标准化问题解决方案示例代码（Python实现数据去重）：2.过滤有害内容问题解决方案示例代码（基于关键词过滤有害内容）：3.纠正数据不均衡问题解决方案示例代码（欠采样非均衡数据）：4.识别和纠正刻板印象问题解决方案示例代码（简单的数据增强）：5.处理低质量与无关数据问题解决方案示例代码（去除HTML标签）：6.处理时效性数据问题解决方案示例代码（基于时
Spring Boot Starter 设计原理与实战：打造企业级自定义启动器 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBootStarter设计原理与实战：打造企业级自定义启动器一、引言在当今的企业级Ja
用VSCode做前端开发北子ALF 杂谈 vscode ide 编辑器
vscode写前端和记markdown还是很好用的，虽然在C++,Java和Python大型项目开发的体验不如vs,idea和pycharm自动生成html骨架打个感叹号预览网页：liveserver插件
震惊！Python包管理神器uv横空出世，速度快到让pip瑟瑟发抖！ weixin_316716198 技术文章推荐
震惊！Python包管理神器uv横空出世，速度快到让pip瑟瑟发抖！近年来，Python的生态系统蓬勃发展，但包管理工具的效率问题却一直困扰着开发者们。漫长的安装时间、复杂的依赖管理，以及繁琐的虚拟环境操作，无不让人感到头疼。然而，就在大家以为现状难以改变时，一款名为uv的全新工具横空出世，彻底颠覆了传统的Python包管理方式，为开发者们带来了前所未有的高效体验！uv：速度与效率的完美融合uv的
python面向对象之抽象类 liangblog python基础技能抽象类 python 面向对象
抽象类概念：抽象类是一个特殊的类，它的特殊之处在于只能被继承，不能被实例化，需要借助python模块实现；抽象类是从一堆类中抽取相同的内容而来的，内容包括数据属性和函数属性。抽象类与普通类的不同之处在于：抽象类中有抽象方法，该类不能被实例化，只能被继承，且子类必须实现抽象方法python中的abc模块python中需要利用abc模块实现抽象类importabc#利用abc模块实现抽象类classs
python局部变量和全局变量例题_Python的局部和全局变量,python,局部变量 steventey
局部变量是函数内部定义的变量，只能在函数内部使用全局变量实在函数外部定义的变量(没有定义在某一个函数内)，所有函数内部都可以使用这个变量局部变量是在函数内部定义的变量，只能在函数内部使用，函数执行结束后，函数内部的局部变量，会被系统回收；不同的函数，可以定义相同的名字的局部变量，但是各用个的不会产生影响局部变量的生命周期所谓的生命周期就是从被创建到被系统回收的过程局部变量在函数被执行时才会被创建，
Python的Pytest（2）活跃家族 python pytest 开发语言
1、思考：完整项目框架里每个模块单独用一个py文件管理，注册模块-py文件，登录模块-py文件==放在用例层目录下管理，testcases多个模块、py文件里的用例，批量执行==需要收集所有模块的用例，一起执行。1、pytest智能自动收集所有用例：pytest.main():自动在这个文件所在目录下收集符合命名规则的用例=pytest.main()通常写在入口文件run.py或main.py。2
Python的路径pathlib库活跃家族 python 开发语言
1、读取文件默认只会从当前代码操作文件的目录下读取文件。找不到就会报错。解决方式：1、方式一：绝对路径是指：电脑里从根目录开始的一个完整的路径--不推荐注意事项：路径特殊符号\t一定要转义在路径前面加一个r绝对路径弊端：1）移植给其他人电脑上用，文件前面的目录不对，要手动修改。2）\/不同平台路径分隔符不一样，绝对路径不能兼容不同平台。2、相对路径：不会写死每一级的路径，相对层级管理，找文件路径借
Python的Pytest测试框架（1）活跃家族 python pytest 开发语言
1、Pytest测试框架手工执行测试：熟悉业务写用例（分模块）执行用例并记录生成本轮的测试报告自动化测试:熟悉业务写用例（手工用例转化为自动化测试用例）用代码表达用例（代码写出用例）代码收集测试用例代码执行测试用例代码生成测试报告。自动化的思路基本是跟手工测试一样的，建立在手工测试基础上的一种更高效率的进阶和升华的方式。测试框架：unittestpytest，技术栈，提供了表示测试用例，发现测试用
Selenium与MySQL数据校验自动化噔噔噔噔@ 软件测试面试题专栏软件测试基础及工具分享自动化运维 selenium 集成测试
在使用Selenium进行UI自动化测试时，如果需要连接MySQL数据库进行数据校验，可以通过以下步骤实现：1.安装必要的库首先，确保你已经安装了以下Python库：selenium：用于UI自动化。mysql-connector-python或pymysql：用于连接MySQL数据库。你可以使用以下命令安装这些库：pipinstallseleniummysql-connector-python2
对接马来西亚、印度、韩国、越南等全球金融数据示例 CryptoPP 金融 python windows
Python对接StockTV全球金融数据API的封装实现及使用教程：importrequestsimportwebsocketsimportasynciofromtypingimportDict,List,Optional,UnionfromdatetimeimportdatetimeclassStockTVClient:"""StockTV全球金融数据API客户端支持股票、外汇、期货、加密货币
python局部变量和全局变量 yqd666 python 开发语言数据库
文章目录1.局部变量和全局变量2.局部变量2.1局部变量的作用2.2局部变量的生命周期3.全局变量3.1函数不能直接修改`全局变量的引用`3.2在函数内部修改全局变量的值3.3全局变量定义的位置3.4全局变量命名的建议1.局部变量和全局变量（1）局部变量是在函数内部定义的变量，只能在函数内部使用（2）全局变量是在函数外部定义的变量（没有定义在某一个函数内），所有函数内部都可以使用这个变量（3）提示
Python 地图基础教程教程小白教程 python python Python地图 Python基础教程 Python地图教程 Python地图入门 Python绘制地图 Python地图源码
文章目录前言1.环境准备1.1Python安装1.2选择Python开发环境1.3安装必要库二、绘制基本世界地图1.导入必要的库：2.加载世界地图数据：3.绘制地图：三、自定义地图样式1.按面积给国家着色：2.突出显示特定国家：四、添加地理信息1.显示国家名称：2.添加其他地理要素：五、保存地图前言地图在生活、科研、商业等诸多领域都有着广泛的应用，从日常出行的导航，到地理信息系统（GIS）中的数据
安装（python 版） C-haidragon mysql
安装安装sudoapt-getinstallmysql-servermysql-client然后按照提示输入管理服务启动servicemysqlstart停止servicemysqlstop重启servicemysqlrestart允许远程连接找到mysql配置文件并修改sudovi/etc/mysql/mysql.conf.d/mysqld.cnf将bind-address=127.0.0.1注
tkinter报错 tcl和tk报错 _tkinter.TclError: Can‘t find a usable init.tcl in the following directories: 大博士.J java 数据库 python
问了好几个GPT回答的都不是解决问题的，胡编乱造的目前经过尝试好几个解决方案，终于破案了win10系统使用安装python时自动将tcl和tk识别到了新创建的虚拟环境继承中win11系统则需要手动去做一些操作，才可以解决问题我这报错的问题是这样的self.tk=_tkinter.create(screenName,baseName,className,interactive,wantobjects
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
python怎么爬取网页数据,python爬取网页数据步骤 ab524100 python
这篇文章主要介绍了python爬取网页数据表格会超出索引，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。前言：用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂python源码库。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。python爬虫六步走第一步：安装requests库和Beaut
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他