1.前言
1.1 抓取网页
本文将举例说明抓取网页数据的三种方式:正则表达式、BeautifulSoup、lxml。 获取网页内容所用代码详情请参照Python网络爬虫-你的第一个爬虫。利用该代码获取抓取整个网页。
import requests
def download (url, num_retries=2 , user_agent='wswp' , proxies=None) :
'''下载一个指定的URL并返回网页内容
参数:
url(str): URL
关键字参数:
user_agent(str):用户代理(默认值:wswp)
proxies(dict): 代理(字典): 键:‘http’'https'
值:字符串(‘http(s)://IP’)
num_retries(int):如果有5xx错误就重试(默认:2)
#5xx服务器错误,表示服务器无法完成明显有效的请求。
#https://zh.wikipedia.org/wiki/HTTP%E7%8A%B6%E6%80%81%E7%A0%81
'''
print('==========================================' )
print('Downloading:' , url)
headers = {'User-Agent' : user_agent}
try :
resp = requests.get(url, headers=headers, proxies=proxies)
html = resp.text
if resp.status_code >= 400 :
print('Download error:' , resp.text)
html = None
if num_retries and 500 <= resp.status_code < 600 :
return download(url, num_retries - 1 )
except requests.exceptions.RequestException as e:
print('Download error:' , e)
html = None
return html
1.2 爬取目标
爬取http://example.webscraping.com/places/default/view/Australia-14网页中所有显示内容。 分析网页结构可以看出,所有内容都在标签
中,以area为例可以看出,area的值在:
根据这个结构,我们用不同的方式来表达,就可以抓取到所有想要的数据了。
7,686,850 square kilometres
re.search(r'.*?(.*?) ').groups()[0 ]
soup.find('table' ).find('tr' , id='places_area__row' ).find('td' , class_="w2p_fw" ).text
tree.cssselect('table > tr#places_area__row > td.w2p_fw' )[0 ].text_content()
tree.xpath('//tr[@id="places_area__row"]/td[@class="w2p_fw"]' )[0 ].text_content()
Chrome 浏览器可以方便的复制出各种表达方式:
有了以上的download函数和不同的表达式,我们就可以用三种不同的方法来抓取数据了。
2.不同方式抓取数据
2.1 正则表达式爬取网页
正则表达式不管在python还是其他语言都有很好的应用,用简单的规定符号来表达不同的字符串组成形式,简洁又高效。学习正则表达式很有必要。https://docs.python.org/3/howto/regex.html。 python内置正则表达式,无需额外安装。
import re
targets = ('area' , 'population' , 'iso' , 'country' , 'capital' , 'continent' ,
'tld' , 'currency_code' , 'currency_name' , 'phone' , 'postal_code_format' ,
'postal_code_regex' , 'languages' , 'neighbours' )
def re_scraper (html) :
results = {}
for target in targets:
results[target] = re.search(r'.*?(.*?) '
% target, html).groups()[0 ]
return results
2.2BeautifulSoup抓取数据
BeautifulSoup用法可见python 网络爬虫 - BeautifulSoup 爬取网络数据 代码如下:
from bs4 import BeautifulSoup
targets = ('area' , 'population' , 'iso' , 'country' , 'capital' , 'continent' ,
'tld' , 'currency_code' , 'currency_name' , 'phone' , 'postal_code_format' ,
'postal_code_regex' , 'languages' , 'neighbours' )
def bs_scraper (html) :
soup = BeautifulSoup(html, 'html.parser' )
results = {}
for target in targets:
results[target] = soup.find('table' ).find('tr' , id='places_%s__row' % target) \
.find('td' , class_="w2p_fw" ).text
return results
2.3 lxml 抓取数据
from lxml.html import fromstring
def lxml_scraper (html) :
tree = fromstring(html)
results = {}
for target in targets:
results[target] = tree.cssselect('table > tr#places_%s__row > td.w2p_fw' % target)[0 ].text_content()
return results
def lxml_xpath_scraper (html) :
tree = fromstring(html)
results = {}
for target in targets:
results[target] = tree.xpath('//tr[@id="places_%s__row"]/td[@class="w2p_fw"]' % target)[0 ].text_content()
return results
2.4 运行结果
scrapers = [('re' , re_scraper), ('bs' ,bs_scraper), ('lxml' , lxml_scraper), ('lxml_xpath' ,lxml_xpath_scraper)]
html = download('http://example.webscraping.com/places/default/view/Australia-14' )
for name, scraper in scrapers:
print(name,"=================================================================" )
result = scraper(html)
print(result)
==========================================
Downloading: http://example.webscraping.com/places/default/view/Australia-14
re =================================================================
{'area' : '7,686,850 square kilometres' , 'population' : '21,515,754' , 'iso' : 'AU' , 'country' : 'Australia' , 'capital' : 'Canberra' , 'continent' : 'OC ' , 'tld' : '.au' , 'currency_code' : 'AUD' , 'currency_name' : 'Dollar' , 'phone' : '61' , 'postal_code_format' : '####' , 'postal_code_regex' : '^(\\d{4})$' , 'languages' : 'en-AU' , 'neighbours' : '' }
bs =================================================================
{'area' : '7,686,850 square kilometres' , 'population' : '21,515,754' , 'iso' : 'AU' , 'country' : 'Australia' , 'capital' : 'Canberra' , 'continent' : 'OC' , 'tld' : '.au' , 'currency_code' : 'AUD' , 'currency_name' : 'Dollar' , 'phone' : '61' , 'postal_code_format' : '####' , 'postal_code_regex' : '^(\\d{4})$' , 'languages' : 'en-AU' , 'neighbours' : ' ' }
lxml =================================================================
{'area' : '7,686,850 square kilometres' , 'population' : '21,515,754' , 'iso' : 'AU' , 'country' : 'Australia' , 'capital' : 'Canberra' , 'continent' : 'OC' , 'tld' : '.au' , 'currency_code' : 'AUD' , 'currency_name' : 'Dollar' , 'phone' : '61' , 'postal_code_format' : '####' , 'postal_code_regex' : '^(\\d{4})$' , 'languages' : 'en-AU' , 'neighbours' : ' ' }
lxml_xpath =================================================================
{'area' : '7,686,850 square kilometres' , 'population' : '21,515,754' , 'iso' : 'AU' , 'country' : 'Australia' , 'capital' : 'Canberra' , 'continent' : 'OC' , 'tld' : '.au' , 'currency_code' : 'AUD' , 'currency_name' : 'Dollar' , 'phone' : '61' , 'postal_code_format' : '####' , 'postal_code_regex' : '^(\\d{4})$' , 'languages' : 'en-AU' , 'neighbours' : ' ' }
从结果可以看出正则表达式在某些地方返回多余元素,而不是纯粹的文本。这是因为这些地方的网页结构和别的地方不同,因此正则表达式不能完全覆盖一样的内容,如有的地方包含链接和图片。而BeautifulSoup和lxml有专门的提取文本函数,因此不会有类似错误。
既然有三种不同的抓取方式,那有什么区别?应用场合如何?该如何选择呢?
3. 爬虫性能对比
上面的爬虫由于爬取数据量有限,因此无法对比它们的性能。接下来将对比它们爬取大量数据时的性能。
目标 :爬取网页所有显示内容,重复1000次,比较不同爬虫的爬取时间。 准备 :导入网页爬取函数download,导入所有爬虫。
开始coding:
import time
import re
from chp2_all_scrapers import re_scraper, bs_scraper, lxml_scraper, lxml_xpath_scraper
from chp1_download import download
num_iterations = 1000
html = download('http://example.webscraping.com/places/default/view/Australia-14' )
scrapers = [('re' , re_scraper), ('bs' , bs_scraper), ('lxml' , lxml_scraper),
('lxml_xpath' , lxml_xpath_scraper)]
for name, scraper in scrapers:
start_time = time.time()
for i in range(num_iterations):
if scraper == re_scraper:
re.purge()
result = scraper(html)
assert result['area' ] == '7,686,850 square kilometres'
end_time = time.time()
print("=================================================================" )
print('%s: %.2f seconds' % (name, end_time - start_time))
注意 :re.purge() 是为了清除缓存。因为正则表达式默认情况下会缓存搜索,需要对其清除以保证公平性。如果不清除缓存,后面的999次都是在作弊,结果惊人!
运行结果:
Downloading: http://example.webscraping.com/places/default/view/Australia-14
=================================================================
re: 2.40 seconds
=================================================================
bs: 18.49 seconds
=================================================================
lxml: 3.82 seconds
=================================================================
lxml_xpath: 1.53 seconds
Process finished with exit code 0
Downloading: http://example.webscraping.com/places/default/view/Australia-14
=================================================================
re: 0.19 seconds
=================================================================
bs: 18.12 seconds
=================================================================
lxml: 3.43 seconds
=================================================================
lxml_xpath: 1.50 seconds
Process finished with exit code 0
从结果可以明显看出正则表达式和lxml的性能差不多,采用xpath性能最佳,BeautifulSoup性能最差! 因为BeautifulSoup是纯python写的而lxml是c写的,性能可见一斑。
绝大部分网上教程都在使用BeautifulSoup写爬虫,这是因为BeautifulSoup可读性更高,更加人性,而css selector 和xpath需要学习他们特有的表达方式,但是绝对值得学习的。性能提高不止十倍(相对)!
4.结论
爬取方式
性能
易用性
易安装性
正则表达式
快
难
内置
BeautifulSoup
慢
易
易
lxml
快
易
偏难
因此在爬取少量数据时,BeautifulSoup可以胜任,而且易读性高,但是大量数据采集时就建议使用lxml。
你可能感兴趣的:(学习笔记)
MATAB学习笔记2
好大一口果汁
MATLAB 学习 笔记 算法
1.多项式拟合>>p=polyfit(DateNum,Pclose,1);%多项式拟合>>value=p(1)%将斜率赋值给value,作为股票的价值value=0.1212代码分析:%后面的内容是注释,ployfit()有三个参数,第三个参数表示多项式的阶数,也就是最高次数。比如:第三个参数为1,说明为1次项,即一次函数,第三个参数为你要拟合的阶数,一阶直线拟合,二阶抛物线拟合,并非阶次越高越好
网络运维学习笔记(DeepSeek优化版) 018 HCIA-Datacom综合实验03
技术小齐
网络 运维 学习
文章目录综合实验3实验需求一:A公司网络规划二:B公司网络规划配置一、ip、vlan、vlanif,stp、eth-trunkSW1SW2R1二、ospfSW1R1三、NATR1ISP四、拒绝ping允许httpSW1五、右半部分vlan、dhcp、ospf、NATSW4R2综合实验3实验需求一:A公司网络规划SW1/2/3组成了A公司的交换网络,其中SW1是核心层,SW2/3是接入层。三台交换机
[学习笔记] Windows编程——GDI——(六)设备上下文
根本没在怕哦
Windows 编程 学习 笔记 windows
前言:学习笔记,随时更新。如有谬误,欢迎指正。说明:红色字体为较为重要部分。绿色字体为个人理解部分。原文链接:https://learn.microsoft.com/en-us/windows/win32/gdi/device-contexts6设备上下文设备上下文是一种结构,用于定义一组图形对象及其关联属性,以及影响输出的图形模式。图形对象包括用于线条绘制的笔、用于绘制和填充的画刷、用于复制或滚
[学习笔记] Windows编程——GDI——(三)裁剪
根本没在怕哦
Windows 编程 学习 笔记 windows
前言:学习笔记,随时更新。如有谬误,欢迎指正。说明:红色字体为较为重要部分。绿色字体为个人理解部分。原文链接:https://learn.microsoft.com/en-us/windows/win32/gdi/clipping3裁剪剪裁是将输出限制为应用程序窗口的工作区中的某个区域或路径的过程。3.1关于裁剪应用程序通过多种方式使用剪裁。Word和Excel应用程序剪裁键盘输入,使其不显示在页
kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记
supernova121
学习 笔记
问题描述:通过从3D全身照片(TBP)中裁剪出单个病变来识别经组织学确诊的皮肤癌病例数据集描述:图像+临床文本信息评价指标:pAUC,用于保证敏感性高于指定阈值下的AUC主流方法分析(文本)基于CatBoost、LGBM和XGBoost三者的组合,为每个算法创建了XX个变体,总共XX个模型,进行集成学习。CatBoost在传统梯度提升决策树(GBDT)基础上,引入了一系列关键技术创新,以提升处理类
Autoleaders控制组——51单片机学习笔记(2)
Autoleaders控制组 邓翔
51单片机 学习 笔记
51单片机学习(2)1.模块化编程1.1模块化编程的意义在学习单片机的途中,随着我们的知识不断扩展,我们能写出的代码也越来越复杂,越来越长了,有时我们自己写出的很长的代码,出现了错误,需要调试,但奈何自己的代码实在是太长了,真的不好分析到底是哪里出错了。这是因为我们将太多的函数和代码放在一个main.c的文件里,导致代码过度堆积。如果我们能够条理清晰地去将不同作用的代码和函数放在不同的xxx.c文
AI开发 - 算法基础 递归 的概念和入门(三)递归的进阶学习
minstbe
Python AI应用与观察 算法 学习 深度优先
前面我们通过2篇文章,一起了解了递归,以及使用递归来解决汉诺塔问题。今天我们在这个基础上,进一步地熟悉和学习递归。这篇学习笔记将涵盖递归的基本概念、应用、优化技巧、陷阱及与迭代的对比,并通过具体的Python代码示例和大家一起来深入理解递归的使用。一、巩固基础1.递归的概念递归,简单来说就是函数自己调用自己。听起来有点绕,但其实就像俄罗斯套娃,一层套一层,直到遇到最小的那个娃娃(基线条件)才停止。
【STM32】USART串口收发HEX数据包&收发文本数据包
傍晚冰川
stm32 网络 嵌入式硬件 单片机 笔记 学习 c语言
有关串口知识参考:【STM32】USART串口协议&串口外设-学习笔记-CSDN博客HEX模式/十六进制模式/二进制模式:以原始数据的形式显示文本模式/字符模式:以原始数据编码后的形式显示参考上面文章查看ASCII编码表HEX数据包包头包尾和载荷数据重复问题的解决方法:解决思路方法文本数据包文本模式有大量的字符可以作为包头包尾,可以有效避免载荷数据和包头包尾重复的问题HEX数据包和文本数据包两者的
深入理解C++内存管理机制
qzw1210
C++ c++ 学习 笔记
侯捷C++系列课程学习笔记:深入理解C++内存管理机制在侯捷老师的C++系列课程中,内存管理是一个极其重要且深刻的主题。通过对这部分内容的学习,我对C++的内存管理机制有了更深入的理解,特别是关于new/delete操作符、内存池设计以及智能指针的应用。一、C++内存分配的层次结构侯捷老师在课程中清晰地阐述了C++内存分配的层次结构,这让我对整个内存管理体系有了全局的认识:最底层:操作系统提供的内
elasticsearch analyzer 学习笔记
weixin_40455124
elasticsearch 代码分析及扩展 elasticsearch analyzer token
基本定义analyzer执行将输入字符流分解为token的过程使用场景在indexing的时候,也即在建立索引的时候在searching的时候,也即在搜索时,分析需要搜索的词语analysisCharacterfiltering(字符过滤器):使用字符过滤器转换字符Breakingtextintotokens(把文字转化为标记):将文本分成一组一个或多个标记Tokenfiltering:使用标记过
《架构300讲》学习笔记(201-250)
newProxyInstance
笔记 架构
前言内容来自B站IT老齐架构300讲内容。201小心selectforupdate,有效规避索引选择性锁表202设计模式之建造者模式的用途20320分钟上手ELK日志监控系统分类:【ELK】204设计模式之门面模式Facade205设计模式之适配器模式Adapter206经典设计!如何让RabbitMQ支持消息延迟投递207Docker容器基于NFS实现跨容器文件共享208数据向上追溯场景该如何优
信息技术基础专有名词和计算机硬件学习笔记
learning-striving
信息技术 学习 笔记 信息技术 计算机硬件
信息技术常见专有名词信息技术基础课程中常见的专有名词英文缩写或简称及其详细含义,按领域分类整理:硬件与存储CPU(CentralProcessingUnit)中央处理器,负责执行计算机指令和处理数据。GPU(GraphicsProcessingUnit)图形处理器,专用于处理图形和并行计算。RAM(RandomAccessMemory)随机存取存储器,临时存储运行中的程序和数据。ROM(Read-
吴恩达机器学习笔记复盘(二)监督学习和无监督学习
wgc2k
机器学习 机器学习 笔记 学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型,它是学习输入到输出映射的算法,关键在于给学习算法提供包含正确答案(即给定输入X的正确标签Y)的学习例子。生活中的例子邮件分类,输入是电子邮件,输出是判断邮件是否为垃圾邮件。语音识别,输入音频剪辑,输出文本记录。机器翻译,输入一种语言文本,输出其他语言的相应翻译。在线广告,输入广告和用户信息,预测用户是否点击广告,为公司带来大量
uCOS-II学习笔记(一)
abc94
uCOS-II 任务 dos borland os 编译器 数据结构
第一章:范例在这一章里将提供三个范例来说明如何使用µC/OS-II。这一章是为了让读者尽快开始使用µC/OS-II。1.00安装µC/OS-II1.01INCLUDES.H#include"includes.h"INCLUDE.H可以使用户不必在工程项目中每个*.C文件中都考虑需要什么样的头文件。换句话说,INCLUDE.H是主头文件。这样做唯一的缺点是INCLUDES.H中许多头文件在一些*.C
C语言数据结构——变长数组(柔性数组)
Iawfy22
数据结构 c语言 柔性数组
前言这是一位即将大二的大学生(卷狗)在暑假预习数据结构时的一些学习笔记,供大家参考学习。水平有限,如有错误,还望多多指正。本文主要介绍了如何手动实现一个变长数组,以及实现其部分功能(如删除、查找、添加、排序等)变长数组介绍变长数组又可以叫柔性数组,与一般数组不同,它是一个动态的数组,具体表现为可以根据数组里面元素个数的多少而自动的进行扩容,以便达到变长(柔性)的特点。预备知识为了实现自动边长扩容这
C语言学习笔记-进阶(17)预处理详解
John.Lewis
c语言 学习 笔记
1.预定义符号C语言设置了一些预定义符号,可以直接使用,预定义符号也是在预处理期间处理的。__FILE__//进⾏编译的源⽂件__LINE__//⽂件当前的⾏号__DATE__//⽂件被编译的⽇期__TIME__//⽂件被编译的时间__STDC__//如果编译器遵循ANSIC,其值为1,否则未定义举个例子:printf("file:%sline:%d\n",__FILE__,__LINE__);2
图神经网络学习笔记—高级小批量处理(专题十四)
AI专题精讲
图神经网络入门到精通 人工智能
小批量(mini-batch)的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同,小批量将一组样本组合成一个统一的表示形式,从而可以高效地并行处理。在图像或语言领域,这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现,然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量,通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
简单了解WIndow和Linux的路径含义
alive903
Linux linux windows
目录1>路径概念2>绝对路径2.1>window绝对路径2.2>Linux绝对路径3>相对路径3.1>window相对路径3.2>Linux相对路径很高兴你能看到这篇文章,同时我的语雀文档也更新了许多嵌入式系列的学习笔记希望能帮到你:https://www.yuque.com/alive-m4b9n1>路径概念路径是用来描述一个文件或目录在文件系统中的位置的方式。路径可以是文件系统中的唯一标识符,
WPF学习笔记04-控件Control_Part1
一只只对技术感兴趣的程序员
WPF学习 wpf 学习 ui
之前我们已经学习过WPF布局了,这节我们开始简单介绍下控件。熟悉Winform的应该对控件并不陌生。WPF和Winform的渲染也是不一样的一个是基于DirectX一个是基于GDI+。在WPF中,打交道最多的控件无非就那么几种。1)布局控件。之前介绍过的,可以容纳多个控件或嵌套其他布局控件,用于在UI上组织和排列控件。比如StackPanel、Grid等控件都属于此类控件,他们都拥有共同父类---
【学习笔记】GitLab 使用技巧和说明和配置和使用方法
铜锣烧1号
python git gitlab pycharm
GitLab使用技巧和说明1.注册账号和登录注册账号:访问GitLab官网,点击“Signup”按钮,填写必要的信息(如用户名、邮箱、密码)完成注册。普通用户注册后需要管理员审批,如果有管理员权限可以直接登录使用。登录:使用注册的账号和密码登录GitLab。2.创建项目创建项目:登录后,点击页面右上角的加号图标,选择“Newproject”创建新项目。在项目创建页面,填写项目名称、描述和可见性等信
『FFmpeg学习笔记』MAC系统电脑安装FFmpeg以及使用
AI大模型前沿研究
大模型笔记 macos ffmpeg M1
MAC系统电脑安装FFmpeg文章目录一.安装FFmpeg1.1.MACbrew安装FFmpeg1.2.MAC官网下载FFmpeg压缩包1.3.Windows安装1.4.Linux安装二.FFmpeg的使用2.1.音频操作2.1.1.如果不转换,直接输出aac2.1.2.将音频输出为wav2.1.3.将aac转换为wav2.1.4.双声道分离2.1.5.使用FFmpeg将音频和视频合并2.2.字幕
渗透学习笔记(四)window基础2
nnnimok
学习 笔记
声明!学习视频来自B站up主**泷羽sec**有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关,切勿触碰法律底线,否则后果自负!!!!有兴趣的小伙伴可以点击下面连接进入b站主页[B站泷羽sec](https://space.bilibili.com/350329294)五、Windows网
C++ 并发编程实战 学习笔记
myc13381
c++ 笔记
C++并发编程学习笔记目录一.基本接口二.初步了解多线程三.线程所属权管理四.线程间共享数据五.同步并发操作六.C++内存模型和原子类型操作七.基于锁的并发数据结构设计八.无锁数据结构九.并发代码设计十.高级线程管理十一.并行算法十二.参考资料基本接口std::thread常用成员函数构造和析构函数//默认构造函数,创建一个线程,什么也不做thread()noexcept;//初始化构造函数,创建
RecyclerView学习笔记(1) ChildHelper.Bucket
奋斗小小鸟cy
Android android 数据结构
简介toString方法set方法get方法clear方法countOnesBefore方法reset方法insert方法remove方法总结简介RecyclerView中的ChildHelper.Bucket是一个工具类,实现了类似List的数据结构,从而达到减少内存占用的目的。Bucket是一个链表结构,有两个字段:mData用于存储当前信息,next指向下一个数据publicstaticcl
RxSwift 学习笔记第二篇之Observables
我叫柱子哥
# RxSwift rxswift Observable Swift
目录前言一、什么是Observables二、创建Observable的几种方式1.just1.含义2.实用场景2.of1.含义3.from4.create5.interval三、订阅Observable四、取消订阅(DisposeBag)五、常见操作符六、总结前言这篇博客主要介绍Observables的用法。一、什么是ObservablesObservables是Rx的核心。在Rx中我们看到“Ob
React学习笔记16
充气大锤
React学习笔记 react.js 学习 笔记 javascript 前端 vue.js
一、useReducer作用:和useState的作用类似,用来管理相对复杂的状态数据使用:1、定义一个reducer函数(根据不同的action返回不同的新状态)2、在组件中调用useReducer,并传入reducer函数的状态和初始值import{useReducer}from"react"functionreducer(state,action){switch(action.type){c
C语言 进阶指针学习笔记
flashier
C语言学习记录 c语言 学习 笔记
文章目录字符指针指针数组数组指针数组名数组传参函数指针函数指针数组指向函数指针数组的指针回调函数Qsort的使用通过冒泡排序模拟实现qsort大部分的内容都写在代码注释中指针有类型,指针的类型决定了指针的±整数的步长,指针解引用操作的时候的权限字符指针#includeintmain(void){constchar*str1="Hello,World!";constchar*str2="Hello,
Python个人学习笔记(14):函数(匿名函数、内置函数(下)、三元表达式)
NEET_LH
樵夫老师Python零基础课程 个人学习笔记 python 学习 笔记
九、匿名函数lambda表达式语法规则:变量=lambda参数1,参数2,…:返回值例:用lambda简化下述操作deffunc(a,b):returna+bret=func(1,2)print(ret)代码:fn=lambdaa,b:a+bprint(fn)print(fn(12,13))结果:at0x000001E751EAAF20>25可以帮我们一句话创建函数可以与某些内置函数一起用十、内置
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip
苹果Android开发组
程序员 python 爬虫 学习
最后Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习Python门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的Pytho
LVGL的学习笔记第一章
期待的是什么
LVGL 学习
1.屏幕对象的创建过程lv_init_lv_ll_init(&LV_GC_ROOT(_lv_disp_ll),sizeof(lv_disp_t));//注册初始化显示器链表lv_disp_drv_register_lv_ll_ins_head(&LV_GC_ROOT(_lv_disp_ll));//注册显示器到链表disp->act_src=lv_obj_create(NULL);//在显示器上创
java的(PO,VO,TO,BO,DAO,POJO)
Cb123456
VO TO BO POJO DAO
转:
http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html
-------------------------------------------------------------------
O/R Mapping 是 Object Relational Mapping(对象关系映
spring ioc原理(看完后大家可以自己写一个spring)
aijuans
spring
最近,买了本Spring入门书:spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的,我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬 的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。 先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法
Kai_Ge
MyEclipse2014
高高兴兴下载个MyEclipse2014,发现工具条上多了个手机开发的按钮,心生不爽就想弄掉他!
结果发现Customize Persperctive失效!!
有说更新下就好了,可是国内Myeclipse访问不了,何谈更新...
so~这里提供了更新后的一下jar包,给大家使用!
1、将9个jar复制到myeclipse安装目录\plugins中
2、删除和这9个jar同包名但是版本号较
SpringMvc上传
120153216
springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE)
@ResponseBody
public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) {
try {
//
Javascript----HTML DOM 事件
何必如此
JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。
事件通常与函数结合使用,函数不会在事件发生前被执行!
注:DOM: 指明使用的 DOM 属性级别。
1.鼠标事件
属性  
动态绑定和删除onclick事件
357029540
JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉,今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。
在我的查询页面,我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数,这样可以在点击行上的任意地方时可以选中checkbox,但是在我的某一列上也有一个onclick事件是用于下载附件的,当
HttpClient|HttpClient请求详解
7454103
apache 应用服务器 网络协议 网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient,然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需
递归 逐层统计树形结构数据
darkranger
数据结构
将集合递归获取树形结构:
/**
*
* 递归获取数据
* @param alist:所有分类
* @param subjname:对应统计的项目名称
* @param pk:对应项目主键
* @param reportList: 最后统计的结果集
* @param count:项目级别
*/
public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因
aijuans
struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令
avords
Maven库:
http://repo2.maven.org/maven2/
Maven依赖查询:
http://mvnrepository.com/
Maven常用命令: 1. 创建Maven的普通java项目: mvn archetype:create -DgroupId=packageName 
PHP如果自带一个小型的web服务器就好了
houxinyou
apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站,感觉PHP挺好的,不过有一些地方不太习惯,比如,环境搭建。PHP本身就是一个网站后台脚本,但用PHP做程序时还要下载apache,配置起来也不太很方便,虽然有好多配置好的apache+php+mysq的环境,但用起来总是心里不太舒服,因为我要的只是一个开发环境,如果是真实的运行环境,下个apahe也无所谓,但只是一个开发环境,总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型)
bijian1013
redis 数据库 NoSQL
3.list类型及操作
List是一个链表结构,主要功能是push、pop、获取一个范围的所有值等等,操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素,这样list既可以作为栈,又可以作为队列。
&nbs
谁在用Hadoop?
bingyingao
hadoop 数据挖掘 公司 应用场景
Hadoop技术的应用已经十分广泛了,而我是最近才开始对它有所了解,它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网,其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop,这些公司涵盖各行各业,不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等,主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL
bit1129
mysql
package spark.examples.db
import java.sql.{PreparedStatement, Connection, DriverManager}
import com.mysql.jdbc.Driver
import org.apache.spark.{SparkContext, SparkConf}
object SparkMySQLInteg
Scala: JVM上的函数编程
bookjovi
scala erlang haskell
说Scala是JVM上的函数编程一点也不为过,Scala把面向对象和函数型编程这两种主流编程范式结合了起来,对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想,scala主要的有点在于Java庞大的package优势,这样也就弥补了JVM平台上函数型编程的缺失,MS家.net上已经有了F#,JVM怎么能不跟上呢?
对本人而言
jar打成exe
bro_feng
java jar exe
今天要把jar包打成exe,jsmooth和exe4j都用了。
遇见几个问题。记录一下。
两个软件都很好使,网上都有图片教程,都挺不错。
首先肯定是要用自己的jre的,不然不能通用,其次别忘了把需要的lib放到classPath中。
困扰我很久的一个问题是,我自己打包成功后,在一个同事的没有装jdk的电脑上运行,就是不行,报错jvm.dll为无效的windows映像,如截图
最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy
bylijinnan
java 设计模式
声明: 本文只为方便我个人查阅和理解,详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/
/*
策略模式定义了一系列的算法,并将每一个算法封装起来,而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化
简单理解:
1、将不同的策略提炼出一个共同接口。这是容易的,因为不同的策略,只是算法不同,需要传递的参数
cmd命令值cvfM命令
chenyu19891124
cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件
例如:
在d:\workspace\prpall\test.java 有这样一个文件,现在想要将这个文件打成一个包。运行如下命令即可比如在d:\wor
OpenJWeb(1.8) Java Web应用快速开发平台
comsci
java 框架 Web 项目管理 企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员,他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8),我帮他做做宣传
OpenJWeb快速开发平台以快速开发为核心,整合先进的java 开源框架,本着自主开发+应用集成相结合的原则,旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错:IndentationError: unexpected indent
daizj
python tab 空格 缩进
IndentationError: unexpected indent 是缩进的问题,也有可能是tab和空格混用啦
Python开发者有意让违反了缩进规则的程序不能通过编译,以此来强制程序员养成良好的编程习惯。并且在Python语言里,缩进而非花括号或者某种关键字,被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置
dongwei_6688
httpclient
HttpClient中的超时设置包含两个部分:
1. 建立连接超时,是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间
2. 读取数据超时,是指在建立连接后,等待读取服务器端的响应数据时允许的最大等待时间
在HttpClient 4.x中如下设置:
HttpClient httpclient = new DefaultHttpC
小鱼与波浪
dcj3sjt126com
一条小鱼游出水面看蓝天,偶然间遇到了波浪。 小鱼便与波浪在海面上游戏,随着波浪上下起伏、汹涌前进。 小鱼在波浪里兴奋得大叫:“你每天都过着这么刺激的生活吗?简直太棒了。” 波浪说:“岂只每天过这样的生活,几乎每一刻都这么刺激!还有更刺激的,要有潮汐变化,或者狂风暴雨,那才是兴奋得心脏都会跳出来。” 小鱼说:“真希望我也能变成一个波浪,每天随着风雨、潮汐流动,不知道有多么好!” 很快,小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table
dcj3sjt126com
mysql
快速高效用:SET SQL_SAFE_UPDATES = 0;下面的就不要看了!
今日用MySQL Workbench进行数据库的管理更新时,执行一个更新的语句碰到以下错误提示:
Error Code: 1175
You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义
gaomysion
enum javaee
转发
http://developer.51cto.com/art/201107/275031.htm
枚举其实就是一种类型,跟int, char 这种差不多,就是定义变量时限制输入的,你只能够赋enum里面规定的值。建议大家可以看看,这两篇文章,《java枚举类型入门》和《C++的中的结构体和枚举》,供大家参考。
枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array
hcx2013
array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array.
Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性
jinnianshilongnian
el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了;目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括:如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好,对大多数新特性
超越算法来看待个性化推荐
liyonghui160com
超越算法来看待个性化推荐
一提到个性化推荐,大家一般会想到协同过滤、文本相似等推荐算法,或是更高阶的模型推荐算法,百度的张栋说过,推荐40%取决于UI、30%取决于数据、20%取决于背景知识,虽然本人不是很认同这种比例,但推荐系统中,推荐算法起的作用起的作用是非常有限的。
就像任何
写给Javascript初学者的小小建议
pda158
JavaScript
一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了,又或者是在IE能正常显示的代码在firefox又报错了。 如果你正初学JavaScript并有着一样的处境的话建议你:初学JavaScript的时候无视DOM和BOM的兼容性,将更多的时间花在 了解语言本身(ECMAScript)。只在特定浏览器编写代码(Chrome/Fi
Java 枚举
ShihLei
java enum 枚举
注:文章内容大量借鉴使用网上的资料,可惜没有记录参考地址,只能再传对作者说声抱歉并表示感谢!
一 基础 1)语法
枚举类型只能有私有构造器(这样做可以保证客户代码没有办法新建一个enum的实例)
枚举实例必须最先定义
2)特性
&nb
Java SE 6 HotSpot虚拟机的垃圾回收机制
uuhorse
java HotSpot GC 垃圾回收 VM
官方资料,关于Java SE 6 HotSpot虚拟机的garbage Collection,非常全,英文。
http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html
Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning
&