dannier5

python--爬虫基本操作一

一、认识爬虫

二、获取数据：模块requests

三、数据解析与提取：模块 BeautifulSoup

一、认识爬虫

浏览器的工作原理：

爬虫的工作原理：

爬虫工作4个步骤：

第0步：获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。

第1步：解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。

第2步：提取数据。爬虫程序再从中提取出我们需要的数据。

第3步：储存数据。爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。

二、获取数据：模块requests

1、requests功能：

requests库可以帮我们下载网页源代码、文本、图片，甚至是音频。即是向服务器发送请求并得到响应。

requests为第三方模块，安装方法：

Mac电脑：pip3 instal requests

Windows电脑：pip install requests

2、requests常用方法与属性

requests.get(url)，它向服务器发送了一个请求，括号里的参数是你需要的数据所在的网址，然后服务器对请求作出了响应，并返回一个Response对象。

Response对象的常用属性
序号	属性	作用
1	response.status_code	检查请求是否成功，并返回响应状态码，一般如果响应状态码为200，即代表请求成功。
2	response.content	吧response对象转换为二进制数据，图像、音频和视频等数据需要转换成二进制数据再存储。
3	response.text	吧response对象转换成字符串形式返回，适用于文字、网页源代码的下载。
4	response.encoding	定义response对象的编码格式，获取目标数据后要知道相应的编码类型才能正确解码。

常见响应状态码解释（status_code）
响应状态码	说明	举例	说明
1xx	请求收到	100	继续提出请求
2xx	请求成功	200	成功
3xx	重定向	305	应使用代理访问
4xx	客户端错误	403	禁止访问
5xx	服务器端错误	503	服务不可用

示例：

# 引入requests库
import requests

# 发出请求，并把返回的结果放在变量res中
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png')
# 把Reponse对象的内容以二进制数据的形式返回
#print(type(res))
#》》
print(res.status_code)      #检测请求是否正确响应
#》》200
pic = res.content
# 新建了一个文件ppt.jpg，这里的文件没加路径，它会被保存在程序运行的当前目录下。
# 图片内容需要以二进制wb读写。你在学习open()函数时接触过它。
photo = open('ppt.jpg','wb')
# 获取pic的二进制内容
photo.write(pic) 
# 关闭文件
photo.close()

# 下载《三国演义》第一回，我们得到一个对象，它被命名为res
res1 = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
# 把Response对象的内容以字符串的形式返回
novel=res1.text
# 现在，可以打印小说了，但考虑到整章太长，只输出800字看看就好。在关于列表的知识那里，你学过[:800]的用法。
print(novel[:800])
k = open('三国演义.txt','a+')
k.write(novel)
k.close()

robots协议是互联网爬虫的一项公认的道德规范，它的全称是“网络爬虫排除标准”（robots exclusion protocol），这个协议用来告诉爬虫，哪些页面是可以抓取的，哪些不可以。

三、数据解析与提取：模块 BeautifulSoup

1、BeautifulSoup功能说明

解析数据，提取数据

BeautifulSoup为第三方模块，安装方法：

安装：pip install BeautifulSoup4

2、BeautifulSoup常用方法与属性

bs对象 = BeautifulSoup(要解析的文本，‘解析器’)

bs对象常用方法： find()与find_all() 方法
方法	作用	用法	返回值	示例
find()	提取满足要求的首个数据	bs对象.find(标签，属性)	返回Tag对象	soup.find('div',class_'books')
find_all()	提取满足要求的所有数据	bs对象.find_all(标签，属性)	返回Tag对象组成的列表	soup.find_all('div',class_='books')

注：网页中的class为了和python中的class做区分，通常写为class_

官方文档：

find(tag, attributes, recursive, text, keywords)

find_all(tag, attributes, recursive, text, keywords)

Tag对象常用属性与方法
属性/方法	说明	备注
Tag.find()	提取满足要求的首个数据
Tag.find_all()	提取满足要求的所有数据
Tag.text	获取标签内的纯文本信息，即便是在它的子标签内，也能拿得到。
Tag['属性名']	提取属性的值

3、完整操作过程

爬取菜谱实例：

# 引用requests库
import requests
# 引用BeautifulSoup库
from bs4 import BeautifulSoup

# 获取数据 返回一个response对象，赋值给res_foods
res_foods = requests.get('http://www.xiachufang.com/explore/')
# 解析数据 把res_foods的内容以字符串的形式输入BeautifulSoup方法，
# 并返回bs对象，html.parser为解析器
bs_foods = BeautifulSoup(res_foods.text,'html.parser')

# 通过定位标签和属性查找最小父级标签，并提取数据
list_foods = bs_foods.find_all('div',class_='info pure-u')
# 创建一个空列表，用于存储信息
list_all = []

for food in list_foods:
    # 提取第0个父级标签中的标签
    tag_a = food.find('a')
    # 菜名，使用[17:-13]切掉了多余的信息
    name = tag_a.text[17:-13]
    # 获取URL
    URL = 'http://www.xiachufang.com'+tag_a['href']
    # 提取第0个父级标签中的标签
    tag_p = food.find('p',class_='ing ellipsis')
    # 食材，使用[1:-1]切掉了多余的信息
    ingredients = tag_p.text[1:-1]
    # 将菜名、URL、食材，封装为列表，添加进list_all
    list_all.append([name,URL,ingredients])

# 打印
print(list_all)

三、Network，XHR，json工具

打开网页后，右键检查，查看Network，查看ALL，然后刷新网页，查看第0个请求（html请求）的preview中，有没有我们要的数据信息，如果有——那就在html中，通过标签查找去爬取数据。

如果没有，那就说明数据是在XHR中的，就要通过Network，XHR，json工具去爬取数据。

Network的功能是：记录在当前页面上发生的所有请求，刷新页面即可显示。

快捷键：ctrl+shift+i

Network能够记录浏览器的所有请求。我们最常用的是：

ALL（查看全部）；
XHR（仅查看XHR）；
Doc（Document，第0个请求一般在这里），有时候也会看看：
Img（仅查看图片）；
Media（仅查看媒体文件）；
Other（其他；
JS和CSS，则是前端代码，负责发起请求和页面实现；
Font是文字的字体；
WS和Manifest，需要网络编程的知识，倘若不是专门做这个，你不需要了解。

XHR请求：是一种Ajax技术，不用重新加载整个网页更新网页内容传输数据。

参考：https://www.w3cschool.cn/ajax/ajax-xmlhttprequest-send.html

json是一种规范数据传输的格式，形式有点像字典和列表的结合体。

python有json模块来处理json格式数据。

链接：https://docs.python.org/3/library/json.html

requests里也有一个内置的json解码器，来处理json对象。

链接：https://requests.readthedocs.io/zh_CN/latest/

每个url都由两部分组成：

前半部分大多形如：https://xx.xx.xxx/xxx/xxx

后半部分，多形如：xx=xx&xx=xxx&xxxxx=xx&……

两部分使用?来连接。

这前半部分是我们所请求的地址，它告诉服务器，我想访问这里。而后半部分，就是我们的请求所附带的参数，它会告诉服务器，我们想要什么样的数据。这参数的结构，会和字典很像，有键有值，键值用=连接；每组键值之间，使用&来连接。

后半部分作为params可以在Query String Parameters中提取。

requests模块里的requests.get()提供了一个参数叫params，可以让我们用字典的形式，把参数传进去。它的官方文档，是这样描述：

import requests
# 引用requests模块
url = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg'
# 请求歌曲评论的url参数的前面部分

for i in range(5):
    params = {
    'g_tk':'5381',
    'loginUin':'0', 
    'hostUin':'0',
    'format':'json',
    'inCharset':'utf8',
    'outCharset':'GB2312',
    'notice':'0',
    'platform':'yqq.json',
    'needNewCode':'0',
    'cid':'205360772',
    'reqtype':'2',
    'biztype':'1',
    'topid':'102065756',
    'cmd':'6',
    'needmusiccrit':'0',
    'pagenum':str(i),
    'pagesize':'15',
    'lasthotcommentid':'song_102065756_3202544866_44059185',
    'domain':'qq.com',
    'ct':'24',
    'cv':'10101010'   
    }
    # 将参数封装为字典
    res_comments = requests.get(url,params=params)
    # 调用get方法，下载这个字典
    json_comments = res_comments.json()
    list_comments = json_comments['comment']['commentlist']
    for comment in list_comments:
        print(comment['rootcommentcontent'])

服务器就可能会对我们这些“投机取巧”的爬虫做限制处理。一来可以降低服务器的访问压力；二来可以拦截那些想要通过爬虫窃取数据的竞争者。

那么服务器怎么判断访问者是一个普通的用户（通过浏览器），还是一个爬虫者（通过代码）呢？

这需要我们回到浏览器中，重新认识一个新的信息栏：请求头Request Headers

每一个请求，都会有一个Requests Headers，我们把它称作请求头。它里面会有一些关于该请求的基本信息，比如：这个请求是从什么设备什么浏览器上发出？这个请求是从哪个页面跳转而来？

它最大的应用是帮助我们应对“反爬虫”技术，将Python爬虫伪装成真正的浏览器，不为服务器所辨识；同时也可以标记这个请求的来源是什么，最终帮助我们拿到想要的信息。（反爬）

示例：爬取豆瓣电影Top250，保存序号，影片名，评分，推荐语与链接

import requests
from bs4 import BeautifulSoup

# url = 'https://movie.douban.com/top250?'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}

movie_infos = []

for i in range(10):      
    url = 'https://movie.douban.com/top250?start='+str(i*25)+'&filter='
    res = requests.get(url,headers=headers)
    res_html = res.text
    res_soup = BeautifulSoup(res_html,'html.parser')
    
    movies = res_soup.find_all('div',class_='item')
    for movie in movies:
        movie_item = movie.find('em').text
        movie_search = movie.find('div',class_='info')
        movie_url = movie_search.find('a')['href']
        movie_name = movie_search.find('span').text
        movie_star = movie_search.find('span',class_='rating_num').text
        
        try:
            movie_quote = movie_search.find('p',class_='quote').text
        except:
            movie_quote = '该电影没有推荐语'

        movie_info = [movie_item,movie_name,movie_star,movie_quote,movie_url]
        movie_infos.append(movie_info)
        print(movie_info)

拓展：

使用第三方模块lxml解析网页数据

安装：pip install lxml

示例：

import requests
from lxml import html

url = 'http://itdiffer.com/'

page = requests.get(url).content.decode('utf-8')

sel = html.fromstring(page)
title = sel.xpath('//article/h2/a/text()')    # //表示相对路径
print(title)

请收下这篇最全面的python学习路线诸葛青云999
Python已经成为了互联网最火热的编程语言，7月份Python已经稳居编程排行榜第三位了。那么作为一位零基础的小小白如何学习Python呢？下面小编为大家总结了Python的学习路线：Python基础篇Python3开发环境基本数据类型字符串列表、元组、字典、集合条件与循环函数的函数，函数的定义与调用面向对象编程的思想以及特性面向对象编程的类与对象图书管理系统综合应用实例Python高级篇Pyt
Python基础篇_修饰符（Decorators）【中】长孤秋落 Python python 开发语言修饰符
上一篇：Python基础篇_修饰符（Decorators）【上】(@decorator、@classmethod、@staticmethod)下一篇：Python基础篇_修饰符（Decorators）【下】@abc.abstractmethod、@functools.singledispatch、@contextlib.contextmanager Python基础篇_修饰符（Decorators
Python基础篇_修饰符（Decorators）【下】长孤秋落 Python python 修饰符 Decorators 函数
上一篇：Python基础篇_修饰符（Decorators）【中】@property、@.setter、@.deleter、@functools.lru_cache(maxsize=None) Python基础篇_修饰符（Decorators）【下】Python基础篇_修饰符（Decorators）【下】一、修饰符一般特点二、常用的修饰符以及用法举例7)@abc.abstractmethod，抽象方
做一个python程序员去面试居然有这么多面试题！孤城暮雨丶
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者：Python进击者第一部分Python基础篇（80题）1、为什么学习Python？2、通过什么途径学习的Python？3、Python和Java、PHP、C、C#、C++等其他语言的对比？4、简述解释型和编译型编程语言？5、Python解释器种类以及特点？6
Python基础篇（十五）-- Python程序接入MySQL数据库长路漫漫2021 #Python 数据库 mysql python pymysql
程序运行时，数据都在内存中，程序终止时，需要将数据保存到磁盘上。为了便于程序保存和读取，并能直接通过条件快速查询到指定数据，数据库(Database)应运而生，本篇主要学习使用Python操作数据库，在Python3中，我们可以使用mysqlclient或者pymysql三方库来接入MySQL数据库并实现数据持久化操作。二者的用法完全相同，只是导入的模块名不一样。我们推荐大家使用纯Python的三
跟着我学Python进阶篇：03. 面向对象（下） lxkeepcoding Python python
往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环跟着我学Python基础篇：05.函数跟着我学Python基础篇：06.列表跟着我学Python基础篇：07.文本跟着我学Python基础篇：08.集合和字典跟着我学Python进阶篇：01.试用Python完成一些简单
跟着我学Python进阶篇：04. 错误和异常 lxkeepcoding Python python
往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环跟着我学Python基础篇：05.函数跟着我学Python基础篇：06.列表跟着我学Python基础篇：07.文本跟着我学Python基础篇：08.集合和字典跟着我学Python进阶篇：01.试用Python完成一些简单
Python基础篇------集合 Loving Python python pycharm
1.集合是什么：Python中的集合(set)与数学中集合的概念类似。集合是用于存储不重复的元素。它可以分为可变集合(set)和不可变集合(frozenset)两种类型，即集合可以为可变数据类型也可以为不可变数据类型。集合的特性：·无序性：元素之间没有确定的顺序。·互异性：集合中不会出现重复元素。·确定性：元素和集合之间只存在属于和不属于的关系。2.集合的创建：2.1语法：变量名={元素1，元素2
Python兴趣篇_模拟编译中的字典运用长孤秋落 Python python 开发语言
在Python基础篇_字典基本操作中说到，字典可以用于存储编译时需要的信息或参数。本文就来简单讨论一下模拟编译过程中如何利用字典数据类型；模仿编译过程中，Python字典可以用于存储和处理与编译相关的各种信息。以下是Python字典在模拟编译中应用的示例：符号表管理在编译过程中，符号表用于存储变量、函数和类型的名称及其相关信息。使用Python字典来模拟符号表，将变量、函数和类型的名称作为键，相关
Python基础篇_字典（dictionary）基本操作长孤秋落 Python python 开发语言
Python字典（dictionary）是一种非常复杂的数据类型，虽然表面上用于存储键值对，实际上键值可以包括任何类型，如局部变量、全局变量、类的实例、函数、引用模块、其他字典等等；因此，一个字典实际上是可以将当前环境变量全部保存下来的。以下是Python字典的一些基本操作：创建字典#使用大括号{}创建字典，或者使用dict()函数。my_dict={"key1":"value1","key2":
Python基础篇 - 列表推导式（List Comprehension）长孤秋落 Python python
列表推导式（ListComprehension）1基本定义列表推导式是Python的一种简洁、高效的创建列表的方式2基本原理列表推导式是基于“映射”和“筛选”两个操作，对一个或多个已有的列表，进行某种映射操作，筛选出满足条件的元素，生成新的列表3基本格式l列表推导式格式：[expressionforiteminiterableifcondition]其中：expression：用于生成新列表的表达
python基础篇-for循环清微清微 python编程基础 python
一、for循环的语法Python中，for语句是一种迭代控制流语句，可以用于遍历序列（如字符串、列表、元组、字典、集合）中的每个元素，或者执行指定次数的循环。for循环语句的语法结构如下：for变量in序列:#循环体代码块二、for循环的使用规则for循环的执行顺序是从序列的第一个元素开始，依次遍历到最后一个元素；可以通过range()函数来指定遍历序列的范围，比如range(5)表示遍历0~4的
跟着我学Python进阶篇：02.面向对象（上） lxkeepcoding Python python 开发语言
往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环跟着我学Python基础篇：05.函数跟着我学Python基础篇：06.列表跟着我学Python基础篇：07.文本跟着我学Python基础篇：08.集合和字典跟着我学Python进阶篇：01.试用Python完成一些简单
Python基础篇: 环境安装 ignativs amor Python pycharm python PyChram Anaconda conda
Python基础环境使用一：运行环境Anaconda介绍1、Anaconda搭建1.1、下载方式1.2、安装1.2.1、配置环境变量1.3、验证是否安装成功2、管理python环境2.1、列出所有环境2.2、创建环境2.3、进入指定虚拟环境2.4、离开虚拟环境2.5、删除虚拟环境3、依赖管理3.1、安装依赖3.2、卸载依赖3.3、查看依赖二：编辑器PyCharm介绍1、PyCharm安装2、PyC
【Python基础篇-3】python实现银行存钱取钱查余额操作夏之月唤风 python 开发语言 pycharm 低代码 c语言 c++java
目录一、题目要求二、运行代码主菜单函数代码查询余额函数代码：存款函数代码：取款函数代码：总实现代码：三、运行结果一、题目要求定义一个全局变量:money，用来记录银行卡余额(默认5000000)定义一个全局变量:name，用来记录客户姓名(启动程序时输入)定义如下的函数:1.查询余额函数2.存款函数3.取款函数4.主菜单函数要求:程序启动后要求输入客户姓名查询余额、存款、取款后都会返回主菜单存款、
【Python基础篇】【7.数据类型 - 布尔型 bool】布尔运算符、比较运算符、空值及布尔型的应用场景【示例展示】 My.ICBM Python基础 python linux 开发语言
Python数据类型认识布尔型bool布尔运算符布尔类型的应用场景比较运算符空值None代码示例布尔型boolpython中布尔值使用常量True和False来表示；注意大小写bool类型，全称为布尔类型（Boolean），是计算机编程中的一种基本数据类型。它的名称源自数学逻辑学家GeorgeBoole，用于表示逻辑值，即真（True）或假（False）。在编程中，通常用bool表示布尔类型。Py
【Python基础篇】【8.数据类型 - 字符串 string】字符编码、格式化、内置方法、转义字符、原生字符串【超详细的自学资料】 My.ICBM Python基础 python 开发语言
Python数据类型认识字符串string单引号和双引号三引号创建字符串字符编码字符串格式化fromat()%sf案例-字符串格式化字符串内置方法1.大小写转换2.字符串填充3.字符串编码4.查找5.字符串格式化6.解决判断问题7.字符串修剪8.字符串加密解密9.字符串分割10.字符串拼接11.字符串替换12.统计次数转义字符原生字符串字符串string字符串是由零个或多个字符组成的有限序列。字符
【Python基础篇】【9.数据类型 - 列表 list】创建、取值、修改、切片、深浅拷贝、排序方法、常用方法【多个案例】 My.ICBM Python基础 python list windows
Python数据类型认识列表list创建取值修改切片常用方法添加-append()、extend()、insert()删除-pop()、remove()、del()、clear()查找-index()统计-count()反转-reverse()复制-浅拷贝copy()、深拷贝deepcopy()排序-sort()、sorted()一、冒泡排序二、选择排序三、插入排序四、快速排序五、希尔排序案例-列
【Python基础篇】【5.数据类型 - 整型 int 】二进制、八进制、十六进制，进制转换，超详细 My.ICBM Python基础 python 算法开发语言
Python数据类型认识数据类型整型【int】整数的不同进制十进制二进制八进制十六进制整型的进制转换整型数字分隔符整型所占的内存大小数据类型数据无处不在，数字、文本信息等都是数据类型，在python中需要一些特殊符号来表示这些数据，让每一个数据都能分配到属于自己的内存空间。整型【int】Python整型专门用来表示整数。Python整型支持四种形式，即十进制形式、二进制形式、八进制形式和十六进制形
Python基础篇:列表生成式或列表推导式（List Comprehension）茫茫人海一粒沙 Python基础篇 python 开发语言
Python以其易读性和多功能性而闻名，提供了一个强大的功能，称为列表推导式。这个功能允许开发人员以更简洁、更表达性的方式创建列表，通常只需一行代码。让我们深入了解什么是列表推导式以及如何在Python中有效地使用它。什么是列表推导式？列表推导式通过将表达式应用于可迭代对象中的每个项目，提供了一种紧凑且高效的方式来创建列表。在构建列表时，它比传统的for循环提供了更优雅的替代方法。基本语法：列表推
跟着我学Python进阶篇：01.试用Python完成一些简单问题 lxkeepcoding Python python
往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环跟着我学Python基础篇：05.函数跟着我学Python基础篇：06.列表跟着我学Python基础篇：07.文本跟着我学Python基础篇：08.集合和字典目录往期文章前言1.图形：简单绘图1.1创建窗口1.2线和多边
python第三方库有哪些常用的、请列举15个-你想要的Python面试都在这里了【315+道题】... weixin_37988176
第一部分Python基础篇（80题）1、为什么学习Python？1.python是脚本语言，作为程序员至少应该掌握一本通用脚本语言，因为脚本语言与编译语言的开发测试过程不同，可以极大的提高编程效率；2.python差不多是现在最流行的通用脚本语言。这里强调是通用。与python相似的只有ruby，tcl,perl等少数几种。而python过去被称为脚本语言之王；3.python有广泛的社区基本，可
跟着我学Python基础篇：06.列表 lxkeepcoding Python python
往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环跟着我学Python基础篇：05.函数目录往期文章1.列表的基本属性1.1创建列表1.2访问元素列表1.3遍历列表1.4列表引用1.5反向下标2.列表操作2.1追加元素2.2插入元素2.3查找元素2.4删除元素2.5连接
跟着我学Python基础篇：07.文本 lxkeepcoding Python python
往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环跟着我学Python基础篇：05.函数跟着我学Python基础篇：06.列表文章目录往期文章1.读取和写入文本文件1.1打开文件1.2读取文件1.3写入文件1.4一个应用2.文本的输入与输出2.1迭代文件中的行2.2读取
跟着我学python基础篇：02.数字与字符串编程 lxkeepcoding Python python 数字与字符编程
往期文章跟着我学python基础篇：01.初见端倪目录往期文章1.变量1.1定义变量1.2数字类型1.3变量名1.4常量1.5注释2.算术运算2.1基本算术运算2.2幂运算2.3整除和余数2.4调用函数2.5数学函数3.字符串3.1字符串类型3.2连接与重复3.3转换数字和字符串3.4字符串与字符3.5字符串方法3.6转义字符4.输入输出4.1用户输入4.2输入数字4.3格式化输出1.变量1.1定
跟着我学Python基础篇：04.循环 lxkeepcoding Python python
往期文章跟着我学Python基础篇：01.初见端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构目录往期文章1.while循环1.1语法1.2常见的错误1.3处理警戒值1.4输入与输出重定向2.for循环2.1语法2.2带range函数的print函数3.嵌套循环3.1用嵌套的循环来打印一个x的n次幂的表格：3.2用嵌套循环打印成绩分布直方图1.whi
跟着我学Python基础篇：05.函数 lxkeepcoding Python python
往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环目录往期文章1.函数如同黑盒子2.实现和测试函数2.1实现函数2.2测试函数2.3包含函数的程序2.4注释风格3.参数的传递4.返回值5.没有返回值的函数6.变量作用域7.递归函数1.函数如同黑盒子函数是有名字的一系列指
跟着我学Python基础篇：08.集合和字典 lxkeepcoding Python python
往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环跟着我学Python基础篇：05.函数跟着我学Python基础篇：06.列表跟着我学Python基础篇：07.文本目录往期文章1.集合1.1创建和使用集合1.2增加和删除元素1.3子集，并集，交集和差集2.字典2.1创建
python实战篇：利用request库打造自己的翻译接口再不会python就不礼貌了 python 开发语言数据库信息可视化 pdf Python实战 Python入门
通过阅读之前python基础篇的文章，基本上对python这门语言有了初步的了解。基础篇的文章都是介绍python的一些语法和函数的使用方法。实战篇是通过一个完整的案例讲解python在实际开发中运用方法。今天通过做一个翻译的接口来介绍一下request库的基本用法。request库的基本使用安装要使用Python中的requests库，首先需要使用pip安装它。您可以在终端中运行以下命令来完成此
PyQt5学习笔记1 - Windows下安装PyQt5 庄周幻梦
Windows下安装PyQt5安装Python往期文章python基础篇章1-安装安装PyQt5概述：pip安装PyQt5,PyQt5-tools安装PyQt5python官方源下载较慢，因此使用阿里云的国内镜像源。C:\Users\admin>pipinstallPyQt5-ihttp://mirrors.aliyun.com/pypi/simple/--trusted-hostmirrors.
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

python--爬虫基本操作一

一、认识爬虫

二、获取数据：模块requests

三、数据解析与提取：模块 BeautifulSoup

你可能感兴趣的:(Python基础篇)