爬虫基础(beautifulSoup用法)

1,from bs4 import BeautifulSoup

2,请求头headers;
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36','referer':"www.mmjpg.com" }


解释:

all_url = 'http://www.mmjpg.com/' 

'User-Agent':请求方式  
'referer':从哪个链接跳转进来的

3,建立连接;
start_html = requests.get(all_url,  headers=headers)
解释:
all_url:起始的地址,也就是访问的第一个页面
headers:请求头,告诉服务器是谁来了。
requests.get:一个方法能获取all_url的页面内容并且返回内容。

4,解析获取的页面;
Soup = BeautifulSoup(start_html.text, 'lxml')
解释:
BeautifulSoup:解析页面
lxml:解析器
start_html.text:页面的内容


5,处理获取的页面;
all_a = Soup.find('div', class_='pic').find_all('a')[-2]
解释:
Soup.find()查找某一个
find_all()查找所有的,返回一个列表
.find('img')['src']    :获取img的src链接属性    
class__:获取目标的类名
div/a:类型条件为div/a的
[-2]可以用来去掉最后多匹配的标签,这里表示去掉最后两个a标签

find()和findAll可并列使用:
例子:
all_list = str_res.find("div", {"class":'f14list'}).findAll("a")
查找div,class='f14list'下面所有的a标签

6,获取目标内容;
内容
解释:

a[i]/get_text():获取第i个a标签里面的内容


7、可能用到的其他功能介绍:
1、文件夹创建与切换
os.makedirs(os.path.join("E:\name", filename))
#在目录E:\name下创建名为filename的文件夹
os.chdir("E:\name\\" + filename)
#切换工作路径到E:\name\filename下


2、文件保存
f = open(name+'.jpg', 'ab')##写入多媒体文件必须要 b 这个参数!
f.write(img.content) ##多媒体文件要是用conctent!
f.close()

你可能感兴趣的:(爬虫基础(beautifulSoup用法))