Python第一次采集数据小记

#coding:utf-8含义:该文件中的字符串都以utf8编码

首先用到了两个第三方库

1、requests采集数据,获取页面内容

2、BeautifulSoup主要用于搜索分析页面内容不会正则的孩子的福音

 

#创建 requests对象
response  = requests.get("http://duodian.hneph.com/m_index.aspx")

#获取页面内容
soup = BeautifulSoup(response.content)

#循环查找内容
for k in soup.find('ul', {'id': 'index_myshoucang'}).find_all('a'):
	print k['href']	print k['href']
#写入文件
f = open(u"F:/多点学习网站采集/目录一览表.txt", "w+"):
	f.write(s +"\n")
f.close()


以上是核心代码

 

对于python写入中文报错的问题,可以转码解决。如下:

 

s = w.encode("gb2312")

 

获取html某个属性值

 

# coding: utf-8

from bs4

你可能感兴趣的:(Python,python,采集,爬数据)