python爬虫使用BeautifulSoup库简单快速抓取数据

如何快速入门抓取html网页数据

开发准备:

1:开发工具使用pycharm,下载点击打开链接

2 : python3.6 下载点击打开链接

配置过程百度,不做细致分析,配置完成后进入开发,pycharm破解选择License server激活即可,idea.qmanga.com可用

下面进入快速抓取数据

第一步:

定义一个chrome浏览器,这里需要先下载chromedrive.exe,这是个驱动,当python执行命令时去打开chrome浏览器,  需要配置环境变量,也可以不配置,使用chrome可以抓取到动态加载的js文件,方便了许多,不像使用webclient需要很多设置

配置好了环境变量,使用

browser = webdriver.Chrome()
未配置chromedrive环境变量需要制定path,如下
browser = webdriver.Chrome( "G:\chromedownlaods\chromedriver_win32\chromedriver.exe"
将网页地址输入即可获取html网页数据
browser.get(url)
将得到数据使用 BeautifulSoup进行解析,这里用到lxml库

soup = BeautifulSoup(browser.page_source, "lxml")

第二步:

这时候已经得到网页数据并解析到soup,这里示例快速取得想要数据 

python爬虫使用BeautifulSoup库简单快速抓取数据_第1张图片

一句代码即可
specification = soup.find('div', attrs={'id': 'spec_box'}).find("li", attrs={'class': 'dtl-inf-rur'}).getText()
 
  
find('div', attrs={'id': 'spec_box'}) 定位到以下
 
  
find("li", attrs={'class': 'dtl-inf-rur'}) 定位到以下
python爬虫使用BeautifulSoup库简单快速抓取数据_第2张图片
 
  
getText()获取文字内容
这样就已经快速抓到了数据,共4句代码,使用python相比较java简单了很多

你可能感兴趣的:(it)