一、分析
淘宝页面中的商品都是用js动态加载的,所以使用selenium模块抓取内容
1.首先分析如何用关键字搜索内容
2.打开浏览器
3.然后分析页面结构,抓取信息
4.其次获取商品具体信息的话需要打开二级页面
5.需要找到下一页的按钮用于模拟点击下一页,从而获取所有页面的相关信息
二、开始操作
1.首先分析如何用关键字搜索内容
注意到页面的规律为https://s.taobao.com/search?q=关键字
所以可以使用代码url="https://s.taobao.com/search?q={kw}".format(kw=urllib.parse.quote("衣服"))
这里的衣服是我随便打的数据,在应用到scrapy框架中可以使用变量代替
2. 打开浏览器
测试阶段需要看浏览器具体做了什么操作,所以我使用了用显示方式打开:
from selenium import webdriver
driver=webdriver.Chrome()
当程序没有什么问题了再用隐藏方式开启浏览器,这样就不用加载浏览器里面的图片等信息了,速度会快很多很多:
option=webdriver.ChromeOptions()
option.add_argument("headless")
driver = webdriver.Chrome(options=option)
获取主页面:
main_driver=driver.current_window_handle
3.然后分析页面结构,抓取信息
加载里面所有商品,使用一个js让他执行,移动垂直滚动条到最下面:
js="window.scrollTo(0,document.body.scrollHeight)"
driver.execute_script(js)
发现他的商品都放在这个div下,所以用goods保存所有div
goods=driver.find_elements_by_xpath('//div[contains(@class,"J_MouserOnverReq")]')
开始遍历goods,这些是我要获取的内容:
for good in goods:
price=good.find_element_by_xpath('.//div[2]/div[1]/div/strong').text
title=good.find_element_by_xpath('.//div[2]/div[2]/a').text
shop_name=good.find_element_by_xpath('.//div[2]/div[3]/div[1]/a/span[2]').text
origin=good.find_element_by_xpath('.//div[2]/div[3]/div[2]').text
4.接下来是处理二级页面即goods里面具体的内容,我做例子,只获取里面的详细信息一栏的内容:
good.click()
driver.switch_to.window(driver.window_handles[-1])
js="window.scrollTo(0,1000)"
driver.execute_script(js)
time.sleep(1)
good是我获取的商品,good.click()点击这个商品会跳转到新的页面,于是使用driver.switch_to.window()
方法,这个方法是用来跳转driver的,driver.window_handles
这个是一个列表,这是一个存放所有的窗口的列表,刚打开一个窗口就会在这个列表里面添加一个窗口元素,
driver.window_handles[-1]
这个就表示最后一个打开的窗口,最后一个sleep主要是为了辅助让他加载完成
5.找到下一页,模拟点击下一页
try:
next_page = WebDriverWait(driver, 3, 0.2).until(lambda x: x.find_element_by_xpath('//span[contains(text(),"下一页")]/..'))
except Exception as e:
print(e)
break
else:
next_page.click()
对于这段代码做如下解释:
WebDriverWait(driver, 3, 0.3).until(lambda x: x.find_element_by_xpath('//span[contains(text(),"下一页")]/..'))
拆分解释:
driver是驱动程序,3是最长等待时间,0.3也就是多久再去检查是否存在,until就是具体找的内容,知道找到里面的内容并且在3秒内,until里面用的是一个匿名函数,其中的参数x值得就是哪个driver驱动程序,他要做的事情就是去找下一页所在的标签,x.find_element_by_xpath('//span[contains(text(),"下一页")]/..')
这个类似driver.find… 通过分析,他的下一页按钮在一个a标签下包裹着,…表示他的上一级。
整段代码的解释:3秒内去等待加载一个’内容为“下一页”的span标签的父级标签‘,每0.3秒检查一下是否找到了,如果3秒内找到了则返回结果(结果为一个标签的对象),如果三秒都没有找到则抛出异常,所以这里要用try,except方法
对于我上面整体的代码来说就是如果找到了下一页则点击下一页,如果没找到则退出,这个退出就是说页面中没有下一页,或者下一页不可点击,其中对于下一页不可点击我没做判断,我假定最后一页没有下一页按钮,则当找不到下一页就说明是最后一页就可以退出了。
总结:
对于这个例子来说,在操作的过程中总是遇到StaleElementReferenceException
的异常,我的解决方案是在next_page.click()之后sleep两秒,用于缓解他的加载,避免造成错误,但是这一定不是最好的办法。暂时我就这样做了。有更好的办法我会更新博客。
完整代码如下:
import time
import urllib.parse
from selenium import webdriver
# option=webdriver.ChromeOptions()
# option.add_argument("headless")
# driver = webdriver.Chrome(options=option)
from selenium.webdriver.support.wait import WebDriverWait
driver=webdriver.Chrome()
kw="衣服"
url="https://s.taobao.com/search?q={kw}".format(kw=urllib.parse.quote(kw))
driver.get(url)
js="window.scrollTo(0,document.body.scrollHeight)"
driver.execute_script(js)
main_driver=driver.current_window_handle
while True:
time.sleep(2)
goods=driver.find_elements_by_xpath('//div[contains(@class,"J_MouserOnverReq")]')
for good in goods:
price=good.find_element_by_xpath('.//div[2]/div[1]/div/strong').text
title=good.find_element_by_xpath('.//div[2]/div[2]/a').text
shop_name=good.find_element_by_xpath('.//div[2]/div[3]/div[1]/a/span[2]').text
origin=good.find_element_by_xpath('.//div[2]/div[3]/div[2]').text
good.click()
driver.switch_to.window(driver.window_handles[-1])
js="window.scrollTo(0,1000)"
driver.execute_script(js)
time.sleep(1)
try:
tag_standard = WebDriverWait(driver, 5, 0.2).until(lambda x:x.find_element_by_xpath('//*[@id="J_TabBar"]/li[2]/a'))
except:
tag_standard=None
if tag_standard:
tag_standard.click()
try:
tag_table = driver.find_element_by_xpath('//table[@class="tm-tableAttr"]')
good_info = tag_table.text
except:
good_info=None
print(good_info)
driver.close()
driver.switch_to.window(main_driver)
try:
next_page = WebDriverWait(driver, 3, 0.2).until(lambda x: x.find_element_by_xpath('//span[contains(text(),"下一页")]/..'))
except Exception as e:
print(e)
break
else:
next_page.click()
driver.quit()