Selenium抓取淘宝商品信息

selenium抓取淘宝商品信息
(动态页面抓取selenium实例)

目标:爬取前100页淘宝美食信息
淘宝链接:


思路:
很明显淘宝网页使用的是动态网页,需要爬取前100页美食的信息,可以分为两步
第一步:抓取第一页美食内容然后再调用提取美食信息的函数
第二步:抓取下一页美食内容然后再调用提取美食信息的函数


备注:
1.Python字典items()方法用于返回字典dict的(key,value)元组对的列表

完整代码:

import re

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
from config import *

import pymongo

client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]

browser = webdriver.Chrome()
# 浏览器的响应时间
wait = WebDriverWait(browser, 10)


def search():
    try:
        browser.get('https://www.taobao.com')
        #直到加载结束才选择文本框
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))
        )
        #直到能点击时才获取点击按钮
        submit = wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button'))
        )
        #在input文本框输入文本
        input.send_keys(KEYWORDS)
        #点击搜索按钮
        submit.click()
        #搜索总页数,都不是自己输入直接用copy selector提取的
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))
        return total.text
        print(total.text)
        #等全部加载完才能调用获取商品的函数
        get_products()
    except TimeoutException:
        #如果超时就重新再爬
        return search()

def next_page(page_number):
    try:
        input = wait.until( #页码处的文本框
            EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))
        )
        #页码处的点击按钮
        submit = wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit'))
        )
        #爬之前先清空搜索栏
        input.clear()
        #输入数字
        input.send_keys(page_number)
        submit.click()
        #判断当前页码是否是传入的页码
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number)))
        get_products()
    except TimeoutException:
        next_page(page_number)

#提取商品信息的函数
def get_products():
    #知道获取商品的内容标签
    #具体到获取商品的信息的selector必须要自己输入,直接copy的不能使用
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))
    html = browser.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()#Python字典items()方法用于返回字典dict的(key,value)元组对的列表
    # 这里这种返回dict的方法可以借鉴
    for item in items:
        product = {
            'image' : item.find('.pic .img').attr('src'),
            'price' : item.find('.price').text().replace('\n', ''),
            'location' : item.find('.location').text(),
            'deal' : item.find('.deal-cnt').text()[:-3],
            'shop' : item.find('.shop').text(),
            'title': item.find('.title').text().replace('\n', '')
        }
        print(product)
        save_to_mongo(product)

def save_to_mongo(result):
    try:
        if db[MONGO_TABLE].insert(result):#insert的对象是dict,但是result在前一个函数已经变成了dict
            print('保存到mongo成功')
    except Exception:
        print('保存到mongo失败')


def main():
    try:
        total = search()# 获取总页码数字,顺便调用函数提取第一页商品信息
        #提取数字,这个用法注意
        total = int(re.compile('(\d+)').search(total).group(1))
        for i in range(2, total + 1):
            next_page(i)
    except Exception:
        print('出错了')
    finally:
        browser.close()

if __name__ == '__main__':
    main()
MONGO_URL = 'localhost'
MONGO_DB = 'taobao'
MONGO_TABLE = 'product'
KEYWORDS = '电脑'

 

 

你可能感兴趣的:(爬虫代码,爬虫,Python)