基于Python-selenium半自动化淘宝爬虫

爬虫设计初衷

此程序旨在完成个人电子商务课程结课作业相关商品的信息爬取。

注意事项

  1. 淘宝具有一定的反爬机制,主要为搜索需要账号登录,以及在爬取过程中弹出的滑块验证
  2. 此程序通过人工手动登录来实现跳过第一步反爬验证,目前还没有实现爬取过程中的滑块验证的突破
  3. 通过爬取部分页面的商品数据从而统计并预估全部页面商品数据(源代码中为遍历所有页面的理想状态

源代码如下:

'''
利用Python-selenium对淘宝平台贵妃芒月平均销售额的统计
遍历所有页面,统计出全平台贵妃芒月销售额
因淘宝反爬机制,以下代码在登录后实现
'''
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
driver = webdriver.Chrome()

url = 'https://www.taobao.com'
name = '贵妃芒'

# 搜索
driver.get(url)
driver.find_element_by_id('q').send_keys(name)
driver.find_element_by_class_name('search-button').click()

# 手动登录
time.sleep(10)

# 初始化翻页次数和销售总额
n = 1
url_sale = 0
while n <= 100:
    n += 1
    time.sleep(3)
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist > div > div > div:nth-child(1)')))
    mango_frame = driver.find_element_by_class_name('items')
    mango_list = mango_fram.find_elements_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div')
    # 遍历当前页商品
    for i in range(len(mango_list)):
        # 商品月购买人数及价格
        mango_purchase_number = int(mango_list[i].find_element_by_class_name('deal-cnt').text[:-3])
        mango_price = float(mango_list[i].find_element_by_xpath('//*[@class="price g_price g_price-highlight"]/strong').text)
        # 当前页面所有商品月销售额
        url_sale += mango_price * mango_purchase_number
    # 下一页面
    try:
        url_input = WebDriverWait(driver, 10).until(EC.presence_of_element_located(
            (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')))
        url = WebDriverWait(driver, 10).until(EC.element_to_be_clickable(
            (By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))
        url_input.clear()
        url_input.send_keys(n)
        time.sleep(3)
        url.click()
    except Exception as e:
    	print(n)
        break
        
# 预估商品所有页面数据
url_total_sale = url_sale / (n-1) * 100
# 将数据保存文档
with open('淘宝平台贵妃芒月平均销售额.txt', 'a', encoding='utf-8') as f:
    f.write(str(url_total_sale))

你可能感兴趣的:(电子商务课程结课作业)