写的第一个淘宝信息爬虫总结

1.用的selenium 来处理js

driver = webdriver.Chrome(r'H:\python\chromedrive\chromedriver.exe') #应该更改为相对路径
driver.get(url)element=driver.find_elements_by_xpath('//*[starts-with(@class,"item J_MouserOnverReq ")]') #先抓大再抓小

此处注意chrome的版本要和chromedrive的版本相匹配不然会报错。

2.打开csv文件

csvfile = open('taobao.csv','w')
writer = csv.writer(csvfile)
...
writer.writerow(...) #此处的变量应该是一个字典

字典

dicc = {'产地':'', '店铺名称':'', '商品网址':'', '销售数量':'', '价格':'', '商品名字':''}
dicc.keys()获取字典的键值,dicc.value()获取字典的值

3.element的信息处理

shopname = element[i].find_element_by_class_name('shop')
这个还是比较好处理的,class,tags,id什么的同理用这个方法。
主要是属性,href之类的,我弄了很久。。半路出家python。。没有系统学过web之类的知识。。

itemname = driver.find_elements_by_xpath('//div[@class="row row-2 title"]/a')[i] # 产品名字
itemurl = itemname.get_attribute('href')#网址

我先用的xpath抓到class,然后再获取这个class的属性,用get_attribute

你可能感兴趣的:(写的第一个淘宝信息爬虫总结)