selenium 爬虫实例笔记(五)

 

 

以往文章:https://blog.csdn.net/weixin_42550496/article/details/106147955

 

 

#爬取拉钩网数据
from selenium.webdriver import Chrome
# from selenium import webdriver
# from selenium.webdriver.common.keys import Keys
#导入Time 库
import time

 

 

#1  创建浏览器
web=Chrome()

#2 输入网址
#拉钩网
web.get('https://www.lagou.com/')
#企鹅电竞
# web.get('https://egame.qq.com/')
#斗鱼直播
# web.get('https://www.douyu.com/directory/all')

 

 

#3 找到那个  ×   然后点击它
web.find_element_by_xpath('//*[@id="cboxClose"]').click()
#单击了叉号后  这个对话框并没有直接消失
#而是有几十毫秒的延迟   由于程序  执行是非常快的
#所以  需要设计延迟  等待网站反应

#这里有需要新的库  Time  进行导入
time.sleep(2)

 

 

#接下来就是在  搜索框内输入想要搜索的工作   然后点击搜索
#接下来的流程就是  同样的 操作
web.find_element_by_xpath('//*[@id="search_input"]').send_keys('python')

 

 

#点击【搜索】  进行查询
web.find_element_by_xpath('//*[@id="search_button"]').click()

 

#在接下来弹出的   红包  点击 【给也不要】
#同样的操作  查找   xpath  即可
web.find_element_by_xpath('/html/body/div[8]/div/div[2]').click()

 

 

#窗口最大化
web.maximize_window()
# web.find_element_by_xpath('//*[@id="s_position_list"]/ul/li[1]/div[1]/div[1]/div[1]/a/h3').click()

 

alist=web.find_elements_by_xpath('//*[@id="s_position_list"]/ul/li/div[1]/div[1]/div[1]/a/h3')


print(len(alist))  #查询个数

 


#全部都进行点击
#for  循环
for a in alist:
    # a.get_property('herf')   查找herf
    a.click() #点击之后尽量有个时间缓冲
    time.sleep(2) #休息2秒
    #切换窗口
    web.switch_to.window(web.window_handles[-1])
    job_desc=web.find_element_by_xpath('//*[@id="job_detail"]').text
    print(job_desc)   #拿到招聘信息
    #分割线
    print('===%===&===^===&====')

    web.close()  #关闭视窗
    #收集一条信息后  再点击下条信息
    #但此时selenium  还是停留在 上一条记录
    #同理  进行切换窗口
    web.switch_to.window(web.window_handles[0])
    time.sleep(2)  #给电脑一个反应的时间

    #此处虽然是新增了标签页
    #但对于  selenium  来说还是处于原始的界面   不会变


 

time.sleep(12)

web.quit()

你可能感兴趣的:(爬虫)