b = Chrome()
b.get('https://movie.douban.com/top250?start=0')
print(b.page_source) # 获取的是豆瓣电影top250的网页遇到源代码
b.get('https://baidu.com')
print(b.page_source) # 获取的是百度的网页遇到源代码
方法1:找到不同页的地址变化规律,利用循环实现多页数据的请求
from selenium.webdriver import Chrome
b = Chrome()
for x in range(0, 226, 25):
b.get(f'https://movie.douban.com/top250?start={x}')
print(b.page_source)
方法2:点击翻页按钮,刷新页面内容,在刷新后获取网页源代码
1.selenium
获取标签
浏览器对象.b.fin_element(获取方式, 数据)
- 返回符号条件的第一个标签,结果是标签对象
浏览器对象.b.fin_elements(获取方式, 数据)
- 返回符号条件的所有标签,结果是列表,列表中的元素是标签对象
1)获取方式:
By.ID
- 通过ID属性值获取标签
By.CLASS_NAME
- 通过class属性值获取标签
By.CSS_SELECTOR
- 通过css选择器获取标签
By.LINK_TEXT
- 通过a标签的标签内容获取标签
By.PARTIAL_LINK_TEXT
- 通过a标签的标签部分内容获取标签
2.操作标签
1)输入框输入内容:输入框对应的标签.send_keys(输入的内容)
2)点击标签:标签对象.click()
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://www.jd.com/')
# 获取id属性值位key的标签
search = b.find_element(By.ID, 'key')
# 获取标签内容为‘便宜包邮’的a标签
a1 = b.find_element(By.LINK_TEXT, '便宜包邮')
# a1.click()
# 获取标签内容包含‘口好’的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT, '口好')
a2.click()
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
1.创建浏览器
b = Chrome()
2.打开知网
b.get('https://www.cnki.net/')
3.获取输入框,输入‘数据分析’
search = b.find_element(By.ID, 'txt_SearchText')
search.send_keys('数据分析\n')
4.获取搜索结果中所有论文的标题标签
titles = b.find_elements(By.CLASS_NAME, 'fz14')
5.点击第一个搜索结果
titles[0].click()
time.sleep(1)
6.切换选项卡,让浏览器对象指向详情页
b.switch_to.window(b.window_handles[-1])
7.获取详情页数据
print(b.page_source)
8.关闭当前窗口
b.close()
9.将选项卡切换回第一个页面
b.switch_to.window(b.window_handles[0])
# 方法1
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoup
from csv import writer
# 1.创建浏览器
b = Chrome()
# 2.打开知网
b.get('https://www.cnki.net/')
# 3.获取输入框,输入‘数据分析’
search = b.find_element(By.ID, 'txt_SearchText')
search.send_keys('数据分析\n')
def get_cnki_data(x):
# 4.获取搜索结果中所有论文的标题标签
titles = b.find_elements(By.CLASS_NAME, 'fz14')
# 点击第一个搜索结果
titles[x].click()
time.sleep(1)
# 切换选项卡,让浏览器对象指向详情页
b.switch_to.window(b.window_handles[1])
# 获取详情页数据
# print(b.page_source)
soup = BeautifulSoup(b.page_source, 'lxml')
summary = soup.select_one('span#ChDivSummary').text
title = soup.select_one('.wx-tit>h1').text.strip()
w1.writerow([title, summary])
# 关闭当前窗口
b.close()
# 将选项卡切换回第一个页面
b.switch_to.window(b.window_handles[0])
if __name__ == '__main__':
f = open('files/cnki-数据分析.csv', 'w', encoding='utf-8', newline='')
w1 = writer(f)
w1.writerow(['标题', '摘要'])
for x in range(20):
get_cnki_data(x)
# 优化后
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoup
def analysis_data(html):
soup = BeautifulSoup(html, 'lxml')
digest = soup.select_one('#ChDivSummary').text
print(digest)
def get_net_data():
# 1.创建浏览器
b = Chrome()
# 2.打开中国知网
b.get('https://www.cnki.net/')
# 3.获取输入框,输入"数据分析"
search = b.find_element(By.ID, 'txt_SearchText')
search.send_keys('数据分析\n')
time.sleep(1)
for _ in range(3):
# 4.获取搜索结果所有论文的标题标签
titles = b.find_elements(By.CLASS_NAME, 'fz14')
for x in titles:
# 点击一个搜索结果
x.click()
time.sleep(1)
# 切换选项卡,让浏览器对象指向详情页
b.switch_to.window(b.window_handles[-1])
# 获取详情页数据, 解析数据
# print(b.page_source)
analysis_data(b.page_source)
# 关闭当前窗口
b.close()
# 将选项卡切换回第一个页面
b.switch_to.window(b.window_handles[0])
print('--------------------一页数据获取完成--------------------------')
b.find_element(By.ID, 'PageNext').click()
time.sleep(4)
input()
if __name__ == '__main__':
get_net_data()
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
b = Chrome()
b.get('https://www.jd.com/')
time.sleep(2)
用代码控制浏览器滚动:
js中页面滚动的代码:window.scrollBy(x方向的偏移量, y方向的偏移量)
# b.execute_script('window.scrollBy(0, 1000)')
for x in range(8):
b.execute_script('window.scrollBy(0, 800)')
time.sleep(1)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))