笙念&

网络爬虫学习（二） selenium

六 selenium

一 selenium简介

1.什么是selenium？

2.为什么使用selenium？

3.selenium使用流程：

4.selenium的使用

二访问网址

三定位节点

方法一：

方法二：

2.find_element()和find_elements()的区别

案例一：selenium基础用法

四模拟浏览器操作

1）常用方法

案例二：selenium其他自动化操作

2）页面存在iframe标签时

案例三：动作链和iframe的处理

3）在实际web操作时，会有很多鼠标操作不仅仅有单击

案例四：模拟登录qq空间

五页面等待

1）显式等待

2）隐式等待

案例五：谷歌无头浏览器+反检测.

六 Phantomjs

七综合案例--模拟登录12306

八存储数据至数据库

1）简介数据库

2）Mysql数据库

3）pymysql

4）相关案例

5）MongoDB数据库

2）安装pymongo

3）相关案例

实战演练--爬取中国知网文章信息

六 selenium

一 selenium简介

1.什么是selenium？

（1）Selenium是一个用于Web应用程序测试的工具。

（2）Selenium 测试直接运行在浏览器中，就像真正的用户在操作一样。（3）支持通过各种driver（FirfoxDriver，IternetExplorerDriver，OperaDriver，ChromeDriver）驱动真实浏览器完成测试。

（4）selenium也是支持无界面浏览器操作的。

2.为什么使用selenium？

模拟浏览器功能，自动执行网页中的js代码，实现动态加载

3.selenium使用流程：

    - 环境安装：pip install selenium
    - 下载一个浏览器的驱动程序（edge）
        - 下载路径：https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
        - 驱动程序和浏览器的映射关系：http://blog.csdn.net/huilan_same/article/details/51896672
    - 实例化一个浏览器对象
    - 编写基于浏览器自动化的操作代码
        - 发起请求：get(url)
        - 标签定位：find系列的方法

        - 标签交互：send_keys('xxx')
        - 执行js程序：excute_script('jsCode')
        - 前进，后退：back(),forward()
        - 关闭浏览器：quit()

4.selenium的使用

1)声明浏览器对象

（1）导入：from selenium import webdriver

（2）初始化浏览器操作对象：（支持多种浏览器）

path = 谷歌浏览器驱动文件路径

browser = webdriver.Edge(path)

注意：声明浏览器对象前需要安装对应的浏览器驱动

二访问网址

使用get（）方法请求网页，传入url参数即可，会弹出浏览器窗口并自动访问，然后可以调用浏览器对象的属性和方法获取网页的信息

url = 要访问的网址

browser.get(url)

浏览器对象的属性和方法获取网页的信息：

属性和方法	说明
page_source	获取当前页面的HTML源代码
current_url	获取当前页面的URL
title	获取当前页面的HTML源代码中的title标签的文本信息
get_cookies()	获取所有cookie
get_cookie(name)	获取指定的cookie
add_cookie({})	添加cookie，参数为字典类型
delete_all_cookies()	删除所有cookie
delete_cookie(name)	删除指定的cookie

三定位节点

元素定位：自动化要做的就是模拟鼠标和键盘来操作来操作这些元素，点击、输入等等。操作这些元素前首先要找到它们，WebDriver提供很多定位元素的方法

方法一：

（现在pycharm好像不能使用了，所以不详细介绍）

方法二：

通用方法

# driver.find_element(By.定位方法，‘元素信息’)

该方法需要传入查找方式喝对应的值两个参数

# 导入By模块
from selenium.webdriver.common.by import By
1.使用方法：

# driver.find_element(By.定位方法，‘元素信息’)

driver.find_element(By.ID, 'foo')
使用中的定位方法和普通的定位方法是一致的。
案例：

# coding:utf-8
from selenium import webdriver
from selenium.webdriver.common.by import By
# 选择浏览器
driver = webdriver.Chrome()
# 进入百度网站
driver.get('https://www.baidu.com')
# 通过find_element定位输入框
driver.find_element(By.ID,'kw').send_keys('python')

2.find_element()和find_elements()的区别

（1）find_element()的返回结果是一个WebElement对象，如果符合条件的有多个，默认返回找到的第一个，如果没有找到则抛出NoSuchElementException异常。

（2）find_elements()的返回结果是一个包含所有符合条件的WebElement对象的列表，如果未找到，则返回一个空列表

案例一：selenium基础用法

from selenium import webdriver
from lxml import etree
from time import sleep
from selenium.webdriver.edge.service import Service
#实例化一个浏览器对象（传入浏览器的驱动程序）
bro = webdriver.Edge(executable_path=r"msedgedriver.exe")
#让浏览器发起一个指定url对应请求
bro.get('https://www.jd.com/')

#page_source获取浏览器当前页面的页面源码数据
page_text = bro.page_source
#解析企业名称
tree = etree.HTML(page_text)
a_list = tree.xpath('//*[@id="J_seckill"]/div/div/div[1]/div/div/div/a')
for a in a_list:
    name = a.xpath("./h6/text()")[0]
    print(name)
#等待五秒后关闭
sleep(5)
#关闭浏览器
bro.quit()

四模拟浏览器操作

1）常用方法

案例二：selenium其他自动化操作

from selenium import webdriver
from time import sleep
from selenium.webdriver.common.by import By
bro = webdriver.Edge(executable_path=r"msedgedriver.exe")

bro.get('https://www.taobao.com/')

#标签定位
search_input = bro.find_element(By.ID,'q')
#标签交互
search_input.send_keys('Iphone')


#执行一组js程序
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
#点击搜索按钮
btn = bro.find_element(By.CSS_SELECTOR,'.btn-search')
btn.click()


bro.get('https://www.baidu.com')
sleep(2)
#回退
bro.back()
sleep(2)
#前进
bro.forward()


sleep(5)

bro.quit()

2）页面存在iframe标签时

iframe：在一个页面中，可以嵌套一个子页面，这样的操作可以使用iframe来实现。

如上图所示，要挪动的方块被嵌套在当前网页的子页面中。如果定位的标签存在在iframe之中，必须用上述代码中的方法切换作用域，切换到指定的iframe中，否则会默认在全局作用域。

frame总结
- 如果定位的标签存在于iframe标签之中，则必须使用switch_to.frame(id)

- 动作链（拖动）：from selenium.webdriver import ActionChains

- 实例化一个动作链对象：action = ActionChains(bro)

- click_and_hold（div）：长按且点击操作

- move_by_offset(x,y)

- perform()让动作链立即执行

- action.release()释放动作链对象

- selenium处理iframe
    - 如果定位的标签存在于iframe标签之中，则必须使用switch_to.frame(id)
    - 动作链（拖动）：from selenium.webdriver import ActionChains
        - 实例化一个动作链对象：action = ActionChains(bro)
        - click_and_hold（div）：长按且点击操作
        - move_by_offset(x,y)
        - perform()让动作链立即执行
        - action.release()释放动作链对象

案例三：动作链和iframe的处理

from selenium import webdriver
from time import sleep
from selenium.webdriver.common.by import By
#导入动作链对应的类
from selenium.webdriver import ActionChains
bro = webdriver.Edge(executable_path=r"msedgedriver.exe")

bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

#如果定位的标签是存在于iframe标签之中的则必须 通过如下操作在进行标签定位
bro.switch_to.frame('iframeResult')#切换浏览器标签定位的作用域
div = bro.find_element(By.ID,'draggable')

#动作链
action = ActionChains(bro)
#点击长按指定的标签
action.click_and_hold(div)

for i in range(5):
    #perform()立即执行动作链操作
    #move_by_offset(x,y):x水平方向 y竖直方向
    action.move_by_offset(17,0).perform()
    sleep(0.5)

#释放动作链
action.release()

bro.quit()

3）在实际web操作时，会有很多鼠标操作不仅仅有单击

注意：seleniumAPI没有提供某些操作（如下拉滚动条）在这种情况下，可以直接模拟运行js，使用execute（）方法即可实现

例如：execute_scrpt("window.scrollTo(0,document.body.scrollHeight)")实现；1将滚动条下拉到页面最底部。

案例四：模拟登录qq空间

from selenium import webdriver
from time import sleep
from selenium.webdriver.common.by import By
bro = webdriver.Edge(executable_path=r"msedgedriver.exe")

bro.get('https://qzone.qq.com/')

bro.switch_to.frame('login_frame')

a_tag = bro.find_element(By.ID,"switcher_plogin")
a_tag.click()


userName_tag = bro.find_element(By.ID,'u')
password_tag = bro.find_element(By.ID,'p')
sleep(1)
userName_tag.send_keys('328410948')
sleep(1)
password_tag.send_keys('123456789')
sleep(1)
btn = bro.find_element(By.ID,'login_button')
btn.click()

sleep(3)

bro.quit()

五页面等待

很多网页采用了Ajax技术，程序无法确定某个节点是否已经完全加载。如果页面实际加载的时间过长，会导致程序使用未加载出来的节点，此时就会抛出NullPointer异常。为了避免这种情况，selenium库提供了显式等待和隐式等待两种等待方式

1）显式等待

2）隐式等待

selenium库直接使用implicitly_wait(timeout)方法实现隐式等待，该方法表示在规定的时间内页面的所有元素都加载完了就执行下一步，否则一直等到时间截止，然后再继续下一步。

案例五：谷歌无头浏览器+反检测.

1.无头浏览就是不弹出浏览器

2.如果selenium被检测到，会被拒绝爬取，这也是一种反爬手段。因此我们需要规避selenium检测。

以上两条不需要背下来，用的时候copy就行。

目前好像有了新的规避方法，等我用到我会更新，欢迎大家和我交流！

from selenium import webdriver
from time import sleep
#实现无可视化界面
from selenium.webdriver.edge.options import Options
#实现规避检测
from selenium.webdriver import EdgeOptions

#实现无可视化界面的操作
edge_options = Options()
edge_options.add_argument('--headless')
edge_options.add_argument('--disable-gpu')

#实现规避检测
option = EdgeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])

#如何实现让selenium规避被检测到的风险
bro = webdriver.Chrome(executable_path='./msedgedriver.exe',chrome_options=edge_options,options=option)

#无可视化界面（无头浏览器） phantomJs
bro.get('https://www.baidu.com')

print(bro.page_source)
sleep(2)
bro.quit()

六 Phantomjs

1.什么是Phantomjs？

（1）是一个无界面的浏览器

（2）支持页面元素查找，js的执行等

（3）由于不进行css和gui渲染，运行效率要比真实的浏览器要快很多

2.如何使用Phantomjs？

（1）获取PhantomJS.exe文件路径path

（2）browser = webdriver.PhantomJS(path)

（3）browser.get(url)

扩展：保存屏幕快照:browser.save_screenshot('baidu.png')

3.Chrome handless

Chrome-headless 模式， Google 针对 Chrome 浏览器 59版新增加的一种模式，可以让你不打开UI界面的情况下使用 Chrome 浏览器，所以运行效果与 Chrome 保持完美一致。

1.系统要求：

Chrome Unix\Linux 系统需要 chrome >= 59 Windows 系统需要 chrome >= 60

Python3.6

Selenium==3.4.*

ChromeDriver==2.31

2.配置：

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

chrome_options = Options() chrome_options.add_argument('‐‐headless') chrome_options.add_argument('‐‐disable‐gpu') path = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'

chrome_options.binary_location = path

browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://www.baidu.com/')

七综合案例--模拟登录12306

12306模拟登录
    - 超级鹰：http://www.chaojiying.com/about.html
        - 注册：普通用户
        - 登录：普通用户
            - 题分查询：充值
            - 创建一个软件（id）
            - 下载示例代码

    - 12306模拟登录编码流程：
        - 使用selenium打开登录页面
        - 对当前selenium打开的这张页面进行截图
        - 对当前图片局部区域（验证码图片）进行裁剪
            - 好处：将验证码图片和模拟登录进行一一对应。
        - 使用超级鹰识别验证码图片（坐标）
        - 使用动作链根据坐标实现点击操作
        - 录入用户名密码，点击登录按钮实现登录

#下述代码为超级鹰提供的示例代码
import requests
from hashlib import md5
from selenium.webdriver.common.by import By
class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()

# if __name__ == '__main__':
#     chaojiying = Chaojiying_Client('2841083324', '1905242685.abc', '939854')	#用户中心>>软件ID 生成一个替换 96001
#     im = open('a.jpg', 'rb').read()													#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
#     print( chaojiying.PostPic(im, 1902))												#1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()
#     print chaojiying.PostPic(base64_str, 1902)  #此处为传入 base64代码
#上述代码为超级鹰提供的示例代码

#使用selenium打开登录页面
from selenium import webdriver
import time
from PIL import Image
from selenium.webdriver import ActionChains
bro = webdriver.Chrome(executable_path='./msedgedriver.exe')
bro.get('https://kyfw.12306.cn/otn/login/init')
time.sleep(1)

#save_screenshot就是将当前页面进行截图且保存
bro.save_screenshot('aa.png')

#截图可能需要把浏览器*1.25

#确定验证码图片对应的左上角和右下角的坐标（裁剪的区域就确定）
code_img_ele = bro.find_element(By.XPATH,'//*[@id="loginForm"]/div/ul[2]/li[4]/div/div/div[3]/img')
location = code_img_ele.location  # 验证码图片左上角的坐标 x,y
print('location:',location)
size = code_img_ele.size  #验证码标签对应的长和宽
print('size:',size)
#左上角和右下角坐标
rangle = (
int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))
#至此验证码图片区域就确定下来了

i = Image.open('./aa.png')
code_img_name = './code.png'
#crop根据指定区域进行图片裁剪
frame = i.crop(rangle)
frame.save(code_img_name)

#将验证码图片提交给超级鹰进行识别
chaojiying = Chaojiying_Client('2841083324', '1905242685.abc', '939854')	#用户中心>>软件ID 生成一个替换 96001
im = open('code.png', 'rb').read()													#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
print( chaojiying.PostPic(im, 1902))
print(chaojiying.PostPic(im, 9004)['pic_str'])
result = chaojiying.PostPic(im, 9004)['pic_str']
all_list = [] #要存储即将被点击的点的坐标  [[x1,y1],[x2,y2]]
if '|' in result:
    list_1 = result.split('|')
    count_1 = len(list_1)
    for i in range(count_1):
        xy_list = []
        x = int(list_1[i].split(',')[0])
        y = int(list_1[i].split(',')[1])
        xy_list.append(x)
        xy_list.append(y)
        all_list.append(xy_list)
else:
    x = int(result.split(',')[0])
    y = int(result.split(',')[1])
    xy_list = []
    xy_list.append(x)
    xy_list.append(y)
    all_list.append(xy_list)
print(all_list)
#遍历列表，使用动作链对每一个列表元素对应的x,y指定的位置进行点击操作
for l in all_list:
    x = l[0]
    y = l[1]
    ActionChains(bro).move_to_element_with_offset(code_img_ele, x, y).click().perform()
    time.sleep(0.5)

bro.find_element(By.ID,'username').send_keys('[email protected]')
time.sleep(2)
bro.find_element(By.ID,'password').send_keys('bobo_15027900535')
time.sleep(2)
bro.find_element(By.ID,'loginSub').click()
time.sleep(30)
bro.quit()

八存储数据至数据库

1）简介数据库

MySQL是关系型数据库，他将数据保存在不同的二维表中，表中每一列是一个字段，每一行是一条记录；MongoDB是非关系型文档数据库，其数据存储形式类似JSON对象，他的字段可以包含其他文档，数组以及文档数组，形式非常灵活。

2）Mysql数据库

安装并且配置数据库

MySQL 8.0保姆级下载、安装及配置教程（我妈看了都能学会）_哔哩哔哩_bilibili

使用mysql -uroot -p输入密码12345进入

输入use mysql 命令选择数据库

输入flush privileges;命令刷新数据库

3）pymysql

pip install pymysql

常用方法及其操作

4）相关案例

#定义元组类型数据，创建mysql数据库和表，并对数据库进行插入，更新何删除和查询数据等操作，输出查询的结果

#定义元组类型数据，创建mysql数据库和表，并对数据库进行插入，更新何删除和查询数据等操作，输出查询的结果
import pymysql								#导入pymysql模块
db = pymysql.connect(host='localhost', user='root', password='12345', port=3306)					#连接MySQL
cursor = db.cursor()						#获取操作游标
cursor.execute('CREATE DATABASE IF NOT EXISTS student_sql Character Set UTF8MB4')						#创建数据库student_sql
cursor.close()								#关闭游标
db.close()									#断开连接
#连接MySQL，并选择student_sql数据库
db = pymysql.connect(host='localhost', user='root', password='12345', port=3306, db='student_sql')
cursor = db.cursor()						#获取操作游标
sql = 'CREATE TABLE IF NOT EXISTS students (id CHAR(20), name CHAR(20), age INT)'								#创建表students
cursor.execute(sql)							#执行SQL语句
student = (('0001', 'bob', 12),
           ('0002', 'lucy', 10),
           ('0003', 'kate', 11))			#定义数据
try:
    #SQL插入数据语句
    sql='INSERT INTO students(id, name, age) VALUES(%s, %s,  %s)'
    cursor.executemany(sql,student)		#执行多条SQL语句
    db.commit()								#提交到数据库执行
    sql = 'SELECT * FROM students'#SQL查询数据语句，查询所有记录
    cursor.execute(sql)						#执行SQL语句
    results = cursor.fetchall()			#获取所有记录列表
    print('插入数据后的所有记录：', results)#输出记录
    #SQL更新数据语句
    sql = 'UPDATE students SET age = %s WHERE name = %s'
    cursor.execute(sql, (13, 'bob'))		#执行SQL语句
    db.commit()								#提交到数据库执行
    sql = 'SELECT * FROM students'#SQL查询数据语句，查询所有记录
    cursor.execute(sql)						#执行SQL语句
    results = cursor.fetchall()			#获取所有记录列表
    print('更新数据后的所有记录：', results)#输出记录
    #SQL删除数据语句，删除age小于等于10的记录
    sql = 'DELETE FROM students WHERE age <= 10'
    cursor.execute(sql)						#执行SQL语句
    db.commit()								#提交到数据库执行
    sql = 'SELECT * FROM students'#SQL查询数据语句，查询所有记录
    cursor.execute(sql)						#执行SQL语句
    results = cursor.fetchall()			#获取所有记录列表
    #输出记录
    print('删除age小于等于10的数据后的所有记录：', results)
    #SQL查询数据语句，查询age大于12的记录
    sql = 'SELECT * FROM students WHERE age > 12'
    cursor.execute(sql)						#执行SQL语句
    results = cursor.fetchall()			#获取所有记录列表
    print('age大于12的数据的所有记录：', results)	#输出记录
except:
    db.rollback()							#回滚当前事务
cursor.close()								#关闭游标
db.close()									#断开数据库连接

运行结果

注意：

5）MongoDB数据库

1）下载并且安装MongoDB

访问MongoDB Community Download | MongoDB

打开下载页面

点击download

然后根据向导进行安装

2）安装pymongo

3）相关案例

定义字典列表，创建mongoDB数据库和集合，并对数据库进行添加，删除，修改和排序，和查询数据等操作，输出查询的记录

import pymongo				#导入pymongo模块
#创建MongoClient类对象
myclient = pymongo.MongoClient(host='localhost', port=27017)
mydb = myclient.test		#选择数据库，如果不存在则新建一个数据库
collection = mydb.student	#选择集合，如果不存在则新建一个集合
#定义字典列表
list = [{'id': '001', 'name': '小明', 'age': 10},
        {'id': '002', 'name': '小红', 'age': 11},
        {'id': '003', 'name': '小刚', 'age': 11},
        {'id': '004', 'name': '小蓝', 'age': 12}]
collection.insert_many(list)#将字典列表list添加到数据库中
print('添加数据后的所有记录：')
#查询添加数据后的所有记录并输出
for i in collection.find():
    print(i)
#查询第一个age为11的记录并输出
print('第一个age为11的记录：\n', collection.find_one({'age': 11}))
print('所有age为11的记录：')
#查询所有age为11的记录并输出
for i in collection.find({'age': 11}):
    print(i)
#删除第一个id为“003”的记录
collection.delete_one({'id': '003'})
print('删除第一个id为“003”后的所有记录：')
#查询删除第一个id为“003”后的所有记录并输出
for i in collection.find():
    print(i)
#将第一个age为12的记录修改成age为10
collection.update_one({'age': 12}, {'$set': {'age': 10}})
print('将第一个age为12的记录修改成age为10后的所有记录：')
#查询将第一个age为12的记录修改成age为10后的所有记录并输出
for i in collection.find():
    print(i)
print('排序后的所有记录：')
#查询排序后的所有记录并输出
for i in collection.find().sort('age'):
    print(i)

运行结果

实战演练--爬取中国知网文章信息

目的：使用elenium模拟浏览器爬取数据

将怕爬取到的数据保存到mongodb数据库中

分析

from selenium import webdriver		#导入webdriver模块
#导入By模块
from selenium.webdriver.common.by import By
#导入WebDriverWait模块
from selenium.webdriver.support.ui import WebDriverWait
#导入expected_conditions模块
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup			#导入BeautifulSoup模块
#导入TimeoutException
from selenium.common.exceptions import TimeoutException
import pymongo							#导入pymongo模块
import time								#导入time模块
#初始化Google Chrome浏览器对象，并赋值给browser
browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)	#初始化WebDriverWait对象
#创建MongoClient类对象
client = pymongo.MongoClient('localhost', 27017)
mongo = client.cnki			#选择数据库，如果不存在则新建一个数据库
collection = mongo.papers	#选择集合，如果不存在则新建一个集合
#定义搜索函数，根据传入的关键字搜索
def searcher(keyword):
    #请求中国知网首页，打开一个浏览器窗口
    browser.get('https://www.cnki.net/')
    browser.maximize_window()			#最大化窗口
    time.sleep(2)						#休眠2s
    #通过id属性定位“搜索”编辑框节点，并赋值给input
    input = wait.until(
        EC.presence_of_element_located((By.ID,'txt_SearchText'))
    )
    input.send_keys(keyword)			#输入文本“Python”
    #定位“搜索”按钮节点并单击
    wait.until(EC.presence_of_element_located(
        (By.CLASS_NAME, 'search-btn'))).click()
    time.sleep(3)						#休眠3s
    #定位每页文章篇数列表节点并单击
    wait.until(EC.presence_of_element_located(
        (By.CSS_SELECTOR, '[class="icon icon-sort"]'))).click()
    #定位每页文章篇数“50”节点并单击
    wait.until(EC.presence_of_all_elements_located(
        (By.CSS_SELECTOR, '#id_grid_display_num ul li'))
    )[2].click()
    time.sleep(3)						#休眠3s
    parse_page()							#调用parse_page函数
#定义解析网页函数
def parse_page():
    wait.until(
        EC.presence_of_all_elements_located(
            (By.CSS_SELECTOR, '.result-table-list tbody tr')
        )
    )
    html = browser.page_source			#获取HTML源代码
    #创建BeautifulSoup对象，并设置使用lxml解析器
    soup = BeautifulSoup(html, 'lxml')
    #使用CSS选择器查找tr节点
    items = soup.select('.result-table-list tbody tr')
    #遍历列表，提取文章信息
    for i in range(0, len(items)):
        item = items[i]
        detail = item.select('td')		#使用CSS选择器查找td节点
        paper = {
          'index': detail[0].text.strip(),
          'title': detail[1].text.strip(),
          'author': detail[2].text.strip(),
          'resource': detail[3].text.strip(),
          'time': detail[4].text.strip(),
          'database': detail[5].text.strip()
        }
        print(paper)						#输出文章信息
        data_storage(paper)				#调用data_storage函数
#将数据存入数据库
def data_storage(paper):
    try:
        collection.insert_one(paper)
    except Exception:
        print('failedly storage!', paper)
#定义翻页函数
def next_page():
    try:
        #判断id值为"Page_next_top"的节点是否可见
        page_next = wait.until(
            EC.visibility_of_element_located(
                (By.CSS_SELECTOR, '#Page_next_top')
            )
        )
    except TimeoutException:			#捕获超时异常
        return False						#返回False
    else:									#节点可见
        page_next.click()				#单击节点
        return True						#返回True
if __name__ == '__main__':
    keyword = 'Python'					#定义搜索关键字
    searcher(keyword)			#调用searcher函数，返回HTML源代码
    while True:							#循环
        flag = next_page()				#调用next_page函数
        time.sleep(5)					#休眠5s
        #如果next_page函数返回为True，继续调用next_page函数
        if flag:
            parse_page()
            continue
        #如果next_page函数返回为False，退出循环
        else:
            break
    browser.close()						#关闭浏览器

你可能感兴趣的:(大数据学习,爬虫,学习,python)

深入学习Nginx：从入门到实践小码快撩 nginx 学习运维
引言Nginx，全名“EngineX”，是一款高性能的HTTP和反向代理服务器，由俄罗斯程序员IgorSysoev开发。以其轻量级、高并发处理能力和稳定性而闻名于世，广泛应用于负载均衡、动静内容分离、API网关、缓存服务以及静态文件服务等多个场景。本文旨在为读者提供一份详尽的Nginx技术学习指南，助您快速掌握并应用这一强大工具。。一、事件驱动模型在Nginx中，事件驱动模型是其高效处理并发连接的
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Elasticsearch 入门教学：从零开始掌握分布式搜索引擎格子先生Lab 搜索引擎 elasticsearch 分布式
引言Elasticsearch是一个开源的分布式搜索引擎，基于ApacheLucene构建，能够实现近乎实时的数据搜索和分析。它广泛应用于日志分析、全文搜索、数据可视化等场景。本文将带你从零开始学习Elasticsearch，掌握其基本概念、安装配置、数据操作及搜索功能。1.Elasticsearch简介1.1什么是Elasticsearch？Elasticsearch是一个分布式的RESTful
【LLM】预训练的具体流程 FOUR_A LLM python 人工智能深度学习大模型
分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。中文预训练：为了让这个“大脑”更好地理解中文，我们需要用大量的中文数据继续训练它。分词器（Tokenizer）：它的作用是把一句话拆分成一个个小单元（比如词语或字）。比如，“我喜欢学习”会被拆成“我/喜欢/学习”。这些拆分后的单元会被转换成数字，方便模型
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
递推和递归_一文学会递归递推 HR刀姐递推和递归
递归算法和递推算法无论是在ACM竞赛还是项目工程上都有着极为广泛的应用，但想要完全掌握两者的思想并不容易，对于刚刚接触编程的人来说更是这样，我在初次接触递归递推时就吃了很多的苦头，除了当时对编程语言不太熟悉之外，最大的原因就是难以理解其中的思想，本文将二者结合代码分别讲解，力求以"理论+实践"的方式使读者明白两种算法。一箭双雕，一文双递。一.递归和递推的区别学习递归递推的一个容易遇到的问题就是混淆
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
Zookeeper【概念（集中式到分布式、什么是分布式、CAP定理、什么是Zookeeper、应用场景、为什么选择Zookeeper 、基本概念）】(一)-全面详解（学习总结---从入门到深化）童小纯中间件大全---全面详解 zookeeper 分布式
作者简介：大家好，我是小童，Java开发工程师，CSDN博客博主，Java领域新星创作者系列专栏：前端、Java、Java中间件大全、微信小程序、微信支付、若依框架、Spring全家桶如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：以梦为马，扬帆起航，2023追梦人目录Zookeeper概念_集中式到分布
深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
HarmonyNext实战案例：基于ArkTS的高性能音视频处理应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能音视频处理应用开发引言在HarmonyNext生态系统中，ArkTS作为新一代的编程语言，为开发者提供了强大的工具来构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的音视频处理应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的特性，结合ArkTS的强大功能，实现复杂
Solana中的程序派生地址（PDAs）：是什么，为什么，以及如何？ GTokenTool发币平台区块链
程序派生地址(PDA)在Solana中的应用：什么、为什么和如何？在学习Solana时，你会经常听到关于程序派生地址(PDAs)的讨论。它们就像这样——强大、多功能，而且最重要的是，稍微被误解。如果你是一个开发者，试图理解它们，不用担心。我们将在本文中一起揭开PDAs的面纱。在本文中，我将从基础开始解释PDAs，假设你刚刚开始接触Solana。因此，不需要任何先前的知识——让我们开始吧。什么是PD
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
Zookeeper学习种豆走天下 zookeeper 学习分布式
Zookeeper是一个开源的分布式协调框架，它主要用于处理分布式系统中的一些常见问题，如同步、配置管理、命名服务和集群管理等。Zookeeper是由Apache提供的，并且广泛应用于各种分布式应用中，特别是在高可用、高可靠性和高性能的系统中。Zookeeper的主要功能分布式协调：Zookeeper提供了协调多个节点（服务器）间行为的机制。例如，分布式锁、选举、配置管理等。命名服务：Zookee
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
GO语言学习笔记螺旋式上升abc golang 学习笔记
一、viper笔记【七米】https://liwenzhou.com/posts/Go/viper/二、优雅关机和平滑重启https://liwenzhou.com/posts/Go/graceful-shutdown/三、gin使用zaphttps://liwenzhou.com/posts/Go/zap-in-gin/四、flag用于命令行传参https://liwenzhou.com/pos
《Quick Start Kubernetes》读后感 python
一、为什么选择这本书？面试的时候经常被问到kubernetes(下称k8s)，所以打算学习k8s。看到《QuickStartKubernetes》的作者对自己所写的书持续地更新，被这种认真打动了，外加这本书只有100多页，所以选择了这本书作为入门k8s的教材。二、这本书写了什么？这本书介绍了什么是k8s,k8s的组成结构(controlplanenode,workernode)，演示了在Windo
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

网络爬虫学习（二） selenium

六 selenium

一 selenium简介

1.什么是selenium？

2.为什么使用selenium？

3.selenium使用流程：

4.selenium的使用

二 访问网址

三 定位节点

方法一：

方法二：

2.find_element()和find_elements()的区别

案例一：selenium基础用法

四 模拟浏览器操作

1）常用方法

案例二：selenium其他自动化操作

2）页面存在iframe标签时

案例三：动作链和iframe的处理

3）在实际web操作时，会有很多鼠标操作不仅仅有单击

案例四：模拟登录qq空间

五 页面等待

1）显式等待

2）隐式等待

案例五：谷歌无头浏览器+反检测.

六 Phantomjs

七 综合案例--模拟登录12306

八 存储数据至数据库

1）简介数据库

2）Mysql数据库

3）pymysql

4）相关案例

5）MongoDB数据库

2）安装pymongo

3）相关案例

实战演练--爬取中国知网文章信息

你可能感兴趣的:(大数据学习,爬虫,学习,python)

二访问网址

三定位节点

四模拟浏览器操作

五页面等待

七综合案例--模拟登录12306

八存储数据至数据库