辉子2020

爬虫(12，13)selenium练习 12306案例

文章目录

0. 前言
1. 登录的实现
2. 车次及余票查询
- 2.1 车站信息读取
- 2.2 车站信息添加方法
- 2.3 车站信息导入输入框
- 2.4 出发日期与查询按钮
- 2.5 执行结果错误分析
- 2.6 成功登录并查询的最后代码
3. 解析车次列表
4.预定车次
- 4.1 座位类别判断
- 4.2 代码优化
- 4.3 解决报错问题
- - 4.3.1 第一次报错纠正
  - 4.3.2 第二次报错纠正
- 4.4 最后正确代码
5. 确认乘客和车次信息
- 5.1 等待
- 5.2 曾加乘客姓名参数
- 5.3 勾选购票乘客姓名
- 5.4 确认需要购买席位信息
6. 提交订单
7. 最后正确的代码
8. 改进后的代码

0. 前言

这个案例旨在练习selenium方法，以及面向对象编程的代码敲打。本案例的功能是（按顺序罗列）：

打开12306登录界面
窗口最大化（登录需要自己扫码，后续可以尝试获得cookie）
跳转个人中心界面
填写出发地
填写目的地
填写出发日期
跳转到车次及余票查询页面
点击通告窗口确定按钮
点击查询按钮
查询我们想要的车次一等座二等座是否有票
点击预定按钮
跳转购票确认页面
勾选购票人
选择座位类别
点击提交按钮
跳转到核对信息窗口
点击确认购买按钮
系统生成订单
自行操作支付购买
购票成功
这里许多点击动作selenium的操作不响应，有的需要设置显示等待。老师的最后提交按钮是用循环不断点击，我是用execut_script()方法代替，亲测该方法屡试不爽。就是没有不成功的。
后面可以丰富该案例的功能，使它更实用。比如可以在程序执行后跳出交互界面，输入想要查询的车次信息，输入出发地，目的地，出发日期就可以打印出对应的车次信息，自己可以查看打印出的车次信息然后决定购买哪一趟，交互界面点击输入车次信息，输入回车后，程序继续运行后面的代码，然后交互让你填写购票人姓名，然后就是自动帮你生成订单。你只需要手机扫码支付就可以了。有时间可以整整。

1. 登录的实现

我们这一步先研究登录网站。我们用面向对象编程，这一步我们实现的目标是，定义项目框架，执行程序后，登录网站，并且提示已经登录成功。注意看代码中的注释：

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
driver = webdriver.Chrome() # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。
class TrainSpider():

    login_url = 'https://kyfw.12306.cn/otn/resources/login.html' # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html' # 登陆后个人界面

    def __init__(self, from_station, to_station, train_data):  
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data

    def login(self):
        driver.get(self.login_url)   
        driver.maximize_window() # 窗口最大化
        WebDriverWait(driver,300).until(		# 这一行传入的第一个是驱动，第二个是等待时间
            EC.url_contains(self.personal_url)	 #  这一行传入的是包含跟人界面的url条件，条件满足就不再继续等待
        )
        print('已经登录成功')

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 登录
        self.login()

def main():  # 用来调用各个方法
    spider = TrainSpider('西安', '郑州', '2021-01-30')  # 实例化类
    spider.run()

if __name__ == '__main__':  # 主入口，调用主函数开始执行
    main()

程序执行后，先跳出第一个页面，登录界面。用app扫码登录后，跳出个人界面。然后程序执行结束，打印出登录成功提醒。

执行结果：

注意：

不要把驱动写入类里面，因为类调用后就会销毁，而驱动也会随着类销毁而失去，导致浏览器打开后又迅速消失。我们要放在全局变量里面。
登录时，我们设置了显示等待，条件是个人中心的界面url。

2. 车次及余票查询

第二步就到了一个重点了，是车次和余票的查询。我们登录后，就到了一个“单程”的界面了，这个界面对应得地址是：

https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc

下面我要做一个逻辑了，是车次与余票查询的逻辑。我们定义一个方法，叫“leftTicket”，在登录的方法下面。并且在run方法里面调用一下这个方法：

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
driver = webdriver.Chrome() # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。
class TrainSpider():

    login_url = 'https://kyfw.12306.cn/otn/resources/login.html' # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html' # 登陆后个人界面
    left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url

    def __init__(self, from_station, to_station, train_data):
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data

    def login(self):
        driver.get(self.login_url)
        driver.maximize_window() # 窗口最大化
        WebDriverWait(driver,300).until(
            EC.url_contains(self.personal_url)
        )
        print('已经登录成功')

    def search_left_ticket(self):
        pass

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 1. 登录
        self.login()
        # 2. 车次以及余票查询
        self.search_left_ticket()

def main():  # 用来调用各个方法
    spider = TrainSpider('西安', '郑州', '2021-01-30')
    spider.run()

if __name__ == '__main__':
    main()

里面的逻辑怎么写呢？我们需要打开车次以及余票的页面，所以要把这个页面的url放在上面。

left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url

余票查询后，我们需要跳转到买票的界面。跳转之前，我们需要填写“出发地”，“目的地”，“出发日期”等信息。上次课我们是手动填写的，这一次我们用代码来解决。
我们右键检查一下网页源码：

我们发现有两个input标签，第一个input标签的type是hidden隐藏的意思。说明出发地和目的地的获取并不是通过文本，而是通过value值，就是城市的代号得到的。如果你通过Send_keys(‘长沙’）是没有用的。所以，你需要获取全国车站对应的代号，通过这个代号来传递车站信息。我已经准备好了一个csv文件，专门存储车站信息的，如图：

2.1 车站信息读取

接下来我们要做的事是把这些车站的信息读取出来，然后用于后面的车次查询操作。我们回顾一下读取文件的步骤：

import csv
with open('stations.csv','r',encoding='utf-8') as f:
    reader = csv.DictReader(f)
    info_dict = {}
    info_lst = []
    for line in reader:
        name = line['name']
        code = line['code']
        print('name:{},code:{}'.format(name,code))

打印结果

name:太原,code:TYV
name:武汉,code:WHN
name:王家营西,code:KNM
name:乌鲁木齐,code:WAR
name:西安北,code:EAY
name:西安,code:XAY
name:西安南,code:CAY
name:西宁,code:XNO
name:银川,code:YIJ
name:郑州,code:ZZF
name:阿尔山,code:ART
... ...

太占篇幅，后面的省略了。

2.2 车站信息添加方法

我们可以定义一个方法，读取文件，把读取到的信息新键一个字典，把车站名作为键，车站代号作为值，这样我们调用的时候就方便多了。我们把这个逻辑写入代码，注意看注释：

import csv
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
driver = webdriver.Chrome() # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。
class TrainSpider():

    login_url = 'https://kyfw.12306.cn/otn/resources/login.html' # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html' # 登陆后个人界面
    left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url

    def __init__(self, from_station, to_station, train_data):
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

        self.station_codes_dict = {} # 把车站信息字典放在初始化方法里，方便调用
    def init_station_code(self):    # 读取stations.csv文件，并新键字典，把车站名作为建，车站代号作为值
        # station_codes_dict = {}  # 假如我们把这个字典放在这里，那么其他方法相使用就使用不了，所以我们可以把它放到初始化方法里。
        with open('stations.csv', 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for line in reader:
                name = line['name']
                code = line['code']
                self.station_codes_dict[name] = code  # 这里我们只需要调用一下初始化方法里的字典

    def login(self):
        driver.get(self.login_url)
        driver.maximize_window() # 窗口最大化
        WebDriverWait(driver,300).until(
            EC.url_contains(self.personal_url)
        )
        print('已经登录成功')

    def search_left_ticket(self):
        pass

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 1. 登录
        self.login()
        # 2. 车次以及余票查询
        self.search_left_ticket()

def main():  # 用来调用各个方法
    spider = TrainSpider('西安', '郑州', '2021-01-30')
    spider.run()

if __name__ == '__main__':
    main()

这段代码需要说明的是：

车站信息读取方法我们在初始化方法里面直接调用了，这样当这个类初始化时，车站信息就被读取好了，方便使用。
车站信息读取方法的最后一步是把读取的内容添加到一个空字典里，这个空字典我们放在了初始化方法里面，这样的其他的方法也可以调用。而同样的，车站信息读取方法要用也需要
"self.station_codes_dict[name] = code"这样调用。

2.3 车站信息导入输入框

我们怎样把这个车站信息填入网站上的出发站和到达站输入框呢，因为这里的input标签是隐藏的类型。所以我们并不能直接用selenium的send_keys方法去操作。这里需要selenium提供的一个叫着"execute_script()"方法，这个方法的主要作用是它可以调用一些JavaScript()方法的操作，例如拖动网页窗口的滚动条这样的操作，在selenium里面并没有提供这样的方法，但是提供了execute_script()，可以调用JavaScript()里的相关操作方法来实现。

execute_script()方法可以调用JavaScript()方法

下面看代码，注意看注释：

import csv
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
driver = webdriver.Chrome() # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。
class TrainSpider():

    login_url = 'https://kyfw.12306.cn/otn/resources/login.html' # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html' # 登陆后个人界面
    left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url

    def __init__(self, from_station, to_station, train_data):
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

        self.station_codes_dict = {} # 把车站信息字典放在初始化方法里，方便调用
    def init_station_code(self):    # 读取stations.csv文件，并新键字典，把车站名作为建，车站代号作为值
        # station_codes_dict = {}  # 假如我们把这个字典放在这里，那么其他方法相使用就使用不了，所以我们可以把它放到初始化方法里。
        with open('stations.csv', 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            info_dict = {}
            info_lst = []
            for line in reader:
                name = line['name']
                code = line['code']
                self.station_codes_dict[name] = code  # 这里我们只需要调用一下初始化方法里的字典

    def login(self):
        driver.get(self.login_url)
        driver.maximize_window() # 窗口最大化
        WebDriverWait(driver,300).until(
            EC.url_contains(self.personal_url)
        )
        print('已经登录成功')

    def search_left_ticket(self):
        driver.get(self.left_ticket_url)
        # 出发地
        from_station_input = driver.find_element_by_id('fromStation')  # 找到出发地输入框元素
        from_station_code = self.station_codes_dict[self.from_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"'%from_station_code,from_station_input) # 把实例出发地传入输入框
        # 上面这行代码的解释："arguments[0].value"这是Java里的占位符，"%s"这是python里的占位符
        # %from_station_code,from_station_input这句意思是用后面的from_station_input被前面的from_station_code代替
        # 目的地
        to_station_input = driver.find_element_by_id('toStation')  # 找到目的地输入框元素
        to_station_code = self.station_codes_dict[self.to_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % to_station_code, to_station_input) # 把实例目的地传入输入框

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 1. 登录
        self.login()
        # 2. 车次以及余票查询
        self.search_left_ticket()

def main():  # 用来调用各个方法
    spider = TrainSpider('西安', '郑州', '2021-01-30')
    spider.run()

if __name__ == '__main__':
    main()

注意，这里执行后，虽然输入框里面并没有显示我们输入的城市名西安，但是实际上我们的代号“XAY”已经成功传入，可以右键查看。在查看前千万不要用鼠标点击输入框，因为点击有清除输入框内容的功能，点击后，你再右键查看，会发现value值是空的。但尽管如此，我们的车站代号还是成功传入了的。

2.4 出发日期与查询按钮

下面我们定义日期和点击查询按钮的代码：

import csv
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
driver = webdriver.Chrome() # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。
class TrainSpider():

    login_url = 'https://kyfw.12306.cn/otn/resources/login.html' # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html' # 登陆后个人界面
    left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url

    def __init__(self, from_station, to_station, train_data):
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

        self.station_codes_dict = {} # 把车站信息字典放在初始化方法里，方便调用
    def init_station_code(self):    # 读取stations.csv文件，并新键字典，把车站名作为建，车站代号作为值
        # station_codes_dict = {}  # 假如我们把这个字典放在这里，那么其他方法相使用就使用不了，所以我们可以把它放到初始化方法里。
        with open('stations.csv', 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            info_dict = {}
            info_lst = []
            for line in reader:
                name = line['name']
                code = line['code']
                self.station_codes_dict[name] = code  # 这里我们只需要调用一下初始化方法里的字典

    def login(self):
        driver.get(self.login_url)
        driver.maximize_window() # 窗口最大化
        WebDriverWait(driver,300).until(
            EC.url_contains(self.personal_url)
        )
        print('已经登录成功')

    def search_left_ticket(self):
        driver.get(self.left_ticket_url)
        # 出发地
        from_station_input = driver.find_element_by_id('fromStation')  # 找到出发地输入框元素
        from_station_code = self.station_codes_dict[self.from_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"'%from_station_code,from_station_input) # 把实例出发地传入输入框
        # 上面这行代码的解释："arguments[0].value"这是Java里的占位符，"%s"这是python里的占位符
        # %from_station_code,from_station_input这句意思是用后面的from_station_input被前面的from_station_code代替
        # 目的地
        to_station_input = driver.find_element_by_id('toStation')  # 找到目的地输入框元素
        to_station_code = self.station_codes_dict[self.to_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % to_station_code, to_station_input) # 把实例目的地传入输入框
        # 出发日期
        train_date_input = driver.find_element_by_id('train_date')
        driver.execute_script('arguments[0].value="%s"' % self.train_data, train_date_input)
        # 查询按钮
        search_btn = driver.find_element_by_id('query_ticket')
        search_btn.click()  # 点击查询按钮

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 1. 登录
        self.login()
        # 2. 车次以及余票查询
        self.search_left_ticket()

def main():  # 用来调用各个方法
    spider = TrainSpider('西安', '郑州', '2021-01-30')
    spider.run()

if __name__ == '__main__':
    main()

2.5 执行结果错误分析

现在可以点击执行尝试一下了。
执行后还是出现了问题的。总结如下：

第一次出现的问题是TrainSpider这个类无station_codes_dict这个参数，原因是我把

 self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了
 self.station_codes_dict = {} # 把车站信息字典放在初始化方法里，方便调用

这两句的位置顺序放反了，第一句先执行，却找不到字典，因为字典在后面还未执行的代码里。

第二个坑是，点击的时候显示按钮位置被覆盖的错误，错误语句如下

selenium.common.exceptions.ElementClickInterceptedException: Message: element click intercepted: Element ... is not clickable at point (973, 153). Other element would receive the click: 
  (Session info: chrome=88.0.4324.104)

原因是点击位置被覆盖
画面惨不忍睹，来个截屏

百度搜索，解决办法有三：

# 解决方法一：js注入
element1 = driver.find_element_by_css_selector('.ush button')
driver.execute_script("arguments[0].click();", element1)
# 解决方法二：ActionChains，需要先导入
webdriver.ActionChains(driver).move_to_element(element ).click(element ).perform()
# 解决方法三：使用回车代替点击
driver.find_element(By.CSS_SELECTOR,"#submit").send_keys(Keys.ENTER)

亲测第一中方法有效，后两种方法不行，可以登录，但没有查询动作，也没有报错。目前不知道原因，有空再仔细研究。如果你知道原因，欢迎留言。

2.6 成功登录并查询的最后代码

下面是登录成功的完整代码，并成功查询的页面。注意看注释：

# @Time    : 2021/1/25 22:31
# @Author  : Guanghui Li
# @File    : my12306.py
# @Software: PyCharm
import csv
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
driver = webdriver.Chrome() # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。
class TrainSpider():

    login_url = 'https://kyfw.12306.cn/otn/resources/login.html' # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html' # 登陆后个人界面
    left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url

    def __init__(self, from_station, to_station, train_data):
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.station_codes_dict = {} # 把车站信息字典放在初始化方法里，方便调用
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

        '''
        'TrainSpider' object has no attribute 'station_codes_dict'
        '''

    def init_station_code(self):    # 读取stations.csv文件，并新键字典，把车站名作为建，车站代号作为值
        # station_codes_dict = {}  # 假如我们把这个字典放在这里，那么其他方法相使用就使用不了，所以我们可以把它放到初始化方法里。
        with open('stations.csv', 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for line in reader:
                name = line['name']
                code = line['code']
                self.station_codes_dict[name] = code  # 这里我们只需要调用一下初始化方法里的字典

    def login(self):
        driver.get(self.login_url)
        driver.maximize_window() # 窗口最大化
        WebDriverWait(driver,300).until(
            EC.url_contains(self.personal_url)
        )
        print('已经登录成功')

    def search_left_ticket(self):
        driver.get(self.left_ticket_url)
        # 出发地
        from_station_input = driver.find_element_by_id('fromStation')  # 找到出发地输入框元素
        from_station_code = self.station_codes_dict[self.from_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"'%from_station_code,from_station_input) # 把实例出发地传入输入框
        # 上面这行代码的解释："arguments[0].value"这是Java里的占位符，"%s"这是python里的占位符
        # %from_station_code,from_station_input这句意思是用后面的from_station_input被前面的from_station_code代替
        # 目的地
        to_station_input = driver.find_element_by_id('toStation')  # 找到目的地输入框元素
        to_station_code = self.station_codes_dict[self.to_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % to_station_code, to_station_input) # 把实例目的地传入输入框
        # 出发日期
        train_date_input = driver.find_element_by_id('train_date')
        driver.execute_script('arguments[0].value="%s"' % self.train_data, train_date_input)
        # 查询按钮
        search_btn = driver.find_element_by_id('query_ticket')
        # search_btn.click()  # 点击查询按钮
        ag_btn = driver.find_element_by_id('qd_closeDefaultWarningWindowDialog_id')  # 通告弹出框的确定按钮
        ag_btn.click() # 点击通告确定按钮
        driver.execute_script('arguments[0].click();',search_btn)   # 点击查询按钮
       
        '''
        点击位置被覆盖从而点击错误的问题
        # 解决方法一：js注入
        element1 = driver.find_element_by_css_selector('.ush button')
        driver.execute_script("arguments[0].click();", element1)
        # 解决方法二：ActionChains，需要先导入
        webdriver.ActionChains(driver).move_to_element(element ).click(element ).perform()
        # 解决方法三：使用回车代替点击
        driver.find_element(By.CSS_SELECTOR,"#submit").send_keys(Keys.ENTER)
        '''

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 1. 登录
        self.login()
        # 2. 车次以及余票查询
        self.search_left_ticket()


def main():  # 用来调用各个方法
    spider = TrainSpider('西安', '郑州', '2021-01-30')
    spider.run()

if __name__ == '__main__':
    main()

执行结果：

已经登录成功

登录后的界面。

3. 解析车次列表

下面我们要提取车次列表信息。我们右键检查网页源码，发现车次信息都在一个tr标签里，这个tr标签里面有id，而body标签里tr标签成对出现，每对的第二个tr标签里面并没有车次信息，它的特征是有 datatran ，需要过滤掉：

需要注意的是，所有的车次信息是在点击动作之后加载的，需要一些等待时间。所以，我们要添加一个显示等待。

 WebDriverWait(driver,300).until(
            EC.presence_of_all_elements_located((By.XPATH,'//tbody[@id="queryLeftTable"]/tr'))
        )

下面我们需要提取所有的tr标签并过滤掉没有用的tr标签：

# 获取tr标签
 train_trs = driver.find_element_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
# 后面的[not(@datatran)]语句是过滤掉含有datatran的tr标签

我们打印一下看看结果：

train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        for train_tr in train_trs:
            print(train_tr.text)

结果：

已经登录成功
K4028
西安
郑州
00:30
10:10
09:40
当日到达
-- -- -- --
有
折
--
有
折
-- 有 -- -- 预订
K132
西安
郑州
00:01
06:30
06:29
当日到达
-- -- -- -- 18 -- 有 -- 有 无 -- 预订

我们看到提取结果并不在同一行，这样的结果不利于调用。我们可以将它弄到同一行，并以列表的形式返回。方便我们后面用索引提取相关信息。

 train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        for train_tr in train_trs:
            train_tr_lst = train_tr.text.split('\n') 
            print(train_tr_lst)

打印结果

已经登录成功
['K4028', '西安', '郑州', '00:30', '10:10', '09:40', '当日到达', '-- -- -- --', '有', '折', '--', '有', '折', '-- 有 -- -- 预订']
['K132', '西安', '郑州', '00:01', '06:30', '06:29', '当日到达', '-- -- -- -- 18 -- 有 -- 有 无 -- 预订']
['T198', '西安', '郑州', '00:40', '07:05', '06:25', '当日到达', '-- -- -- -- 有 -- 有 -- 有 无 -- 预订']
['K178', '西安', '郑州', '01:15', '08:18', '07:03', '当日到达', '-- -- -- -- 有 -- 有 -- 有 无 -- 预订']

这就是我们要的结果了，后面我们直接通过索引提取我们需要的元素。

4.预定车次

下面我们先把车次列表里面的车次提取出来：

train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        for train_tr in train_trs:
            train_tr_lst = train_tr.text.split('\n')
            train_nums = train_tr_lst[0] # 车次

并且把乘客想要的车次信息作为一个参数定义到初始化方法里面去：

    def __init__(self, from_station, to_station, train_data, train_wanted):
        """
        :param from_station: 出发站
        :param to_station: 目的站
        :param train_data: 出发日期
        :param train_wanted: 想要的车次
        """
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.train_wanted = train_wanted
        self.station_codes_dict = {}  # 把车站信息字典放在初始化方法里，方便调用
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

将乘客想要的车次加入实例化类的传参中：

def main():  # 用来调用各个方法
    spider = TrainSpider('西安', '郑州', '2021-01-30',{'G430':['O','M']})
    spider.run()
# {'G430':['O','M']  中括号里的信息代表的是席位种类

下面我们判断是否有我们要的车次，如果有判断有没有二等座，如果有，将二等座的信息提取出来：

train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        for train_tr in train_trs: # 遍历所有的车次
            train_tr_lst = train_tr.text.split('\n')
            train_num = train_tr_lst[0]  # 车次
            if train_num in self.train_wanted: # 如果出现的车次有我们要的车次
                seat_types = self.train_wanted[train_num] # 提取出我们所要的车次的座位类型
                for seat_type in seat_types: # 遍历席位类型
                    if seat_type == 'O': # 如果有二等座
                        count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
                        if count.isdigit() or count == '有': # 如果二等座的信息是数字，或者是'有'字

如果条件都成立，我们可以点击预定按钮来预定了，那么我们需要查找预定按钮并作点击动作：

# 获取tr标签
        train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        for train_tr in train_trs: # 遍历所有的车次
            train_tr_lst = train_tr.text.split('\n')
            train_num = train_tr_lst[0]  # 车次
            if train_num in self.train_wanted: # 如果出现的车次有我们要的车次
                seat_types = self.train_wanted[train_num] # 提取出我们所要的车次的座位类型
                for seat_type in seat_types: # 遍历席位类型
                    if seat_type == 'O': # 如果有二等座
                        count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
                        if count.isdigit() or count == '有': # 如果二等座的信息是数字，或者是'有'字
                            order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮

4.1 座位类别判断

下面我们继续作判断，如果没有二等座，是不是有一等座，如果有，点击预定：

train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        for train_tr in train_trs: # 遍历所有的车次
            train_tr_lst = train_tr.text.split('\n')
            train_num = train_tr_lst[0]  # 车次
            if train_num in self.train_wanted: # 如果出现的车次有我们要的车次
                seat_types = self.train_wanted[train_num] # 提取出我们所要的车次的座位类型
                for seat_type in seat_types: # 遍历席位类型
                    if seat_type == 'O': # 如果有二等座
                        count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
                        if count.isdigit() or count == '有': # 如果二等座的信息是数字，或者是'有'字
                            order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]') # 预定按钮
                            order_btn.click()
                    elif seat_type == 'M': # 如果有一等座
                        count = train_num[8]  # 提取出一等座的信息，一等座的索引值是8
                        if count.isdigit() or count == '有':  # 如果二等座的信息是数字，或者是'有'字
                            order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                            order_btn.click()

4.2 代码优化

也可以把点击的代码优化一下：

 for seat_type in seat_types: # 遍历席位类型
                    if seat_type == 'O': # 如果有二等座
                        count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
                        if count.isdigit() or count == '有': # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True
                            # order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]') # 预定按钮
                            # order_btn.click() # 点击
                    elif seat_type == 'M': # 如果有一等座
                        count = train_num[8]  # 提取出一等座的信息，一等座的索引值是8
                        if count.isdigit() or count == '有':  # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True
                            # order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                            # order_btn.click() # 点击
                if is_searched:  # is_searched的值为真，条件被激发
                    order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                    order_btn.click() # 点击
                    break  # 退出

4.3 解决报错问题

下面我们点击执行一下，结果报错的。

已经登录成功
Traceback (most recent call last):
  File "D:/work/爬虫/Day12/my12306_0.py", line 129, in 
    main()
  File "D:/work/爬虫/Day12/my12306_0.py", line 125, in main
    spider.run()
  File "D:/work/爬虫/Day12/my12306_0.py", line 120, in run
    self.search_left_ticket()
  File "D:/work/爬虫/Day12/my12306_0.py", line 96, in search_left_ticket
    count = train_num[9] # 提取出二等座的信息，二等座的索引值是10
IndexError: string index out of range

4.3.1 第一次报错纠正

仔细检查了一下，问题出现第88行代码：

 train_tr_lst = train_tr.text.split('\n')

这里我们直接以换行符为标志进行分割了，而分割出来的字符串长这样子：

['K178', '西安', '郑州', '01:15', '08:18', '07:03', '当日到达', '-- -- -- -- 有 -- 有 -- 有 无 -- 预订']

看出来没有，一等座和二等座的有无信息，甚至预定按钮信息，全部在列表的一个元素里，这样我们怎么能选择呢？所以修改成下面的：

train_tr_lst = train_tr.text.replace('\n',' ').split(' ')

以空格为标志来分割，这次我们再执行一下看看。

又报错同样的信息

已经登录成功
Traceback (most recent call last):
  File "D:/work/爬虫/Day12/my12306_0.py", line 129, in 
    main()
  File "D:/work/爬虫/Day12/my12306_0.py", line 125, in main
    spider.run()
  File "D:/work/爬虫/Day12/my12306_0.py", line 120, in run
    self.search_left_ticket()
  File "D:/work/爬虫/Day12/my12306_0.py", line 96, in search_left_ticket
    count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
IndexError: string index out of range

我们再打印一下车次信息：

['G1282', '西安北', '郑州东', '13:08', '15:10', '02:02', '当日到达', '4', '候补', '有', '--', '--', '--', '--', '--', '--', '--', '--', '预订']
['G430', '西安北', '郑州东', '13:19', '15:37', '02:18', '当日到达', '9', '有', '有', '--', '--', '--', '--', '--', '--', '--', '--', '预订']
['K608', '西安', '郑州', '13:23', '20:50', '07:27', '当日到达', '--', '--', '--', '--', '有', '--', '有', '--', '有', '无', '--', '预订']

4.3.2 第二次报错纠正

这次分割的没有错了，但为什么会报错呢？再检查发现问题在96行：

 # count = train_num[9]   # 提取出二等座的信息，二等座的索引值是9

,车次信息的列表名搞错了，应该改为：

count = train_tr_lst[9]

4.4 最后正确代码

这次应该没有问题了。要把一等座的对应代码也改回来。全部改完后的代码时这样子的：

import csv
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait  # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到

driver = webdriver.Chrome()  # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。

class TrainSpider():
    login_url = 'https://kyfw.12306.cn/otn/resources/login.html'  # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html'  # 登陆后个人界面
    left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url

    def __init__(self, from_station, to_station, train_data, train_wanted):
        """
        :param from_station: 出发站
        :param to_station: 目的站
        :param train_data: 出发日期
        :param train_wanted: 想要的车次
        """
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.train_wanted = train_wanted
        self.station_codes_dict = {}  # 把车站信息字典放在初始化方法里，方便调用
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

        '''
        'TrainSpider' object has no attribute 'station_codes_dict'
        '''

    def init_station_code(self):  # 读取stations.csv文件，并新键字典，把车站名作为建，车站代号作为值
        # station_codes_dict = {}  # 假如我们把这个字典放在这里，那么其他方法相使用就使用不了，所以我们可以把它放到初始化方法里。
        with open('stations.csv', 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for line in reader:
                name = line['name']
                code = line['code']
                self.station_codes_dict[name] = code  # 这里我们只需要调用一下初始化方法里的字典

    def login(self):
        driver.get(self.login_url)
        driver.maximize_window()  # 窗口最大化
        WebDriverWait(driver, 300).until(
            EC.url_contains(self.personal_url)
        )
        print('已经登录成功')

    def search_left_ticket(self):
        driver.get(self.left_ticket_url)
        # 出发地
        from_station_input = driver.find_element_by_id('fromStation')  # 找到出发地输入框元素
        from_station_code = self.station_codes_dict[self.from_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % from_station_code, from_station_input)  # 把实例出发地传入输入框
        # 上面这行代码的解释："arguments[0].value"这是Java里的占位符，"%s"这是python里的占位符
        # %from_station_code,from_station_input这句意思是用后面的from_station_input被前面的from_station_code代替
        # 目的地
        to_station_input = driver.find_element_by_id('toStation')  # 找到目的地输入框元素
        to_station_code = self.station_codes_dict[self.to_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % to_station_code, to_station_input)  # 把实例目的地传入输入框
        # 出发日期
        train_date_input = driver.find_element_by_id('train_date')
        driver.execute_script('arguments[0].value="%s"' % self.train_data, train_date_input)
        # 查询按钮
        search_btn = driver.find_element_by_id('query_ticket')
        # search_btn.click()  # 点击查询按钮
        ag_btn = driver.find_element_by_id('qd_closeDefaultWarningWindowDialog_id')
        ag_btn.click()  # 点击通告按钮
        driver.execute_script('arguments[0].click();', search_btn)
        # 解析车次信息
        WebDriverWait(driver, 300).until(
            EC.presence_of_all_elements_located((By.XPATH, '//tbody[@id="queryLeftTable"]/tr'))
        )
        # 获取tr标签
        train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        for train_tr in train_trs: # 遍历所有的车次
            # train_tr_lst = train_tr.text.split('\n')
            train_tr_lst = train_tr.text.replace('\n',' ').split(' ')
            # print(train_tr_lst)
            train_num = train_tr_lst[0]  # 车次
            if train_num in self.train_wanted: # 如果出现的车次有我们要的车次
                seat_types = self.train_wanted[train_num] # 提取出我们所要的车次的座位类型
                for seat_type in seat_types: # 遍历席位类型
                    if seat_type == 'O': # 如果有二等座
                        # count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
                        count = train_tr_lst[9]
                        if count.isdigit() or count == '有': # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True
                            # order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]') # 预定按钮
                            # order_btn.click() # 点击
                    elif seat_type == 'M': # 如果有一等座
                        count = train_tr_lst[8]  # 提取出一等座的信息，一等座的索引值是8
                        if count.isdigit() or count == '有':  # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True
                            # order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                            # order_btn.click() # 点击
                if is_searched:
                    order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                    order_btn.click() # 点击
                    break  # 退出

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 1. 登录
        self.login()
        # 2. 车次以及余票查询
        self.search_left_ticket()


def main():  # 用来调用各个方法
    spider = TrainSpider('西安', '郑州', '2021-01-30',{'G430':['O','M']})
    spider.run()


if __name__ == '__main__':
    main()

这次成功跳转了：

5. 确认乘客和车次信息

当我们进入确认购买页面后，我们需要作几个操作

选择乘车人
选择席别
提交订单
这些操作之前，要等待页面加载完成才行，所以理所当然的有这样一行代码：

 def confirm_passengers(self):
        # 确认页面
        WebDriverWait(driver, 300).until(
            EC.url_contains(self.confirm_url)
        )

我们定义了一个新的方法，用来确认购买的。confirm_url是确认购买的页面网址。

5.1 等待

下面我们要添加乘客性名，需要先找到乘客性名所在的标签，然后显示等待，等待目标标签都出现，然后查找乘客性名标签，并遍历。

    def confirm_passengers(self):
        # 确认页面
        WebDriverWait(driver, 300).until(
            EC.url_contains(self.confirm_url)
        )
        WebDriverWait(driver,300).until(
            EC.presence_of_all_elements_located(By.XPATH,'//*[@id="normal_passenger_id"]/li[1]/label')
        )
        passenger_lables = driver.find_elements_by_xpath('//*[@id="normal_passenger_id"]/li[1]/label')
        for passenger_lable in passenger_lables: # 遍历姓名标签
            name = passenger_lable.text # 提取姓名字符串

5.2 曾加乘客姓名参数

下面我们要把要购买车票的乘客姓名作为参数传入初始化方法中，以便调用：

    def __init__(self, from_station, to_station, train_data, train_wanted,passengers):
        """
        :param from_station: 出发站
        :param to_station: 目的站
        :param train_data: 出发日期
        :param train_wanted: 想要的车次
        :param passengers: 要购票的乘客姓名，是列表形式 ['张三’,'李四']
        """
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.train_wanted = train_wanted
        self.passengers = passengers
        self.station_codes_dict = {}  # 把车站信息字典放在初始化方法里，方便调用
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

5.3 勾选购票乘客姓名

后面的代码这样写，遍历姓名标签，如果姓名在购票的乘客的列表中，那么就对这个乘客的姓名标签作点击勾选动作：

 passenger_lables = driver.find_elements_by_xpath('//*[@id="normal_passenger_id"]/li[1]/label')
        for passenger_lable in passenger_lables: # 遍历姓名标签
            name = passenger_lable.text # 提取姓名字符串
            if name in self.passengers: # 如果标签里的姓名在购票姓名列表里
                passenger_lable.click() # 点击勾选乘客姓名动作

5.4 确认需要购买席位信息

我们右键检查源代码，可以看到二等座，一等座，商务座的标签。和select标签的id,这是后面要用的。

我们选择席位类别需要用到trains = {‘G403’:[‘O’,‘M’]}里面的值。车次,我们可以在112~116行代码里确定下来（这时我们可以添加代码“车次”来确定车次）：

if is_searched:
      seat_select = train_num   # 代码“车次”： 点击时确定了的车次，以备后面选择席位类别使用  
      order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
      order_btn.click() # 点击
      break  # 退出

但是在这里调用不了，我们可以把它添加到初始化方法里：

self.passengers = passengers
self.seat_select = None
self.station_codes_dict = {}  # 把车站信息字典放在初始化方法里，方便调用

下面我们就可以通过车次来确定座位类别：

# 确认需要购买的席位信息
 seat_select = Select(driver.find_element_by_id('seatType_1'))  # 将找到的select标签座位参数传递到Select类里面去
 seat_types = self.train_wanted[self.seat_select]  # train_wanted这个时输入的车次字典，self.seat_select这个是车次的键，取出车次字典里面的值：座位类别
 # 座位类别一共两个，我们遍历一下
 for seat_type in seat_types:
     # 将座位类别传递到seat_select.select_by_value()中去
     seat_select.select_by_value(seat_type)

可是如果我们要选的座位类别已经卖完了不就报错了吗？所以这里用try语句解决这个问题，导入一下异常模块NoSuchElementException,看最后一行：

rom selenium.webdriver.support.ui import WebDriverWait  # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
from selenium.webdriver.support.ui import Select  # 在选择席位类别时用到
from selenium.common.exceptions import NoSuchElementException # 当所选的座位类别卖完时用到

如果出现异常，让它跳过继续循环。如果找到了座位类别，就break，跳出循环:

# 确认需要购买的席位信息
        seat_select = Select(driver.find_element_by_id('seatType_1')) # 将找到的select标签座位参数传递到Select类里面去
        seat_types = self.train_wanted[self.seat_select] # train_wanted这个时输入的车次字典，self.seat_select这个是车次的键，取出车次字典里面的值：座位类别
        # 座位类别一共两个，我们遍历一下
        for seat_type in seat_types:
            try:
                # 将座位类别传递到seat_select.select_by_value()中去
                seat_select.select_by_value(seat_type)
            except NoSuchElementException:
                continue   
            else:
                break

6. 提交订单

下面我们来提交订单，我们右键检查，在源代码中找到提交订单的按钮标签：

代码：

# 座位类别一共两个，我们遍历一下
        for seat_type in seat_types:
            try:
                # 将座位类别传递到seat_select.select_by_value()中去
                seat_select.select_by_value(seat_type)
            except NoSuchElementException:
                continue
            else:
                break
        # 提交订单
        sub_btn = driver.find_element_by_id('submitOrder_id')
        sub_btn.click() # 点击提交

成功以后，系统会在后台为我们生成一个订单。
执行一下，报错：

raceback (most recent call last):
  File "D:/work/爬虫/Day13/demo_12306.py", line 166, in 
    main()
  File "D:/work/爬虫/Day13/demo_12306.py", line 161, in main
    spider = TrainSpider('西安', '郑州', '2021-01-30',{'G430':['O','M']})
TypeError: __init__() missing 1 required positional argument: 'passengers'

位置参数：乘客姓名没有传入。填写姓名后再执行，又报错：

已经登录成功
Traceback (most recent call last):
  File "D:/work/爬虫/Day13/demo_12306.py", line 166, in 
    main()
  File "D:/work/爬虫/Day13/demo_12306.py", line 162, in main
    spider.run()
  File "D:/work/爬虫/Day13/demo_12306.py", line 157, in run
    self.search_left_ticket()
  File "D:/work/爬虫/Day13/demo_12306.py", line 114, in search_left_ticket
    if is_searched:
UnboundLocalError: local variable 'is_searched' referenced before assignment

赋值前引用了局部变量 ‘is_searched’ 。这个变量忘记先定义和赋值了，补上：

 # 获取tr标签
        train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        is_searched = False  # 在这里先赋值变量，不然后面调用此变量时会报错
        for train_tr in train_trs: # 遍历所有的车次
            # train_tr_lst = train_tr.text.split('\n')
            train_tr_lst = train_tr.text.replace('\n',' ').split(' ')
            # print(train_tr_lst)
            train_num = train_tr_lst[0]  # 车次
            if train_num in self.train_wanted: # 如果出现的车次有我们要的车次
                seat_types = self.train_wanted[train_num] # 提取出我们所要的车次的座位类型
                for seat_type in seat_types: # 遍历席位类型
                    if seat_type == 'O': # 如果有二等座
                        # count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
                        count = train_tr_lst[9]
                        if count.isdigit() or count == '有': # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True

再次执行，没有报错，但是没有点击预定按钮动作。用一下之前的办法execut_script:

if is_searched:
    seat_select = train_num   # 点击时确定了的车次，以备后面选择席位类别使用，在这里调用不了，我们可以添加到初始化变量里
    order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
    # order_btn.click() # 点击
    driver.execute_script('arguments[0].click();', order_btn)
    break  # 退出

再次执行，这一次时票卖完了，还是没有报错。改了一趟车。再执行一次。
这次到了这一步：

没有勾选乘客，也没有提交订单。显然，点击动作又没有生效。为避免类似问题，后面一处也换成了execut_script()方法来点击：
勾选乘客姓名动作

 for passenger_lable in passenger_lables: # 遍历姓名标签
       name = passenger_lable.text # 提取姓名字符串
        if name in self.passengers: # 如果标签里的姓名在购票姓名列表里
            driver.execute_script('arguments[0].click();', passenger_lable)
            # passenger_lable.click() # 点击勾选乘客姓名动作

提交订单动作

 # 座位类别一共两个，我们遍历一下
        for seat_type in seat_types:
            try:
                # 将座位类别传递到seat_select.select_by_value()中去
                seat_select.select_by_value(seat_type)
            except NoSuchElementException:
                continue
            else:
                break
        # 提交订单
        sub_btn = driver.find_element_by_id('submitOrder_id')
        # sub_btn.click() # 点击提交
        driver.execute_script('arguments[0].click();', sub_btn)

再执行一次。

仍然没有选择乘客姓名，仔细研究发现不同的乘客姓名的xpath路径时不一样的，于是使用正则修改一下：

  passenger_lables = driver.find_elements_by_xpath('//*[@id="normal_passenger_id"]/li[.]/label')  # 将li[]里面的数字用.代替

这次还不行，直接去掉里面的数字，再式。
还不行，还是手写吧：

'//ul[@id="normal_passenger_id"]/li/label'

还不行，这时发现一行代码高亮，说明有错误

    def confirm_passengers(self, passenger_label=None):
        # 确认页面
        WebDriverWait(driver, 300).until(
            EC.url_contains(self.confirm_url)
        )
        WebDriverWait(driver, 300).until(
            EC.presence_of_element_located(By.XPATH,  '//ul[@id="normal_passenger_id"]/li/label')
        )
        # WebDriverWait(driver, 300).until(
        #     EC.presence_of_element_located((By.XPATH, '//ul[@id="normal_passenger_id"]/li/label'))
        # )

将老师的代码复制过来仔细检查发现，我的少了一对括号，加上应该可以了。
还是不行，头大。最后发现一点，我乘客姓名传入的方法不对，应该以列表的形式：

 spider = TrainSpider('漯河', '西安', '2021-02-01', {'G836': ['O', 'M']}, '李丙勋')

应该是这样的

 spider = TrainSpider('漯河', '西安', '2021-02-01', {'G836': ['O', 'M']}, ['李丙勋'])

后来还是没有成功。仔细检查并修改了若干次，最后终于成功了，见截图：

其中有这样几个错误：

代码缺失发现run方法里面竟然缺少调用confirm_passengers()的代码
类属性调用方法错误在调用seat_select，并赋值seat_select = train_num时错误，正确的调用方法应该是：self.seat_select = train_num
变量名拼写错误，把label错拼成lable
最后修改后，成功的生成了订单。刚好需要给家父买春节来西安过年的票，就用这个项目购买了，做个纪念。愿我十分的努力，换来他一点欣慰。

7. 最后正确的代码

最后，把正确的代码，也就是购票成功的代码放在这里，以便查看复习。

# @Time    : 2021/1/27 11:30
# @Author  : Guanghui Li
# @File    : my12306_0.py
# @Software: PyCharm

import csv
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait  # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
from selenium.webdriver.support.ui import Select  # 在选择席位类别时用到
from selenium.common.exceptions import NoSuchElementException,ElementNotVisibleException # 当所选的座位类别卖完时用到

driver = webdriver.Chrome()  # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。

class TrainSpider():
    login_url = 'https://kyfw.12306.cn/otn/resources/login.html'  # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html'  # 登陆后个人界面
    left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url
    confirm_url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc'  # 确认购买页面

    def __init__(self, from_station, to_station, train_data, train_wanted, passengers):
        """
        :param from_station: 出发站
        :param to_station: 目的站
        :param train_data: 出发日期
        :param train_wanted: 想要的车次
        :param passengers: 要购票的乘客姓名，是列表形式 ['张三’,'李四']
        """
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.train_wanted = train_wanted
        self.passengers = passengers
        self.seat_select = None
        self.station_codes_dict = {}  # 把车站信息字典放在初始化方法里，方便调用
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

        '''
        'TrainSpider' object has no attribute 'station_codes_dict'  # 其中的一次报错
        '''

    def init_station_code(self):  # 读取stations.csv文件，并新键字典，把车站名作为建，车站代号作为值
        # station_codes_dict = {}  # 假如我们把这个字典放在这里，那么其他方法相使用就使用不了，所以我们可以把它放到初始化方法里。
        with open('stations.csv', 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for line in reader:
                name = line['name']
                code = line['code']
                self.station_codes_dict[name] = code  # 这里我们只需要调用一下初始化方法里的字典

    def login(self):
        driver.get(self.login_url)
        driver.maximize_window()  # 窗口最大化
        WebDriverWait(driver, 300).until(
            EC.url_contains(self.personal_url)
        )
        print('已经登录成功')

    def search_left_ticket(self):
        driver.get(self.left_ticket_url)
        # 出发地
        from_station_input = driver.find_element_by_id('fromStation')  # 找到出发地输入框元素
        from_station_code = self.station_codes_dict[self.from_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % from_station_code, from_station_input)  # 把实例出发地传入输入框
        # 上面这行代码的解释："arguments[0].value"这是Java里的占位符，"%s"这是python里的占位符
        # %from_station_code,from_station_input这句意思是用后面的from_station_input被前面的from_station_code代替
        # 目的地
        to_station_input = driver.find_element_by_id('toStation')  # 找到目的地输入框元素
        to_station_code = self.station_codes_dict[self.to_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % to_station_code, to_station_input)  # 把实例目的地传入输入框
        # 出发日期
        train_date_input = driver.find_element_by_id('train_date')
        driver.execute_script('arguments[0].value="%s"' % self.train_data, train_date_input)
        # 查询按钮
        search_btn = driver.find_element_by_id('query_ticket')
        # search_btn.click()  # 点击查询按钮
        ag_btn = driver.find_element_by_id('qd_closeDefaultWarningWindowDialog_id')
        ag_btn.click()  # 点击通告按钮
        driver.execute_script('arguments[0].click();', search_btn)
        # 解析车次信息
        WebDriverWait(driver, 300).until(
            EC.presence_of_all_elements_located((By.XPATH, '//tbody[@id="queryLeftTable"]/tr'))
        )
        # 获取tr标签
        train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        is_searched = False  # 在这里先赋值变量，不然后面调用此变量时会报错
        for train_tr in train_trs:  # 遍历所有的车次
            # train_tr_lst = train_tr.text.split('\n')
            train_tr_lst = train_tr.text.replace('\n', ' ').split(' ')
            # print(train_tr_lst)
            train_num = train_tr_lst[0]  # 车次
            if train_num in self.train_wanted:  # 如果出现的车次有我们要的车次
                seat_types = self.train_wanted[train_num]  # 提取出我们所要的车次的座位类型
                for seat_type in seat_types:  # 遍历席位类型
                    if seat_type == 'O':  # 如果有二等座
                        # count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
                        count = train_tr_lst[9]
                        if count.isdigit() or count == '有':  # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True
                            # order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]') # 预定按钮
                            # order_btn.click() # 点击
                    elif seat_type == 'M':  # 如果有一等座
                        count = train_tr_lst[8]  # 提取出一等座的信息，一等座的索引值是8
                        if count.isdigit() or count == '有':  # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True
                            # order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                            # order_btn.click() # 点击
                if is_searched:
                    self.seat_select = train_num  # 点击时确定了的车次，以备后面选择席位类别使用，在这里调用不了，我们可以添加到初始化变量里
                    order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                    # order_btn.click() # 点击
                    driver.execute_script('arguments[0].click();', order_btn)
                    break  # 退出

    def confirm_passengers(self, passenger_label=None):
        # 确认页面
        WebDriverWait(driver, 300).until(
            EC.presence_of_element_located((By.XPATH,  '//*[@id="normal_passenger_id"]/li[3]/label'))
        )

        passenger_labels = driver.find_elements_by_xpath('//ul[@id="normal_passenger_id"]/li/label')
        for passenger_label in passenger_labels:  # 遍历姓名标签 //*[@id="normal_passenger_id"]/li[2]/label
            name = passenger_label.text  # 提取姓名字符串    '//ul[@id="normal_passenger_id"]/li/label'
            print(name)
            if name in self.passengers:  # 如果标签里的姓名在购票姓名列表里
                # driver.execute_script('arguments[0].click();', passenger_label)
                print('购票者：',name)
                passenger_label.click() # 点击勾选乘客姓名动作
        # 确认需要购买的席位信息
        seat_select = Select(driver.find_element_by_id('seatType_1'))  # 将找到的select标签座位参数传递到Select类里面去
        seat_types = self.train_wanted[self.seat_select]  # train_wanted这个时输入的车次字典，self.seat_select这个是车次的键，取出车次字典里面的值：座位类别
        # 座位类别一共两个，我们遍历一下
        for seat_type in seat_types:
            try:
                # 将座位类别传递到seat_select.select_by_value()中去
                seat_select.select_by_value(seat_type)
            except NoSuchElementException:
                continue
            else:
                break
        # 提交订单
        sub_btn = driver.find_element_by_id('submitOrder_id')
        # sub_btn.click() # 点击提交
        driver.execute_script('arguments[0].click();', sub_btn)
        WebDriverWait(driver, 1000).until(
            EC.presence_of_element_located((By.CLASS_NAME, 'dhtmlx_window_active'))
        )
        btn = driver.find_element_by_id('qr_submit_id')
        driver.execute_script('arguments[0].click();', btn)

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 1. 登录
        self.login()
        # 2. 车次以及余票查询
        self.search_left_ticket()
        # 2. 确定购买
        self.confirm_passengers()

def main():  # 用来调用各个方法
    spider = TrainSpider('漯河', '西安', '2021-02-01', {'G836': ['O', 'M']}, ['李丙勋'])
    spider.run()


if __name__ == '__main__':
    main()

# 确认购买页面 url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc'

8. 改进后的代码

# @Time    : 2021/1/27 22:36
# @Author  : Guanghui Li
# @File    : testDemo_12306.py
# @Software: PyCharm

import csv
from selenium import webdriver
# from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
# from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait  # 条件等待需要用
from selenium.webdriver.support import expected_conditions as EC  # 设置等待条件时要用到
from selenium.webdriver.support.ui import Select  # 在选择席位类别时用到
from selenium.common.exceptions import NoSuchElementException,ElementNotVisibleException # 当所选的座位类别卖完时用到

driver = webdriver.Chrome()  # 类放在全局里面，避免类调用后销毁的时候，连同驱动一同销毁。


class TrainSpider():
    login_url = 'https://kyfw.12306.cn/otn/resources/login.html'  # 登录界面
    personal_url = 'https://kyfw.12306.cn/otn/view/index.html'  # 登陆后个人界面
    left_ticket_url = 'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc'  # 车次余票的url
    confirm_url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc'  # 确认购买页面

    def __init__(self, from_station, to_station, train_data, train_wanted, passengers):
        """
        :param from_station: 出发站
        :param to_station: 目的站
        :param train_data: 出发日期
        :param train_wanted: 想要的车次
        :param passengers: 要购票的乘客姓名，是列表形式 ['张三’,'李四']
        """
        self.from_station = from_station
        self.to_station = to_station
        self.train_data = train_data
        self.train_wanted = train_wanted
        self.passengers = passengers
        self.seat_select = None
        self.station_codes_dict = {}  # 把车站信息字典放在初始化方法里，方便调用
        self.init_station_code()  # 在初始化方法里面就调用车站信息读取方法，这样当这个类一旦初始化完成的时候，所有的站点也都初始化好待用了

        '''
        'TrainSpider' object has no attribute 'station_codes_dict'
        '''

    def init_station_code(self):  # 读取stations.csv文件，并新键字典，把车站名作为建，车站代号作为值
        # station_codes_dict = {}  # 假如我们把这个字典放在这里，那么其他方法相使用就使用不了，所以我们可以把它放到初始化方法里。
        with open('stations.csv', 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for line in reader:
                name = line['name']
                code = line['code']
                self.station_codes_dict[name] = code  # 这里我们只需要调用一下初始化方法里的字典

    def login(self):
        driver.get(self.login_url)
        driver.maximize_window()  # 窗口最大化
        WebDriverWait(driver, 300).until(
            EC.url_contains(self.personal_url)
        )
        print('已经登录成功')

    def search_left_ticket(self):
        driver.get(self.left_ticket_url)
        # 出发地
        from_station_input = driver.find_element_by_id('fromStation')  # 找到出发地输入框元素
        from_station_code = self.station_codes_dict[self.from_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % from_station_code, from_station_input)  # 把实例出发地传入输入框
        # 上面这行代码的解释："arguments[0].value"这是Java里的占位符，"%s"这是python里的占位符
        # %from_station_code,from_station_input这句意思是用后面的from_station_input被前面的from_station_code代替
        # 目的地
        to_station_input = driver.find_element_by_id('toStation')  # 找到目的地输入框元素
        to_station_code = self.station_codes_dict[self.to_station]  # 从字典中提取车站代号
        driver.execute_script('arguments[0].value="%s"' % to_station_code, to_station_input)  # 把实例目的地传入输入框
        # 出发日期
        train_date_input = driver.find_element_by_id('train_date')
        driver.execute_script('arguments[0].value="%s"' % self.train_data, train_date_input)
        # 查询按钮
        search_btn = driver.find_element_by_id('query_ticket')
        # search_btn.click()  # 点击查询按钮
        ag_btn = driver.find_element_by_id('qd_closeDefaultWarningWindowDialog_id')
        ag_btn.click()  # 点击通告按钮
        driver.execute_script('arguments[0].click();', search_btn)  # 点击查询按钮
        # 解析车次信息
        WebDriverWait(driver, 300).until(
            EC.presence_of_all_elements_located((By.XPATH, '//tbody[@id="queryLeftTable"]/tr'))
        )
        # 获取tr标签
        train_trs = driver.find_elements_by_xpath('//tbody[@id="queryLeftTable"]/tr[not(@datatran)]')
        is_searched = False  # 在这里先赋值变量，不然后面调用此变量时会报错
        for train_tr in train_trs:  # 遍历所有的车次
            # train_tr_lst = train_tr.text.split('\n')
            train_tr_lst = train_tr.text.replace('\n', ' ').split(' ')
            # print(train_tr_lst)
            train_num = train_tr_lst[0]  # 车次
            if train_num in self.train_wanted:  # 如果出现的车次有我们要的车次
                seat_types = self.train_wanted[train_num]  # 提取出我们所要的车次的座位类型
                for seat_type in seat_types:  # 遍历席位类型
                    if seat_type == 'O':  # 如果有二等座
                        # count = train_num[9] # 提取出二等座的信息，二等座的索引值是9
                        count = train_tr_lst[9]
                        if count.isdigit() or count == '有':  # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True
                            # order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]') # 预定按钮
                            # order_btn.click() # 点击
                    elif seat_type == 'M':  # 如果有一等座
                        count = train_tr_lst[8]  # 提取出一等座的信息，一等座的索引值是8
                        if count.isdigit() or count == '有':  # 如果二等座的信息是数字，或者是'有'字
                            is_searched = True
                            # order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                            # order_btn.click() # 点击
                if is_searched:
                    self.seat_select = train_num  # 点击时确定了的车次，以备后面选择席位类别使用，在这里调用不了，我们可以添加到初始化变量里
                    order_btn = train_tr.find_element_by_xpath('.//a[@class="btn72"]')  # 预定按钮
                    # order_btn.click() # 点击
                    driver.execute_script('arguments[0].click();', order_btn) # 点击预定按钮
                    break  # 退出
                else:
                    print('你所查询的车次已经无票或只有商务票') # 如果我们所能接受的座席类型都售罄，就执行该语句

    def confirm_passengers(self, passenger_label=None):
        # 确认页面
        WebDriverWait(driver, 300).until(
            EC.presence_of_element_located((By.XPATH,  '//*[@id="normal_passenger_id"]/li[3]/label'))
        )
        # 上面的代码为了保证购票者的信息加载完成，下面的勾选操作有效
        passenger_labels = driver.find_elements_by_xpath('//ul[@id="normal_passenger_id"]/li/label')
        for passenger_label in passenger_labels:  # 遍历姓名标签 //*[@id="normal_passenger_id"]/li[2]/label
            name = passenger_label.text  # 提取姓名字符串    '//ul[@id="normal_passenger_id"]/li/label'
            print(name) # 打印出所有的自己账号上添加的购票人姓名
            if name in self.passengers:  # 如果标签里的姓名在购票姓名列表里
                # driver.execute_script('arguments[0].click();', passenger_label)
                print('购票者：',name) # 打印购票者姓名
                passenger_label.click() # 点击勾选乘客姓名动作
        # 确认需要购买的席位信息
        seat_select = Select(driver.find_element_by_id('seatType_1'))  # 将找到的select标签座位参数传递到Select类里面去
        seat_types = self.train_wanted[self.seat_select]  # train_wanted这个时输入的车次字典，self.seat_select这个是车次的键，取出车次字典里面的值：座位类别
        # 座位类别一共两个，我们遍历一下
        for seat_type in seat_types:
            try:
                # 将座位类别传递到seat_select.select_by_value()中去
                seat_select.select_by_value(seat_type)  # 这句是用Select类操作方法，选择座位类别，把我们接受的座位类别传递给driver
            except NoSuchElementException:
                continue
            else:      # 遍历完成后仍然没有，就break
                break
        # 提交订单
        sub_btn = driver.find_element_by_id('submitOrder_id')
        # sub_btn.click() # 点击提交
        driver.execute_script('arguments[0].click();', sub_btn) # 点击提交
        WebDriverWait(driver, 1000).until(
            EC.presence_of_element_located((By.CLASS_NAME, 'dhtmlx_window_active'))
        )  # 等待确认购票窗口加载完成
        btn = driver.find_element_by_id('qr_submit_id') # 确认购买按钮
        driver.execute_script('arguments[0].click();', btn) # 点击确认

    def run(self):  # 用来封装项目的基本功能，比如买票，只要调用这个方法就可以实现相应功能
        # 1. 登录
        self.login()
        # 2. 车次以及余票查询
        self.search_left_ticket()
        # 2. 确定购买
        self.confirm_passengers()

def main():  # 用来调用各个方法
    spider = TrainSpider('漯河', '西安', '2021-02-01', {'G2388': ['O', 'M']}, ['李光辉'])
    spider.run()

if __name__ == '__main__':
    main()
    
# 确认购买页面 url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc'

本次博客到此结束。

你可能感兴趣的:(爬虫)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
拼多多商家电话采集工具爬虫教程分享小电商达人爬虫
以下是使用Python编写的拼多多商家电话采集爬虫教程：一、前期准备安装Python：从Python官方网站下载并安装最新版本的Python，安装过程中注意勾选将Python添加到系统路径选项。安装相关库：在命令提示符中运行以下命令来安装所需的库。pipinstallrequests：用于发送HTTP请求获取网页内容。pipinstallbeautifulsoup4：用于解析HTML页面。二、分析
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
分布式框架Celery七(Django-Celery-Flower实现异步和定时爬虫及其监控邮件告警) yjjpp2301 Celery 分布式 django python 后端
Django中集成方式安装模块pipinstallDjango==3.2.22pipinstallcelerypipinstallredispipinstalleventlet#在windows环境下需要安装eventlet包-----------pipinstalldjango-celery-beatpipinstalldjango-celery-resultspipinstalldjango-
生产者消费者模式_Labview基础之生产者消费者设计模式（事件） weixin_39532699 生产者消费者模式
1绪论近期，开了一个QQ群，刚开始的目的也是想多拉写软件相关的大神，有问题的时候也可以交流交流。记得当时有个软件在写的时候遇到了一个棘手的问题，outlook邮箱配置账户密码的问题，到现在也没解决，算了，也不是很迫切。2000人群就留在那里爬虫发单吧！建群以后才发现，原来这一块的小白还挺多，总结起来就一个原因：做这个软件的大多数都不是软件出生，都是因为临时要搭建一个上位机平台，匆匆入门......
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc