指数爆炸～

https://mp.csdn.net/

Python爬虫 - 最新版12306（2018-12-26）从登录到订票

爬虫的原理简述
准备

一、登录部分

处理验证码图片

获取验证码图片
验证验证码图片
点击式验证码图片

账号登录

账号密码检测
到认证中心认证及将TK种到自己的Cookies中

二、查询车票信息部分

查询车票信息
处理并显示车票信息
获取车站名信息及处理车站代号

三、下单部分

选择需要购买的车次
检测用户是否登录及检测是否有未完成订单
填写购票信息

选择乘客
选择座位

提交订单

检测订单信息
请求火车票

全部代码

一两年前就开始写12306的爬虫，每次才开始都立了一个目标：从登录到查票、订票，如果没有票还可以抢票，一条龙服务。结果每次都是理想丰满现实骨感：
某次：能登录成功了，可把我牛逼坏了，为了奖励自己先放松一段时间(主要为偷懒找一个借口…)，然后这个py文件就不知道被放在某个文件夹里多少个月了。
下一次：突然有一天打开这个文件夹，咦？怎么还有一个12306.py的文件？想了一会。。。哦，这好像是几个月前用来爬12306的，打开一看，这是谁写的啊？肯定不是我写的，这么垃圾？注释都没有？给谁看？我写一个肯定比这个好。然后心血来潮又从头开始写，然后又写到某某地方：像我这么优秀的人不能总沉迷于写代码，不行，得找室友开开黑。
…
N次：在某某某老师的压力下，重新写了12306，能登录了，能查票了，能订票了。（抢票也写了，但是没有试验过）。

在这些版本里用过python2里面的urllib、urllib2、cookielib等(好像用了储存cookie的，现在都忘了。。。)写过，后来学了Python3，又用requests这个号称：Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。并且向你抛出一个警告：非专业使用其他 HTTP 库会导致危险的副作用，包括：安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。（我不知道Python2里有不有requests）。吓得我赶紧使用这个来写爬虫。后来又发现了selenium这个自动化测试的，感觉这个更简单。(所以没有用这个写过12306，太简单了，不能装逼啊)。如果你看了网上用selenium实现的12306爬虫，你肯定不会选择我这种。

爬虫的原理简述

自己总结的，表述可能不是很准确，能明白大概意思就ok。
我们在使用浏览器正常访问网站的时候，我们通过鼠标点点点等操作，浏览器就可以执行显示我们点击的内容。实际上是我们点击了一些特定的标签或者触发了一些绑定事件什么的，向服务器发送请求，然后接受服务器返回的响应。比如说我们在网页中看到一张图片，那么它可能就是这么来的：先找到服务器主机，对它说：喂，把XXX图片给我。服务器看你顺眼就可能把这张图片给你了(或者看你不是人(通过爬虫进行请求))。得到这张图片，通过浏览器解析就可以看到网页中的图片了。所以这张图片就是这么来的：喂，把XXX图片给我(请求)——把这张图片给你(响应)——浏览器解析(处理响应)。
所以爬虫是什么？简单说就是我们模拟浏览器发送请求——获取响应——处理响应（希望我理解的是正确的）
不批跨了，下面进入正题。(如果看了上面一个12306就爬了几年的就知道我也是个菜鸡，如有错误的地方请指出，如实在看不下去的，想拍我的，我只想对你说：求求你顺着网线来打我啊)。

准备

没有什么可准备的，python运行环境肯定没有问题吧，肯定熟悉Python基础语法以及对Python爬虫有一点了解吧，至于需要安装什么库在用到的时候会告诉安装需要什么库，如果在开头就告诉安装大量的库，如果安装顺利还好，不顺利肯定会影响自己的心情，甚至成为《Python爬虫从入门到放弃》的读者。

一、登录部分

最新版12306(2018年12月11日的)登录有两种方式进行登录：用户名密码登录和二维码登录，我们这里使用第一种方法：用户名加密码进行登录。
登录分析：在我们正常进行登录时，我们都是把账号密码、验证码都输入好了再点击登录按钮就可以进行登录了，在我们看来这就是一个登录操作。其实网页处理的时候把这个登录分为账号密码验证和验证码验证两个部分。所以我们要进行模拟登录就需要进行分析它究竟是先进行什么验证(其实想一下就可以猜到一般都是先进行验证码验证，如果成功再进行账号密码验证)。当然也可以试一下嘛。先胡乱输账号密码和验证码，点击登录按钮，发现它是先提醒你验证码验证失败了，说明是先检测验证码是否正确再检测账号密码。也可以打开F12进行正确登录，通过请求的先后顺序也可以看出验证的顺序。如果你还不信就看JS代码吧(本博文关于JS请求的内容不会讲，如果遇到就直接告诉你们url或者参数什么的，第一：我的JS也是水得很的，只能看懂很简单的代码，所以可能会错误百出；第二是怕没有接触过前端的看了就懵逼了)。既然分析出了登录处理的先后顺序，那么我们下面先对验证码进行处理，然后再对账号密码进行处理。

处理验证码图片

我们需要处理验证码，验证码从哪来？请看下面讲解。

获取验证码图片

我们需要处理验证码，验证码从哪来？肯定不是自己造一个啊。所以我们来看看它是怎么来的。进入12306登录界面，按F12或者右键检查元素，打开开发者工具(我用的QQ浏览器，浏览器不同，开发者工具有可能不同)，选择Network。这样就准备就绪了。

这里面就可以看到向服务器发送的请求。现在我们要获得一张验证码，怎么获得？看到刷新那两个字没有？对，就是验证码图片右上角的那个。点它一下，在开发者工具里出现了什么？没错，这就是向服务器要图片的请求。

我们点一下第一个请求，然后又出现了一些东西，最上面有Headers、Preview、Response什么的，点击Response，也就是响应，看到中文字没有？生成验证码成功？把下面的滚动条往后拉，怎么全是一些看不懂的天文，你说我验证码生成成功了，它在哪里啊？有点经验的都知道，这些天文就是base64编码过的图片数据。其实在之前的12306版本中不会做这样的编码。
以前获取图片的链接是这个：https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand&1545056237081&callback=jQuery19106593570414294201_1545055363558&_=1545055363561
现在获取图片的链接是这个：https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand&1545056237081&callback=jQuery19106593570414294201_1545055363558&_=1545055363561。
看出主要的部分有什么不同了吗？没错，现在的就是在“captcha-image”后面多了“64”，64？不就是base64嘛。哈哈哈。

我们在点第二个看看，这次我们点Preview。看到没，这就是验证码图片。点击Headers，发现里面也有很多天文，仔细一看，好像和第一个请求的响应里面的差不多。可以猜出图片就是这些天文生成的。

下面我们开始在Python里面来获取验证码图片。

import requests  # 导入requests

url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand&1545056237081&callback=jQuery19106593570414294201_1545055363558&_=1545055363561'
res = requests.get(url)
print(res.text)

运行，发现和第一个请求响应的结果一样，说明我们获取验证码图片成功了。那么怎么把天文转为图片呢？这里就需要用到base64这个库，对base64的字符串进行解码。

import requests
import base64

url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'  # 我发现后面的参数不写也能够获取，那我们就不写吧
res = requests.get(url).json()  # 把结果转为json形式
print(res['image'])  # 打印可以看到我们已经把那些看不懂的字符串提取出来了

with open('captcha.jpg', 'wb') as f:
    f.write(base64.b64decode(res['image']))  # 把字符串转为字节，然后写入到图片文件中

找到你保存到的图片位置，可以看到我们已经把验证码图片拿到了。是不是很简单？

验证验证码图片

得到了验证码图片，现在就可以开始进行验证了。怎么验证？为什么12306知道我点击的图片是对的或者是错的？啥？不知道？不知道就打开F12，正常请求一下，看看它是怎么进行验证的。
照着下面的步骤来。

点击登录按钮后又出现了三个新的请求。点击captcha-check的那个请求，在右边可以看的你点击的验证码是否是正确的。

响应里面告诉我们点击的图片是否正确，那么它是怎么知道我们点击的图片是否是正确的呢？老司机已经猜到了，肯定在请求里携带了参数的啊。
就像我和你考试对答案，我问你：第一题我选对了吗？你肯定会说：你是傻逼吗？你都不告诉我你第一题选什么，我怎么知道你选对没有？
检测图片是否点击正确一样，图片是题目，点击的结果是答案。所以服务器知道我们点击的验证码是否正确，肯定是以某种形式把我们点击的信息传递给服务器了，这样服务器才能进行判断。

还是点击刚才的那个请求，然后点击Headers，滑动到最下面，如图。（有可能浏览器不一样，开发者工具显示就不一样，比如说火狐它就是中文的，并且把参数也给你单独分了出来，其实都是差不多的）。

在我圈出来的地方看到没？answer=答案，这意思就是我选的答案是这个，问服务器我选对没有。仔细观察，我们刚才明明只点了两个图片，怎么答案出现了四个？你再试一下点一个、三个或者更多，发现都是你点击图片的2倍。这是什么意思？在数学中，我们怎么在一个平面确定一个点？你肯定脱口而出：不就是它的横纵坐标来确定吗，这么简单的问题，中国学生都知道。再回到12306，发现12306好像也是这么判断我们点击的哪个图片了。点击一个图片，就有两个答案，不就是横纵坐标吗。我们再试一下点击验证码图片的最左上角，和最右下角，再看一下传递的答案，发现前两个数字接近0，后两个参数接近图片的大小。（忘了说了，在程序猿的世界里，数数从0开始数，坐标原点（0,0）在左上角）。

知道我们向服务器发送的答案是怎么来的了，现在我们就在Python中写。先获取一张验证码图片，保存到你指定的位置，找到你保存的图片打开，然后选择正确的图片，输入我们下面计算的点坐标，发送给服务器，让服务器告诉我们是否点击的是正确的。
在做之前我们还有计算一下哪些范围内的点才是正确的（不计算也可以，我在后面也写了一个弹出一张验证码，点击就可以了）。比如我们要点击下面这张图片中的开瓶器。第一张和第八张是开瓶器吧。当我们点击的两个点落在这两张图片的范围内，服务器就算我们点击正确了。所以我们计算一下这些图片的中心点的大概位置。灵魂画手已上线，如图所示。

只是算大概位置，计算结果我们都取算出结果左右5的倍数的整数吧。比如说第一个点是：(37.5,37.5) 可以取(35,35)或者(40,40)。

第一个点：(35,35)
第二个点：(110,35)
第三个点：(185,35)
第四个点：(260,35)
第五个点：(35,110)
第六个点：(110,110)
第七个点：(185,110)
第八个点：(260,110)

我们把获取验证码图片的代码和检测的代码封装成函数。代码如下：

import requests  # 导入这个库
import base64


# 获取一张验证码图片
def get_captcha():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'  # 我发现后面的参数不写也能够获取，那我们就不写吧
    res = requests.get(url)

    with open('captcha.jpg', 'wb') as f:
        f.write(base64.b64decode(res.json()['image']))  # 把字符串转为字节，然后写入到图片文件中


# 检测验证码图片
def captcha_check():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
    answer = input('请输入验证码：')  # 注意输入的格式： x1,y1,x2,y2   
    # get请求可以直接在地址后面拼接参数，也可以用params进行传递参数。
    params = {
        'callback': 'jQuery19104534505650716114_1545106279315',
        'answer': answer,
        'rand': 'sjrand',
        'login_site': 'E',
        '_': '1545106279318'
    }
    res = requests.get(url, params=params)

    print(res.text)  # 打印检测图片的响应信息


if __name__=='__main__':
    get_captcha()
    captcha_check()

自己试一试，看看打印，怎么样？是不是无论怎么输入都打印：验证码校验失败,信息为空？就算输入错了，也不应该告诉我们为空啊，不信在浏览器上点击错误的图片试一下，发现它是告诉你输入的是错误的。我们明明输了，为什么它说信息为空？原因：虽然你告诉了服务器你的答案，但是你没有告诉它这个答案是去检测哪张验证码图片！因为在你访问12306时，其他人有可能在访问。比如张三向服务器请求了一张图片，李四这时候也请求一张图片，张三告诉服务器：我点击的验证码是XXXX，你看我点的对不对？服务器就懵了，因为服务器和张三、李四都是通过网线连接的，就给服务器发一个答案，它总不可能顺着网线来找你，看是谁要图片。所以验证图片和答案应该也是有一个对应关系的，在发送点击的答案时也要把这个答案的图片(或者代表这张图片的标志)发给服务器验证。

那么怎么知道是验证谁的图片？我们正常登录时它是怎么知道的呢？看一下获取验证码图片请求的头信息，里面的Response Headers响应头，有一个Set-Cookie字段。查看_passport_session对应的值。再查看检测验证码的请求的头信息，里面的Request Headers请求头，有一个Cookie，找到_passport_session对应的值，把它和刚才我们在获取验证码响应头里面的对比一下，发现它们是一样的。相关Cookie和Session知识：Cookie/Session机制详解

当你向服务器请求一张验证码图片时，服务器给你通过Set-Cookie，给你一个Cookie，就相当于把你这张图片做了标记，下次在验证图片的时候，再把这个标记和你点击的答案传给服务器，服务器就知道：哦，你要我验证XXX图片的答案。

既然知道了为什么总是提醒我们信息为空了，就动手在Python里面在获取图片时拿到服务器给的cookie，然后再检测图片时，把cookie方在检测请求头里。能不能成功，试一下就知道了。

import requests  # 导入这个库
import base64


# 获取一张验证码图片
def get_captcha():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'  # 我发现后面的参数不写也能够获取，那我们就不写吧
    res = requests.get(url)

    global cookies  # 设置一个全局的变量
    cookies = res.cookies  # 从这个响应里面获取cookies，保存到全局变量中

    # print('服务器设置的Cookies：', cookies)

    with open('captcha.jpg', 'wb') as f:
        f.write(base64.b64decode(res.json()['image']))  # 把字符串转为字节，然后写入到图片文件中


# 检测验证码图片
def captcha_check():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
    answer = input('请输入验证码：')  # 注意输入的格式： x1,y1,x2,y2
    params = {
        'callback': 'jQuery19104534505650716114_1545106279315',
        'answer': answer,
        'rand': 'sjrand',
        'login_site': 'E',
        '_': '1545106279318'
    }
    res = requests.get(url, params=params, cookies=cookies)  # 在请求检测验证码图片时，给请求头加上全局变量中的cookies

    print(res.text)
    # print(res.request.headers['Cookie'])  # 打印检测验证码图片请求头里的cookie


if __name__ == '__main__':
    get_captcha()
    captcha_check()

没有成功？不可能，你打印一下检测验证码图片请求头里的cookie是不是和服务器设置的一样。

点击式验证码图片

这里我再贴出获取验证码图片后直接显示出来可以直接点击的代码，就不用每次输入那么麻烦了。(你如果觉得下面的代码写起来更麻烦那就用输入的方式吧)。需要安装第三方库：numpy、matplotlib、PIL ，应该都可以直接用pip直接安装，如果不行就在网上找其他方法安装，满大街都是。

import requests
import base64
import numpy as np
from matplotlib import pyplot as plt
from PIL import Image
import io

points = []  # 储存点击点的坐标


# 获取一张验证码图片
def get_captcha():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'  # 我发现后面的参数不写也能够获取，那我们就不写吧
    res = requests.get(url)

    global cookies  # 设置一个全局的变量
    cookies = res.cookies  # 从这个响应里面获取cookies，保存到全局变量中

    # print('服务器设置的Cookies：', cookies)

    return io.BytesIO(base64.b64decode(res.json()['image']))  # BytesIO把图片字节存入内存，使Image.open可以像文件一样操作它

    # 如果要显示图片，可以直接返回图片的字节，就不用保存图片然后再用Image.open打开(当然，如果你用不来也可以先保存到本地，然后用Image.open打开)
    # with open('captcha.jpg', 'wb') as f:
    #     f.write(base64.b64decode(res.json()['image']))  # 把字符串转为字节，然后写入到图片文件中


# 显示验证码图片
def show_img():
    o_img = Image.open(get_captcha())
    np_img = np.array(o_img)  # 把这个图片GRB转为矩阵(和多维列表差不多)
    plt.imshow(np_img)  # 放入显示的图片矩阵
    plt.gcf().canvas.mpl_connect('button_press_event', mouse_press)  # 添加鼠标按下事件
    plt.show()  # 显示


# 鼠标按下
def mouse_press(event):
    x = event.xdata  # 在图片中点击的x坐标
    y = event.ydata  # 在图片中大奖的y坐标
    if y < 40:
        return

    points.append([int(x), int(y)])  # 添加到全局的变量中

    plt.scatter([x for x, y in points], [y for x, y in points], c='r', s=100, marker=(5, 1, 0))  # 画散点图，第一个参数是横坐标，第二个是纵坐标，c是颜色，s是大小，marker是形状
    plt.gcf().canvas.draw()  # 重新绘制


# 检测验证码图片
def captcha_check():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
    answer = ','.join([str(x) + ',' + str(y) for x, y in points])  # 转为需要传递的参数格式
    params = {
        'callback': 'jQuery19104534505650716114_1545106279315',
        'answer': answer,
        'rand': 'sjrand',
        'login_site': 'E',
        '_': '1545106279318'
    }
    res = requests.get(url, params=params, cookies=cookies)  # 在请求检测验证码图片时，给请求头加上全局变量中的cookies

    print(res.text)
    # print(res.request.headers['Cookie'])  # 打印检测验证码图片请求头里的cookie


if __name__ == '__main__':
    show_img()
    captcha_check()

现在我们就可以直接点击正确的图片，然后关掉这个窗口(这个窗口相当于阻塞)，就可以进行验证了。
显示出来的图片：

账号登录

上面我们已经把验证码验证成功了，接下来就该是登录的第二部分了：账号和密码处理。有了上面的经验，下面不就轻车熟路了吗?

账号密码检测

还是一样，在登录界面打开开发者工具，这次我们把验证码输入正确，账号密码随你输，点击登录，发现在检测验证码去请求后面又多了一个login请求。一看就知道是对登录的账号密码进行验证的请求。肯定也传递了参数，跟上面传递点击的图片答案一样，按着那个步骤找到传参的位置。可以看到你输入的用户名和密码。

这个就简单了，直接在Python里面进行请求登录。

# 登录
def login():
    url = 'https://kyfw.12306.cn/passport/web/login'
    data = {
        'username': '你的账户',
        'password': '你的密码',
        'appid': 'otn',
        # 'answer': '43,115,258,107'  # 这里可以不用写这个参数，以前版本的12306也没有这个参数，允也许现在没有对它进行验证吧
    }
    res = requests.post(url, data=data, cookies=cookies)  # 这里也要加上全局的cookies
    print(res.text)

if __name__ == '__main__':
    show_img() 
    captcha_check()
    login()

运行，不出意外的话出现下面这个。

登录成功！！！这么简单？怎么比验证码还简单？别急，我们先来验证是不是真的登录成功了。

到认证中心认证及将TK种到自己的Cookies中

正常登录进去在个人中心会显示：XXX，先生或者女士，上午好，下午好什么的。我们也用Python请求这个地址：https://kyfw.12306.cn/otn/view/index.html，然后打印它的响应，是网页源代码，按ctrl+F在打印的网页源代码中搜索你的名字，这样肯定是找不到滴。因为它是通过ajax进行加载的，需要了解的可以在JS源代码中看到。我就直接说了ajax进行请求的地址了(担心对JS没有了解的老哥会懵)，在开发者工具里面也可以看到这个请求：https://kyfw.12306.cn/otn/index/initMy12306Api

我们的个人中心的名字就是通过这个请求来的，在登录成功后也请求一下这个地址，看可不可以获得我们的名字。先贴一张图片，因为结果是不正确的。这个请求的响应是得到的是登录界面的网页代码。也就是说我们请求初始化个人信息的一些参数，服务器判断我们没有登录，就给我们重定向到登录界面了。可是我们在上面登录就返回的结果里面告诉我们登录成功了啊，为什么它要跳转到登录界面要我们重新登录？思路和验证码验证一样，服务器把你当成两个人了呗，猜测应该是cookies有问题。

查看这个请求的cookies，发现一个JSESSIONID，老司机都应该知道，一般网站登录成功后会给你一个JSESSIONID，每次浏览器发出的请求，都会在请求头里带JSESSIONID来标识你自己。所以这个JSESSIONID我们需要加在请求头里，它怎么来的？不知道。还有一个名字为tk的也是一个关键的cookie。这个是怎么来的？也不知道。但是肯定都是在先前的请求中服务器响应给我们的，所以我们要在这个请求的前面去找。

这么多请求怎么可能一个一个找吧。如果看到懂一点点JS代码的可以从登录的JS代码开始看，里面把请求了什么url和参数怎么来的都告诉你了，不然就靠下面这个猜测加估计找吧。提醒一下：这里最好用火狐浏览器，我的获取到的部分请求的响应在这种开发者工具里会加载失败，我也不清楚，或许就是我的问题吧，我用火狐浏览器开发者工具就可以看到，当然如果有会抓包工具的应该就更好吧，反正我是用不来。

一般css、图片这些请求是不需要看的。我们先看JSESSIONID从哪来的，从刚才登录的那个login请求开始向下找，发现它下面一个请求叫userLogin，(忘记说了，在跳转界面是，像QQ浏览器这种的开发者工具会清空旧界面的请求日志，所以这里需要把Preserve log勾上，就在小红点那一行。火狐浏览器就不用了，它会保存)。怎么登录了一次，还要登录一次？恩，好像不符合常理，那就点开看一下。

因为initMy12306Api请求头用到了cookie，那么一定是前面的响应头中设置了cookie，所以我们只看响应头里面有不有Set-Cookie。开发者工具不一样有可能显示的结果不一样，比如用我们QQ浏览器，userLogin这个响应头里面有Set-Cookie这个字段，用火狐的话就没有。但是，有这个Set-Cookie，里面的JSESSIONID对应的值不不一定就是我们要找的，把userLogin这个请求Set-Cookie中的JSESSIONID对应的值和上面的initMy12306Api请求中的对照看一下，发现它们是不一样的，所以这个JSESSIONID不是我们需要找的。

QQ浏览器中：

火狐浏览器中：虽然响应头没有Set-cookie，但是在请求头里携带了一个JSESSIONID的cookie，我也不知道它怎么来的。把它的值和initMy12306Api中的比较一下发现不对，所以不知道它怎么来的也无所谓了，反正也不需要它。

紧接着userLogin下面的名字为passport?redirect=/otn/login/userLogin的请求，好像是什么重定向啥啥啥的，里面也有有“用户登录”这个英文：userLogin。既然我们选择了一个一个看的方法那就看一下吧。点看一看，嘿，里面也有Set-cookie这个字段，它里面也有JSESSIONID的cookie，把它和initMy12306Api中的一对比，发现它们一样，终于找到了JSESSIONID了。(其实这个请求我们在写代码的时候不需要。在后面有一个“将TK种到自己的Cookies中”——JS源代码中是这样写的，这个请求会给你设置JSESSIONID。有的老哥就会说了：眼睛都看花了，你居然说这个请求其实不需要？恩，没错，还是那句话，顺着网线来拍我呀。哈哈哈。其实也不是全部没有用，因为很多网站都会做这样的设置，不一定只局限于Cookie，有可能你请求一个链接时，它里面需要一个必须的参数，而这个参数就有可能是前面请求得到的，所以你也可以用这种方法进行查找)。

然后再找tk从哪里来的(放心，这个是必须要的)。结合刚才登录成功返回的信息
{“result_message”:“登录成功”,“result_code”:0,“uamtk”:“jFCtvgZBmIb8ItK1OAoBp65EgG5wCOEnn-UkzooBJZY091210”}，发现有一个umatk，大概浏览一下全部请求也有个叫umatk，点开看一下。发现好像就Set-Cookie有一个名字为umatk的cookie。感觉没有啥用，那就继续往吧。嘿，晃眼一看，就接着下面也有一个差不多的：uamauthclient，打开看一下。哇，Set-Cookie里面果然有一个叫tk的cookie，再和initMy12306Api的tk一比较，一样。说明我们请求这个url就可以得到tk这个cookie。

请求url需要什么？最基本的url吧，请求的类型吧，如果需要传参还需要参数等等。点开uamauthclient这个请求，请求网址和请求方法在看到了。
再看一下参数。妈耶，我们不是通过请求这个地址获取tk这个cookie吗？为什么请求这个地址喊我们传参数就要tk？这就是我在上面说的：一个请求的参数可能是之前请求的响应。我们刚才看umatk这个请求的时候还没有看它的响应是什么，万一里面就有tk呢？

uamauthclient请求：

打开uamtk请求看一下响应，好像这个请求是在进行什么验证，不管，我们找我们要的tk，好像没有啊。细心的小伙伴已经发现了，newapptk就是tk，只是一个叫tk一个叫newapptk而已。
uamtk请求：

现在我们需要的JSESSIONID和tk都已经找到了。理一下思路：我们要去请求initMy12306Api名字的请求，看有不有自己的名字，而这个请求需要JSESSIONID和tk，JSESSIONID可以通过userLogin获得。(在写代码时可以请求uamauthclient也可以获得，所以请求uamauthclient既可以获得JSESSIONID也可以获得tk，我们就只请求uamauthclient就好了)。tk通过uamauthclient获得，而uamauthclient需要一个参数，这个参数在uamtk的响应中。它们cookie

那么我们的请求顺序应该是：uamtk >>> uamauthclient >>> initMy12306Api。

下面就贴账号密码登录的代码，验证码部分的代码的需要自己加上。

# 登录
def login():
    url = 'https://kyfw.12306.cn/passport/web/login'
    data = {
        'username': '你的账号',
        'password': '你的密码',
        'appid': 'otn',
        # 'answer': '43,115,258,107'  # 这里可以不用写这个参数，以前版本的12306也没有这个参数，允也许现在没有对它进行验证吧
    }
    res = requests.post(url, data=data, cookies=cookies)  # 这里也要加上全局的cookies
    print('登录：', res.text)
    print('登录cookie：', res.cookies)

    url = 'https://kyfw.12306.cn/passport/web/auth/uamtk'
    data = {
        'appid': 'otn'
    }
    res = requests.post(url, data=data, cookies=res.cookies)  # 不管三七二十一，把上一个响应cookies作为这一次请求cookies
    print('认证：', res.text)
    print('认证cookie：', res.cookies)

    url = 'https://kyfw.12306.cn/otn/uamauthclient'
    data = {
        'tk': res.json()['newapptk']
    }
    res = requests.post(url, data, cookies=res.cookies)  # 注意：这个cookies又是认证cookies了
    print('种植tk：', res.text)
    print('种植tkcookie：', res.cookies)

    init_my12306(res.cookies)  # 把tk和JSESSIONID传给初始化的请求作为cookies


# 查看是否有自己的名字
def init_my12306(c):
    url = 'https://kyfw.12306.cn/otn/index/initMy12306Api'
    res = requests.get(url, cookies=c)
    res.encoding = 'utf8'
    print(res.text)

if __name__ == '__main__':
    show_img()
    captcha_check()
    login()

登录成功，打印的结果：

登录部分已经完成了，当看到自己的名字的时候是不是感觉自己很牛逼啊。

我们是全手动把上一个请求响应的cookie加到下一个请求的请求头里(还好这个上一个响应cookie就是下一个请求cookie，是连续的)，其实requests有一个对象，会把你的请求当成一个会话，这样就不用每次自己都需要添加cookie了。

我们这些方法写在一个类里面，以下是登录部分的全部代码，在控制台打印的结果和上面的一样：

import requests
import base64
import numpy as np
from matplotlib import pyplot as plt
from PIL import Image
import io

class Spider:
    def __init__(self):

        self.session = requests.session()  # 获取会话这个对象, 只需要在请求时把requests换成self.session就可以了

        self.points = []  # 储存点击点的坐标

    # 获取一张验证码图片
    def get_captcha(self):
        url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'  # 我发现后面的参数不写也能够获取，那我们就不写吧
        res = self.session.get(url)  # 换成self.session,下面的也一样
        return io.BytesIO(base64.b64decode(res.json()['image']))  # BytesIO把图片字节存入内存，使Image.open可以像文件一样操作它

    # 显示验证码图片
    def show_img(self):
        o_img = Image.open(self.get_captcha())
        np_img = np.array(o_img)  # 把这个图片GRB转为矩阵(和多维列表差不多)
        plt.imshow(np_img)
        plt.gcf().canvas.mpl_connect('button_press_event', self.mouse_press)
        plt.show()

    # 鼠标按下
    def mouse_press(self, event):
        x = event.xdata  # 在图片中点击的x坐标
        y = event.ydata  # 在图片中大奖的y坐标
        if y < 40:  # 如果点击图片上面的提示部分就直接返回
            return

        self.points.append([int(x), int(y)])  # 添加到全局的变量中

        plt.scatter([x for x, y in self.points], [y for x, y in self.points], c='r', s=100, marker=(5, 1, 0))  # 画散点图，第一个参数是横坐标，第二个是纵坐标，c是颜色，s是大小，marker是形状
        plt.gcf().canvas.draw()  # 重新绘制

    # 检测验证码图片
    def captcha_check(self):
        url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
        answer = ','.join([str(x) + ',' + str(y - 40) for x, y in self.points])  # 转为需要传递的参数格式
        params = {
            # 'callback': 'jQuery19104534505650716114_1545106279315',
            'answer': answer,
            'rand': 'sjrand',
            'login_site': 'E',
            '_': '1545106279318'
        }
        res = self.session.get(url, params=params)  # 在请求检测验证码图片时，给请求头加上全局变量中的cookies
        print(res.text)

    # 登录
    def login(self):
        url = 'https://kyfw.12306.cn/passport/web/login'
        data = {
            'username': '你的账号',
            'password': '你的密码',
            'appid': 'otn',
            # 'answer': '43,115,258,107'  # 这里可以不用写这个参数，以前版本的12306也没有这个参数，允也许现在没有对它进行验证吧
        }
        res = self.session.post(url, data=data)
        print('登录：', res.text)

        url = 'https://kyfw.12306.cn/passport/web/auth/uamtk'
        data = {
            'appid': 'otn'
        }
        res = self.session.post(url, data=data)
        print('认证：', res.text)

        url = 'https://kyfw.12306.cn/otn/uamauthclient'
        data = {
            'tk': res.json()['newapptk']
        }
        res = self.session.post(url, data)
        print('种植tk：', res.text)

        self.init_my12306()

    # 查看是否有自己的名字
    def init_my12306(self):
        url = 'https://kyfw.12306.cn/otn/index/initMy12306Api'
        res = self.session.get(url)
        print(res.text)

if __name__ == '__main__':
    spider = Spider()  # 实例化一个对象
    spider.show_img()
    spider.captcha_check()
    spider.login()

二、查询车票信息部分

如果你要买票，肯定先要查询自己车票，然后选择自己想要乘坐的车次。所以登录成功了就开始查询车票吧。不登录也可以查询车票，可以自己去试一下。

查询车票信息

先进入车票查询的界面，同样打开开发者工具，选择自己的出发站、到达站、出发日期，点击查询。比如下面是我查询的车票：

点击一看这个请求：query?leftTicketDTO.train_date…肯定就是查询车票的请求，点开这个请求，查看给我们的响应信息。这个结果是以JSON的形式返回，在里面可以看到有我们输入的出发站、到达站，result里面就是你查询出来的车票信息。这些响应的信息的顺序和浏览器显示出来的车次顺序是一致的，把这些信息和浏览器显示的进行对比，发现每一个信息都是以:|符号进行分割的，所以我们待会处理的时候也以这个符号作为分割。再查看一下请求参数，也是我们选择的站点、时间等信息，只不过用一些车站名称的代号来表示这些车站名称。（后面我们也会获取这些车站名称对应什么代号）。

查询车票响应结果：

请求参数：

我们在Python中也进行这个请求，看能不能获取车票信息。

    # 查询车票
    def query_ticket(self):
        url = 'https://kyfw.12306.cn/otn/leftTicket/queryX'  # 注意：这里有可能最后的X会是A，根据自己的实际请求地址改就行了
        params = {
            'leftTicketDTO.train_date': '2019-01-09',
            'leftTicketDTO.from_station': 'CDW',
            'leftTicketDTO.to_station': 'NCW',
            'purpose_codes': 'ADULT'
        }

        res = self.session.get(url, params=params)
        print(res.text)

if __name__ == '__main__':
    spider = Spider()
    spider.show_img()  # 获取并显示验证码图片
    spider.captcha_check()  # 检测验证码
    spider.login()  # 账号密码登录
    spider.query_ticket()  # 查询车票

运行代码，从打印结果可以看出我们可以成功查询到车票信息，只是需要把这些车票信息进行处理。

处理并显示车票信息

在网页中找几个关键的车次信息，比如我找有一个车次的一等座有12张票，和响应的车次信息对比，可以看到车次的信息就是从这些响应里面取出来的。

这些信息以‘|’作为分割，并且车次的信息都是在相同的位置。我们用Python的split分割，得到一个列表，比如车次：D5124这个是在列表中索引为4的位置，那么其他车次的名字也是在这个索引位置。下面是我分析出来的部分索引位置和对应的车次信息，25和32好像都表示商务座特等座，你们可以再找一下。(有可能我找错了，因为我没有全部进行实验)：

接下来我们就通过Python来打印查询出来的车次信息：

    # 查询车票
    def query_ticket(self):
        url = 'https://kyfw.12306.cn/otn/leftTicket/queryX'
        params = {
            'leftTicketDTO.train_date': '2019-01-09',
            'leftTicketDTO.from_station': 'CDW',
            'leftTicketDTO.to_station': 'NCW',
            'purpose_codes': 'ADULT'
        }

        res = self.session.get(url, params=params)

        # 打印我们需要的信息
        for train in res.json()['data']['result']:
            train_items = train.split('|')
            print(train_items[3], train_items[6] + train_items[7], train_items[8] + train_items[9],
                  train_items[10], train_items[25] or train_items[32], train_items[31], train_items[30],  # 25和32好像都表示特等座，所以我们都写上去
                  train_items[21], train_items[23], train_items[27], train_items[28],
                  train_items[24], train_items[29], train_items[26], train_items[22],
                  train_items[1])

部分打印结果：

可以看到打印出屋面需要的信息了，但是格式不好看啊。你可以自己使用format进行调整，我这里使用第三方库：prettytable和colorama来显示查询结果，安装就不用说了吧，Python安装第三方库就那几种方法。如果有大佬能做出UI界面来显示也可以，我用Python的tkinter做过，发现tkinter的界面效果是真的差，做了一部分就放弃了。

首先我们先创建一个格式化的类，方便调用。

# 格式打印类
class FormatPrint:
    def __init__(self):
        colorama.init()  # 初始化

    @staticmethod
    def red(s):
        return colorama.Fore.RED + s + colorama.Fore.RESET  # Fore.RED把打印的内容颜色设为红色，Fore.RESET：清空颜色设置

    @staticmethod
    def green(s):
        return colorama.Fore.GREEN + s + colorama.Fore.RESET

    @staticmethod
    def print(columns_name, rows):
        """
        :param rows: 需要打印的所有列名
        :param columns_name: 需要打印的所有行，以二维列表形式传入
        """
        table = PrettyTable(columns_name)  # 用存储了列的名字的列表创建一个PrettyTable对象
        for row in rows:
            table.add_row(row)  # 向PrettyTable对象中添加行
        print(table)  # 打印PrettyTable

然后更改query_ticket方法里面打印的代码，用我们创建的格式化打印类来打印我们查询出来的车票信息。

    def __init__(self):

        self.session = requests.session()  # 获取会话这个对象, 只需要在请求时把requests换成self.session就可以了

        self.points = []  # 储存点击点的坐标
	    # 我们需要打印车次信息的列名
        self.train_column_name = ['序号', '车次', '出发/到达站', '出发/到达时间', '历时', '商务座/特等座', '一等座', '二等座', '高级软卧', '软卧', '动卧',
                                  '硬卧', '软座', '硬座', '无座', '其他', '备注']


    # 查询车票
    def query_ticket(self):
        url = 'https://kyfw.12306.cn/otn/leftTicket/queryX'
        params = {
            'leftTicketDTO.train_date': '2019-01-09',
            'leftTicketDTO.from_station': 'CDW',
            'leftTicketDTO.to_station': 'NCW',
            'purpose_codes': 'ADULT'
        }

        res = self.session.get(url, params=params)

        train_list = [['--' if item == '' else item for item in train.split('|')] for train in
                      res.json()['data']['result']]  # 列表生成式（可以用for循环写），分割车次信息以及把空的信息换成--

        # 打印我们需要的信息
        format_print = FormatPrint()  # 实例一个我们写的格式化打印类
        rows = []  # 存储打印的所有行
        for train in train_list:  # 添加行
            rows.append([train_list.index(train) + 1, train[3],
                         format_print.green(train[6]) + '\n' + format_print.red(train[7]),
                         format_print.green(train[8]) + '\n' + format_print.red(train[9]), train[10],
                         train[25] or train[32],  # 25和32好像都表示特等座，所以我们都写上去
                         train[31], train[30], train[21], train[23], train[27], train[28],
                         train[24], train[29], train[26], train[22],
                         format_print.green(train[1]) if train[1] == '预订' else format_print.green(train[1])])

        format_print.print(self.train_column_name, rows)  # 调用FormatPrint对象中的方法打印

if __name__ == '__main__':
    spider = Spider()
    spider.show_img()  # 获取并显示验证码图片
    spider.captcha_check()  # 检测验证码
    spider.login()  # 账号密码登录
    spider.query_ticket()  # 查询车票

打印的部分结果(最好在命令行里面运行这个py文件，我用pycharm打印出的表格有点对不齐，可能是中文字符的原因):

获取车站名信息及处理车站代号

是不是比我们直接打印的好看很多？但是还有一个问题，就是出发站和到达站是以代号形式打印的，你可以直接换成你输入的出发站、到达站，但是从浏览器上可以看到实际的出发站和到达站是具体的车站名。并且在上面我们提到的查询车票时没有输入你需要查询的出发站和到达站，因为查询车票的请求参数也是以代号形式进行传递的。所以接下来我们就把车站代号换成车站的具体名称。

储存车站名字信息的这个请求在这里(在资源文件中是一个js文件，里面定义的一个变量)：

这里的车站名字是以‘@’进行分割，然后是以‘|’进行对每个车站名称的拼音首字母、中文名、代号、全拼等进行分割。

下面的方法是进行获取并处理车站名称，需要导入re模块。


    def __init__(self):

        self.session = requests.session()  # 获取会话这个对象, 只需要在请求时把requests换成self.session就可以了

        self.points = []  # 储存点击点的坐标

        self.train_column_name = ['序号', '车次', '出发/到达站', '出发/到达时间', '历时', '商务座/特等座', '一等座', '二等座', '高级软卧', '软卧', '动卧',
                                  '硬卧', '软座', '硬座', '无座', '其他', '备注']

        self.chinese_code_swop = {}  # 储存车站名和代号
        self.train_list = []  # 存储查询出来了的车次
        
    # 获取车站名称代号
    def get_station_name(self):
        url = 'https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9081'
        stations_name = self.session.get(url).text

        result = re.findall(r'([\u4e00-\u9fa5]+)\|([A-Z]+)', stations_name)  # 正则进行匹配，[\u4e00-\u9fa5]表示汉字

        # 存入字典中
        for chinese, code in result:
            self.chinese_code_swop[chinese] = code  # 把中文作为键，代号作为值
            self.chinese_code_swop[code] = chinese  # 把代号作为键，作为中文值
            
    # 查询车票
    def query_ticket(self):
        from_station = input('输入出发站：')
        to_station = input('输入到达站：')
        train_date = input('输入出发日期(格式如：2019-01-09)：')

        url = 'https://kyfw.12306.cn/otn/leftTicket/queryX'
        params = {
            'leftTicketDTO.train_date': train_date,
            'leftTicketDTO.from_station': self.chinese_code_swop[from_station],
            'leftTicketDTO.to_station': self.chinese_code_swop[to_station],
            'purpose_codes': 'ADULT'
        }

        res = self.session.get(url, params=params)

        self.train_list = [['--' if item == '' else item for item in train.split('|')] for train in
                      res.json()['data']['result']]  # 列表生成式（可以用for循环写），分割车次信息以及把空的信息换成--

        # 打印我们需要的信息
        format_print = FormatPrint()  # 实例一个我们写的格式化打印类
        rows = []  # 存储打印的所有行
        for train in self.train_list:  # 添加行
            rows.append([self.train_list.index(train) + 1, train[3],
                         format_print.green(self.chinese_code_swop[train[6]]) + '\n' +
                         format_print.red(self.chinese_code_swop[train[7]]),
                         format_print.green(train[8]) + '\n' + format_print.red(train[9]), train[10],
                         train[25] or train[32],  # 25和32好像都表示特等座，所以我们都写上去
                         train[31], train[30], train[21], train[23], train[27], train[28],
                         train[24], train[29], train[26], train[22],
                         format_print.green(train[1]) if train[1] == '预订' else format_print.red(train[1])])

        format_print.print(self.train_column_name, rows)  # 调用FormatPrint对象中的方法打印

现在我们可以通过输入中文的车站名来查询车票信息了：

查询车票部分结束，贴出这部分的全部代码：

import requests
import base64
import numpy as np
from matplotlib import pyplot as plt
from PIL import Image
import io
import re
from prettytable import PrettyTable
import colorama


# 格式打印
class FormatPrint:
    def __init__(self):
        colorama.init()  # 初始化

    @staticmethod
    def red(s):
        return colorama.Fore.RED + s + colorama.Fore.RESET  # Fore.RED把打印的内容颜色设为红色，Fore.RESET：清空颜色设置

    @staticmethod
    def green(s):
        return colorama.Fore.GREEN + s + colorama.Fore.RESET

    @staticmethod
    def print(columns_name, rows):
        """
        :param rows: 需要打印的所有列名
        :param columns_name: 需要打印的所有行，以二维列表形式传入
        """
        table = PrettyTable(columns_name)
        for row in rows:
            table.add_row(row)
        print(table)


class Spider:
    def __init__(self):

        self.session = requests.session()  # 获取会话这个对象, 只需要在请求时把requests换成self.session就可以了

        self.points = []  # 储存点击点的坐标

        self.train_column_name = ['序号', '车次', '出发/到达站', '出发/到达时间', '历时', '商务座/特等座', '一等座', '二等座', '高级软卧', '软卧', '动卧',
                                  '硬卧', '软座', '硬座', '无座', '其他', '备注']

        self.chinese_code_swop = {}  # 储存车站名和代号
        self.train_list = []  # 存储查询出来了的车次

        # self.train_rows = []  # 储存打印车次表全部行信息
        # self.passenger_column_name = ['序号', '姓名', '身份证', '证件类型', '乘客类型', '电话号码']

    # 获取一张验证码图片
    def get_captcha(self):
        url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'  # 我发现后面的参数不写也能够获取，那我们就不写吧
        res = self.session.get(url)  # 换成self.session,下面的也一样
        return io.BytesIO(base64.b64decode(res.json()['image']))  # BytesIO把图片字节存入内存，使Image.open可以像文件一样操作它

    # 显示验证码图片
    def show_img(self):
        o_img = Image.open(self.get_captcha())
        np_img = np.array(o_img)  # 把这个图片GRB转为矩阵(和多维列表差不多)
        plt.imshow(np_img)
        plt.gcf().canvas.mpl_connect('button_press_event', self.mouse_press)
        plt.show()

    # 鼠标按下
    def mouse_press(self, event):
        x = event.xdata  # 在图片中点击的x坐标
        y = event.ydata  # 在图片中大奖的y坐标
        if y < 40:  # 如果点击图片上面的提示部分就直接返回
            return

        self.points.append([int(x), int(y)])  # 添加到全局的变量中

        plt.scatter([x for x, y in self.points], [y for x, y in self.points], c='r', s=100,
                    marker=(5, 1, 0))  # 画散点图，第一个参数是横坐标，第二个是纵坐标，c是颜色，s是大小，marker是形状
        plt.gcf().canvas.draw()  # 重新绘制

    # 检测验证码图片
    def captcha_check(self):
        url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
        answer = ','.join([str(x) + ',' + str(y - 40) for x, y in self.points])  # 转为需要传递的参数格式(y-40是把提示部分的高度减掉)
        params = {
            # 'callback': 'jQuery19104534505650716114_1545106279315',
            'answer': answer,
            'rand': 'sjrand',
            'login_site': 'E',
            '_': '1545106279318'
        }
        res = self.session.get(url, params=params)  # 在请求检测验证码图片时，给请求头加上全局变量中的cookies
        print(res.text)

    # 登录
    def login(self):
        url = 'https://kyfw.12306.cn/passport/web/login'
        data = {
            'username': '你的账号',
            'password': '你的密码',
            'appid': 'otn',
            # 'answer': '43,115,258,107'  # 这里可以不用写这个参数，以前版本的12306也没有这个参数，允也许现在没有对它进行验证吧
        }
        res = self.session.post(url, data=data)
        print('登录：', res.text)

        url = 'https://kyfw.12306.cn/passport/web/auth/uamtk'
        data = {
            'appid': 'otn'
        }
        res = self.session.post(url, data=data)
        print('认证：', res.text)

        url = 'https://kyfw.12306.cn/otn/uamauthclient'
        data = {
            'tk': res.json()['newapptk']
        }
        res = self.session.post(url, data)
        print('种植tk：', res.text)

        self.init_my12306()

    # 查看是否有自己的名字
    def init_my12306(self):
        url = 'https://kyfw.12306.cn/otn/index/initMy12306Api'
        res = self.session.get(url)
        print(res.text)

    # 获取车站名称代号
    def get_station_name(self):
        url = 'https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9081'
        stations_name = self.session.get(url).text

        result = re.findall(r'([\u4e00-\u9fa5]+)\|([A-Z]+)', stations_name)  # 正则进行匹配，[\u4e00-\u9fa5]表示汉字

        # 存入字典中
        for chinese, code in result:
            self.chinese_code_swop[chinese] = code  # 把中文作为键，代号作为值
            self.chinese_code_swop[code] = chinese  # 把代号作为键，作为中文值

    # 查询车票
    def query_ticket(self):
        from_station = input('输入出发站：')
        to_station = input('输入到达站：')
        train_date = input('输入出发日期(格式如：2019-01-09)：')

        url = 'https://kyfw.12306.cn/otn/leftTicket/queryX'
        params = {
            'leftTicketDTO.train_date': train_date,
            'leftTicketDTO.from_station': self.chinese_code_swop[from_station],
            'leftTicketDTO.to_station': self.chinese_code_swop[to_station],
            'purpose_codes': 'ADULT'
        }

        res = self.session.get(url, params=params)

        self.train_list = [['--' if item == '' else item for item in train.split('|')] for train in
                           res.json()['data']['result']]  # 列表生成式（可以用for循环写），分割车次信息以及把空的信息换成--

        # 打印我们需要的信息
        format_print = FormatPrint()  # 实例一个我们写的格式化打印类
        rows = []  # 存储打印的所有行
        for train in self.train_list:  # 添加行
            rows.append([self.train_list.index(train) + 1, train[3],
                         format_print.green(self.chinese_code_swop[train[6]]) + '\n' +
                         format_print.red(self.chinese_code_swop[train[7]]),
                         format_print.green(train[8]) + '\n' + format_print.red(train[9]), train[10],
                         train[25] or train[32],  # 25和32好像都表示特等座，所以我们都写上去
                         train[31], train[30], train[21], train[23], train[27], train[28],
                         train[24], train[29], train[26], train[22],
                         format_print.green(train[1]) if train[1] == '预订' else format_print.red(train[1])])

        format_print.print(self.train_column_name, rows)  # 调用FormatPrint对象中的方法打印

if __name__ == '__main__':
    spider = Spider()
    spider.show_img()  # 获取并显示验证码图片
    spider.captcha_check()  # 检测验证码
    spider.login()  # 账号密码登录
    spider.get_station_name()  # 获取车站名称信息
    spider.query_ticket()  # 查询车票

三、下单部分

终于来到了最重要的环节了，能看我吹到这里来的人应该没几个了吧。

选择需要购买的车次

我们已经查询出自己想要买的出发站、到达站等车次信息了，然后就是按照在浏览器上购票的步骤，选择一个自己要乘坐的车次，点击预定。
下面的方法就是选择车次的，很简单，就是输入一个序号，打印出来就可以了。

# 选择车次
    def select_train(self):
        num = int(input('请输入预订车次序号：'))
        self.book_train = self.train_list[num - 1]
        print('你选择的是：')

        format_print = FormatPrint()  # 实例一个我们写的格式化打印类
        select_row = [num, self.book_train[3],
                      format_print.green(self.chinese_code_swop[self.book_train[6]]) + '\n' +
                      format_print.red(self.chinese_code_swop[self.book_train[7]]),
                      format_print.green(self.book_train[8]) + '\n' + format_print.red(self.book_train[9]),
                      self.book_train[10], self.book_train[25] or self.book_train[32],
                      self.book_train[31], self.book_train[30], self.book_train[21],
                      self.book_train[23], self.book_train[27], self.book_train[28],
                      self.book_train[24], self.book_train[29], self.book_train[26],
                      self.book_train[22],
                      format_print.green(self.book_train[1]) if self.book_train[1] == '预订'
                      else format_print.red(self.book_train[1])]

        format_print.print(self.train_column_name, [select_row])  # 注意行信息是传入二维列表

打印结果：

检测用户是否登录及检测是否有未完成订单

打开开发者工具，点击预定按钮，来到选择乘客信息和座位等信息。查看捕获的请求，在发送初始化界面请求：https://kyfw.12306.cn/otn/confirmPassenger/initDc，之前还有两个请求，checkUser：是检测用户是否登录，submitOrderRequest：检测是否含有未完成订单。所以在进入填写乘客信息等页面之前，要先请求这两个请求。

检测用户是否登录：

    # 检测用户是否登录
    def check_user(self):
        url = 'https://kyfw.12306.cn/otn/login/checkUser'
        data = {
            '_json_att': ''
        }
        res = self.session.post(url, data)
        print(res.text)

提交预定车次的信息，这里第一个参数secretStr是我们上面查询车票的第一个我把它叫成密文的那个参数，但是它是进行过url编码的，就是把‘+’、‘/’等进行了编码，在请求时不需要编码的，所以需要把它们换成原来的，你可以用replace、正则等进行替换，或者导入urllib中的parse模块。还有就是需要出发站、到达站、出发日期，我在__init__方法中定义了这几个属性，我就不在下面代码中写了。

    # 提交预定的车次信息
    def submit_order(self):
        url = 'https://kyfw.12306.cn/otn/leftTicket/submitOrderRequest'
        data = {
            # 使用replace替换
            # 'secretStr': self.__book_train[0].replace('%2B', '+').replace('%2F', '/').replace('%0A', '\n'),
            'secretStr': parse.unquote(self.book_train[0]),  # 直接进行解码
            'train_date': self.train_date,
            'back_train_date': self.train_date,  # 返程日期不重要，我们购买的是单程车票
            'tour_flag': 'dc',   # 单程
            'purpose_codes': 'ADULT',
            'query_from_station_name': self.from_station,
            'query_to_station_name': self.to_station,
            'undefined': ''
        }
        res = self.session.post(url, data)
        print(res.text)

运行结果，从里面对比官网的请求结果，如果是一样的应该就是成功了的。
如果你还有未完成的订单，打印的结果会是下面这种。

填写购票信息

上面两个请求之后就是进入填写购票信息的界面，爬虫是什么？就是模拟请求啊。在这个界面中进行了乘车人、票种、座位类型等进行了选择，我们主要进行乘车人和座位类型进行选择，票种我就选择成人票。如果需要对进行票种选择的，也可以在购票时把票种的类型改为对应的票种，但是票种也用的代号表示，代号在passengerInfo_js.js源文件中定义的变量，需要的话就去找一下。我截出了部分名称映射关系，在后面的检测订单请求中也可以参考一下。

下面是证件和对应的代号，在initDc中定义的一个json字符串，下面是用json格式化工具格式化了的，只截取了两个，我们一般就是用身份证买票的，需要的话可以去找，我就不细说了。(不会找的评论给我吧，有机会再写一篇通过分析js源代码来爬12306的，现在时间不多了，要到交作业的时间了，写这个博客写了十几天了)。

选择乘客

要选择乘车人，就要获取乘车人信息。如果打印了该界面的响应可以进行搜索你的乘车人的名字，可以发现是搜索不到的，还是和上面进入个人中心的一样，是用的ajax请求。这个请求的地址在请求列表中可以看到。

在python中请求这个网址：https://kyfw.12306.cn/otn/confirmPassenger/getPassengerDTOs，然后把响应的结果进行处理，格式化打印出所有的乘客信息，进行选择。下面代码需要的一些属性我也在__init__方法里面定义了，__init__部分的代码就不贴出来了，应该都会吧，不会的可以参考最后面的全部代码。


    # 获取全部的乘客信息
    def get_passengers(self):
        url = 'https://kyfw.12306.cn/otn/confirmPassenger/getPassengerDTOs'
        res = self.session.post(url)

        self.passenger_list = res.json()['data']['normal_passengers']

        format_print = FormatPrint()
        passenger_rows = []
        for passenger in self.passenger_list:
            passenger_rows.append([passenger['code'], passenger['passenger_name'],
                                   passenger['passenger_id_type_name'], passenger['passenger_id_no'],
                                   passenger['passenger_type_name'], passenger['mobile_no']])
        format_print.print(self.passenger_column_name, passenger_rows)

    # 选择乘车乘客
    def select_passenger(self):
        num = int(input('输入序号，选择乘车人：'))
        
        self.selected_passenger = self.passenger_list[num - 1]

        # 和选择的车次一样，也进行打印一下选择的乘客信息
        format_print = FormatPrint()
        passenger_rows = [self.selected_passenger['code'], self.selected_passenger['passenger_name'],
                          self.selected_passenger['passenger_id_type_name'],
                          self.selected_passenger['passenger_id_no'],
                          self.selected_passenger['passenger_type_name'],
                          self.selected_passenger['mobile_no']]
        print('你选择的乘客信息：')
        format_print.print(self.passenger_column_name, [passenger_rows])


if __name__ == '__main__':
    spider = Spider()
    spider.show_img()  # 获取并显示验证码图片
    spider.captcha_check()  # 检测验证码
    spider.login()  # 账号密码登录
    spider.get_station_name()  # 获取车站名称信息
    spider.query_ticket()  # 查询车票
    spider.select_train()  # 选择需要预定的车次
    spider.check_user()  # 检测用户是否登录
    spider.submit_order()  # 提交预定的车次信息
    spider.get_passengers()  # 获取该账户的全部乘客
    spider.select_passenger()  # 选择乘车乘客

部分打印结果：

选择座位

乘车人选择好了下面就是选择座位类型，我就直接把选择的车次信息打印出来，如果显示为：–的就表示该车次没有这类型的座位或者该类型的座位已经没有余票了。当然，需要完善的可以把还有余票的座位类型筛选出了，让使用者进行选择。

    # 选择座位类型
    def select_seat(self):
        format_print = FormatPrint()  # 实例一个我们写的格式化打印类
        select_row = [self.train_list.index(self.selected_train), self.selected_train[3],
                      format_print.green(self.chinese_code_swop[self.selected_train[6]]) + '\n' +
                      format_print.red(self.chinese_code_swop[self.selected_train[7]]),
                      format_print.green(self.selected_train[8]) + '\n' + format_print.red(self.selected_train[9]),
                      self.selected_train[10], self.selected_train[25] or self.selected_train[32],
                      self.selected_train[31], self.selected_train[30], self.selected_train[21],
                      self.selected_train[23], self.selected_train[27], self.selected_train[28],
                      self.selected_train[24], self.selected_train[29], self.selected_train[26],
                      self.selected_train[22],
                      format_print.green(self.selected_train[1]) if self.selected_train[1] == '预订'
                      else format_print.red(self.selected_train[1])]

        format_print.print(self.train_column_name, [select_row])  # 注意行信息是传入二维列表

        self.selected_seat = self.seat_dict[input('请输入还有余票的车座类型：')]

提交订单

终于！终于来到了爬取12306的最后步骤了——提交订单！
在浏览器上我们，选择了乘车人和座位类型等信息，就可以点击提交订单了。记住一定一定要打开开发者工具，因为12306,每天只能取消三次订单，晚上11点也不能进行登录购票，也许这两个也是阻止我爬取12306的进度的原因吧，因为分析一些不知道的请求参数要进行多次不同的请求进行对比来发现这些参数代表什么。废话不多说，下面开始进入最后的步骤——提交订单。

再次提示：记住打开开发者工具，点击提交订单按钮，弹出一个核对订单信息及选座的小弹框，我们也不进行选座了，需要的自己实现吧。可以看到有两个主要的请求，checkOrderInfo：检测订单信息以及getQueueCount：获取余票信息。
我们只进行检测订单信息，获取余票的请求只是请求这个车次的已有的座位类型还剩余多少票，如果要获取余票的也可以自己获取(时间真的不多了，要交作业了)。

检测订单信息

下面我们分析检测订单请求：
检测订单请求中的参数主要是：passengerTicketStr、oldPassengerStr、tour_flag、REPEAT_SUBMIT_TOKEN，其他几个参数基本上是不变的，能看懂js的找到passengerInfo_js.js文件，在1493行插入断点，进行调试可以看出参数是怎么来的。这里我把这个请求的js源代码中截图了，不会的也不要紧，我后面会解释参数大概由什么组成。

会一点js的看下面的图：
下面图片中的说的函数也能在源代码中找到：
ranCode的值是空的：

不会的看我给你们吹说：

passengerTicketStr：车座类型代号 + ',0,' + 车票类型代号(一般都是成人票：1) + ',' + 乘客姓名 + ',' + 证件类型代号 + ',' + 证件号 + ',' +  如果有电话号码这就是电话号码 + ',' + 是否保存的意思(一般为N)。

上面就是买单张票的参数组成，多人的加一个:‘__’ 下划线作为分割，后面再接上其他乘车人的信息就是了，我这里就不具体操作了，因为我们买的就是单张的票。

oldPassengerStr：乘客姓名+ ',' + 证件类型代号 + ',' + 证件号 + ',' + 乘客类型(成人、儿童什么的)。

tour_flag：在initDc这个响应里面的一个变量中的值，如果不知道可以直接写：dc，代表单程。

REPEAT_SUBMIT_TOKEN：也是initDc中定义的一个变量。

上面参数如果看不懂没关系，先跟着把代码写好，成功买一张票之后再来仔细分析，如果吧啦吧啦告诉你一大堆乱七八糟的东西，最后还买不了票肯定就想砸电脑了。

首先我们先来获取REPEAT_SUBMIT_TOKEN这个参数，你直接在initDc响应中的第12行就可以看到。

以及在后面买票的请求中的key_check_isChange参数我们也一并获取了吧，它是和其他信息存入一个json字符串中的，我们就不获取这个json字符串再把它转为json对象了，直接用正则匹配出这个参数就可以了。(其实里面还有leftTicketStr、train_location、tour_flag等参数，但是这些参数可以从我们在查询车票的那一串以‘|’分割的字符串就有)。

接下来就请求填写乘车人信息的这个界面的源代码。https://kyfw.12306.cn/otn/confirmPassenger/initDc

self.token、self.key以及下面的self.oldPassengerStr、self.passengerTicketStr都是定义在__init__中的空字符串，相信大佬们都应该猜得到吧，就是为了方便在不同地方使用这些变量。

下面是获取这两个参数的代码：

    # 获取REPEAT_SUBMIT_TOKEN和key_check_isChange
    def get_token_key(self):
        url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc'
        data = {
            '_json_att': ''
        }
        res = self.session.post(url, data)
        result = re.search(r"globalRepeatSubmitToken = '(.+?)'.*?key_check_isChange':'(.+?)'", res.text, re.S)
        self.token = result.group(1)
        self.key = result.group(2)
        print(self.token, self.key)

还有就是oldPassengerStr和passengerTicketStr两个参数了，这两个参数就是一些乘车人信息和车票信息拼接的，所以我们直接在检测订单请求的代码中进行拼接就可以了。

# 检测订单
    def check_order(self):
    	# 下面这两个没什么好说的，就是拼接字符串，以‘，’隔开
        self.oldPassengerStr = ','.join([self.selected_passenger['passenger_name'],
                                         self.selected_passenger['passenger_id_type_code'] +
                                         self.selected_passenger['passenger_id_no'],
                                         self.selected_passenger['passenger_type'] + "_"])  # 直接用乘车人信息进行拼接
        self.passengerTicketStr = ','.join((self.seat_map[self.selected_seat_name], '0', '1',
                                            self.selected_passenger['passenger_name'],
                                            self.selected_passenger['passenger_id_type_code'],
                                            self.selected_passenger['passenger_id_no'],
                                            self.selected_passenger['mobile_no'], 'N'))  # 0是固定不变的，我们就买成人票，所以有一个1，代表成人票，如果不要成人票可以去上面我截了部分名称和代号映射关系进行改写，或者就用乘车人类型也可以，因为它们的对应的代号都是一样的，最后一个是保存状态：N

        url = 'https://kyfw.12306.cn/otn/confirmPassenger/checkOrderInfo'
        data = {
                '_json_att': '',  # 空的
                'bed_level_order_num': '000000000000000000000000000000',  # 不变的
                'cancel_flag': '2',  # 不变的
                'oldPassengerStr': self.oldPassengerStr,
                'passengerTicketStr': self.passengerTicketStr,
                'randCode': '',  # 空的
                'REPEAT_SUBMIT_TOKEN': self.token,  # 在initDc响应中
                'tour_flag': 'dc',  # 我们这里就直接写dc，可以从initDc中获取
                'whatsSelect': '1',  # 是否选择了乘车人
        }

        res = self.session.post(url, data)
        print(res.text)

把打印的结果和浏览器中响应的进行对比，如果一样说明你成功了，如果有问题就检查一下参数是否正确吧。

请求火车票

最后一个请求了！
我这里就直接告诉请求火车票的地址了，避免浪费一次取消订单的机会，https://kyfw.12306.cn/otn/confirmPassenger/confirmSingleForQueue，也可以自己提交一次订单，就可以找到这个地址了。
打开这个请求，找到请求参数(你自己打开吧，我就不截图了，前面都查看这么多次请求了，都最后一个请求了，都会找了吧)，它的参数在源代码中是这样的，和上面检测订单请求的参数基本上都是差不多的，有几个一般也是固定的，我在代码中就写出基本上不会变的，其他的都可以从选择的车次（self.selected_train）信息中找到。

    # 确认订单，请求车票
    def confirm_order(self):
        url = 'https://kyfw.12306.cn/otn/confirmPassenger/confirmSingleForQueue'
        data = {
            '_json_att': '',
            'choose_seats': '',
            'dwAll': 'N',
            'key_check_isChange': self.key,
            'leftTicketStr': self.selected_train[12],
            'oldPassengerStr': self.oldPassengerStr,
            'passengerTicketStr': self.passengerTicketStr,
            'purpose_codes': '00', 
            'randCode': '',
            'REPEAT_SUBMIT_TOKEN': self.token,
            'roomType': '00',
            'seatDetailType': '000',
            'train_location': self.selected_train[15],
            'whatsSelect': '1'
        }
        res = self.session.post(url, data)
        print(res.text)

开始运行，如果这个请求响应的结果和下面打印一样，~~那么恭喜你看这个博客大概看了35000个字~~
恭喜你，订票成功，现在只需要在30分钟内去订单界面进行付款就行。

这个博客到这就差不多写完了，也是我的第一篇博客，怎么样？看完了是不是脑壳有点痛？当然，如果能顺利的预订车票，还是很开心的。我只写了能实现预订车票功能的代码，相信跟着写的人已经看出了有很多需要改进的地方，比如没有进行异常处理啊、在获取验证码图片失败时没有进行再次获取或者提示信息啊、在输入出发站、到达站等必须一次性输入正确啊、如果查询处理的车票信息为空应该显示该车次为空等等问题。如果仔细看了的，就可以发现我越到后面写得越简略，因为到了要交作业的时间了。期末了，每个老师都喊写各种项目，忙不过来了（你猜这是不是借口）。以后想起再改进吧，到时候又是猴年马月的事了，哈哈哈。还有抢票功能我还没有实验过，所以就不写了，思路很简单，就是不断进行查票请求，如果你想要买的车票从没有变为了有就立即下单就行了。如果这篇有一些写错了的希望大佬们指出；如果看完这篇博客觉得头痛欲裂的想打我的，我还是那句话：顺着网线来啊！

全部代码

import requests
import base64
import numpy as np
from matplotlib import pyplot as plt
from PIL import Image
import io
import re
from prettytable import PrettyTable
import colorama
from urllib import parse


# 格式打印
class FormatPrint:
    def __init__(self):
        colorama.init()  # 初始化

    @staticmethod
    def red(s):
        return colorama.Fore.RED + s + colorama.Fore.RESET  # Fore.RED把打印的内容颜色设为红色，Fore.RESET：清空颜色设置

    @staticmethod
    def green(s):
        return colorama.Fore.GREEN + s + colorama.Fore.RESET

    @staticmethod
    def yellow(s):
        return colorama.Fore.YELLOW + s + colorama.Fore.RESET

    @staticmethod
    def print(columns_name, rows):
        """
        :param rows: 需要打印的所有列名
        :param columns_name: 需要打印的所有行，以二维列表形式传入
        """
        table = PrettyTable(columns_name)
        for row in rows:
            table.add_row(row)
        print(table)


class Spider:
    def __init__(self):

        self.session = requests.session()  # 获取会话这个对象, 只需要在请求时把requests换成self.session就可以了

        self.points = []  # 储存点击点的坐标

        self.from_station = None  # 出发站
        self.to_station = None  # 到达站
        self.train_date = None  # 出发日期

        self.train_column_name = ['序号', '车次', '出发/到达站', '出发/到达时间', '历时', '商务座/特等座',
                                  '一等座', '二等座', '高级软卧', '软卧', '动卧', '硬卧', '软座', '硬座',
                                  '无座', '其他', '备注']

        self.chinese_code_swop = {}  # 储存车站名和代号
        self.train_list = []  # 存储查询出来了的车次
        self.passenger_list = []  # 存储获得出来的全部乘客
        
        self.selected_train = None  # 准备预定车票的车次
        self.selected_passenger = None  # 选择的乘车乘客
        self.selected_seat_name = None  # 选择的座位类型

        self.token = ''  # 在检测订单时需要的参数
        self.key = ''  # 在下单时需要的参数

        self.oldPassengerStr = ''  # 储存乘客信息
        self.passengerTicketStr = ''

        # 座位类型所对应的代号
        self.seat_map = {
            '商务座': '9',
            '一等座': 'M',
            '二等座': 'O',
            '高级软卧': '6',
            '软卧': '4',
            '硬卧': '3',
            '软座': '2',
            '硬座': '1',
            '动卧': 'F'
        }

        self.passenger_column_name = ['序号', '姓名', '身份证', '证件类型', '乘客类型', '电话号码']

    # 获取一张验证码图片
    def get_captcha(self):
        url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'  # 我发现后面的参数不写也能够获取，那我们就不写吧
        res = self.session.get(url)  # 换成self.session,下面的也一样
        return io.BytesIO(base64.b64decode(res.json()['image']))  # BytesIO把图片字节存入内存，使Image.open可以像文件一样操作它

    # 显示验证码图片
    def show_img(self):
        o_img = Image.open(self.get_captcha())
        np_img = np.array(o_img)  # 把这个图片GRB转为矩阵(和多维列表差不多)
        plt.imshow(np_img)
        plt.gcf().canvas.mpl_connect('button_press_event', self.mouse_press)
        plt.show()

    # 鼠标按下
    def mouse_press(self, event):
        x = event.xdata  # 在图片中点击的x坐标
        y = event.ydata  # 在图片中大奖的y坐标
        if y < 40:  # 如果点击图片上面的提示部分就直接返回
            return

        self.points.append([int(x), int(y)])  # 添加到全局的变量中

        plt.scatter([x for x, y in self.points], [y for x, y in self.points], c='r', s=100,
                    marker=(5, 1, 0))  # 画散点图，第一个参数是横坐标，第二个是纵坐标，c是颜色，s是大小，marker是形状
        plt.gcf().canvas.draw()  # 重新绘制

    # 检测验证码图片
    def captcha_check(self):
        url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
        answer = ','.join([str(x) + ',' + str(y - 40) for x, y in self.points])  # 转为需要传递的参数格式(y-40是把提示部分的高度减掉)
        params = {
            # 'callback': 'jQuery19104534505650716114_1545106279315',
            'answer': answer,
            'rand': 'sjrand',
            'login_site': 'E',
            '_': '1545106279318'
        }
        res = self.session.get(url, params=params)  # 在请求检测验证码图片时，给请求头加上全局变量中的cookies
        print(res.text)

    # 登录
    def login(self):
        url = 'https://kyfw.12306.cn/passport/web/login'
        data = {
            'username': '你的账号',
            'password': '你的密码',
            'appid': 'otn',
            # 'answer': '43,115,258,107'  # 这里可以不用写这个参数，以前版本的12306也没有这个参数，允也许现在没有对它进行验证吧
        }
        res = self.session.post(url, data=data)
        print('登录：', res.text)

        url = 'https://kyfw.12306.cn/passport/web/auth/uamtk'
        data = {
            'appid': 'otn'
        }
        res = self.session.post(url, data=data)
        print('认证：', res.text)

        url = 'https://kyfw.12306.cn/otn/uamauthclient'
        data = {
            'tk': res.json()['newapptk']
        }
        res = self.session.post(url, data)
        print('种植tk：', res.text)

        self.init_my12306()

    # 查看是否有自己的名字
    def init_my12306(self):
        url = 'https://kyfw.12306.cn/otn/index/initMy12306Api'
        res = self.session.get(url)
        print(res.text)

    # 获取车站名称代号
    def get_station_name(self):
        url = 'https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9081'
        stations_name = self.session.get(url).text

        result = re.findall(r'([\u4e00-\u9fa5]+)\|([A-Z]+)', stations_name)  # 正则进行匹配，[\u4e00-\u9fa5]表示汉字

        # 存入字典中
        for chinese, code in result:
            self.chinese_code_swop[chinese] = code  # 把中文作为键，代号作为值
            self.chinese_code_swop[code] = chinese  # 把代号作为键，作为中文值

    # 查询车票
    def query_ticket(self):
        self.from_station = input('输入出发站：')
        self.to_station = input('输入到达站：')
        self.train_date = input('输入出发日期(格式如：2019-01-09)：')

        url = 'https://kyfw.12306.cn/otn/leftTicket/queryA'
        params = {
            'leftTicketDTO.train_date': self.train_date,
            'leftTicketDTO.from_station': self.chinese_code_swop[self.from_station],
            'leftTicketDTO.to_station': self.chinese_code_swop[self.to_station],
            'purpose_codes': 'ADULT'
        }

        res = self.session.get(url, params=params)
        print(res.text)
        self.train_list = [['--' if item == '' else item for item in train.split('|')] for train in
                           res.json()['data']['result']]  # 列表生成式（可以用for循环写），分割车次信息以及把空的信息换成--

        # 打印我们需要的信息
        format_print = FormatPrint()  # 实例一个我们写的格式化打印类
        rows = []  # 存储打印的所有行
        for train in self.train_list:  # 添加行
            rows.append([self.train_list.index(train) + 1, train[3],
                         format_print.green(self.chinese_code_swop[train[6]]) + '\n' +
                         format_print.red(self.chinese_code_swop[train[7]]),
                         format_print.green(train[8]) + '\n' + format_print.red(train[9]), train[10],
                         train[25] or train[32],  # 25和32好像都表示特等座，所以我们都写上去
                         train[31], train[30], train[21], train[23], train[27], train[28],
                         train[24], train[29], train[26], train[22],
                         format_print.green(train[1]) if train[1] == '预订' else format_print.red(train[1])])

        format_print.print(self.train_column_name, rows)  # 调用FormatPrint对象中的方法打印

    # 选择车次
    def select_train(self):
        format_print = FormatPrint()  # 实例一个我们写的格式化打印类

        num = int(input('请输入预订车次序号：'))
        self.selected_train = self.train_list[num - 1]

        select_row = [num, self.selected_train[3],
                      format_print.green(self.chinese_code_swop[self.selected_train[6]]) + '\n' +
                      format_print.red(self.chinese_code_swop[self.selected_train[7]]),
                      format_print.green(self.selected_train[8]) + '\n' + format_print.red(self.selected_train[9]),
                      self.selected_train[10], self.selected_train[25] or self.selected_train[32],
                      self.selected_train[31], self.selected_train[30], self.selected_train[21],
                      self.selected_train[23], self.selected_train[27], self.selected_train[28],
                      self.selected_train[24], self.selected_train[29], self.selected_train[26],
                      self.selected_train[22],
                      format_print.green(self.selected_train[1]) if self.selected_train[1] == '预订'
                      else format_print.red(self.selected_train[1])]
        print('你选择的是车次信息：')
        format_print.print(self.train_column_name, [select_row])  # 注意行信息是传入二维列表

    # 检测用户是否登录
    def check_user(self):
        url = 'https://kyfw.12306.cn/otn/login/checkUser'
        data = {
            '_json_att': ''
        }
        res = self.session.post(url, data)
        print(res.text)

    # 检测是否还有未完成订单
    def submit_order(self):
        url = 'https://kyfw.12306.cn/otn/leftTicket/submitOrderRequest'
        data = {
            # 使用replace替换
            # 'secretStr': self.__selected_train[0].replace('%2B', '+').replace('%2F', '/').replace('%0A', '\n'),
            'secretStr': parse.unquote(self.selected_train[0]),  # 直接进行解码
            'train_date': self.train_date,
            'back_train_date': self.train_date,  # 返程日期不重要，我们购买的是单程车票
            'tour_flag': 'dc',
            'purpose_codes': 'ADULT',
            'query_from_station_name': self.from_station,
            'query_to_station_name': self.to_station,
            'undefined': ''
        }
        res = self.session.post(url, data)
        print(res.text)

    # 获取全部的乘客信息
    def get_passengers(self):
        url = 'https://kyfw.12306.cn/otn/confirmPassenger/getPassengerDTOs'
        res = self.session.post(url)

        self.passenger_list = res.json()['data']['normal_passengers']

        format_print = FormatPrint()
        passenger_rows = []
        for passenger in self.passenger_list:
            passenger_rows.append([passenger['code'], passenger['passenger_name'],
                                   passenger['passenger_id_type_name'], passenger['passenger_id_no'],
                                   passenger['passenger_type_name'], passenger['mobile_no']])
        format_print.print(self.passenger_column_name, passenger_rows)

    # 选择乘车乘客
    def select_passenger(self):
        num = int(input('输入序号，选择乘车人：'))
        
        self.selected_passenger = self.passenger_list[num - 1]

        # 和选择的车次一样，也进行打印一下选择的乘客信息
        format_print = FormatPrint()
        passenger_rows = [self.selected_passenger['code'], self.selected_passenger['passenger_name'],
                          self.selected_passenger['passenger_id_type_name'],
                          self.selected_passenger['passenger_id_no'],
                          self.selected_passenger['passenger_type_name'],
                          self.selected_passenger['mobile_no']]
        print('你选择的乘客信息：')
        format_print.print(self.passenger_column_name, [passenger_rows])

    # 选择座位类型
    def select_seat(self):
        format_print = FormatPrint()  # 实例一个我们写的格式化打印类
        select_row = [self.train_list.index(self.selected_train), self.selected_train[3],
                      format_print.green(self.chinese_code_swop[self.selected_train[6]]) + '\n' +
                      format_print.red(self.chinese_code_swop[self.selected_train[7]]),
                      format_print.green(self.selected_train[8]) + '\n' + format_print.red(self.selected_train[9]),
                      self.selected_train[10], self.selected_train[25] or self.selected_train[32],
                      self.selected_train[31], self.selected_train[30], self.selected_train[21],
                      self.selected_train[23], self.selected_train[27], self.selected_train[28],
                      self.selected_train[24], self.selected_train[29], self.selected_train[26],
                      self.selected_train[22],
                      format_print.green(self.selected_train[1]) if self.selected_train[1] == '预订'
                      else format_print.red(self.selected_train[1])]

        format_print.print(self.train_column_name, [select_row])  # 注意行信息是传入二维列表

        self.selected_seat_name = input('请输入还有余票的车座类型：')
        print('你选择的座位类型是：', self.selected_seat_name)

    # 获取REPEAT_SUBMIT_TOKEN和key_check_isChange
    def get_token_key(self):
        url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc'
        data = {
            '_json_att': ''
        }
        res = self.session.post(url, data)
        result = re.search(r"globalRepeatSubmitToken = '(.+?)'.*?key_check_isChange':'(.+?)'", res.text, re.S)
        self.token = result.group(1)
        self.key = result.group(2)
        print(self.token, self.key)

    # 检测订单
    def check_order(self):
        # 下面这两个没什么好说的，就是拼接字符串，以‘，’隔开
        self.oldPassengerStr = ','.join([self.selected_passenger['passenger_name'],
                                         self.selected_passenger['passenger_id_type_code'] +
                                         self.selected_passenger['passenger_id_no'],
                                         self.selected_passenger['passenger_type'] + "_"])
        self.passengerTicketStr = ','.join([self.seat_map[self.selected_seat_name], '0', '1',
                                            self.selected_passenger['passenger_name'],
                                            self.selected_passenger['passenger_id_type_code'],
                                            self.selected_passenger['passenger_id_no'],
                                            self.selected_passenger['mobile_no'], 'N'])

        url = 'https://kyfw.12306.cn/otn/confirmPassenger/checkOrderInfo'
        data = {
                '_json_att': '',  # 空的
                'bed_level_order_num': '000000000000000000000000000000',  # 不变的
                'cancel_flag': '2',  # 不变的
                'oldPassengerStr': self.oldPassengerStr,
                'passengerTicketStr': self.passengerTicketStr,
                'randCode': '',  # 空的
                'REPEAT_SUBMIT_TOKEN': self.token,  # 在initDc响应中
                'tour_flag': 'dc',  # 我们这里就直接写dc，可以从initDc中获取
                'whatsSelect': '1',  # 是否选择了乘车人
        }

        res = self.session.post(url, data)
        print('检查订单：', res.text)

    # 确认订单，请求车票
    def confirm_order(self):
        url = 'https://kyfw.12306.cn/otn/confirmPassenger/confirmSingleForQueue'
        data = {
            '_json_att': '',
            'choose_seats': '',
            'dwAll': 'N',
            'key_check_isChange': self.key,
            'leftTicketStr': self.selected_train[12],
            'oldPassengerStr': self.oldPassengerStr,
            'passengerTicketStr': self.passengerTicketStr,
            'purpose_codes': '00',  # 这个参数是
            'randCode': '',
            'REPEAT_SUBMIT_TOKEN': self.token,
            'roomType': '00',
            'seatDetailType': '000',
            'train_location': self.selected_train[15],
            'whatsSelect': '1'
        }
        res = self.session.post(url, data)
        print(res.text)


if __name__ == '__main__':
    spider = Spider()
    spider.show_img()  # 获取并显示验证码图片
    spider.captcha_check()  # 检测验证码
    spider.login()  # 账号密码登录
    spider.get_station_name()  # 获取车站名称信息
    spider.query_ticket()  # 查询车票
    spider.select_train()  # 选择需要预定的车次
    spider.check_user()  # 检测用户是否登录
    spider.submit_order()  #  # 检测是否还有未完成订单
    spider.get_passengers()  # 获取该账户的全部乘客
    spider.select_passenger()  # 选择乘车乘客
    spider.select_seat()  # 选择座位类型
    spider.get_token_key()  # 获取提交订单请求需要的参数
    spider.check_order()  # 检测订单信息
    spider.confirm_order()  # 确定订单

你可能感兴趣的:(python爬虫,12306爬虫)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
拼多多商家电话采集工具爬虫教程分享小电商达人爬虫
以下是使用Python编写的拼多多商家电话采集爬虫教程：一、前期准备安装Python：从Python官方网站下载并安装最新版本的Python，安装过程中注意勾选将Python添加到系统路径选项。安装相关库：在命令提示符中运行以下命令来安装所需的库。pipinstallrequests：用于发送HTTP请求获取网页内容。pipinstallbeautifulsoup4：用于解析HTML页面。二、分析
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
分布式框架Celery七(Django-Celery-Flower实现异步和定时爬虫及其监控邮件告警) yjjpp2301 Celery 分布式 django python 后端
Django中集成方式安装模块pipinstallDjango==3.2.22pipinstallcelerypipinstallredispipinstalleventlet#在windows环境下需要安装eventlet包-----------pipinstalldjango-celery-beatpipinstalldjango-celery-resultspipinstalldjango-
生产者消费者模式_Labview基础之生产者消费者设计模式（事件） weixin_39532699 生产者消费者模式
1绪论近期，开了一个QQ群，刚开始的目的也是想多拉写软件相关的大神，有问题的时候也可以交流交流。记得当时有个软件在写的时候遇到了一个棘手的问题，outlook邮箱配置账户密码的问题，到现在也没解决，算了，也不是很迫切。2000人群就留在那里爬虫发单吧！建群以后才发现，原来这一块的小白还挺多，总结起来就一个原因：做这个软件的大多数都不是软件出生，都是因为临时要搭建一个上位机平台，匆匆入门......
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st