古凡之

python爬虫系列（3）：使用Selenium和BeautifulSoup获取12306一个月内所有车次车票情况

首先针对标题说明一下，本次的获取数据是指定出发地和目的地之间的车次，不是整个网站所有车次。

在此操作之前，请确保自己的相关的库都已经安装完全，这里可没有教安装库的方法哦~~~~好的，往下走，这次的目标网页是 https://kyfw.12306.cn/otn/leftTicket/init，查询12306余票情况，老套路打开浏览器的开发者模式。因为这次使用的是Selenium控制浏览器模拟人为点击的方式操作，所以在这之前我们需要自己使用浏览器点击操作一番，看看怎么使用这个网页：

经过一番点击测试，发现出发地和目的地都必须要选择，出发日也是必选项。但是发现，这些输入框都不是我们自己输入内容，只能是先点击这个框框后（如下图），在下面会出现出发地选项框，在这些选项框中选择一个出发地，这样才被网站识别为有效输入，后面的出发日期也是同样的道理。等这些必要的信息都已经输入完毕后点击右边那橘黄色的“查询”按钮，这是指定日期的所有车次信息全部都显示出来。

现在我们学会了怎么查询车班次，这时我们来整理思路，怎么抓取30天所有的车班次呢？小脑袋瓜稍微的转一下就能想到，只要输入完出发地和目的地后，再输入正确的日期，点击查询后这一天的信息就出来了，然后再重新输入下一天的日期，再点击查询，这样反复30次，ok，30天的数据就摆在我们眼前了。

第一步：定位出发地输入框，在输入框右击，可以看到检查（审查元素），这时候就会自动跳到开发者模式的elements中的相应的位置，然后右击copy selector，待会儿在代码中会用到。右边的目的输入框同样的方法实现。

    def input_FromTo(self):
        fromStation = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#fromStationText")))  #刚刚copy的内容在这里使用
        fromStation.click()              #点击输入框选中
        fromStation.clear()              #删除其中默认的文字
        fromStation.send_keys('北京')    #输入出发地
        fStation = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#citem_0 > span:nth-child(1)")))  #等待下拉选项框中指定的元素出来
        fStation.click()                 #等指定的元素出来之后，模拟点击选择
        toStation = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#toStationText")))
        toStation.click()
        toStation.clear()
        toStation.send_keys('上海')
        tStation = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#citem_0 > span:nth-child(1)")))
        tStation.click()

第二步：搞定时间，在时间上我们可以读取本地的时间，知道今天的时间，然后在出现的日历框中输入指定的月和日，定位可以看出CSS选择器的规律，只要在child后给出相应的月和日的数值就能点击输入对应的时间。到此可以写一个设置时间的方法，方法带有一个入参，入参为从今天的日期起算，往后推算第n天，入参便是这个n：

css_month = 'body > div.cal-wrap > div:nth-child(1) > div.cal-top > div.month > ul > li:nth-child(%d)' % month
css_day = 'body > div.cal-wrap > div:nth-child(1) > div.cal-cm > div:nth-child(%d) > div' % day

    def set_date(self, n):
        needDate = datetime.datetime.now() + datetime.timedelta(days = n)   #获取今天的时间往后偏移n天      
        css_month = 'body > div.cal-wrap > div:nth-child(1) > div.cal-top > div.month > ul > li:nth-child(%d)' % needDate.month
        css_day = 'body > div.cal-wrap > div:nth-child(1) > div.cal-cm > div:nth-child(%d) > div' % needDate.day
        
        #点击选择出发时间输入框
        train_date = self.wait.until(EC.presence_of_element_located((By.ID, "train_date")))
        train_date.click()
        
        #点击左边选择月份表
        month_list = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'body > div.cal-wrap > div:nth-child(1) > div.cal-top > div.month > input[type="text"]')))
        month_list.click()
        month = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, css_month)))
        month.click()
        
        get_date_list = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, css_day)))
        get_date_list.click()
        self.click_query()
        return needDate

第三步：点击查询按钮等待数据的呈现：

    #点击查询按钮
    def click_query(self):
        self.query_ticket = self.wait.until(EC.presence_of_element_located((By.ID, "query_ticket")))
        self.query_ticket.click()

第四步：分析数据获取数据，可以看到，tobody节点中的tr标签都是展开都是我们需要的单次列车信息，需要将这里面的数据解析出来报文，打印，或者做其他的数据分析处理。这里就可以使用BeautifulSoup解析库处理，首先可以根据关键字tobody中的id属性立刻定位到列表信息的位置所在，然后将tobody中的每一个车次行信息提取出来，送到单独处理行信息的方法中。在该方法中就可以将我们期望需要的信息提取出来。

    #对每一列车次的信息进行解析
    def get_detail_info(self, node):
        autoShift = {}
        data = []
        nodes = node.contents
        queryLeftTable = nodes[0].div.div.div.a.string   #车班次，为key
        autoShift[queryLeftTable] = list()
        strong = nodes[0].select('strong')
        for i in range(0,4):
            data.append(strong[i].string)

        for i in range(1,len(nodes)):
        #在node.contents时，列表中有很多空格，会导致异常发生，在之前将数据清洗这里就可以不用异常判断，这里大家可以自己试试
            try:   
                if nodes[i].string != '--':
                    key = nodes[i].attrs['id'].split('_')[0]
                    str = self.ztype[nodes[i].attrs['id'].split('_')[0]] + ":" + nodes[i].string
                    data.append(str)
            except:
                pass
        autoShift[queryLeftTable] = data
        print(autoShift)
        
    #在网页中找到一页班次信息，然后遍历这些班次信息
    def get_list(self, date):  
        print('\n', date, ':')
        info = list()        
        soup = BeautifulSoup(self.browser.page_source, 'lxml')
        soup = soup.select('#queryLeftTable')   #在整个网页中找到该id
        queryLeftTable =  soup[0].select('tr[id^="ticket_"]')     #返回列表，列表每个内容为一个节点tag
        for tr in queryLeftTable:
            self.get_detail_info(tr)  #传入每一列车次的信息

在这里我们没有将数据保存下来，只是将其打印出来看我们确实将这些数据得到了，本章做个保留，等到后面我们将数据进行可是化的时候，再回头对这些数据做一些简单的处理，并将数据以图表的形式呈现出来，现将所有的代码和运行结果贴出来，写的并不是完美的，大家可以将这些代码复制下来进行改动，达到完美：

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from bs4 import BeautifulSoup
import io,sys, time, datetime, re

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 

class Info12306(object):
    def __init__(self):
        #座位种类
        self.ztype = {"SWZ" : "商务特等座",
                     "ZY" : "一等座", 
                     "ZE" : "二等座", 
                     "GR" : "高级软卧", 
                     "RW" : "软卧", 
                     "SRRB" : "动卧",
                     "YW" : "硬卧", 
                     "RZ" : "软座", 
                     "YZ" : "硬座", 
                     "WZ" : "无座", 
                     "QT" : "其他"}
        self.url = "https://kyfw.12306.cn/otn/leftTicket/init"
        self.info = {}
        self.browser = webdriver.Chrome()        #初始化浏览器 
        self.wait = WebDriverWait(self.browser, 5)
        
    def open_html(self):
        self.browser.get(self.url)
        
    def close_html(self):
        self.browser.close()
        
    #点击查询按钮
    def click_query(self):
        self.query_ticket = self.wait.until(EC.presence_of_element_located((By.ID, "query_ticket")))
        self.query_ticket.click()
     
    #点击离今天往后第n天的结果
    def set_date(self, n):
        needDate = datetime.datetime.now() + datetime.timedelta(days = n)   #获取今天的时间往后偏移n天      
        css_month = 'body > div.cal-wrap > div:nth-child(1) > div.cal-top > div.month > ul > li:nth-child(%d)' % needDate.month
        css_day = 'body > div.cal-wrap > div:nth-child(1) > div.cal-cm > div:nth-child(%d) > div' % needDate.day
        
        #点击选择出发时间输入框
        train_date = self.wait.until(EC.presence_of_element_located((By.ID, "train_date")))
        train_date.click()
        
        #点击左边选择月份表
        month_list = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'body > div.cal-wrap > div:nth-child(1) > div.cal-top > div.month > input[type="text"]')))
        month_list.click()
        month = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, css_month)))
        month.click()
        
        get_date_list = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, css_day)))
        get_date_list.click()
        self.click_query()
        return needDate

    #选择面板上的日期
    def select_date(self):
        action = ActionChains(self.browser)     #使用浏览器动作模拟库
        move_to_date = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#date_range > ul > li:nth-child(3)")))
        action.move_to_element(move_to_date).perform()
        action.click(move_to_date).perform()
    
    #输入出发地和目的地，可以手动添加地址
    def input_FromTo(self):
        fromStation = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#fromStationText")))
        fromStation.click()
        fromStation.clear()
        fromStation.send_keys('北京')
        fStation = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#citem_0 > span:nth-child(1)")))
        fStation.click()
        toStation = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#toStationText")))
        toStation.click()
        toStation.clear()
        toStation.send_keys('上海')
        tStation = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#citem_0 > span:nth-child(1)")))
        tStation.click()
        
    def get_detail_info(self, node):
        autoShift = {}
        data = []
        nodes = node.contents
        queryLeftTable = nodes[0].div.div.div.a.string   #车班次，为key
        autoShift[queryLeftTable] = list()
        strong = nodes[0].select('strong')
        for i in range(0,4):
            data.append(strong[i].string)

        for i in range(1,len(nodes)):
            try:
                if nodes[i].string != '--':
                    key = nodes[i].attrs['id'].split('_')[0]
                    str = self.ztype[nodes[i].attrs['id'].split('_')[0]] + ":" + nodes[i].string
                    data.append(str)
            except:
                pass
        autoShift[queryLeftTable] = data
        print(autoShift)
        
    def get_list(self, date):  
        print('\n', date, ':')
        info = list()        
        soup = BeautifulSoup(self.browser.page_source, 'lxml')
        soup = soup.select('#queryLeftTable')
        queryLeftTable =  soup[0].select('tr[id^="ticket_"]')     #返回列表，列表每个内容为一个节点tag
        for tr in queryLeftTable:
            self.get_detail_info(tr)
   
    def run(self):
        self.open_html()
        self.input_FromTo()
        for seq in range(0,1):
            date = self.set_date(seq)
            time.sleep(1)
            self.get_list(date)
        #self.close_html()
        
Get12306 = Info12306()
Get12306.run()

运行结果

小结：使用selenium的好处就是不需要分析后台传送的数据，因为后台传输的数据有可能是加密，这样的数据抓取了也是没有用的，对于selenium来说这些都是不存的，在页面可见即可抓，管你加密不加密，这就是selenium，当然这里的解析库也可以只用其他的，根据不同的场景选择不同的解析库有助于提高抓取效率。

matplotlib 绘制热力图扶子 python matplotlib绘图代码 matplotlib python 经验分享热力图
1、功能介绍：使用了matplotlib和seaborn两个python库来创建并显示一个热力图。热力图是一种通过颜色变化来表示二维表格数据集中值分布的图形，适合用于展示矩阵数据或数据分析结果中的模式和趋势。2、代码部分：importmatplotlib.pyplotaspltimportseabornassnsimportnumpyasnp#设置中文字体plt.rcParams['font.sa
open3d 使用 RANSAC 算法拟合平面扶子 python 点云处理平面 python open3d 经验分享点云拟合平面
1、功能介绍：一个python代码演示了如何使用open3d和numpy来完成一个完整的点云平面拟合任务。它包括以下几个主要部分：生成符合某一平面方程的随机点云数据、使用RANSAC算法对这些点云进行平面拟合、可视化原始点云和平面拟合结果2、代码部分：importnumpyasnpimportopen3daso3d#生成随机点云np.random.seed(42)n_points=100#假设这些
pycharm——djiango之数据迁移，终端操作 Pop– python
首先在pycharm中找到terminal(终端)，输入指令：pythonmanage.pymakemigrations之后你会看到如下图：这表示创建成功。接着输入指令：pythonmanage.pymigrate就能看到好多ok，你在数据库中也能看到很多表你可以在终端打开数据库查看表，也可以使用客户端的可视化界面查看，还可以在pycharm中右边的database里边打开查看，如下图：之后你就可
python 百度云api_Python使用百度API上传文件到百度网盘代码分享 weixin_39775577 python 百度云api
#coding:UTF-8importurllibimporturllib2__author__='Administrator'fromposter.encodeimportmultipart_encodefromposter.streaminghttpimportregister_openersregister_openers()defupload(fileName):"""通过百度开发者API
Flask入门基础1 浅清陌 Flask flask python 后端
1Flask简介Flask诞生于2010年，是Arminronacher（阿明·罗纳彻）用Python语言基于Werkzeug工具箱编写的轻量级Web开发框架。Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login，数据库Flask-SQLAlchemy），都需要用第三方的扩展来实现。比如可以用Flask扩展加入ORM、窗体验证工
C++封装python调用库技术大白 c++开发语言
传结构体中间用空字符串问题使用callback传输结构体，中间出现\0字符，使用std::vector类型voidPyProcessInterface::ProcessContent(constchar*buff,UINT32size,boolfromSelf){if(callback){std::vectordataVec(buff,buff+size);callback(std::move(d
量化价值投资入门：Fama-French三因子模型详解与实战应用量化价值投资入门到精通 ai
量化价值投资入门：Fama-French三因子模型详解与实战应用关键词：量化投资、Fama-French三因子模型、价值投资、因子投资、资产定价、Python实现、投资组合管理摘要：本文深入解析Fama-French三因子模型的理论基础、数学原理和实际应用。作为现代金融学最重要的资产定价模型之一，三因子模型通过市场因子、规模因子和价值因子解释股票收益差异。我们将从模型起源开始，详细讲解其数学表达和
Python操作百度网盘指南 weixin_47233946 编程 python 开发语言
##介绍百度网盘是中国流行的云存储服务，通过API可以实现自动化操作。本指南介绍如何使用Python操作百度网盘，包括上传、下载、管理文件等功能。##准备工作###1.获取百度网盘开发者权限1.访问[百度开发者中心](https://pan.baidu.com/union/home)2.注册开发者账号并创建应用3.获取API密钥（AppKey和SecretKey）###2.安装必要的Python库
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
Python基础（吃洋葱小游戏） aaiier python pygame 开发语言
下面我将为你设计一个"吃洋葱小游戏"的Python实现方案，使用Pygame库开发。这个游戏模拟吃洋葱的过程，玩家需要收集不同种类的洋葱以获得高分，同时避免吃到辣椒。吃洋葱小游戏-Python实现方案1.游戏设计概念游戏目标：玩家控制角色吃掉尽可能多的洋葱获得高分核心机制：洋葱从屏幕上方随机下落玩家左右移动角色接住洋葱不同洋葱有不同分值（普通洋葱+10，红洋葱+20，紫洋葱+50）辣椒会扣减生命值
模拟工作队列 - 华为OD机试真题(JavaScript卷) 什码情况算法面试 javascript 数据结构华为od
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述让我们来模拟一个工作队列的运作，有一个任务提交者和若干任务执行者，执行者从1开始编号。提交者会在给定的时
数据分类 - 华为OD机试真题(JavaScript 题解) 什码情况华为od javascript 开发语言数据结构算法机试
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述对一个数据a进行分类，分类方法为：此数据a（四个字节大小）的四个字节相加对一个给定的值b取模，如果得到的
odrive软件的版本 m0_55305757 stm32 电机嵌入式硬件 odrive
odrive软件的版本0.4.0通信方面引入一个fibre变复杂了（节点还是手工生成的），cpp程序开始变多了。（sensorless我看到变成独立文件了）pythontool开始使用pip安装形式。0.5.0开始支持spi的encoder，as5047之类0.5.1据说之后的版本controlloop开始变化0.5.2开始应该是大修改了//RequiredtouseOC4forADCtrigge
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
ROS学习笔记5：常用API和模块导入
前言本人ROS小白，利用寒假时间学习ROS，在此以笔记的方式记录自己每天的学习过程。争取写满15篇(5/15)。环境：Ubuntu20.04、ROS1：noetic环境配置：严格按照下方学习链接的教程配置，基本一次成功。学习链接：【Autolabor初级教程】ROS机器人入门对应链接文档：ROS机器人入门课程《ROS理论与实践》笔记绝大部分代码使用Python语言编写。本期关键词：初始化，话题服务
一个简单测试Deepseek吞吐量的脚本,国内环境可跑谢平康深度学习 pytorch 人工智能
一个简单测试Deepseek吞吐量的脚本,这里用DeepSeek-R1-Distill-Qwen-32B,支持单卡409024G可跑,具体看你的硬件情况做调整,理论支持所有的模型,看你需要,可以修改模型名称,重点是pip使用国内的源,模型下载用阿里的ModelScope,无障碍下载,使用.最后可以生成一个txt与html报表.前提是你安装了python与python-venv,你可以不用venv来
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
Ast解析Python代码示例 X1A0RAN python 开发语言
#-*-coding:utf-8-*-#@Desc:Ast代码解析示例importastclassCodeParse():def__init__(self):self.visited_nodes=set()#解析装饰器defparse_decorator(self,decorator):returnast.dump(decorator)#解析函数defparse_func(self,node,st
Python编程实战：爬虫与数据可视化的全过程草莓味儿柠檬
本文还有配套的精品资源，点击获取简介：本项目通过Python编程实现网络数据爬取和数据可视化，适合初学者深入了解Python。我们将涵盖基础语法、网络爬虫技术、数据处理、可视化技术、文件操作和错误处理等关键知识点，最终完成从爬取各省降水量数据到可视化展示的全过程。1.Python基础语法使用Python作为一门流行的编程语言，因其简洁和易读性被广泛应用于网络爬虫、数据处理和可视化等领域。本章将帮助
GESP认证C++编程真题解析 | GESP202409 三级单选题和判断题热爱编程的通信人历年GESP CSP-J CSP-S真题解析 c++开发语言
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
LeetCode 学习day3 不喜勿喷小小小新人12123 leetcode 学习算法 python
题目：给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。（LeetCode121.买卖股票的最佳时机）问题分析：简而言之为求最大差Python代码：importnumpyasnpc
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
python-拆解sklearn中决策树 weixin_41177022 scikit-learn 决策树 python 机器学习编程
获取树结构实体对scikit-learn中DecisionTreeClassifier/Regressor的实例调用.tree_属性可以得到树结构。参考sklearn的决策树的官方说明sklearn.tree.DecisionTreeClassifier（不过里面说的help(sklearn.tree._tree.Tree)似乎不管用）获取决策树基本信息node总数可以用model.tree_.n
Java爬虫实战指南：按关键字搜索京东商品爬虫程序猿 java 爬虫开发语言
在电商领域，快速获取商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。京东作为国内领先的电商平台之一，提供了丰富的商品数据。虽然京东开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索京东商品，并提供详细的代码示例。一、准备工作（一）Java开发环境确保你的Java开发环境已经安装了以下必要的库：Jsou
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
python abc模块_Python -- abc module weixin_39727743 python abc模块
1.ABC模块作用Python本身不提供抽象类和接口机制，想要实现抽象类，可以借助abc模块。ABC是AbstractBaseClass的缩写，是用来定义抽象类的，具体的介绍请参考PEP3119。2.模块中的类和函数介绍abc.ABCMeta，用来生成抽象基础类的元类。由它生成的类可以被直接继承。register首先注册一个abc的虚拟子类fromabcimportABCMetaclassMyAB
git的author和commiter的修改 weixin_34161032 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>git的author和commiter的修改.git的文件夹，进去，就会看到有一个config文件,编辑,加上===========================================[user]#设置用户名name=xxx#设置用户的邮箱[email protected],=========================
python abc模块
面向对象的设计中，抽象类，接口这些必不可少的东西，在python中是如何提现的呢？python作为一个动态语言，没有强类型的检查，而是以鸭子类型的方式提现，在执行的时候python不严格要求你必须是继承指定的父类而来，只要在调用的时候你有相应的方法和属性就可以了，长的像鸭子你就是鸭子。也正是基于python这样的特性，python中没有interface的概念，有说interface并不是普遍存在
Python collections.abc模块介绍 qq_27390023 python 开发语言
collections.abc是Python标准库中的一个模块，提供了一系列抽象基类（AbstractBaseClasses,ABCs），用于定义和检查容器类型（如序列、映射、集合等）的接口。这些抽象基类为常见的数据结构提供了统一的接口和行为规范，使得开发者可以更方便地实现和使用这些数据结构。1.collections.abc的作用collections.abc模块的主要作用是提供一组抽象基类，用
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

python爬虫系列（3）：使用Selenium和BeautifulSoup获取12306一个月内所有车次车票情况

你可能感兴趣的:(爬虫,python,学习过程)