Python编程KK

Python爬虫：12306抢票，开源代码！

今天就和大家一起来讨论一下python实现12306余票查询（pycharm+python3.7），一起来感受一下python爬虫的简单实践
我们说先在浏览器中打开开发者工具(F12)，尝试一次余票的查询，通过开发者工具查看发出请求的包

可以看到红框框中的URL就是我们向12306服务器发出的请求，那么具体是什么呢？我们来看看
https://kyfw.12306.cn/otn/leftTicket/queryZ?leftTicketDTO.train_date=2019-01-21&leftTicketDTO.from_station=CDW&leftTicketDTO.to_station=SZQ&purpose_codes=ADULT
可以看到发出请求的几个字段：

leftTicketDTO.train_date：查询的日期
leftTicketDTO.from_station：查询的出发地
leftTicketDTO.to_station：查询的目的地
purpose_codes：不太清楚这个字段是用来做什么的，就默认吧

可以从我们递交的URL请求看出，我们输入的成都，深圳都变成了对应的编号，比如，成都（CDW）、深圳（SZQ），所以当我们程序进行输入的时候要进行一下处理，12306的一个地方存储着这些城市名与编码对应的文档：https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8971

如果你依然在编程的世界里迷茫，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的。交流经验。从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！分享一些学习的方法和需要注意的小细节，点击加入我们的 python学习者聚集地

下面我们就编写一个小程序，将这些城市名与编号提取出来：

import re,requests

url = "https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8971"
response = requests.get(url,verify=False)
#将车站的名字和编码进行提取
chezhan = re.findall(r'([\u4e00-\u9fa5]+)\|([A-Z]+)', response.text)
chezhan_code = dict(chezhan)
#进行交换
chezhan_names = dict(zip(chezhan_code.values(),chezhan_code.keys()))
#打印出得到的车站字典
print(chezhan_names)

得到的打印结果如下（只截取部分显示）：

{‘VAP’: ‘北京北’, ‘BOP’: ‘北京东’, ‘BJP’: ‘北京’, ‘VNP’: ‘北京南’, ‘BXP’: ‘北京西’, ‘IZQ’: ‘广州南’, ‘CUW’: ‘重庆北’, ‘CQW’: ‘重庆’, ‘CRW’: ‘重庆南’, ‘CXW’: ‘重庆西’, ‘GGQ’: ‘广州东’, ‘SHH’: ‘上海’, ‘SNH’: ‘上海南’, ‘AOH’: ‘上海虹桥’, ‘SXH’: ‘上海西’, ‘TBP’: ‘天津北’, ‘TJP’: ‘天津’, ‘TIP’: ‘天津南’, ‘TXP’: ‘天津西’, ‘XJA’: ‘香港西九龙’, ‘CCT’: ‘长春’, ‘CET’: ‘长春南’, ‘CRT’: ‘长春西’, ‘ICW’: ‘成都东’, ‘CNW’: ‘成都南’, ‘CDW’: ‘成都’, ‘CSQ’: ‘长沙’, ‘CWQ’: ‘长沙南’,}

接下来我们就动手开始程序的主要代码编写：

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容
def main():
    date         = input("请输入时间(如2019-01-22)：\n")
    from_station = chezhan_code[input("请输入起始站点：\n")]
    to_station   = chezhan_code[input("请输入目的站点：\n")]
    url          = "https://kyfw.12306.cn/otn/leftTicket/queryZ?"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5702.400 QQBrowser/10.2.1893.400"
    }
    url=url+"leftTicketDTO.train_date="+date+"&leftTicketDTO.from_station="+from_station+"&leftTicketDTO.to_station="+to_station+"&purpose_codes=ADULT"
    #print(url) 已经检查过生成的URL是正确的
    #request请求获取主页
    r = requests.get(url,headers=headers)
    r.raise_for_status()   #如果发送了一个错误的请求，会抛出异常
    r.encoding = r.apparent_encoding
    showTicket(r.text)

用户输入时间、起始站点、目的站点，然后通过get来请求，然后我们对返回的网页信息进行解析。我们现将上面代码的r.text进行打印，看看我们请求之后，返回了什么样的信息，然后决定我们应该如何解析

这样看着不方便，我们粘贴到记事本中，进行详细的分析：

可以与12306显示的信息进行对比，K829是车次，CDW与BJQ是出发地和目的地，10:10是出发时间，06:13是到达时间，44:21是历时时间，20190123为查询的日期，剩下的就是一系列票的各种信息。
下面就是对这些返回的信息进行解析，其实这也是python爬虫的关键，就是解析！！！

我们先把信息转化为json格式，可以看到都是用“|”隔开的，那么我们就用split函数分割出来，下面是主要功能代码：

def showTicket(html):
    html = json.loads(html)
    table = PrettyTable(["  车次  ","出发车站","到达车站","出发时间","到达时间"," 历时 ","商务座"," 一等座","二等座","高级软卧","软卧","动卧","硬卧","软座","硬座","无座","其他","备注"])
    for i in html['data']['result']:
        name = [
                    "station_train_code",
                    "from_station_name",
                    "to_station_name",
                    "start_time",
                    "arrive_time",
                    "lishi",
                    "swz_num",
                    "zy_num",
                    "ze_num",
                    "dw_num",
                    "gr_num",
                    "rw_num",
                    "yw_num",
                    "rz_num",
                    "yz_num",
                    "wz_num",
                    "qt_num",
                    "note_num"
               ]

        data = {
                    "station_train_code": '',
                    "from_station_name": '',
                    "to_station_name": '',
                    "start_time": '',
                    "arrive_time": '',
                    "lishi": '',
                    "swz_num": '',
                    "zy_num": '',
                    "ze_num": '',
                    "dw_num": '',
                    "gr_num": '',
                    "rw_num": '',
                    "yw_num": '',
                    "rz_num": '',
                    "yz_num": '',
                    "wz_num": '',
                    "qt_num": '',
                    "note_num": ''
                }
        #将各项信息提取并赋值
        item = i.split('|')                                 #使用“|”进行分割
        data["station_train_code"]  = item[3]               #获取车次信息，在3号位置
        data["from_station_name"]   = item[6]               #始发站信息在6号位置
        data["to_station_name"]     = item[7]               #终点站信息在7号位置
        data["start_time"]          = item[8]               #出发时间在8号位置
        data["arrive_time"]         = item[9]               #抵达时间在9号位置
        data["lishi"]               = item[10]              #经历时间在10号位置
        data["swz_num"]             = item[32] or item[25]  #特别注意，商务座在32或25位置
        data["zy_num"]              = item[31]              #一等座信息在31号位置
        data["ze_num"]              = item[30]              #二等座信息在30号位置
        data["gr_num"]              = item[21]              #高级软卧信息在21号位置
        data["rw_num"]              = item[23]              #软卧信息在23号位置
        data["dw_num"]              = item[27]              #动卧信息在27号位置
        data["yw_num"]              = item[28]              #硬卧信息在28号位置
        data["rz_num"]              = item[24]              #软座信息在24号位置
        data["yz_num"]              = item[29]              #硬座信息在29号位置
        data["wz_num"]              = item[26]              #无座信息在26号位置
        data["qt_num"]              = item[22]              #其他信息在22号位置
        data["note_num"]            = item[1]               #备注信息在1号位置

        color = Colored()
        data["note_num"] = color.white(item[1])
        #如果没有信息，那么就用“-”代替
        for pos in name:
            if data[pos] == "":
                data[pos] = "-"

        tickets = []
        cont = []
        cont.append(data)
        for x in cont:
            tmp = []
            for y in name:
                if y == "from_station_name":
                    s = color.green(chezhan_names[data["from_station_name"]])
                    tmp.append(s)
                elif y == "to_station_name":
                    s = color.red(chezhan_names[data["to_station_name"]])
                    tmp.append(s)
                elif y == "start_time":
                    s = color.green(data["start_time"])
                    tmp.append(s)
                elif y == "arrive_time":
                    s = color.red(data["arrive_time"])
                    tmp.append(s)
                elif y == "station_train_code":
                    s = color.yellow(data["station_train_code"])
                    tmp.append(s)
                else:
                    tmp.append(data[y])
            tickets.append(tmp)
        for ticket in tickets:
            table.add_row(ticket)
    print(table)

那么我们程序就成功啦！！！

但是在编译器里面Prettytable的格子没有对齐，不要担心，我们到终端运行一下脚本，就可以看到很好看的输出啦：

完成！！！下面是完整代码

main.py

# -*- coding: utf-8 -*-
import re,requests,datetime,time,json
from prettytable import PrettyTable
from colorama import init,Fore
from stationinfo import chezhan_code,chezhan_names

init(autoreset=False)

class Colored(object):
    def yeah(self,s):
        return Fore.LIGHTCYAN_EX + s + Fore.RESET
    def green(self,s):
        return Fore.LIGHTGREEN_EX + s + Fore.RESET
    def yellow(self,s):
        return Fore.LIGHTYELLOW_EX + s + Fore.RESET
    def white(self,s):
        return Fore.LIGHTWHITE_EX + s + Fore.RESET
    def blue(self,s):
        return Fore.LIGHTBLUE_EX + s + Fore.RESET

def showTicket(html):
    html = json.loads(html)
    table = PrettyTable(["  车次  ","出发车站","到达车站","出发时间","到达时间"," 历时 ","商务座"," 一等座","二等座","高级软卧","软卧","动卧","硬卧","软座","硬座","无座","其他","备注"])
    for i in html['data']['result']:
        name = [
                    "station_train_code",
                    "from_station_name",
                    "to_station_name",
                    "start_time",
                    "arrive_time",
                    "lishi",
                    "swz_num",
                    "zy_num",
                    "ze_num",
                    "dw_num",
                    "gr_num",
                    "rw_num",
                    "yw_num",
                    "rz_num",
                    "yz_num",
                    "wz_num",
                    "qt_num",
                    "note_num"
               ]

        data = {
                    "station_train_code": '',
                    "from_station_name": '',
                    "to_station_name": '',
                    "start_time": '',
                    "arrive_time": '',
                    "lishi": '',
                    "swz_num": '',
                    "zy_num": '',
                    "ze_num": '',
                    "dw_num": '',
                    "gr_num": '',
                    "rw_num": '',
                    "yw_num": '',
                    "rz_num": '',
                    "yz_num": '',
                    "wz_num": '',
                    "qt_num": '',
                    "note_num": ''
                }
        #将各项信息提取并赋值
        item = i.split('|')                                 #使用“|”进行分割
        data["station_train_code"]  = item[3]               #获取车次信息，在3号位置
        data["from_station_name"]   = item[6]               #始发站信息在6号位置
        data["to_station_name"]     = item[7]               #终点站信息在7号位置
        data["start_time"]          = item[8]               #出发时间在8号位置
        data["arrive_time"]         = item[9]               #抵达时间在9号位置
        data["lishi"]               = item[10]              #经历时间在10号位置
        data["swz_num"]             = item[32] or item[25]  #特别注意，商务座在32或25位置
        data["zy_num"]              = item[31]              #一等座信息在31号位置
        data["ze_num"]              = item[30]              #二等座信息在30号位置
        data["gr_num"]              = item[21]              #高级软卧信息在21号位置
        data["rw_num"]              = item[23]              #软卧信息在23号位置
        data["dw_num"]              = item[27]              #动卧信息在27号位置
        data["yw_num"]              = item[28]              #硬卧信息在28号位置
        data["rz_num"]              = item[24]              #软座信息在24号位置
        data["yz_num"]              = item[29]              #硬座信息在29号位置
        data["wz_num"]              = item[26]              #无座信息在26号位置
        data["qt_num"]              = item[22]              #其他信息在22号位置
        data["note_num"]            = item[1]               #备注信息在1号位置

        color = Colored()
        data["note_num"] = color.white(item[1])
        #如果没有信息，那么就用“-”代替
        for pos in name:
            if data[pos] == "":
                data[pos] = "-"

        tickets = []
        cont = []
        cont.append(data)
        for x in cont:
            tmp = []
            for y in name:
                if y == "from_station_name":
                    s = color.green(chezhan_names[data["from_station_name"]])
                    tmp.append(s)
                elif y == "to_station_name":
                    s = color.yeah(chezhan_names[data["to_station_name"]])
                    tmp.append(s)
                elif y == "start_time":
                    s = color.green(data["start_time"])
                    tmp.append(s)
                elif y == "arrive_time":
                    s = color.yeah(data["arrive_time"])
                    tmp.append(s)
                elif y == "station_train_code":
                    s = color.yellow(data["station_train_code"])
                    tmp.append(s)
                else:
                    tmp.append(data[y])
            tickets.append(tmp)
        for ticket in tickets:
            table.add_row(ticket)
    print(table)

def main():
    date         = input("请输入时间：\n")
    from_station = chezhan_code[input("请输入起始站点：\n")]
    to_station   = chezhan_code[input("请输入目的站点：\n")]
    url          = "https://kyfw.12306.cn/otn/leftTicket/queryZ?"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5702.400 QQBrowser/10.2.1893.400"
    }
    url=url+"leftTicketDTO.train_date="+date+"&leftTicketDTO.from_station="+from_station+"&leftTicketDTO.to_station="+to_station+"&purpose_codes=ADULT"
    #print(url) 已经检查过生成的URL是正确的
    #request请求获取主页
    r = requests.get(url,headers=headers)
    r.raise_for_status()   #如果发送了一个错误的请求，会抛出异常
    r.encoding = r.apparent_encoding
    showTicket(r.text)
    #print(r.text)

main()

stationinfo.py

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容
import re,requests

url = "https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8971"
response = requests.get(url,verify=False)
#将车站的名字和编码进行提取
chezhan = re.findall(r'([\u4e00-\u9fa5]+)\|([A-Z]+)', response.text)
chezhan_code = dict(chezhan)

chezhan_names = dict(zip(chezhan_code.values(),chezhan_code.keys()))
#print(chezhan_names)

从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
Python爬虫实战：研究Bleach库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 Bleach
1.引言在大数据时代，网络内容采集已成为信息获取的重要手段。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网页爬虫开发的首选语言。然而，从互联网获取的内容往往包含恶意脚本、不安全标签等安全隐患，直接使用可能导致XSS(跨站脚本攻击)、数据泄露等风险。Bleach作为专业的HTML净化库，通过白名单机制提供了可靠的内容安全过滤方案。本文将结合实际案例，详
Python爬虫实战：研究untangle库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 untangle
1.引言在大数据时代，网络数据已成为重要的信息资源。XML和HTML作为互联网上最常用的数据表示格式，广泛应用于API接口、网站结构和数据交换等场景。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网络数据采集的首选语言。然而，从复杂的XML/HTML文档中提取结构化数据仍然面临诸多挑战，如文档结构多样性、动态内容渲染和数据格式转换等问题。Untangl
Python爬虫短视频平台数据抓取：抓取视频和评论技术方案数据狐（DataFox） 2025年爬虫实战项目 python 爬虫开发语言
一、摘要本方案提供完整的Python爬虫实现流程，涵盖短视频平台(以抖音为例)的视频与评论数据采集技术，包含环境配置、核心代码实现及反爬优化策略。通过模拟浏览器操作、API接口分析及数据持久化处理，实现高效合规的数据采集。二、引言短视频平台数据具有巨大商业价值，但直接爬取面临动态渲染、加密参数等反爬机制挑战。本方案采用混合技术路线，结合网页解析与移动端API分析，平衡效率与成功率。三、环境配置基础
票星球协议抢票破盾3300 DS网络票星球协议抢票数据库 java 服务器
源码下载地址：https://www.123912.com/s/8j6Wjv-bINYd抢票之前会有验证在1分钟，会跳出一个验证来识别你是否是真人，他会弹出一个图片需要打码平台进行识别提交提交进去他会返回一个值xxx值token购票持票人showid提交订单等等各种信息{"statusCode":33000000,"errorCode":"","comments":"正在为您自动尝试","actT
Python爬虫技术实战：高效市场趋势分析与数据采集 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui 汽车
摘要本文将深入探讨如何利用最新的Python爬虫技术进行市场趋势分析，涵盖异步IO、无头浏览器、智能解析等前沿技术，并提供完整可运行的代码示例。文章将系统介绍从基础爬虫到高级反反爬策略的全套解决方案，帮助读者掌握市场数据采集的核心技能。1.市场趋势分析与爬虫技术概述市场趋势分析已成为现代商业决策的核心环节，而数据采集则是分析的基石。根据2024年最新统计，全球83%的企业已将网络爬虫技术纳入其数据
Python 常用正则表达式大全朱公子的Note python 爬虫正则表达式
你是否在写Python爬虫时，总是卡在“正则提取”这一步？明明页面源码已经拿到，却怎么也匹配不到目标数据……不是提取失败，就是提取不全，搞得调试半天还抓不到核心字段？别急！今天我们就来一次**“正则一网打尽”**，专为爬虫而生的表达式宝典，让你写起爬虫来如虎添翼！在当下数据驱动时代，网络数据是企业的“金矿”，而Python爬虫则是挖掘这金矿的“利器”！从电商价格到社交媒体评论，爬虫技术让数据采集变
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
高并发系统架构设计茫茫人海一粒沙系统架构 java
在互联网系统中，“高并发”从来不是稀罕事：双十一秒杀、12306抢票、新人注册峰值、热点直播点赞……，如果你的系统没有良好的架构设计，很容易出现：接口超时、数据错乱、系统宕机。本文从六个核心维度出发，系统性讲解如何构建一套“抗得住流量洪峰”的企业级高并发架构。一、系统拆分——降低系统耦合度，提高弹性伸缩能力核心思想将单体系统按业务域/模块/职责划分为多个服务；采用微服务架构（如SpringClou
python教学爬虫入门早柚不用工作了 python
Python爬虫入门教程：从零基础到抓取数据一、什么是网络爬虫？网络爬虫（WebCrawler），也称为网络蜘蛛（WebSpider），是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。它能够模拟人类在浏览器中的操作，自动访问网页，提取所需的数据，广泛应用于数据采集、搜索引擎优化、市场调研等领域。但在编写爬虫时，务必遵守法律法规和网站的robots.txt协议，避免过度抓取对网站造成负担，同
利用人工智能做python爬虫
在Python爬虫领域，人工智能（AI）可以从多个维度赋能，提升爬虫的效率、智能性和应对复杂反爬策略的能力。下面从数据提取、反反爬、自动化脚本生成等方面，介绍如何结合AI技术实现更强大的Python爬虫：一、利用大语言模型辅助爬虫开发1.代码生成与优化大语言模型（如GPT系列、文心一言、通义千问等）可以根据自然语言描述快速生成Python爬虫代码。例如，你可以向模型输入“写一个Python爬虫，抓
Python爬虫实战：研究jieba相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html jieba 分词
1.引言1.1研究背景与意义随着互联网技术的飞速发展，网络新闻已成为人们获取信息的主要渠道之一。每天产生的新闻文本数据量呈爆炸式增长，如何从海量文本中高效提取有价值的信息，成为信息科学领域的重要研究课题。文本分析技术通过对文本内容的结构化处理和语义挖掘，能够揭示隐藏在文本中的主题、情感和趋势，为舆情监测、信息检索、内容推荐等应用提供技术支持。1.2研究目标与方法本研究旨在构建一个完整的新闻文本分析
Python爬虫实战：研究TextBlob相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html TextBlob
1.引言1.1研究背景与意义随着互联网技术的飞速发展，社交媒体已成为人们获取信息和表达观点的重要平台。每天在社交媒体上产生的海量文本数据蕴含着丰富的情感信息和社会舆情，分析这些文本情感倾向，有助于企业了解消费者对产品和服务的评价，政府部门监测社会舆论动态，研究机构探索公众对热点事件的态度。情感分析（SentimentAnalysis）作为自然语言处理的重要分支，旨在通过计算方法识别和提取文本中的主
python爬虫框架scrapy学习记录苏州向日葵 python python 爬虫 scrapy
一爬虫简介爬虫这种技术听说好多年了，知道它从互联网抓取数据非常厉害，但由于不是专门从事相关工作，了解也就是听听。最近有些空闲，打算实际学习一下，这里做个小小记录。二常用框架介绍通用性框架类型说明scrapy最流行的爬虫框架，功能全面，扩展性强，社区支持完善，适用于中大型爬虫项目pySpider国产爬虫框架，自带web界面，方便监控和管理轻量级框架beautifulSoup+Requests经典的轻
Python爬虫——入门爬取网页数据 AI大模型学习 python 爬虫开发语言服务器 1024程序员节 linux 爬虫源码
本文介绍Python爬虫入门教程，主要讲解如何使用Python爬取网页数据，包括基本的网页数据抓取、使用代理IP和反爬虫技术。一、Python爬虫入门Python是一门非常适合爬虫的编程语言。它具有简单易学、代码可读性高等优点，而且Python爬虫库非常丰富，使用Python进行爬虫开发非常方便。我们先来看一个简单的Python爬虫程序，爬取一个网页的标题：python复制代码importrequ
Python爬虫（56）Python数据清洗与分析实战：Pandas+Dask双剑合璧处理TB级结构化数据一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 爬虫 pandas
目录引言：大数据时代的清洗革命一、数据清洗基础：Pandas核心方法论1.1数据去重策略深度解析1.1.1精确去重与模糊去重1.1.2智能去重策略1.2缺失值处理金字塔模型1.2.1基础处理方法1.2.2智能缺失处理二、Dask架构解析：突破单机内存限制2.1Dask核心组件图谱2.2DaskDataFrame核心API映射表三、TB级数据清洗实战：电商订单数据分析3.1场景描述3.2分布式清洗流
Python爬虫实战入门：手把手教你爬取豆瓣读书Top250（附防封技巧）
文章目录一、为什么说爬虫是21世纪的"点金术"？二、菜鸟起飞前的装备检查2.1必备三件套（建议收藏）2.2新手避坑指南三、实战：手把手爬取豆瓣读书Top2503.1目标拆解（见图文分析）3.2完整代码实现（带详细注释）3.3数据保存技巧四、反爬虫攻防战（亲测有效）4.1伪装大法4.2IP保护盾4.3终极武器：Selenium五、法律红线不能碰！六、给新手的3条肺腑之言七、下一步学习路线一、为什么说
Python爬虫开发必备：5大HTTP发包库详解
在Python爬虫开发中，常用的发包库（用于发送HTTP请求）主要包括以下几个，它们各有特点，适用于不同的场景。以下是详细介绍和对比：1.Requests简介：requests是Python中最流行的HTTP库，以其简洁易用的API著称。适用于大多数HTTP请求场景，如GET、POST、PUT、DELETE等。特点：易用性：API设计直观，代码简洁。功能丰富：支持会话管理、SSL验证、超时设置、文
Python爬虫常用正则表达式分类与示例
Python爬虫常用正则表达式分类与示例一、基础匹配规则电话号码\b\d{3}-\d{8}\b或\b\d{4}-\d{7}\b示例：匹配010-86432100等格式。importretext="Phone:010-86432100,021-1234567"phones=re.findall(r'\b\d{3}-\d{8}\b|\b\d{4}-\d{7}\b',text)#结果:['010-864
Python web框架FastAPI——一个比Flask和Tornada更高性能的API 框架 Python进阶者中间件 python web http docker
点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤借问酒家何处有，牧童遥指杏花村。0前言前几天给大家分别分享了（入门篇）简析Pythonweb框架FastAPI——一个比Flask和Tornada更高性能的API框架和（进阶篇）Pythonweb框架FastAPI——一个比Flask和Tornada更高性能的API框架。今天欢迎大家来
Python 爬虫入门：从数据爬取到转存 MySQL 数据库覃炳文20230322027 数据库 python 爬虫
前言在本篇博客中，我们将介绍一个基础的Python爬虫项目，包括使用requests和BeautifulSoup进行网页数据爬取，并将获取的数据存储到MySQL数据库中。该项目适合初学者了解网络爬虫的基本流程以及如何将数据持久化存储。一、项目目标学习使用requests发起HTTP请求获取网页内容。使用BeautifulSoup解析HTML页面并提取数据。将提取的数据保存到MySQL数据库中。掌握
Python 爬虫进阶必备 | 当 Js 逆向遇上 wasm（一）咸鱼学 Python python 爬虫 javascript
前言关注公众号【咸鱼学Python】获取更多关于Python爬虫、Js逆向、安卓逆向的文章Wasm是一种底层汇编语言，具有文本格式支持，其目标是可移植、安全和高效。Wasm的模块可以被导入的到一个网络app（或Node.js）中，并且暴露出供JavaScript使用的Wasm函数。Wasm与其他虚拟机的主要区别在于，它没有针对任何特定的编程语言进行优化，而只是抽象底层硬件，字节码直接对应于现代cp
python爬虫的基础知识 ઈ一笑ഒ python 爬虫
1.学习爬虫的好处提升编程技能：爬虫开发需要掌握编程基础，特别是网络请求、HTML/CSS/JavaScript解析、数据存储和异常处理等技能。通过学习爬虫，你可以巩固和提升你的编程技能，特别是Python等编程语言的应用能力。数据驱动决策：在当今数据为王的时代，数据是做出明智决策的重要依据。通过爬虫，你可以获取到各种公开的数据资源，如市场分析、用户行为、行业趋势等，从而为你的个人决策或商业决策提
模拟自动抢票程序的实现与优化大梦百万秋知识学爆 python https
引言每年到了节假日或者大型活动的售票季，许多人都会面临一个共同的问题——买票难。无论是火车票、演唱会门票，还是某些热门景区的限量门票，许多人在售票开始的瞬间，往往还没来得及点击购买，票就已经被抢光了。这种“秒光”的现象让人感叹，究竟是手速不够快，还是根本就买不到？事实上，许多票的抢购背后，不仅仅是比拼人类的手速，更多是依赖一些自动化抢票程序。本文将带大家一起实现一个模拟自动抢票程序，并讨论如何通过
Python爬虫实战：使用Playwright抓取YouTube视频标题与观看量的全流程解析（含反爬技巧与完整代码） Python爬虫项目 python 爬虫开发语言数据分析 php
1️⃣项目背景与目标YouTube作为全球最大的视频平台，汇聚了数以百万计的内容创作者和观众。了解某一类视频的标题、观看数等公开信息，不仅对研究热门趋势、内容策划具有重要意义，也可以用于数据可视化和机器学习分析。✅目标：自动抓取某关键词下YouTube视频的：标题观看量视频链接2️⃣YouTube的反爬虫机制详解YouTube对爬虫抓取行为做了较强限制，主要策略包括：类型描述动态内容加载页面通过J
Python 爬虫实战：小红书笔记全流程采集（从页面解析到 API 服务搭建） Python核芯 Python爬虫实战项目 python 爬虫笔记小红书
引言在当今信息爆炸的时代，数据已经成为驱动商业决策、内容创作和用户研究的宝贵资源。小红书作为一个汇聚海量用户分享笔记的社交平台，其数据蕴含着巨大的价值，无论是用于市场调研、竞品分析还是内容创作灵感挖掘，都具有重要意义。本篇文章将带你深入探索如何利用Python爬虫技术，完整地实现小红书笔记数据的采集流程，并进一步搭建API服务，让你能够灵活地获取和利用这些数据。一、环境搭建：开启数据采集之旅的起点
Python 爬虫实战：携程航班数据接口分析（实时价格监控 + 余票预警） Python核芯 Python爬虫实战项目 python 爬虫开发语言携程
引言在航空出行日益频繁的当下，掌握航班动态、票价走势以及余票情况对于旅客安排行程、航空公司调整运营策略以及相关企业开展业务分析都具有极其重要的意义。携程作为国内领先的在线旅行服务平台，拥有海量且实时更新的航班数据，本篇文章将深入探讨如何通过Python爬虫技术对携程航班数据接口进行分析，实现航班实时价格监控以及余票预警功能。一、项目背景及意义随着国内旅游和商务出行需求的持续增长，航班数据的实时性与
CVPR2025｜底层视觉(超分辨率，图像恢复，去雨，去雾，去模糊，去噪等)相关论文汇总（附论文链接/开源代码）【持续更新】 Kobaayyy 图像处理与计算机视觉论文相关底层视觉计算机视觉算法 CVPR2025 图像超分辨率图像复原图像增强
CVPR2025｜底层视觉相关论文汇总（如果觉得有帮助，欢迎点赞和收藏）1.超分辨率(Super-Resolution)AdaptiveDropout:UnleashingDropoutacrossLayersforGeneralizableImageSuper-ResolutionADD:AGeneralAttribution-DrivenDataAugmentationFrameworkfor
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

Python爬虫：12306抢票，开源代码！

你可能感兴趣的:(Python爬虫：12306抢票，开源代码！)