HuiSoul

《Python爬取求职网最后一天》——爬取51job网

本次爬取51job网站所会用到的方法在前面三篇文章中已经说过了，有需要的可以看下：
《Python爬取求职网第一天》——浏览器自动化测试框架Selenium
《Python爬取求职网第二天》——requests库和BeautifulSoup库
《Python爬取求职网第三天》——反爬虫和汇总表格

话不多说，先上代码！

完整代码↓

from selenium import webdriver
from bs4 import BeautifulSoup
import csv
import time
import re

#获取并解析网页源代码，根据标签查询目的文本
def getsave_infomation(browser,csv_writer):
        soup = BeautifulSoup(browser.page_source, 'html.parser')
        items = soup.find_all(class_='j_joblist')
        # print(items)  #网页源代码
        for tag in items:
            name = tag.find_all('span',class_='jname at')
            date = tag.find_all('span',class_='time')
            area = tag.find_all('span',class_='d at')
            salary = tag.find_all('span',class_='sal')
            for i,j,k,l in zip(name,date,area,salary):
                name1 = i.get_text()
                date1 = j.get_text()
                area1 = k.get_text()
                arealist=chai(area1)
                k=len(arealist)
                area2,experience,grade,num=get_area(arealist,k)
                salary1 = l.get_text()
                
                #将一行的内容添加进CSV文件
                row = [name1,date1,salaryCleaning(salary1),area2,experience,grade,num]
                csv_writer.writerow(row)
                
                print(name1,date1,salaryCleaning(salary1),area2,experience,grade,num)
            


#打开和关闭浏览器，保存信息入CSV文件
def get_page():
    browser = webdriver.Chrome()
    with open('C++岗位分析.csv', 'w', newline='') as file:
        csv_writer = csv.writer(file)
        header = ['岗位', '发布时间', '薪水(K/月)','工作地区','工作经验','学历要求','招聘人数']
        csv_writer.writerow(header)
        csv_writer = csv.writer(file)
        for k in range(1,50):
            url = 'https://search.51job.com/list/020000,000000,0000,00,9,99,C%252B%252B,2,{}.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='.format(k)
            time.sleep(2)
            browser.get(url) 
            getsave_infomation(browser,csv_writer)
    browser.quit()
        

#正则表达式拆分字符串
def chai(str):
    arealist = []
    for i in str:
        if '|' in str:
            newloc = re.compile('[| ]+')
            arealist=newloc.split(str)
    return arealist

 
#根据字符串长度，填入对应列
def get_area(arealist,k):
    area2=''
    experience=''
    grade=''
    num=''
    for i in range(k):
        if k==3 and '经验' in arealist:
            if i==0:
                area2=arealist[i]
            if i==1:
                experience=arealist[i]
            if i==2:
                num=arealist[i]
            grade = ''
        if k==3 and ('大专' in arealist or '本科' in arealist or '硕士' in arealist) :
            if i==0:
                area2=arealist[i]
            if i==1:
                grade=arealist[i]
            if i==2:
                num=arealist[i]
            experience = ''
        if k==4:
            if i==0:
                area2=arealist[i]
            if i==1:
                experience=arealist[i]
            if i==2:
                grade=arealist[i]
            if i==3:
                num=arealist[i]
    return area2,experience,grade,num


#字段处理
def salaryCleaning(salary):
    avgSalary = 0
    for sa in salary:
            if '-'in sa :
                minSalary = re.findall(re.compile('(\d*\.?\d+)'),salary)[0]
                maxSalary = re.findall(re.compile('(\d?\.?\d+)'),salary)[1]
                if '万' in salary and '年' in salary:
                    minSalary = float(minSalary)/12*10
                    maxSalary = float(maxSalary)/12*10
                elif '万' in salary and '月' in salary:
                    minSalary = float(minSalary)*10
                    maxSalary = float(maxSalary)*10
                
                avgSalary = (float(minSalary)+float(maxSalary))/2
            else :
                minSalary = re.findall(re.compile('(\d*\.?\d+)'),salary)[0]
                maxSalary=""
                if u'万' in salary and u'年' in salary:
                    minSalary = float(minSalary)/12*10
                elif u'万' in salary and u'月' in sa:
                    minSalary = float(minSalary)*10
                elif u'元' in salary and u'天' in salary:
                    minSalary = float(minSalary)/1000*21
                    avgSalary = float(minSalary)
                else :
                    minSalary = "";maxSalary = "";
    return avgSalary

def main():
    get_page()
    
main()

代码拆解及方法说明

1、导入模块

from selenium import webdriver  #从Selenium导入webdriver（驱动）	
from bs4 import BeautifulSoup   #从bs4导入BeautifulSoup
import csv  					#采用csv保存方式
import time  					#调用睡眠时间函数
import re    					#正则表达式模块

2、分析网站

如果想要获取网站每一页的数据，势必要实现页面跳转，但我们之前所学到的都是单一页面获取数据，对于页面的链接并不需要修改，我们应该怎么做呢？但其实网页链接都是有规律的，我们只要找到规律，困难就能迎刃破解了。

我们在51job求职网看看，每一页跳转时网页链接变化了什么，网页链接：51job求职网

第一页

第二页

第三页

我们能发现每一页跳转的时候，仅仅网页的一个参数出现了变化，其实不仅仅是这个网站，绝大多数网站相邻页面的链接都是只改变一个参数,数据分页的格式都是万变不离其宗,每页的数据条数固定页码和每页的条数都是通过参数传入,我们可以通过对比不同页码的链接参数对比得出规律。

既然如此，我们只用在网页链接里增加一个format()函数，再通过for循环依次打开每一个页面即可

代码↓

browser = webdriver.Chrome()   # 选择 Chrome浏览器打开
	for k in range(1,50):
		url = 'https://search.51job.com/list/020000,000000,0000,00,9,99,C%252B%252B,2,{}.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='.format(k)
		time.sleep(2)     #睡眠时间2s
		browser.get(url)  #打开网页
browser.quit()  #关闭浏览器

3、获取51job网页源代码

定义方法一：获取网页链接并向getsave_infomation()方法传参

代码↓

def get_page():
    browser = webdriver.Chrome()  # 选择 Chrome浏览器打开
        for k in range(1,50):
            url = 'https://search.51job.com/list/020000,000000,0000,00,9,99,C%252B%252B,2,{}.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='.format(k)
            time.sleep(2)     	#睡眠时间2s
            browser.get(url)    #打开网页
            getsave_infomation(browser,csv_writer)  #每次循环调用一次getsave_infomation()函数
    browser.quit()   #关闭浏览器

调用的getsave_infomation()函数中，第一个传入的参数(browser)是我们实例化的浏览器对象，我们将操作该对象来控制浏览器，第二个参数(csv_writer)是创建的CSV文件

4、分析网页源代码

我们查询C++的岗位为例，进到第一页后我们对C/C++研发工程师和C++软件工程师分别右键点击，点击“检查”

网页及源代码截图↓

我们发现所需的岗位名称，发布日期，薪水，以及工作地区都在div class="j_joblist"的标签下

而岗位名称，发布日期，薪水，以及工作地区分别在 class=‘jname at’，class=‘time’,class=‘sal’,class='d at’的span标签下

5、存储数据进CSV文件

定义方法二：接收获取的网页链接，通过BeautifulSoup解析源代码，使用find_all()函数找到所有需要的HTML标签。

代码↓

def getsave_infomation(browser,csv_writer):
        soup = BeautifulSoup(browser.page_source, 'html.parser')
        items = soup.find_all(class_='j_joblist')
        # print(items)  #网页源代码
        for tag in items:
            name = tag.find_all('span',class_='jname at')
            date = tag.find_all('span',class_='time')
            area = tag.find_all('span',class_='d at')
            salary = tag.find_all('span',class_='sal')

通过上面的代码，我们成功把四个所需的数据，分别存在了name，date，area，salary的列表中，接下来我们需要再用一个for循环，从这四个列表中，分别取出相对应的值并输入到CSV文件中。

代码↓

def getsave_infomation(browser,csv_writer):
        soup = BeautifulSoup(browser.page_source, 'html.parser')
        items = soup.find_all(class_='j_joblist')
        # print(items)  #网页源代码
        for tag in items:
            name = tag.find_all('span',class_='jname at')
            date = tag.find_all('span',class_='time')
            area = tag.find_all('span',class_='d at')
            salary = tag.find_all('span',class_='sal')
            for i,j,k,l in zip(name,date,area,salary):
                name1 = i.get_text()
                date1 = j.get_text()
                area1 = k.get_text()
                salary1 = l.get_text()
                
                #将一行的内容添加进CSV文件
                row = [name1,date1,salary1,area1]
                csv_writer.writerow(row)
                
                print(name1,date1,salary1,area1)

结果截图↓

至此我们爬取数据的大部分工作已经结束了，剩下的就是对薪水和工作地区等进行数据清洗，拆解成我们所需的格式。

6、数据清洗

这一块代码我就不多介绍了，其中会用到了正则表达式，格式转换等方法，不了解的同学可以自行学习。

数据清洗代码↓

#正则表达式拆分字符串
def chai(str):
    arealist = []
    for i in str:
        if '|' in str:
            newloc = re.compile('[| ]+')
            arealist=newloc.split(str)
    return arealist

 
#根据字符串长度，填入对应列
def get_area(arealist,k):
    area2=''
    experience=''
    grade=''
    num=''
    for i in range(k):
        if k==3 and '经验' in arealist:
            if i==0:
                area2=arealist[i]
            if i==1:
                experience=arealist[i]
            if i==2:
                num=arealist[i]
            grade = ''
        if k==3 and ('大专' in arealist or '本科' in arealist or '硕士' in arealist) :
            if i==0:
                area2=arealist[i]
            if i==1:
                grade=arealist[i]
            if i==2:
                num=arealist[i]
            experience = ''
        if k==4:
            if i==0:
                area2=arealist[i]
            if i==1:
                experience=arealist[i]
            if i==2:
                grade=arealist[i]
            if i==3:
                num=arealist[i]
    return area2,experience,grade,num


#字段处理
def salaryCleaning(salary):
    avgSalary = 0
    for sa in salary:
            if '-'in sa :
                minSalary = re.findall(re.compile('(\d*\.?\d+)'),salary)[0]
                maxSalary = re.findall(re.compile('(\d?\.?\d+)'),salary)[1]
                if '万' in salary and '年' in salary:
                    minSalary = float(minSalary)/12*10
                    maxSalary = float(maxSalary)/12*10
                elif '万' in salary and '月' in salary:
                    minSalary = float(minSalary)*10
                    maxSalary = float(maxSalary)*10
                
                avgSalary = (float(minSalary)+float(maxSalary))/2
            else :
                minSalary = re.findall(re.compile('(\d*\.?\d+)'),salary)[0]
                maxSalary=""
                if u'万' in salary and u'年' in salary:
                    minSalary = float(minSalary)/12*10
                elif u'万' in salary and u'月' in sa:
                    minSalary = float(minSalary)*10
                elif u'元' in salary and u'天' in salary:
                    minSalary = float(minSalary)/1000*21
                    avgSalary = float(minSalary)
                else :
                    minSalary = "";maxSalary = "";
    return avgSalary

最后我们使用完整代码所获得的数据是这样的↓

现在！爬取51job网站已经大功告成了！！

这四篇文章是我第一次所写，不可避免的会有很多瑕疵，如果发现哪里不对的，欢迎大家及时评论指正错误，我会在后续立马修改。之后我还会再出多一篇关于Python的文章，也是一个实例，有兴趣的同学可以留意一下。

如果这四篇文章对你们有帮助的话，可以点赞收藏下。

本次分享圆满结束了，谢谢大家！我们下次见！

7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
关于python的一些面试题
1.技术面试题（1）TCP与UDP的区别是什么？答：在工作机制上TCP采用三次握手四次挥手的机制保障信息传递的稳定性，更适合文件的传输和下载。而UDP采用的是直接传输和直接接受的机制提高信息传递的高效性，更适合点对点的实时交流的环境。（2）DHCP和DNS的作用是什么？答：DHCP相当于网络中的智能管家，他会自动将局域网内的设备进行配置包括但不限于：IP地址、子网掩码、DNS服务器地址。而DNS相
python里面ca_Python SSL服务器提供中间CA证书洗心岛 python里面ca
我使用Python(2.7)SSL模块编写一些服务器代码，如下所示：ssock=ssl.wrap_socket(sock,ca_certs="all-ca.crt",keyfile="server.key",certfile="server.crt",server_side=True,ssl_version=ssl.PROTOCOL_TLSv1)全部-约阴极射线管'包含签名CA证书和根CA证书：-
服务器搭建python响应https,python实现简单的https服务器
以下提供一个简单的方式快速部署一个https服务器，用于非生产环境的测试使用，如果是正式的生产环境，考虑到性能安全等因素，就不要使用这个了。1、使用pyOpenSSL库：#coding:utf-8fromBaseHTTPServerimportHTTPServer,BaseHTTPRequestHandlerfromSocketServerimportThreadingMixInfromSocke
Leetcode刷题笔记——哈希表篇 code_lover_forever Leetcode刷题笔记 leetcode 笔记散列表 python
Leetcode刷题笔记——哈希表篇一、哈希表在面试中的高频考题第一题：两数之和Leetcode1:两数之和：中等题（详情点击链接见原题）给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标python代码解法classSolution:deftwoSum(self,nums:List[int],target:int)->
Various ways to integrate Python and C (C++) a13393665983 c/c++人工智能 python
VariouswaystointegratePythonandC(C++)KoichiTamura'sblog:VariouswaystointegratePythonandC(C++)VariouswaystointegratePythonandC(C++)ThisisoriginallywhatIwroteinamailIsenttoafriendofmine.Imodifieditalitt
How to setup a Mac with Python dev tools whackw mac mac
HowtosetupaMacwithPythondevtoolsNotesforhowtosetupa64-bitMacwithimportantPythondevelopmenttoolsDeprecated–clickhereforupdatedpageforYosemiteversionCreatedbyTrondKristiansenon27.7.2009,andlastupdated05
理解module, script, library, package in Python ikeepo #小白学Python module library script package setup
OverviewPythonmodulesandPythonpackagesaretwomechanismsthatfacilitatemodularprogramming.AscriptisaPythonfilethat’sintendedtoberundirectly.AmoduleisaPythonfilethat’sintendedtobeimportedintoscriptsorothe
Python 服务器端与客户端的加密通信（SSL/TLS）解析现实逃脱计划TA python ssl 网络
```htmlPython服务器端与客户端的加密通信（SSL/TLS）解析在当今互联网时代，数据安全变得越来越重要。为了保护数据在传输过程中的安全，使用SSL/TLS协议进行加密通信成为了一种常见的做法。本文将详细介绍如何在Python中实现服务器端和客户端之间的SSL/TLS加密通信。什么是SSL/TLS？SSL（SecureSocketsLayer）和TLS（TransportLayerSec
python教程修订版 Ethan learn English python
9/23Inthiscourse,I'mgoingtoteachyoueverythingyouneedtoknowtogetstartedprogramminginPython.Now,Pythonisoneofthemostpopularprogramminglanguagesoutthere在众多的……中.Andit'sbyfar目前为止oneofthemostsõughtafter受欢迎的
Three ways to run a python script file captainOO7 python
Pythonoffersthreedistinctwaystorunascriptormodule,andeachoneaffectssys.path,__name__,andimportbehaviorinsubtlebutimportantways.Let’sbreakthemdownclearly:TheThreeWaystoRunPythonCode1.DirectScriptExecut
Python自动化神器：Pyautogui库实战指南码界奇点 Python python 自动化开发语言 python3.11 ui
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录1.PyAutoGUI简介1.1什么是PyAutoGUI？1.2安装
tensorflow sigmoid_cross_entropy_with_logits 函数解释及公式推导 CrazyWolf_081c
tensorflowsigmoid_cross_entropy_with_logits函数解释及公式推导tensorflow官方文档解释参考pytorch--BCELosspytorch--BCELoss解释参考定义在tensorflow/python/ops/nn_impl.py.功能：计算在给定logits和label之间的sigmoidcrossentropy。测量离散分类任务中的概率误差，
写一个空调风机时长统计系统
需求：通过python图形化程序需要实现空调风机的时长统计。界面功能介绍：该空调系统分为8页，通过右上角左右翻页的方式进行页面切换，翻页按钮是翻到最后一页后只能通过上一页往前面，同理第一页也是这样。做了颜色采样，采样而且每页的风机数量是不同的，灰色：#515151RGB:818181绿色：#1bf928RGB：2724940底色：#033047RGB：34871灰色是未开机状态、绿色是开机状态、底
超简单linux上部署Apache 悟空骑猪看电影 apache linux 运维网络
1.Apache是什么？Apache是世界上最流行的开源Web服务器软件，由Apache软件基金会维护。主要功能：接收客户端（如浏览器）的HTTP请求，返回网页、图片等静态/动态资源。特点：跨平台（Linux、Windows、macOS）模块化设计（按需加载功能）支持多语言扩展（PHP、Python等）高稳定性和安全性2.核心架构与工作原理多进程模型（MPM）Prefork：多进程模式，每个请求由
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
nodejs关于后端服务开发的探究墨水白云 node.js
前提在当前的环境中关于webserver的主流开发基本上都是java、php之类的，其中javaspring系列基本上占了大头，而python之流也在奋起直追，但别忘了nodejs也是可以做这个服务的，只是位置有点尴尬，现在就来探究下nodejs做webserver的当前现状。nodejs简介Node.js是一个基于ChromeV8引擎的JavaScript运行环境。Node.js使用了一个事件驱
Python自动操作GUI神器PyAutoGUI 小菜菜-K PYTHON
日常使用计算机，命令行程序可以说是为批量操作文件而生，但作为普通用户，最多的还是通过鼠标键盘操作形形色色的图形界面程序。试想下面一个场景：有成千上万个文件，都需要通过图形界面进行同样的一套编辑、保存工作，靠手工一遍一遍地重复做，累死人不说，时间久了必然出现错误，作为程序猿，怎么能忍重复3次以上的工作，必须利用程序自动化。要想图形界面也能像命令行程序那样精确控制，就需要GUI自动化工具了。不得不赞P
Python练习（7）Python模块与方法：20道核心实战练习题（含答案与深度解析）（上）
目录引言基础篇（5题）练习1：模块导入方式对比练习2：模块别名应用练习3：条件导入模块练习4：模块搜索路径管理练习5：包结构初始化进阶篇（5题）练习6：模块重载机制练习7：类方法与静态方法区分练习8：魔术方法应用练习9：模块级变量作用域练习10：装饰器实现方法注册高级技巧篇（5题）练习11：动态模块导入练习12：命名空间包练习13：模块卸载陷阱练习14：元类方法控制练习15：上下文管理器方法实战案
python启动其他程序或命令（pandoc） SUN_SU3 python
编写python脚本时，有些功能由其他程序执行，直接在python脚本中启动对应的程序或命令执行即可，现记录用过的几种方法：查看程序的安装目录：whichpandoc1）subprocess:importsubprocessa=subprocess.Popen(['/opt/***/pandoc','/home/***/test.docx','-o','/home/***/test.html'])
全国青少年软件编程(Python)等级考试四级考试真题2024年3月——持续更新..... owbc_ 电子学会（python）三四级考试真题及答案（持续更新）python 算法开发语言青少年编程
青少年软件编程（Python）等级考试试卷（四级）分数：100题数：38一、单选题(共25题，共50分)1.运行如下代码，若输入整数3，则最终输出的结果为？（）deff(x):ifx==1:s=1else:s=f(x-1)*xreturnsn=int(input(“请输入一个大于1的整数：”))print(f(n)+f(n-1))A.2B.4C.8D.16标准答案：C试题解析：由于f(3)=f(2
【亲测免费】 PyPandoc 项目常见问题解决方案
PyPandoc项目常见问题解决方案基础介绍PyPandoc是一个为Pandoc提供的Python薄壳包装器。Pandoc是一个通用的文档转换工具，能够将标记格式的文档转换为多种格式。PyPandoc主要使用Python编程语言，旨在简化Pandoc在Python项目中的使用。新手常见问题及解决步骤问题1：如何安装PyPandoc问题描述：新手在使用PyPandoc时，首先需要了解如何正确安装。解
青少年人工智能Python编程水平测试四级模拟试卷9 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法数据结构排序算法
1、以下选项中，说法正确的是？（）A、条件1and条件2，表示条件满足其中1个即可B、条件1or条件2，表示2个条件需要同时满足C、and和or不能在一个条件表达式中同时使用D、andor一般和if语句搭配使用正确答案：D试题解析：and是逻辑与，同时满足结果才满足；or是逻辑或，满足一个结果就是满足；
青少年人工智能Python编程水平测试四级模拟试卷5 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法推荐算法
【单选题】（每题2分）1、运行下列代码后，输入4，输出的结果是？（）num_1=input()num_2="3"print(num_1+num_2)A、7B
十年老Python程序员：给我一个链接，没有我不能爬的视频，只有我顶不住的视频 IT孔乙己
一、写在前面真的，为什么别人发游戏这么多人看，我发了两次了加起来才一百个。算了算了，不整游戏了，反正你们也不爱看~python今天来试试把头条上扭腰上热门的那些妹子爬一爬，不知道我顶不顶得住~python二、准备工作1、使用的环境python3.8pycharm2021.2专业版2、要用的第三方模块seleniumrequestsparsel三、大致流程鉴于你们不喜欢我啰嗦，但是流程呢，我还是要给
Python中win32com的用法详解：自动化办公与COM交互的利器 detayun Python python 自动化交互 win32
在Python自动化办公场景中，win32com模块凭借其与WindowsCOM（ComponentObjectModel）的深度集成能力，成为操控MicrosoftOffice、工业设备甚至第三方软件的核心工具。本文将通过实战案例、技术细节和避坑指南，系统解析这一模块的核心用法。一、核心功能与安装配置1.1模块定位与优势win32com是pywin32扩展包的核心组件，其核心价值在于：跨软件交互
Python 进阶（一）：多线程
目录1.相关概念1.1解释器1.2GIL2.threading2.1方法属性2.2线程对象2.3锁对象2.4条件对象2.5信号量对象2.6事件对象1.相关概念1.1解释器Python解释器的主要作用是将我们在.py文件中写好的代码交给机器去执行，比较常见的解释器包括如下几种：CPython：官方解释器，我们从官网下载安装后获得的就是这个解释器，它使用C语言开发，是使用范围最广泛的Python解释器
Python 基础（十四）：错误和异常
目录1错误2异常2.1内置异常2.2异常处理2.3抛出异常2.4自定义异常程序中的错误我们通常称为bug，工作中我们不仅需要改自己程序中的bug，还需要改别人程序中的bug，新项目有bug要改，老项目也有bug要改，可以说bug几乎贯穿一个程序员的职业生涯…我们通常将bug分为Error（错误）和Exception（异常），我们下面来具体学习下Python中的错误和异常。1错误错误通常是指程序中的
word python 域操作_Python进阶：关于 Word 基本操作铃木大宝 word python 域操作
1.概述Word是一个十分常用的文字处理工具，通常我们都是手动来操作它，本节我们来看一下如何通过Python来操作。Python提供了python-docx库，该库就是为Word文档量身定制的，安装使用pipinstallpython-docx命令即可。2.写入首先，我们使用Python来创建一个Word文档并向其中写入一些内容。2.1标题我们先来创建Word文档并向其中添加标题，完整实现代码如下
华为OD机试2025 B卷 - 通过软盘拷贝文件 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考 2025B卷
通过软盘拷贝文件华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述有一名科学家想要从一台古董电脑中拷贝文件到自己的电脑中加以研究。但此电脑除了有一个3.5寸软盘驱动器以外，没有任何手段可以将文件持贝出来，而且只有一张软盘可以使用。因此这一张软盘是唯一可以用来拷贝文件的载体。科学家想要尽可能多地将计算机中的信息拷贝到
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

《Python爬取求职网最后一天》——爬取51job网

完整代码↓

代码拆解及方法说明

1、导入模块

2、分析网站

3、获取51job网页源代码

4、分析网页源代码

5、存储数据进CSV文件

6、数据清洗

你可能感兴趣的:(Python实战,python,数据分析,csv,selenium)