秋刀鱼的知更鸟

Python学习——（2）通过网络爬虫获取数据

通过网络爬虫获取数据

1. 和爬虫有关的HTTP

HTTP是网络数据通信的基础。在本节中会围绕Python网络爬虫讲述常用HTTP知识点。

1.1 基于HTTP的请求处理流程

当用户在浏览器的地址栏中输入一个URL并按回车键后，浏览器会向HTTP服务器发送HTTP请求，根据请求解析并绘制界面。

在浏览器中右击，在弹出的菜单栏中选择”检查“选项命令，打开”调试“窗口，并在其中点击”Network（网络）“标签。

在浏览器的地址栏中输入“www.coblogs.com”网址，随后在“调试”窗口中选择”Network（网络）“标签中的“Name”中，下拉列表框选择www.coblogs.com项，就可以看到发出的HTTP请求了，即Request，其中最关键的要素包括Request URL、Request Method和请求头信息Request Header。

当www.coblogs.com网址对应的HTTP请求发送到对方服务器中，对方在完成一系列验证后会根据请求包含的方法（Request Method，这里是Get）和参数（本请求不包含参数）返回相应的Response，其中包含HTTP状态码、HTML页面代码以及对应的图片和js等页面要素。

1.2 HTTP请求头包含操作系统和浏览器信息

Request请求中，处除了包含转向网站的URL，在HTTP请求头（Request Header）的user-agent里包含了操作系统和浏览器信息。

对应不同版本的操作系统和浏览器，user-agent也是不同的。一些网站会检查HTTP请求头里的user-agent信息，由于来自爬虫的请求一般不会包含user-agent信息，因此能以此来判断该请求是来自于网站还是爬虫，并会对应的采取一些反爬虫的信息。在爬虫代码中，如果有必要，也需要加入user-agent，来模拟此请求怕是来自于浏览器的。

1.3 Post和Get请求方法

从上文给出的HTTP请求中，我们看到了Request Method，也就是HTTP的请求方法是GET，此外还有POST等常见的HTTP请求方法。在HTTP协议中，通过请求方法能定义参数的传送方式。

参数在URL里以问号等形式传输，这是以GET方式传递参数的。在一些登录页面里登录后，在URL中看不到任何参数，此时用户名和密码等参数是以POST的方式放在HTTP数据包中传输给对方服务器。

相比之下，用GET方式传输参数的代价更小，但会暴露参数，而且通过Get方法能提交的参数最大是2 KB，因此这种方式一般用在不用加密且数据量较小的场景。传送密码等比较私密的参数时，建议用POST方式。

1.4 HTTP常见的状态码

常见的HTTP状态码如下所示：

状态码	含义
200	请求成功
201	已成功创建，比如向服务器端发送“创建用户”，若正确创建，则会返回201
301	永久移动，表示该HTTP请求的资源已被永久移动到新的URL位置，浏览器会自动定向到新的URL
400	请求包含语法错误
401	请求未通过身份验证，通常可能是用户名或密码不对，或未包含证书或token
404	未找到资源
500	服务器内部错误

依上而言，爬虫程序在发出HTTP请求之后，可以首先查看返回的HTTP状态码，如果返回200等表示正确的状态，就可以进一步解析页面，如果不是，就进行对应的异常处理。

2. 通过Urllib库获取网页信息

Urllib是Python的内置库，不用额外安装，其中封装了一些基于HTTP操作URL的功能。通过调用Urllib库中的方法，我们可以更高效的实现一些爬取页面信息的功能。

2.1 通过request爬取网页

在爬虫项目中，一般是用封装在Urllib库里的request模块来发送基于HTTP的URL请求并得到对应的响应信息。

"""coding = utf-8"""

import urllib.request

url = 'http://www.cnblogs.com/'

# 发送请求
# 通过request的urlopen方法，基于HTTP协议向网址发出请求，得到包含响应结果的response对象
response = urllib.request.urlopen(url)
# 判断状态码是否为200，如果是，则说明发出的请求被正确处理，并通过utf-8的格式输出响应结果
if response.getcode() == 200:
    print(response.read().decode('utf-8'))

2.2 设置超时时间

通过request模块中的urlopen方法向对方服务器发送请求时，如果长时间没有得到响应，不应继续等待，应当立即终止该请求。相反，如果再继续维持的话，不经会继续消耗本地客户端和对方服务器的资源，还会让调用程序的用户在长时间的等待中得不到响应，从而降低用户体验。

在实际项目中，在调用urlopen方法时，一般会加入timeout参数来指定超时时间，该参数的单位是秒，具体的只可以依据项目的实际需求来进行调整，一般不宜过长，如果超过这个时间，服务器端还没有返回，就会抛出异常。

"""coding = utf-8"""

import urllib.request

url = "www.cnblogs.com"
# 发送请求
# 和上一段程序不同，我们这里添加了timeout，设置时间为0.1秒，此时会出现报错
# 倘若我们将timeout设置为10，报错将会消失
response = urllib.request.urlopen(url, timeout = 0.1)
if response.getcode() == 200:
    print(response.read().decode('utf-8'))

这里给出代码，自行运行。运行之后的结果会提示：

urllib.error.URLError:<urlopen error timed out>

也就是说，请求发送出去之后，就过0.1秒后没有返回，就会抛出上述异常。

2.3 用URLError处理网络异常

如果出现了timeout异常，就会直接退出，根据异常处理原则，出现网络异常后，我们首先要输出异常信息，让我们了解问题出想的原因；之后才是保证程序的流程不会中断，据此，我们可以使用Urllib库中的URLError方法进行处理。

"""coding= utf-8"""

from urllib import request, error

url = "http://www.cnblogs.com"

# 向服务器发送请求
try:
    response = request.urlopen(url, timeout = 0.1)
except error.URLError as e:
    print(e.reason)
print("continue")

运行结果如下：

2.4 设置header属性来模拟浏览器发送请求

我们之前的例子都是通过urlopen的方法来发送HTTP请求的，在某些场景中，我们也需要向浏览器这样发送HTTP的头信息，我们把这种请求方式称之为“浏览器请求”，这样我们就可以获得预期的信息了。

"""coding = utf-8"""

import urllib.request
# 指定网页信息
url = "http://www.cnblogs.com"
# 创建一个Request类型的req对象，代表一个HTTP请求
req = urllib.request.Request(url)
# 我们加入头部信息，在HTTP请求中主要包含的是操作系统和浏览器的信息，我们可以通过User-agent获取
req.add_header("User-Agent",
               "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0")
# 我们得到网页的返回结果
data = urllib.request.urlopen(req).read()
# 打印返回的网页信息
print(data.decode("utf-8"))

具体运行结果，自行验证。

3. 通过BeautifulSoup提取页面信息

3.1 安装BeautifulSoup库

和网页页面信息提取相关的Python库有两个：一个是re库，这个库是Python的内置库，主要功能是用来封装正则表达式，不用我们额外安装；还有一个是beautifulsoup4库，这个库不是内置库，主要的功能是用来解析HTML的标签，需要我们额外安装，安装方式是在Python的终端界面（Terminal）中键入“pip install beautifulsoup4“ 或 pip3 install beautifulsoup4”。安装完成之后，我们通过“pip list” 或 “pip3 list”查看是否已经安装。

在此不再概述。

3.2 用Tag提取HTML元素和属性

了解过前端的人都知道，在HTML页面中，有非常多的标签，我们也可以称它们为元素，比如最常见的和。而元素中牙可以定义很多的属性或者是元素的值。

因此我们需要创建Tag对象提取HTML中的元素，Tag对象有两个非常重要的元素：name和attrs，name表示元素的名字，而attrs表示属性的列表。

""" coding = utf-8"""

from bs4 import BeautifulSoup

# 定义HTML的文本数据
htmlContent = """

    
        HTML Title
    
    
        Hello
    

"""
# 把解析好的对象放入soup
soup = BeautifulSoup(htmlContent, "html.parser")
# 输出HTML Title
print(soup.title)
# 输出HTML Title
print(soup.head)
# 输出Hello
print(soup.p)
# 输出title，表示元素的名字
print(soup.title.name)
# 如下输出p，表示元素的名字
print(soup.p.name)
# 用键值对的形式输出{'class' : ['redColor']}
print(soup.p.attrs)
# 输出['redColor']，表示属性值
print(soup.p.attrs['class'])

输出结果如下：

3.3 用NavigableString提取元素值

如果想进一步获取HTML元素中的值，我们就可以调用tag.string方法，这返回的是NavigableString类型对象。

"""ciding = utf-8"""

from bs4 import BeautifulSoup

htmlcontent = """

    
    HTML Title
    
    

"""
# 把解析好的对象放入soup中
soup = BeautifulSoup(htmlcontent, "html.parser")
# 通过soup.title.string的形式解析title元素中的值，输出HTML Title
print(soup.title.string)
# 用type得到soup.title.string的类型，输出
print(type(soup.title.string))

输出结果如下：

3.4 用Comment提取注释

当然，每一种编程语言都会说明注释方式，在HTML文本中，是通过** **的方式进行注释。在BeautifulSoup对象中，我们可以通过使用Comment对应的的进行读取注释信息。

"""coding = utf-8"""

from bs4 import BeautifulSoup

htmlContent = ''
# 将解析好的对象放入soup
soup = BeautifulSoup(htmlContent, "html.parser")
# 通过soup.元素名.string来获得元素值，也可能得到注释
comment = soup.b.string
# 如下输出my.comment
print(comment)
# 如下输出
print(type(comment))

输出结果如下：

因为在解析HTML页面时，不用关注注释，因此我们首先判断是否是NavigableString类型还是Comment类型。若是NavigableString，我们继续进行解析，若是Comment类型，则直丢弃。

4. 通过正则表达式截取信息

在实际项目中，我们一般会使用正则表达式来查找和替换某个模式的文本。在爬虫场景中，我们就会使用正规则表达式按照一定的规则来获取HTML文本中查找和截取所需的数据。

正则表达式的方法是封印在Python的re库中，我们将使用re库中提供的方法解析BeautifulSoup提取到的信息，来从中得到预期结果。

4.1 查找指定字符串

正则表达式的主要功能还是查找和替换。

"""coding = utf-8"""

# 引入所需的正则表达式re库
import re
# 定义要查找的内容（查找目标），也就是“Python”字符串
pattern = "Python"
# 定义待查找的目标字符串
val = "Now I am learning Python"
# 通过re.search方法实现查找功能，实现方式为re.search(查找目标，目标字符串)
position = re.search(pattern, val)
# 结果输出（）
# 查找时要注意匹配字母大小写，大写与小写是不同的表达
print(position)

输出结果如下：

4.2 用通用字符来模糊匹配

通常情况下，精确查找（匹配）我们并不常用，更加常用的是模糊匹配。模糊匹配时我们就要使用一些通配符来实现我们的匹配效果。

通配符	含义
w	用来匹配任何一个字母、数字或下划线。
\W	用来匹配除了字母、数字或下划线以外的其他任意一个字符。
\d	用来匹配任意一个十进制数字。
\D	用来匹配除了十进制数字以外的其他任意一个字符。
\s	用来匹配任意一个空白字符。
\S	用来匹配除了空白字符外的其他任意一个字符。

这些通配符是用来匹配一个字符的，而且小写表示”能匹配上“、大写表示”匹配除此之外的任一字符“。

"""coding = utf-8"""
# 导入正则表达式re库
import re

pattern = '\wpython\W'
val = '5python_'
# 输出结果：None
# 因为最后一个字符是下划线
print(re.search(pattern, val))

pattern = '\wpython\d'
val = '5python5'
# 输出结果：
print(re.search(pattern, val))

pattern = 'Python\s'
val = 'python Java'
# 输出结果：None
# 因为pattern的第一个首字母大写，val的第一个首字母是小写
print(re.search(pattern, val))

输出结果如下：

4.3 通过原子表来定义匹配规则

我们还可以使用原子表来定义更加灵活的匹配规则，原子表是用**[]**来定义的，下面会给出在原子表中经常出现的元字符以及它的含义。

原子表	含义
^	匹配字符串的开始位置
$	匹配字符串的结束位置
?	匹配0或1次前面的原子
+	匹配一次或多次前面的原子
{n}	前面的原子至少出现n次
{n, m}	前面的原子至少出现n次，至多出现m次

"""coding = utf-8"""

import re

# 匹配深沪A股和创业板股票的规则
# ^表示开始的位置，$表示结束的位置
# 用[6|3|0]表示第一位需要是6或3或0，用[0-9]{5}表示之后的0到9的数字出现5次
# 综合起来，我们要寻找的是以6、3或0为开头的六位数字
stockPattern = '^[6|3|0][0-9]{5}$'
# 符合我们的显示规则，然后输出
# 输出结果：
print(re.match(stockPattern, '300000'))
# 符合我们的显示规则，然后输出
# 输出结果：
print(re.match(stockPattern, '600895'))
# 不符合我们的显示规则
# 输出结果：None
print(re.match(stockPattern, '700000'))

输出结果如下：

入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！七七知享 Python python 开发语言 pandas numpy matplotlib java php
家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。接下来就给大家好好唠唠。随着课程深入，会涉及到Python的各种高级特性，比如面向对象编程、模块与包的使用。在讲面向对象编程时，老师通过打造一个小型游戏角色系统，把类、对象、继承、多态这些抽象概念诠释得生动形象，让
PyCharm 对接 DeepSeek 大模型的详细操作流程程之编 pycharm ide python
以下是使用PyCharm对接DeepSeek大模型的详细操作流程，基于Python开发环境。假设你已具备DeepSeekAPI的访问权限（需提前申请APIKey）：步骤1：PyCharm环境准备创建新项目打开PyCharm→NewProject→选择纯Python项目→指定项目路径→创建虚拟环境（建议选Virtualenv）。安装依赖库打开终端（Terminal）执行以下命令：pipinstall
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

Python学习——（2）通过网络爬虫获取数据

通过网络爬虫获取数据

1. 和爬虫有关的HTTP

1.1 基于HTTP的请求处理流程

1.2 HTTP请求头包含操作系统和浏览器信息

1.3 Post和Get请求方法

1.4 HTTP常见的状态码

2. 通过Urllib库获取网页信息

2.1 通过request爬取网页

2.2 设置超时时间

2.3 用URLError处理网络异常

2.4 设置header属性来模拟浏览器发送请求

3. 通过BeautifulSoup提取页面信息

3.1 安装BeautifulSoup库

3.2 用Tag提取HTML元素和属性

3.3 用NavigableString提取元素值

3.4 用Comment提取注释

4. 通过正则表达式截取信息

4.1 查找指定字符串

4.2 用通用字符来模糊匹配

4.3 通过原子表来定义匹配规则

你可能感兴趣的:(网络爬虫,爬虫,python,开发语言)