hhhparty

python Web爬取工具总结 1 ：Requests和BeautifulSoup

1. 引言

近一年接触了不少基于python的Web爬虫系统或工具库，收获不少，需要继续总结提高，所以下面对各类工具的应用方法和特性进行总结。

2. 内容概要

根据自己的学习经历，本文涉及内容大致有以下部分：
- Requests：常用于爬取单一或数量有限的网页，适合于爬取小规模、数据量小的，对爬取速度不敏感的内容。
- beautifuSoup：用于解析（ HTML and XML files）文档。
- selinium
- urlib
- scrapy：常用于爬取网站，爬取对象的数据规模较大，对爬取速度敏感（必须赶上网站本身生成数据的速度）。
- pyspider
- pyquery
- 其他相关
目标定的挺大，下面一个个来了。

3. Requests库

官方网址：http://www.python-requests.org/en/master/
Requests库是唯一的面向python的“非转基因”http 库，支持python2.x和python3.x，但建议使用python3.5以上。http处理能力强，使用起来简洁有效。官方demo如下：

>>>import requests
>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}

Requests能简单地构造出HTTP／1.1 requests，不需要人工向URL中加入查询字串，或在POST数据中加入表单编码。借助urllib3（python3内置）TCP Keep-alive和HTTP连接池都是100%自动的。其他特性包括：

Keep-Alive & Connection Pooling
International Domains and URLs
Sessions with Cookie Persistence
Browser-style SSL Verification
Automatic Content Decoding
Basic/Digest Authentication
ElegantKey/Value Cookies
Unicode Response Bodies
Multipart File Uploads
Streaming Downloads
Connection Timeouts
Chunked Requests
.netrc Support
安装requests
安装方法很简单：pip install requests。
使用requests
使用requests库前，需要import requests。
初阶使用是很简单的，有许多中文教程。大多是参考官方quickstart（http://www.python-requests.org/en/master/user/quickstart/）的中文译本。
requests库里常用的有7个方法：
- get()：获取html网页的主要方法，对应于http的get方法。
- put()：向html网页提交put请求的方法，对应于http的put方法。
- delete()：向html网页提交delete请求的方法，对应于http的delete。
- head()：获取html网页头请求的方法，对应于http的HEAD。
- patch()：向html网页提交局部修改请求的方法，对应于http的patch。
- post()：向html网页提交POST请求，对应于http的post。
- request()：构造一个请求，是支撑以上方法的基础方法。事实上，前6个方法都可以用request实现。
requests.request(method,url,**kwargs)，其中method可以为‘GET’,’POST’,’HEAD’,’DELETE’,’PUT’,’PATCH’,’OPTION’， **kwargs有13个可选的控制访问的参数：
（1） params：字典或字节序列，作为参数增加到url中。例如：

kv = {'key1':'value1','key2':'value2'}
r = requests.request('GET','http://python.io/ws',params = kv)
print(r.url)
结果为：
https://www.python.org/ws?key2=value2&key1=value1

(2)data：字典、字节序列或文件对象，作为Request的内容。例如：

kv = {'key1':'value1','key2':'value2'}
r = requests.request('POST','http://python.io/ws',data = kv)
print(r.url)
#输出为https://www.python.org/ws，data不会将kv字典内容追加到url中，而是作为data参数，使用post方法传递。
body = '主题内容'
r = requests.request('POST','http://python.io/ws',data = body)
#也可以把字符序列作为请求参数。

（3）json：JSON型格式的数据，作为Request的内容。

kv = {'key1':'value1','key2':'value2'}
r = requests.request('POST','http://python.io/ws',json = kv)

（4）headers：字典，http头字段。使用它可以定制协议头。

kv = {'user-agent':'chrome／10'}
r = requests.request('POST','http://python.io/ws',headers = kv)

（5）cookies：字典或CookieJar，用于定制request中的cookie
（6）auth：元组，用于支持http认证功能。
（7）files：字典，用于传输文件。

#下面的程序中，首先fs作为打开文件内容构成的字典，然后作为reqeust的一部分发给url。
fs = {'file':open('data.xls','rb')}
r = requests.request('POST','http://python.io/ws',files = fs)

（8）timeout：设置超时时间，以秒为单位。
（9）proxies：字典，设定访问代理服务器，可以增加登陆认证，还可以用于隐藏源地址（服务器只会知道代理服务器地址）。

pxs = {'http':'http://user:[email protected]:1234','https':'https://10.10.10.1:4321',}
r = requests.request('POST','http://python.io/ws',proxies = pxs)

（10）allow_redirects：值为True或False，默认为True，是重定向允许与否的开关。
（11）stream：值为True或False，默认为True，获取内容立即下载开关。
（12）verify：值为True或False，默认为True，认证ssl证书的开关。
（13）cert：本地SSL证书路径。
由于网站一般限制向服务器提交数据，所以get方法是最常用的。由于网络访问的不确定性，所以常用下列代码范例：

import requests
def spider(url = url):
    try:
        url = url
        #为了防止服务器禁止爬虫爬取，可以用设置http头user-agent的方法，仿冒人使用浏览器访问。
        ua = {'User-agent':'Mozilla/5.0'} #Mozilla/5.0 可能是火狐、ie10、mozilla等。
        r = requests.get(url,timeout = 30,headers=ua)
        r.raise_for_status()#若响应中http 状态码不是200，则抛出异常。
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "Network access error."

下面写一个下载图片的例子：

import requests
import os
basdir = '~/Downloads/'
def getRemoteImage(imageurl):
    try:
        save_path = basdir + imageurl.split('/')[-1]

        ua = {'User-agent': 'Mozilla/5.0'}  # Mozilla/5.0 可能是火狐、ie10、mozilla等。
        r = requests.get(imageurl, timeout=30, headers=ua)
        r.raise_for_status()  # 若响应中http 状态码不是200，则抛出异常。
        if not os.path.exists(save_path):
            print("To save the remote image...")
            with open(save_path, 'wb') as f:
                f.write(r.content)
                f.close()
                print("Remote image file download successfully. ")
        else:
            print("Image file has existed.")
    except:
        print( "Network access error.")
if __name__ == "__main__":
    getRemoteImage(imageurl='http://img0.dili360.com/rw17/ga/M00/01/E5/wKgBzFQ2um-ACd7PAAa2w6jPYb4303.jpg')

深入学习requests库的高级应用，需要先了解requests中的几个关键类：Session，Request, Response等等，在爬取有SSL或CA的页面时还要有更多的细节需要了解。官方文档Advanced Usage（http://www.python-requests.org/en/master/user/advanced/#ssl-cert-verification）有详细介绍。

4.BeautifulSoup

（1）安装
使用pip安装的命令：pip install beautifulsoup
（2）使用
先考虑用beautifulsoup解析html。beautifulsoup会将html文档解析为树形模型，然后根据标签、属性等标识、提取、编辑信息。
先定义一段html文档：

html_doc = """
<html><head><title>The Dormouse's storytitle>head>
<body>
<p class="title"><b>The Dormouse's storyb>p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsiea>,
<a href="http://example.com/lacie" class="sister" id="link2">Laciea> and
<a href="http://example.com/tillie" class="sister" id="link3">Tilliea>;
and they lived at the bottom of a well.p>

<p class="story">...p>
"""

接下来，写使用beautifulsoup来解析上述文档的程序：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

下面是执行后的输出结果：

# 
#  
#   </span>
<span class="hljs-preprocessor">#    The Dormouse's story</span>
<span class="hljs-preprocessor">#   
#  
#  
#   
#    
#     The Dormouse's story
#    
#   
#   
#    Once upon a time there were three little sisters; and their names were
#    
#     Elsie
#    
#    ,
#    
#     Lacie
#    
#    and
#    
#     Tillie
#    
#    ; and they lived at the bottom of a well.
#   
#   
#    ...
#   
#  
#

更多的操作：

soup.title
# <title>The Dormouse's storytitle>

soup.title.name
# u'title'

soup.title.string
# u'The Dormouse's story'

soup.title.parent.name
# u'head'

soup.p
# <p class="title"><b>The Dormouse's storyb>p>

soup.p['class']
# u'title'

soup.a
# <a class="sister" href="http://example.com/elsie" id="link1">Elsiea>

soup.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsiea>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Laciea>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tilliea>]

soup.find(id="link3")
# <a class="sister" href="http://example.com/tillie" id="link3">Tilliea>

为了获取html中的超链接，可以如下操作：

for link in soup.find_all('a'):
    print(link.get('href'))
输出为：
# http://example.com/elsie
# http://example.com/lacie
# http://example.com/tillie

输出全部文本的方法如下：

print(soup.get_text())
# The Dormouse's story
#
# The Dormouse's story
#
# Once upon a time there were three little sisters; and their names were
# Elsie,
# Lacie and
# Tillie;
# and they lived at the bottom of a well.
#
# ...

beautifulsoup在处理html或xml文档时，有5种基本元素：标签Tag、Tag的Name、属性Attributes、NavigableString、Comment。
遍历标签的方法有：contents、childredn、descendants、parent、parents、next_sibling、previous_sibling、next_siblings、previous_siblings、find_all等方法。find_all是比较常用且基础的一个。

find_all( name , attrs , recursive , text , **kwargs )
find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件.这里有几个例子:

#例子
soup.find_all("title")
# [The Dormouse's story]
soup.find_all("p", "title")
# ["title">The Dormouse's story]
soup.find_all("a")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsiea>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Laciea>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tilliea>]
soup.find_all(id="link2")
# [<a class="sister" href="http://example.com/lacie" id="link2">Laciea>]
import re
soup.find(text=re.compile("sisters"))
# u'Once upon a time there were three little sisters; and their names were\n'

find_all中的参数：

name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉。注意: 搜索 name 参数的值可以使任一类型的过滤器 ,字符串,正则表达式,列表,方法或是 True 。

#简单的用法如下:
soup.find_all("title")
# [The Dormouse's story]

keyword 参数，如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性.

soup.find_all(id='link2')
# ["sister" href="http://example.com/lacie" id="link2">Lacie]

如果传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性:

soup.find_all(href=re.compile("elsie"))
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsiea>]

搜索指定名字的属性时可以使用的参数值包括字符串 , 正则表达式 , 列表, True 。
下面的例子在文档树中查找所有包含 id 属性的tag,无论 id 的值是什么:

soup.find_all(id=True)
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsiea>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Laciea>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tilliea>]

使用多个指定名字的参数可以同时过滤tag的多个属性:

soup.find_all(href=re.compile("elsie"), id='link1')
# ["sister" href="http://example.com/elsie" id="link1">three]

有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性:

data_soup = BeautifulSoup('data-foo="value">foo!')
data_soup.find_all(data-foo="value")
# SyntaxError: keyword can't be an expression

但是可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag:

data_soup.find_all(attrs={"data-foo": "value"})
# ["value">foo!
]

按CSS搜索
按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag:

soup.find_all("a", class_="sister")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsiea>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Laciea>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tilliea>]

class_ 参数，同样接受不同类型的过滤器 ,字符串,正则表达式,方法或 True :

soup.find_all(class_=re.compile("itl"))
# [The Dormouse's story
]

def has_six_characters(css_class):
    return css_class is not None and len(css_class) == 6

soup.find_all(class_=has_six_characters)
# [Elsie,
#  Lacie,
#  Tillie]

tag的 class 属性是多值属性 .按照CSS类名搜索tag时,可以分别搜索tag中的每个CSS类名:

css_soup = BeautifulSoup('
')
css_soup.find_all("p", class_="strikeout")
# [
]

css_soup.find_all("p", class_="body")
# [
]

搜索 class 属性时也可以通过CSS值完全匹配:

css_soup.find_all("p", class_="body strikeout")
# [
]

完全匹配 class 的值时,如果CSS类名的顺序与实际不符,将搜索不到结果:

soup.find_all("a", attrs={"class": "sister"})
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsiea>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Laciea>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tilliea>]

text 参数
通过 text 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, text 参数接受字符串 , 正则表达式 , 列表, True . 看例子:

soup.find_all(text="Elsie")
# [u'Elsie']

soup.find_all(text=["Tillie", "Elsie", "Lacie"])
# [u'Elsie', u'Lacie', u'Tillie']

soup.find_all(text=re.compile("Dormouse"))
[u"The Dormouse's story", u"The Dormouse's story"]

def is_the_only_string_within_a_tag(s):
    ""Return True if this string is the only child of its parent tag.""
    return (s == s.parent.string)

soup.find_all(text=is_the_only_string_within_a_tag)
# [u"The Dormouse's story", u"The Dormouse's story", u'Elsie', u'Lacie', u'Tillie', u'...']

虽然 text 参数用于搜索字符串,还可以与其它参数混合使用来过滤tag.Beautiful Soup会找到 .string 方法与 text 参数值相符的tag.下面代码用来搜索内容里面包含“Elsie”的标签:

soup.find_all("a", text="Elsie")
# [<a href="http://example.com/elsie" class="sister" id="link1">Elsiea>]

limit 参数

find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果.

文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量:

soup.find_all("a", limit=2)
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsiea>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Laciea>]

recursive 参数

调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .

一段简单的文档:

The Dormouse’s story

…

是否使用 recursive 参数的搜索结果:

soup.html.find_all("title")
# [The Dormouse's story]

soup.html.find_all("title", recursive=False)
# []

像调用 find_all() 一样调用tag

find_all() 几乎是Beautiful Soup中最常用的搜索方法,所以我们定义了它的简写方法. BeautifulSoup 对象和 tag 对象可以被当作一个方法来使用,这个方法的执行结果与调用这个对象的 find_all() 方法相同,下面两行代码是等价的:

soup.find_all("a")
soup("a")

这两行代码也是等价的:

soup.title.find_all(text=True)
soup.title(text=True)

附录A：网络爬虫的限制

来源审查
检查来访http协议头的User-agent域，只响应浏览器或友好爬虫的访问。
2.发布公告
告知所有爬虫，即Robots.txt.
Robots Exclusion Standard协议用来公告网络爬虫，不允许爬取哪些信息。例如：

##https://www.jd.com/robots.txt
User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

附录B：三种信息标记的形式

为了描述信息，有三种信息标记的形式：xml、json、yaml，使用他们来描述会使信息变得有结构。
1. xml
xml指可扩展标记语言，XML被设计用来传输和存储数据。它通过标签和属性来描述信息；
xml是最早的通用信息标记，扩展性好、通用性好，但繁琐。
常用于internet上信息交互。
2. json
JSON是JavaScript 对象表示法（JavaScript Object Notation），它也用于存储和交换文本信息。JSON类似 XML，但JSON 比 XML 更小、更快，更易解析。json使用键值对来描述信息。
json采用的是有类型的键值对。适合于程序处理（js），较xml简洁。
通常使用在移动应用云端和节点间的通信，但无法表达注释。
3. yaml
YAML是“另一种标记语言”的外语缩写, 它的设计目标，就是方便人类读写。它实质上是一种通用的数据串行化格式。它的基本语法规则如下：“大小写敏感、使用缩进表示层级关系、缩进时不允许使用Tab键，只允许使用空格、缩进的空格数目不重要，只要相同层级的元素左侧对齐即可。”
yaml采用的是无类型的键值对。文本信息比例最高，可读性好。常用于各类配置文件。
YAML 支持的数据结构有三种：
- 对象：键值对的集合，又称为映射（mapping）/ 哈希（hashes） / 字典（dictionary）
- 数组：一组按次序排列的值，又称为序列（sequence） / 列表（list）
- 纯量（scalars）：单个的、不可再分的值

信息提取的一般方法

方法一：完整解析信息的标记形式，在提取关键信息。
需要标记解析器，例如：beautifulsoup的标签树遍历方式。
优点：信息解析准确
缺点：提取过程繁琐，速度慢。

方法二：无视信息标记形式，直接搜索关键信息。
需要全文搜索，对信息文本的查找函数。
优点：提取过程简洁、速度极快
缺点：提取结果准确性与信息内容相关。

方法三：融合方法1和方法2.

python高并发访问mysql_Python访问MySQL 阿廖林诺
Python访问数据库作为Python开发工程师，选择哪个数据库呢？当然是MySQL。因为MySQL不仅免费，普及率最高，出了错，可以很容易找到解决方法。而且，围绕MySQL有一大堆监控和运维的工具，安装和使用很方便。使用MySQLMySQL是Web世界中使用最广泛的数据库服务器。SQLite的特点是轻量级、可嵌入，但不能承受高并发访问，适合桌面和移动应用。而MySQL是为服务器端设计的数据库，能
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
#PyCharm 2024.1新增功能 Dingdangr pycharm ide python
PyCharm2024.1作为JetBrains专为Python开发者设计的集成开发环境（IDE）的最新版本，带来了众多令人兴奋的新增功能，旨在提升开发者的编程效率和体验。以下是对这些新增功能的详细解析：一、智能编码辅助HuggingFace模型和数据集文档预览PyCharm2024.1引入了HuggingFace模型和数据集的快速文档预览功能。开发者可以直接在PyCharm内部快速获取Huggi
Python 爬虫实战：科学知识收集网站构建西攻城狮北 python 爬虫开发语言
一、引言在信息爆炸的时代，科学知识的收集与整理变得尤为重要。通过构建一个科学知识收集网站，我们可以高效地获取、整理和展示各类科学知识，为科研人员、学生以及科学爱好者提供便利。本文将详细介绍如何使用Python爬虫技术构建这样一个网站，涵盖从目标网站分析到数据存储与展示的完整流程。二、目标网站分析选择一个合适的科学知识网站作为数据源是构建收集网站的第一步。以中国科学院（http://www.cas.
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
Python 实现的采集诸葛灵签老大白菜 python python 开发语言
Python实现的采集诸葛灵签项目介绍这是一个基于Python开发的诸葛灵签数据采集和展示项目。通过爬虫技术获取诸葛神签的签文和解签内容，并提供数据存储和查询功能。项目结构zhuge/├──zhuge_scraper.py#爬虫主程序├──zhuge_pages/#数据存储目录│├──all_signs.json#汇总数据│└──zhuge_sign_*.json#单个签文数据└──zhuge.m
用Python开发一个简单的“记忆翻牌”小游戏风亦辰739 Python小游戏 python pygame 开发语言
“记忆翻牌”是一款经典的益智小游戏，玩家需要通过记忆卡片的位置配对相同的图案。今天我们将使用pygame库实现一个简单版本的记忆翻牌游戏。一、游戏规则游戏开始时，卡片会随机排列并翻面。玩家一次可以翻两张卡片：如果图案相同，卡片保持翻开状态。如果图案不同，卡片会短暂显示后翻回去。游戏目标是用最少的步数找到所有配对。二、开发环境开发工具：任意Python编辑器（如PyCharm、VSCode）。依赖库
【Python系列】如何通过PyQt5构建桌面应用东临碣石82 python
Python标准内置了Tkinter库可以用于开发桌面应用，但其创建的界面外观不够现代。PyQt5是一个用于创建图形用户界面（GUI）的Python库，它基于强大的Qt库，为Python开发者提供了丰富的功能和选项，用于构建高质量的跨平台桌面应用程序。以下是PyQt5的详细介绍：一、基本概述定义：PyQt5是一个用于Python编程语言的GUI库，它基于Qt5框架，由RiverbankComput
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
Python 爬虫基础教程盛子涵666 python 爬虫开发语言
爬虫的背景与应用诞生爬虫（WebCrawling）是自动化程序，用于从互联网上获取信息。爬虫的基本任务是自动访问网站，通过抓取网页内容并提取有用数据来构建数据库、索引或者进行进一步的数据分析。爬虫通常会模拟浏览器的行为，以避免被服务器识别为机器人，并且能够在大规模范围内高效地抓取信息。爬虫技术最早由搜索引擎开发者提出，目的是自动收集网页信息并将其索引，便于用户搜索时快速检索相关内容。随着互联网的快
Python爬虫实战：抓取电子图书平台图书信息与下载数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫信息可视化
前言电子图书平台汇集了海量的图书资源和丰富的信息，抓取这些数据可用于研究图书销售趋势、阅读偏好分析，甚至为书籍推荐系统提供数据支持。本文将详细介绍如何使用Python爬虫技术抓取电子图书平台的图书信息和下载数据。我们会涵盖从需求分析到代码实现的完整流程，探讨如何应对复杂的反爬机制，并使用最新的技术工具优化抓取过程。目录前言一、需求分析与目标1.1抓取目标1.2难点与挑战二、技术选型与工具2.1使用
Python 爬虫实战：公开专利信息抓取与创新趋势分析系统构建西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，专利信息已成为企业和科研机构进行技术创新与竞争分析的重要资源。通过获取和分析专利数据，可以了解行业动态、技术发展趋势以及竞争对手的创新方向。本文将详细介绍如何使用Python爬虫技术抓取公开专利信息，并构建一个创新趋势分析系统。二、项目背景与目标2.1项目背景随着全球科技创新的加速，专利数量不断增加。手动查阅专利信息已无法满足高效分析的需求，因此利用Python爬虫自动抓
2024年最全Python逆向进阶：Web逆向私单_逆向工程能接爬虫私活吗(1) 2401_84692110 程序员 python 前端爬虫
可见，大家都迫切地想要掌握Python爬虫技术。很多人都表示，高阶的爬虫技术不太好上手，找到合适的练手项目也很不容易，每个人都在期待一套能快速进阶的技术速成方案。想要快速学好爬虫，尤其是可以用于变现的高阶爬虫技术，野路子的啃书自学就大可不必了，辣条推荐大家直接来参加Python爬虫实战特训营。可直接白瓢三天~↓↓↓文末的这个名片直接找我，直接参加即可↓↓↓这是一套专讲爬虫与反爬虫攻防的实战特训，迄
2024年Python逆向进阶：Web逆向私单_逆向工程能接爬虫私活吗(2) 2301_82243558 程序员 python 前端爬虫
可见，大家都迫切地想要掌握Python爬虫技术。很多人都表示，高阶的爬虫技术不太好上手，找到合适的练手项目也很不容易，每个人都在期待一套能快速进阶的技术速成方案。想要快速学好爬虫，尤其是可以用于变现的高阶爬虫技术，野路子的啃书自学就大可不必了，辣条推荐大家直接来参加Python爬虫实战特训营。可直接白瓢三天~↓↓↓文末的这个名片直接找我，直接参加即可↓↓↓这是一套专讲爬虫与反爬虫攻防的实战特训，迄
Python 爬虫实战：在线论坛用户活跃度分析系统构建西攻城狮北 python 爬虫开发语言
作为一名对数据分析和社区运营感兴趣的内容创作者，我决定利用Python爬虫技术抓取在线论坛的用户数据，并构建一个用户活跃度分析系统。这对于了解用户行为、提升社区活跃度和优化运营策略具有重要意义。一、项目背景在线论坛是用户交流和分享信息的重要平台。用户的活跃度直接影响论坛的氛围和价值。通过分析用户的发帖、回帖、点赞等行为数据，我们可以评估用户的活跃度，找出活跃用户和沉寂用户，为社区的精细化运营提供数
Python爬虫：从人民网提取视频链接的完整指南小白学大数据 python python 爬虫音视频开发语言大数据
无论是用于数据分析、内容提取还是资源收集，Python爬虫都因其高效性和易用性而备受开发者青睐。本文将通过一个实际案例——从人民网提取视频链接，详细介绍如何使用Python构建一个完整的爬虫程序。我们将涵盖从基础的网络请求到HTML解析，再到最终提取视频链接的全过程。一、爬虫技术概述网络爬虫（WebCrawler）是一种自动化的程序，用于在互联网上浏览网页并收集信息。它通过模拟浏览器的行为，发送H
Linux下的Python开发环境 ftpeak Python Linux linux 运维服务器 conda pycharm
以下是在Ubuntu22.04上安装XFCE桌面、配置中文环境、中文输入法、远程桌面；安装anaconda、PyCharm、谷歌浏览器等的步骤：首先，正常安装完毕Ubuntu22.04Linux。如果选择某些云平台的ECS服务器，可以用十几秒钟完成Ubuntu22.04Linux映像的快速安装，非常方便。一、安装XFCE桌面环境sudoaptupdatesudoaptinstallxfce4xfc
爬虫基础巷955 爬虫
引言:在当今信息爆炸的时代，互联网上充斥着海量的数据。如何高效地从这些数据中提取出有价值的信息，成为了许多开发者和数据分析师关注的焦点。爬虫技术（WebScraping）作为一种自动化获取网页数据的技术，正逐渐成为数据采集的重要手段。本文将带你从零开始学习爬虫的基础知识，帮助你掌握如何编写简单的爬虫程序。爬虫的基本流程:1.发送请求：爬虫首先向目标网站发送HTTP请求，获取网页的HTML内容。2.
Python 爬虫实战：全球大学排名数据抓取与排名趋势分析西攻城狮北 python 爬虫开发语言大学排名
引言作为一名对教育数据和数据分析感兴趣的内容创作者，我决定利用Python爬虫技术抓取全球大学排名数据，并对排名趋势进行分析。这对于了解大学的学术表现、国际竞争力以及教育发展的动态具有重要意义。一、项目背景全球大学排名是衡量高等教育机构学术声誉和综合实力的重要指标。QS世界大学排名作为全球最具影响力的大学排名之一，每年都会发布最新的排名数据。通过抓取这些数据，我们可以分析不同大学在各个指标上的表现
【Python实用教学篇】手把手4步教会你用Python连接数据库！田野猫咪数据库 python 开发语言
一，打开数据库(Mysql)服务二，用Sqlyog(回复yog获取sqlyog工具使用方法)连接自己要测试的数据库，创建测试用数据库和表三，打开PyCharm，(python开发2.*版本可以直接使用MySQL，python3.*版本需要下载使用PyMySQL包才能连接数据库)，按照下图方法安装PyMySql包1.ctrl+alt+s调出设置面板，选择project下的pythoninterpre
使用 Python 爬虫抓取汽车品牌市场数据：销量、广告与消费者反馈 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化 php
引言在现代商业环境中，数据已经成为最重要的资产之一，尤其在汽车行业。汽车制造商、经销商以及广告商都依赖于市场数据来优化他们的营销策略、产品开发和品牌定位。对于研究汽车行业的市场趋势和消费者反馈，抓取不同汽车品牌的市场销量、广告效果及消费者评论，已成为一项重要的任务。随着Python爬虫技术的不断发展，我们可以使用最新的技术手段来自动化抓取汽车品牌的相关数据。本文将详细介绍如何使用Python爬虫抓
市场调研新思路：Python 爬虫抓取多行业数据，剖析市场需求西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，市场调研变得愈发重要。传统的市场调研方式往往受限于高成本和低效率，而Python爬虫技术的出现为市场调研提供了新思路。通过爬虫抓取多行业数据，可以快速获取大量有价值的信息，进而剖析市场需求，为商业决策提供有力支持。本文将详细介绍如何利用Python爬虫抓取多行业数据，剖析市场需求。一、Python爬虫在市场调研中的重要性高效获取数据：能够轻松抓取海量的互联网数据，包括商品
Python爬虫教程：爬取全网小说数据 Python爬虫项目 python 爬虫开发语言数据库数据分析
引言随着互联网内容的爆炸式增长，小说作为一种受欢迎的娱乐形式，已经成为了网络中最重要的内容之一。从各种在线小说平台（如起点中文网、17K小说网、红袖添香等）到免费的书籍网站，小说资源无处不在。因此，爬取全网小说数据成为了许多数据分析师、开发者以及小说爱好者的需求。本篇博客将介绍如何使用Python爬虫技术爬取全网小说数据。爬取的数据包括小说名称、作者、章节、内容等。通过本文，您将掌握如何利用Pyt
Python 爬虫实战：全球机场航班数据抓取与延误情况分析西攻城狮北 python 爬虫开发语言
在当今全球化的世界中，航空运输已成为人们出行和货物运输的重要方式。航班的准点到达对于旅客的行程安排和航空公司的运营效率至关重要。通过分析全球机场的航班数据，我们可以了解航班延误的情况及其原因，为旅客和航空公司提供有价值的参考。本文将详细介绍如何使用Python爬虫技术抓取全球机场航班数据，并进行延误情况分析。一、项目背景与目标1.项目背景随着航空业的快速发展，航班数量不断增加，航班延误问题也日益受
使用爬虫获取衣联网商品详情：实战指南小爬虫程序猿爬虫
在电商领域，快速获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何快速使用Python爬虫技术获取衣联网商品详情，并确保爬虫行为符合平台规范。一、环境准备（一）Python开发环境确保你的系统中已安装Python（推荐使用Python3.8及以上版本）。（二）安装所需库安装requests和BeautifulSoup库，用于发送HTT
python开发环境spyder_Spyder：科学的Python 开发环境IDE 黑脸V
Somesourcefilesandiconsmaybeunderotherauthorship/licenses;seeNOTICE.txt.Projectstatus
高效获取Amazon数据的终极指南：Pangolin爬虫API工具详解与实战应用 CharonXA 爬虫数据采集网络爬虫 python 绕过验证码爬虫API 开发语言
解决Amazon反爬难题，标准化API接口工具实现精准数据采集引言背景与痛点在电商数据驱动决策的今天，亚马逊作为全球最大的电商平台，其商品数据、竞品信息、市场趋势等成为了商家、分析师和开发者追逐的“金矿”。无论是价格监控、竞品分析，还是选品决策和市场趋势预测，亚马逊的数据价值不言而喻。然而，获取这些数据的传统方式却面临诸多挑战：手动采集效率低下，数据不实时；传统爬虫技术常常被亚马逊的反爬机制拦截，
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc