工匠若水

Python3.X 爬虫实战（先爬起来嗨）

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

1 背景

爬虫的价值就不多说了，Python 的便捷与强大也就不 BB 了，在这个数据泛滥、追求效率的时代，使用 Python 可以为我们创造相当多的便捷，Web 开发、桌面小工具开发、粘性脚本编写、大数据处理、图像处理、机器学习等等，能做到的事情实在太多。就拿一个再随便不过的需求来说吧，当我们在做 Android 开发时想将现有 drawable 目录下 *.png 图片全部自动转换为 webp 格式时，我们一般的套路可能都是借助第三方工具（很多都只能一张一张转换），而使用 Python 核心就两行代码就可以做到这一点，如果想批量自定义转换姿势（路径、文件名等），使用 Python 也是非常方便的，譬如这里就有一个我写的非常简单的 Python png 批量转换 webp 工具。具体源码如下：

#! /usr/bin/env python3

from PIL import Image
from glob import glob
import os
"""
说明：仅提供核心基础思想和脚本，自己可以改善为自动识别 Android 工程全部转换。
1. 将该脚本放置在自己 Android png 目录下;
2. 运行命令 python3 image2webp.py;
3. 在该目录下的 output 目录下生成当前文件夹下所有 png 图片对应的 webp 图片;
"""

def image2webp(inputFile, outputFile):
    try:
        image = Image.open(inputFile)
        if image.mode != 'RGBA' and image.mode != 'RGB':
            image = image.convert('RGBA')

        image.save(outputFile, 'WEBP')
        print(inputFile + ' has converted to ' + outputFile)
    except Exception as e:
        print('Error: ' + inputFile + ' converte failed to ' + outputFile)

matchFileList = glob('*.png')
if len(matchFileList) <= 0:
    print("There are no *.png file in this directory (you can run this script in your *png directory)!")
    exit(-1)

outputDir = os.getcwd() + "/output"
for pngFile in matchFileList:
    fileName = pngFile[0:pngFile.index('.')]
    if not os.path.exists(outputDir):
        os.makedirs(outputDir)
    image2webp(pngFile, outputDir + "/" + fileName + ".webp")

print("Converted done! all webp file in the output directory!")

震撼吧，人生苦短，我用 Python！真的是这样咯，不过这一系列我们不探讨 Python 的其他奥妙，而是直接探讨一个垂直领域 —— Python 爬虫。其实双赢的爬虫（搜索引擎收录爬虫就是共赢的，地下黑作坊在网上肆意洗数据，譬如洗邮箱数据就是被抵制或非法的）对于大多数网站来说是有利的，而恶意的爬虫就适得其反了。正常来说我们想要获取某些网站数据应该通过他们的开放 API 进行合法授权访问，但是企业毕竟是企业，都是有所保留的开放 API 权限，所以有时候我们不得不使用暴力手段来洗劫有价值的数据，这也就是爬虫存在的一大价值。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

2 爬虫基础

爬虫其实涉及的东西还是比较杂和多的，比较重要的几点可能就是得掌握 Python 语法基础和一些常用的内置或者拓展模块、熟悉 WEB 开发的相关知识、熟悉数据持久化（关系型数据库、非关系型数据库、文件）缓存等一些技术、熟悉正则等。

2-1 约定俗成的潜规则

对 WEB 了解的朋友都知道一般的网站都会有 robots.txt 和 Sitemap 定义，这些定义其实对我们进行合理化的爬虫编写是具备指导意义的，譬如我们看下稀土掘金（https://juejin.im）这个网站的 robots.txt 文件（https://juejin.im/robots.txt），如下：

User-agent:*
Disallow:/timeline
Disallow:/submit-entry
......
Disallow:/subscribe/all?sort=newest
Disallow:/search

Sitemap:https://juejin.im/sitemap/sitemappart1.xml
......
Sitemap:https://juejin.im/sitemap/sitemappart4.xml

robots.txt 中定义的 Sitemap，访问（https://juejin.im/sitemap/sitemappart1.xml）如下：

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://juejin.im/loc>
<priority>1.0priority>
<changefreq>alwayschangefreq>
url>
<url>
<loc>https://juejin.im/welcome/androidloc>
<priority>0.8priority>
<changefreq>hourlychangefreq>
url>
......
urlset>

可以看到 robots.txt 文件内容明确建议（注意：只是建议，只是建议，只是建议，恶意的爬虫管你这屁建议呢）了爬虫程序爬取该网站时有哪些限制，一般遵守这些限制规则就能很好的降低自己爬虫被封的风险；Sitemap 提供了网站几乎所有的页面列表，我们可以使用这个列表直接爬取这个站点，也可以自己采用别的方式，因为这玩意不是每个网站都有的。所以说 robots.txt 和 Sitemap 只是约定俗成的潜规则，潜规则，一般我们酌情遵守就行了，譬如可以考虑遵守他们提到的访问请求间隔、代理禁止类型等，其他的就看你自己的节操了。

2-2 基本工具

俗话说“工欲善其事必先利其器”，爬虫也需要一些利器。对于 Python 开发工具我选择 PyCharm 和 Sublime；对于浏览器可以选择 Chrome 等，再安装一些 WEB 开发插件，譬如 FireBug、Wappalyzer、Chrome Sniffer 等，方便爬虫时分析网站，尤其是浏览器 F12 大法和清空站点 Cookie 一定要掌握，不然就没法愉快的玩耍爬虫了。当然了，爬虫的核心之一其实在于抓取到数据后如何筛选出对自己有价值的数据，关于做到和做好这一点我们有必要对站点页面有一个比较准确的把握，想要做到这一点就必须大致知道该网页使用了那些技术，这样就可以提高我们分析页面的效率。分析网页使用哪些技术有很多方法，也有很多浏览器插件，譬如上面提到的 Chrome Sniffer等；也可以直接访问 https://builtwith.com/ 网站输入你要爬取的网页进行识别；当然也可以用 Python 的 builtwith 模块来获取，悲哀的是这个模块现在不支持 Python 3.X 版本，需要自己安装后手动修改。

当然了，还有一个不常用的利器需要知道，那就是度娘和 Google 咯，为啥呢？因为有时候我们大型项目可能需要先大致评估全站点爬虫的量有多大来进行相关爬虫的技术选型参考，所以有必要知彼知己。下面就以稀土掘金为例说明，如图：

可以看到，通过 site 指令度娘搜索告诉我们稀土掘金这个站点大约有 27256 个页面（这只是参考值，不完全准确），当我们真的需要全站点爬虫攻击时就要考虑这么大量情况下的爬虫方案选型和策略，以便保证爬虫的效率。

2-3 基本爬取技术思路

爬虫涉及的通用技术最核心的可能就是 HTTP 请求了，我们至少至少应该掌握 HTTP 的 POST 和 GET 请求方法；其次就是 HTTP 请求和返回的 Header 含义及如何使用浏览器等工具跟踪请求 Header，因为爬虫链接请求时出现问题最多的情况一般都是 Header 有问题，譬如通常至少要保证 User-Agent、Referer、Cookie 等的伪装正确性，返回 Header 里的重定向链接，Gzip 数据需要解压等；还有就是 POST 数据的 urlencode 包装发送等；所以在进行爬虫前一定要具备比较扎实的前端与后端基础知识，同时要具备比较充足的 HTTP 知识。

有了这些知识我们可能就会急于开始爬取，其实这是不对的，我们应该做的第一件事是对要爬取的站点进行分析，至于如何分析，下面给出了一些常规套路：

首先倒腾下看你要抓取的站点有没有响应式的移动页面，如果有那就保持一个原则，尽可能的抓取他们的移动页面（原因就是一般移动页面都是内容干货啊，相对 PC 页面没那么臃肿，方便分析）。
Cookie 的操蛋之处，分析时建议开启隐身模式等，不然就面对清空 Cookie 大法了，清空 Cookie 对于爬虫网站分析至关重要，一定要 get 到。
分析爬取网页是静态页面还是动态页面，以便采取不同的爬取策略，使用不同的爬取工具。
查看网页源码找出对你有价值的数据的网页排版规律，譬如特定 CSS 选择等，从而指定抓取后的数据解析规则。
清洗数据后选择如何处理抓取到的有价值数据，譬如是存储还是直接使用，是如何存储等。

以上几个套路摸索清楚以后就可以开始编写爬虫代码了，不过这时候还是有很多代码套路需要注意的，譬如 URL 的重复爬取、无效 URL 的剔除、爬虫欺骗、爬取异常处理等，如果想要自己的爬虫十分健壮，上面这些套路似乎都是必须要考虑的。

当然了，上面说的只是爬虫基础的核心事项，大型爬虫项目涉及的知识点就更加琐碎了，随着这个系列的渐进，我们会慢慢接触到的，下面我们先小牛试刀一把。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

3 实战一把，先爬起来嗨

BB 了辣么多基础，还没有任何实战，搞毛线啊！Talk is easy, show me the code！既然是 Python3.X 爬虫实战系列，所以我们先让自己爬起来，故我们先来看看一个爬虫的常规套路流程结构，如下图（此图引用自网络）：

看到了吧，一个爬虫的核心流程其实就是拿到一个 URL，下载下来这个 URL 指定的数据（网页或者结构化数据），解析出有价值的数据供自己使用，所以其实爬虫的核心机制流程就是不停的重复执行这个流程，日复一日的帮你在那各种爬呀爬呀爬。

依据上面的爬虫流程图，下面我们给出一个简单的爬虫程序，以便理解和感觉爬虫的魅力。下面是一个深度爬取百度百科 Android 词条简介及其衍生词条简介的实例，具体可以点击我在 github 查看该爬虫模块源码，这个小爬虫程序不是那么健壮，但是足以说明上面的流程图，该小爬虫包结构如下图：

我们在命令行执行 python3 spider_main.py 或者在 PyCharm 中点击 spider_main.py 文件右键运行就能看到爬虫开始爬取数据了（注意：该小爬虫依赖 BeautifulSoup 外部模块，如果没安装建议运行前先使用 pip 进行安装，命令为 pip install beautifulsoup4；其次该小爬虫默认只深度爬取 30 个链接），最终 30 个链接爬取完成后会在当前目录下自动输出了一个名为 out_2017-06-13_21:55:57.html 的 HTML 页面的表格，我们可以打开文件发现爬取的结果如下：

怎么样？我们爬取了百度百科一些关于 Android 和深度链接的名词介绍，然后依据自己喜好输出了一张 WEB 页面，当然咯，我们可以把这些数据写入数据库，再用 PHP 等编写 RESTFUL 接口通过 JSON 结构化语句返回给 APP 使用，赞不赞，再也不用为了自己做个小 App 到处去寻找免费的 API（譬如去聚合数据寻找），完全可以解放双手自动抓取和使用，不过一定不要未经授权直接抓取给商业 APP 使用，这可能会被起诉的。

下面是 https://github.com/yanbober/SmallReptileTraining/tree/master/AndroidSpider 这个小爬虫的源码，大家可以对照上面的爬虫流程图进行对比。

'''
spider_main.py 上面爬虫流程图中的[调度器]
面向对象写法，调度器负责循环从 UrlManager 获取爬取链接，然后交给 HtmlDownLoader 下载，然后把下载内容交给 HtmlParser 解析，然后把有价值数据输出给 HtmlOutput 进行应用。
'''
class SpiderMain(object):
    def __init__(self):
        self.urls = url_manager.UrlManager()
        self.downloader = html_downloader.HtmlDownLoader()
        self.parser = html_parser.HtmlParser()
        self.out_put = html_output.HtmlOutput()

    def craw(self, root_url):
        count = 1
        self.urls.add_new_url(root_url)
        while self.urls.has_new_url():
            try:
                new_url = self.urls.get_new_url()
                print("craw %d : %s" % (count, new_url))
                html_content = self.downloader.download(new_url)
                new_urls, new_data = self.parser.parse(new_url, html_content, "utf-8")
                self.urls.add_new_urls(new_urls)
                self.out_put.collect_data(new_data)
                #默认只爬取了深度 30，不然太慢，自己可以修改。
                if count >= 30:
                    break
                count = count + 1
            except Exception as e:
                print("craw failed!\n"+str(e))
        self.out_put.output_html()

if __name__ == "__main__":
    rootUrl = "http://baike.baidu.com/item/Android"
    objSpider = SpiderMain()
    objSpider.craw(rootUrl)

'''
url_manager.py 上面爬虫流程图中的[URL 管理器]
负责管理深度 URL 链接和去重等机制。
'''
class UrlManager(object):
    def __init__(self):
        self.new_urls = set()
        self.used_urls = set()

    def add_new_url(self, url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.used_urls:
            self.new_urls.add(url)

    def add_new_urls(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        return len(self.new_urls) > 0

    def get_new_url(self):
        temp_url = self.new_urls.pop()
        self.used_urls.add(temp_url)
        return temp_url

'''
html_downloader.py 上面爬虫流程图中的[下载器]
负责对指定的 URL 网页内容进行下载获取，这里只是简单处理了 HTTP CODE 200，实质应该依据 400、500 等分情况进行重试等机制处理。
'''
class HtmlDownLoader(object):
    def download(self, url):
        if url is None:
            return None
        response = urllib.request.urlopen(url)
        if response.getcode() != 200:
            return None
        return response.read()

'''
html_parser.py 上面爬虫流程图中的[解析器]
负责对下载器下载下来的网页内容进行解析，解析规则就是我们自己定义的感兴趣的内容，这里我们只分析网页后解析出 url、title、content，其他的不关心，解析好的数据通过字典返回。
'''
class HtmlParser(object):
    def parse(self, url, content, html_encode="utf-8"):
        if url is None or content is None:
            return
        soup = BeautifulSoup(content, "html.parser", from_encoding=html_encode)
        new_urls = self._get_new_urls(url, soup)
        new_data = self._get_new_data(url, soup)
        return new_urls, new_data


    def _get_new_urls(self, url, soup):
        new_urls = set()
        links = soup.find_all("a", href=re.compile(r"/item/\w+"))
        for link in links:
            url_path = link["href"]
            new_url = urljoin(url, url_path)
            new_urls.add(new_url)
        return new_urls


    def _get_new_data(self, url, soup):
        data = {"url": url}
        title_node = soup.find("dd", class_="lemmaWgt-lemmaTitle-title").find("h1")
        data["title"] = title_node.get_text()
        summary_node = soup.find("div", class_="lemma-summary")
        data["summary"] = summary_node.get_text()
        return data

'''
html_output.py 上面爬虫流程图中的[应用器]
负责对解析后的数据应用，这里简单用一个 WEB 页面把爬取的所有存在在 datas 列表的数据以 Table 输出。
'''
class HtmlOutput(object):
    def __init__(self):
        self.datas = []

    def collect_data(self, data):
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        file_name = time.strftime("%Y-%m-%d_%H:%M:%S")
        with open("out_%s.html" % file_name, "w") as f_out:
            f_out.write("")
            f_out.write(r''
                        r'
                        r'href="https://cdn.bootcss.com/bootstrap/3.3.7/css/bootstrap.min.css" '
                        r'integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" '
                        r'crossorigin="anonymous">')
            f_out.write("")
            f_out.write(r'')

            item_css = ['active', 'success', 'warning', 'info']
            for data in self.datas:
                index = self.datas.index(data) % len(item_css)
                f_out.write(r'r'">')
                f_out.write('' % data["url"])
                f_out.write('' % data["title"])
                f_out.write('' % data["summary"])
                f_out.write("")

            f_out.write("%s %s %s
")
            f_out.write("")
            f_out.write("")

哇呜！就是这么赞，怎么样，到此有没有对 Python 小爬虫产生一个整体的认知呢，如果表示了解了，那么我们下一篇会循序渐进的谈谈其他 Python 爬虫技术点（当然了，上面代码虽然很少，但是你可能还是觉得有些看不懂，那就的自己去补习下相关知识了，至于细节不在本系列探讨范围）。

^-^当然咯，看到这如果发现对您有帮助的话不妨扫描二维码赏点买羽毛球的小钱（现在球也挺贵的），既是一种鼓励也是一种分享，谢谢！

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
Python3.7出现“ModuleNotFoundError: No module named ‘Tkinter‘”错误的解决方法可爱的小红猪 python
Python3.7出现“ModuleNotFoundError:Nomodulenamed‘Tkinter’”错误的解决方法在网上看到很多针对这个问题的解决方法都是重新安装或配置Tkinter库，但Tkinter是python内置的标准GUI库，安装Python时就已经内置在了库中，不需要另外下载。针对于Tkinter，你的代码很可能是这样的：importTkinter或者是这样fromTkint
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
ubuntu22.04环境中安装pylint 歪歪的酒壶 python linux 开发语言
ubuntu22.04环境中安装pylintsudoapt-getinstallpython3-pipsudoaptitudeinstallpython3-pipsudopipinstallpylintsudoapt-getinstallpython3-pip在安装pylint的时候，需要使用pip命令，在ubuntu22.04环境中命令如下：$sudoapt-getinstallpython3-
使用selenium调用firefox提示Profile Missing的问题解决歪歪的酒壶 selenium 测试工具 python
在Ubuntu22.04环境中，使用python3运行selenium提示ProfileMissing，具体信息为：YourFirefoxprofilecannotbeloaded.Itmaybemissingorinaccessible在这个问题的环境中firefox浏览器工作正常。排查中，手动在命令行执行firefox可以打开浏览器，但是出现如下提示Gtk-Message:15:32:09.9
Windows安装ciphey编码工具，附一道ciscn编码题例 im-Miclelson CTF工具网络安全
TA是什么一款智能化的编码分析解码工具，对于CTF中复杂性编码类题目可以快速攻破。编码自动分析解码的神器。如何安装Windows环境Python3.864位（最新的版本不兼容，32位的也不行）PIP直接安装pipinstallciphey-ihttps://pypi.mirrors.ustc.edu.cn/simple/安装后若是出现报错请根据错误代码行数找到对应文件，r修改成rb即可。使用标准语
Python程序打包指南：手把手教你一步步完成 Python_P叔 python 数据库开发语言
最近感兴趣想将开发的项目转成Package，研究了一下相关文章，并且自己跑通了，走了一下弯路，这里记录一下如何打包一个简单的Python项目，展示如何添加必要的文件和结构来创建包，如何构建包，以及如何将其上传到Python包索引（PyPI）。首先要确保安装最新版本：#Unix/macOSpython3-mpipinstall--upgradepip#windowspy-mpipinstall--u
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
ODOO不同版本与平台选择 chouchengyin2080 c#操作系统运维
1.10.0vs11.0vs8.0截至2017年底，最新的ODOO发布版为ODOO11.0，但功能上有一定精简（去除财务模块，去除工作流支持），技术上变动较大（代码逐步迁移至Python3，前端框架改写得抽象）。所以如果是从生产使用的角度来讲，ODOO10.0是当前最好选择，因为其更稳定，第三方模块也更多更全面。而如果是ODOO技术爱好从业者，则逐步迁移至ODOO11.0也有必要，因为其底层技术架
华为开源镜像站体验：美好终将不期而遇 cuishuogai2817 操作系统 java python
电脑因为前段时间有问题，昨天刚刚重装好系统，之前一大堆运行环境全部要重新弄……T_T今天碰上华为开源镜像站体验，那就测试和体验一把吧！先说说测试环境：网络：广东电信20M企业光纤系统：Windows764-bit&CentOS7.6(VMWare)华为开源镜像站地址：http://t.cn/EcBQJO4测试一：python3.6.6(win)首先是windows下的python3.6.6打开说明
python工程打包成whl文件机灵巢穴_WitNest python python 开发语言
资料：PackagingPythonProjects—PythonPackagingUserGuide6.Modules—Python3.11.4documentation步骤1.安装打包工具python3-mpipinstallsetuptoolswheeltwine2.更新pip工具python3-mpipinstall--upgradepip3.创建工程结构python_test_packa
利用Python3爬取下载bookset网站的kindle电子书 nobodyyang
突然间发现这个网站，可以下载很多kindle电子书。观摩了下，和前段时间刚写的爬取头条有点类似。该网站链接首页：https://bookset.me/，这次爬取排行榜链接：https://bookset.me/?rating=douban，打开观察发现排行榜其实真正分页规则是https://bookset.me/page/num?rating=douban，其中num代表页数。具体代码如下
python离线安装一个第三方库 Lhj0616 python相关 python 第三方库
文章目录实例步骤下载`xlwt`库将文件转移到目标机器在目标机器上安装`xlwt`验证安装总结步骤可能的问题解决方法检查库的兼容性使用`pip`下载适配特定Python版本的库创建虚拟环境创建虚拟环境（Python3.6）创建虚拟环境（Python3.11）检查和验证库的安装下载多个版本的`.whl`文件总结更新：下载的第三方库有依赖库解决方案实例想离线安装一个第三方库xlwt，python版本分
win10配置python_Win 10安装Python及环境变量配置 weixin_39663933 win10配置python
一、Windows系统很多童鞋问之前的教程怎么没有介绍安装python3.5的，现予以补充更新一下。（一）安装python3.51、下载进入Python官网www.python.org，在“Downloads”下拉菜单中的右半部分直接点击python3.5.2版本即可下载，它会自动下载32位的。如果需要64位，点击左半部分“Windows”，选择第二项“LatestPython3Release-P
【Python小知识 - 3】：在cmd中切换不同版本的Python解释器街三仔 PyQt小知识 python 开发语言
文章目录在cmd中切换不同版本的Python解释器在cmd中切换不同版本的Python解释器当电脑中有多个版本的Python解释器时，通过重命名python.exe进行区分。电脑分别下载了3.6.8和3.8.8版本的Python解释器，但是在cmd中输入python命令或pip下载模块时总是使用Python3.6.8版本的解释器。若想在cmd中使用Python3.8.8的解释器，如何进行切换？方法
Python3.8 特性介绍刷漆猫咪
简介海象表达式:=仅位置参数/f-strings说明符=启动异步REPLunittest支持异步简介Python3.8已经发布了,官方文档看这里What’sNewInPython3.8.介绍一些Python3.8中的新特性.海象表达式:=新的语法:=将给变量赋值,这个变量是更大的表达式的一部分.if(n:=len(a))>10:print(f"Lististoolong({n}elements,e
虚拟环境的创建和修改，删除撩本子高手 python pip conda
电脑有关环境的配置电脑版本为window10python==3.9.0Pip安装requirement.txt里面的第三方库pip安装requirement.txt的文件里面的第三方库，格式大概为如图所示。pipinstall-rrequirement.txtpip的虚拟环境的创建（使用方法为python3.x自带的venv）创建虚拟环境python-mvenvven_test#这里的话我是运用了
centos下安装python3 i0208 centos python
Centos7默认自带了Python2.7版本,但是因为项目需要使用Python3.x你可以按照此文的三个方法进行安装.注：本文示例安装版本为Python3.5，一、Python源代码编译安装安装必要工具yum-utils，它的功能是管理repository及扩展包的工具(主要是针对repository)$sudoyuminstallyum-utils使用yum-builddep为Python3构
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
python--排错--AttributeError: 'str' object has no attribute 'decode'，关于python3的字符串我不是庸医 python 排错记录
AttributeError:'str'objecthasnoattribute'decode'一般是因为str的类型本身不是bytes，所以不能解码两个概念:普通str：可理解的语义字节流str（bytes）（0101010101，可视化显示）两个语法Encode:把普通字符串转为机器可识别的bytesDecode:把bytes转为字符串两个差异Python3的str默认不是bytes，所以不能
Django 安装指南 lly202406 开发语言
Django安装指南Django是一个高级的PythonWeb框架，它鼓励快速开发和干净、实用的设计。本指南将详细介绍如何在不同的操作系统上安装Django，包括Windows、macOS和Linux。在Windows上安装Django先决条件Python:Django要求Python3.8或更高版本。可以从Python官网下载适用于Windows的Python安装程序。pip:Python的包管
Cuda 程序编译报错: fatal error: cusparse.h: No such file or directory 原野寻踪实践经验 cuda
编译cuda程序时发现下列报错：/mnt/xxx/miniconda3/envs/xxx/lib/python3.8/site-packages/torch/include/ATen/cuda/CUDAContext.h:6:10:fatalerror:cusparse.h:Nosuchfileordirectory#include^~~~~~~~~~~~检查发现是选择了错误的Cuda版本。ls/
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
【CTF】MISC常用工具集锦/使用方法简介不会代码的小徐 misc 网络安全测试工具
前言#MISC题型多变而且工具繁杂，因此自己花时间整理了一份工具列表，以便日后参考用流畅地阅读这篇博客，你可能需要：Python2.7.18+Python3.8+任何一个更高版本的Python，使用conda管理Linux虚拟机，kali即可流畅访问Google/GitHub等站点的网络通用工具#PuzzleSolver#专为misc手打造的瑞士军刀(?)，整合了多种脚本（base，字频分析，pn
python用递归方式实现最大公约数_Python - 最大公约数算法 weixin_39765325
#Python3.6#最大公约数，最大公因子#GreatestCommonDivisor#辗转相除法defgcd(num1:object,num2:object)->object:print('num1={},num2={},r={}'.format(num1,num2,num1%num2))ifnum1%num2==0:returnnum2returngcd(num2,num1%num2)#更相
【Conda 更换python版本】 weixin_44377636 python python conda 开发语言
1、创建python环境并安装自己需要的版本condacreate--namepython39python=3.92、激活新版本python环境condaactivatepython393、查看当前python版本python-V显示版本，就说明已经安装好了！
centos7-安装docker-compose 报错/lib64/libc.so.6: version `GLIBC_2.28‘ not found wangying202 docker docker centos
新增安装的centos7虚拟机，按要求需要安装docker-compose，遇到了使用docker-compose命令时报错“[11798]ErrorloadingPythonlib‘/tmp/_MEIztwHzf/libpython3.9.so.1.0’:dlopen:/lib64/libc.so.6:version‘GLIBC_2.28’notfound(requiredby/tmp/_MEI
linux(CentOS、Ubuntu)安装python3.12.2环境 weixin_41934979 linux 运维服务器 python
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
python - pip安装及使用详解闫小甲 Python python pip
pip是Python的一个包管理器，它使安装和管理额外的库变得非常方便。通过pip，你可以轻松地安装、升级、卸载Python包。下面将详细介绍如何在Python中使用pip进行安装及基本使用。安装pip对于Windows用户：较新版本的Python（3.4及之后）：自Python3.4版本开始，pip已经默认包含在安装程序中。安装Python时，确保勾选了“AddPythontoPATH”选项，这
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

Python3.X 爬虫实战（先爬起来嗨）

1 背景

2 爬虫基础

2-1 约定俗成的潜规则

2-2 基本工具

2-3 基本爬取技术思路

3 实战一把，先爬起来嗨

你可能感兴趣的:(Python3)