工匠若水

Python3.X 爬虫实战（静态下载器与解析器）

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

1 背景

这两天比较忙，各种锅锅接，忙里偷闲完结这一篇吧。在我们在上一篇《Python3.X 爬虫实战（先爬起来嗨）》中已经介绍了 Python 3 爬虫的基础知识，最后也通过了一个不是十分严谨的小爬虫程序展示了其强大的魅力。有人说上一篇《Python3.X 爬虫实战（先爬起来嗨）》中有强行安利 Python 的嫌疑，是的，名正言顺的安利，就是这么任性，总之这玩意对我来说在很多小工具上得到了效率的提升，确实好用，也有人问我最初因为什么机缘接触的 python，这里只能说以前做 Android 4.1 Framework 时差分包构建处理那块 Google 官方使用的是 Pyhton 脚本配合处理的，也算是工作需要被迫学习的吧，只是那时候没有 get 到 Python 的很多横向拓展，随着眼界的拓展，渐渐的就这么被俘获了。

言归正传，我们回到爬虫话题，上一篇我们最后总结了一个爬虫程序的流程，其中有两个核心的流程就是静态下载器（个人叫法，对立为动态网页下载处理，后面系列文章会介绍）和解析器，自然而然这一篇我们的核心就是探讨这两大步骤的选型。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

2 Python3 爬虫静态下载器

当我们通过调度器在 URL管理器中拿到一个 URL 以后要做的第一件事就是交给下载器进行 URL 所在链接的访问下载，而对于常规的 HTTP WEB 网页下载一般在短时间都能完成（想象下一个网页在浏览器等半天都打不开是一种啥体验），但是不排除网络异常、访问链接非法、WEB 站点服务器异常等情况，所以要实现一个相对比较健壮的下载器我们需要考虑的问题还有很多，关于细节逻辑优化和健壮性就得靠自己慢慢优化了。下面我们主要针对下载器进行一个简短的技术说明（关于这些 Python3 的模块详细用法自己可以额外学习）。

[该例子完整源码点我查看]

'''
如下是使用 Python3 内置模块实现的一个比上一篇稍微健壮一点点的下载器。
通过内置 urllib 进行 header 设置或者代理设置或者启用会话，支持简单的 HTTP CODE 5XX 重试机制，支持 GET\POST。
（实际项目考虑和封装的要比这更加健壮）
'''
from http import cookiejar
from urllib import request, error
from urllib.parse import urlparse

class HtmlDownLoader(object):
    def download(self, url, retry_count=3, headers=None, proxy=None, data=None):
        if url is None:
            return None
        try:
            req = request.Request(url, headers=headers, data=data)
            cookie = cookiejar.CookieJar()
            cookie_process = request.HTTPCookieProcessor(cookie)
            opener = request.build_opener()
            if proxy:
                proxies = {urlparse(url).scheme: proxy}
                opener.add_handler(request.ProxyHandler(proxies))
            content = opener.open(req).read()
        except error.URLError as e:
            print('HtmlDownLoader download error:', e.reason)
            content = None
            if retry_count > 0:
                if hasattr(e, 'code') and 500 <= e.code < 600:
                    #说明是 HTTPError 错误且 HTTP CODE 为 5XX 范围说明是服务器错误，可以尝试再次下载
                    return self.download(url, retry_count-1, headers, proxy, data)
        return content

[该例子完整源码点我查看]

'''
如下是使用 Python3 外部模块 requests 实现的一个下载器
通过 header 设置或者代理设置、支持会话，支持简单的重试机制。
（实际项目考虑和封装的要比这更加健壮，安装模块使用命令：pip install requests）
'''
import requests
from requests import Timeout
'''
http://docs.python-requests.org/en/master/
'''
class Downloader(object):
    def __init__(self):
        self.request_session = requests.session()
        self.request_session.proxies

    def download(self, url, retry_count=3, headers=None, proxies=None, data=None):
        '''
        :param url: 准备下载的 URL 链接
        :param retry_count: 如果 url 下载失败重试次数
        :param headers: http header={'X':'x', 'X':'x'}
        :param proxies: 代理设置 proxies={"https": "http://12.112.122.12:3212"}
        :param data: 需要 urlencode(post_data) 的 POST 数据
        :return: 网页内容或者 None
        '''
        if headers:
            self.request_session.headers.update(headers)
        try:
            if data:
                content = self.request_session.post(url, data, proxies=proxies).content
            else:
                content = self.request_session.get(url, proxies=proxies).content
        except (ConnectionError, Timeout) as e:
            print('Downloader download ConnectionError or Timeout:' + str(e))
            content = None
            if retry_count > 0:
                self.download(url, retry_count - 1, headers, proxies, data)
        except Exception as e:
            print('Downloader download Exception:' + str(e))
            content = None
        return content

怎么样，通过上面两段下载器代码我们可以发现一般 Python3 的网络请求（下载器）要么使用内部模块 urllib，要么使用外部模块 requests，但是达到的效果都是一样的，只是一个封装和便捷的关系。当然，你要是不喜欢这两个，自己也可以寻找使用其他开源的网络请求模块，达到目的就行，反正就是一个请求咯。

可以看到，通过静态下载器其实拿到的就是 URL 链接对应网站的静态内容（有些网页是静态的，有些是动态的），对于静态网页的爬虫其实我们这样通过下载器拿到的数据就够用了，对于动态网页我们后续文章再分析。鉴于此，我们接下来就该把静态下载器下载的页面内容交给解析器处理了。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

3 Python3 爬虫静态解析器

有了上一部分静态下载器下载下来的页面内容，我们紧接着要干的事情就是解析内容，也就是在这些页面中依据自己的规则抓取有价值的数据—–解析器。对于 Python 爬虫解析常用的套路主要有直接正则匹配、BeautifulSoup、LXml这几种（当然也有别的，只不过常用的主流就这几种），下面我们分别进行说明。

3-1 正则匹配解析器

顾名思义就是正则表达式匹配查找过滤了，如果你对正则表达式还不熟悉，建议你先看下以前我写的《正则表达式基础》一文，然后再来学习 Python3 正则匹配解析器，额，实质就是 Python 字符串正则匹配咯，再通俗点就是 Python 的 re 模块啦，在爬虫里使用 re 我们要注意如下几个套路：

在使用 Python re 正则模块时建议大家给正则字符串保持常加 r 前缀的习惯，避免因为转义带来坑爹的锅，因为正则本来就十分灵活，复杂一点就十分晦涩。
当我们使用 re.compile(exp_str) 方法时由于 re 内部会编译 exp_str 正则表达式是否合法，然后用编译过的表达式去匹配，而爬虫一般都是依据一个指定的正则表达式对成百上千的页面进行循环匹配，所以为了效率尽量将 re.compile(exp_str) 方法缓存起来，总之避免多次调用同样的，避免效率问题。
如《正则表达式基础》一文所示，尽量编写非贪婪模式的正则，默认是贪婪匹配的。
分组匹配输出时 re 的 group(x) 方法套路要谨防，group(0) 是原始字符串，group(1)、group(2) ……才是第 1、2、……个分组子串，切记套路。
编写正则时注意 re 的 compile(pattern, flags=0) 第二个参数含义，谨防套路，譬如我们想让 ‘.’ 在 DOTALL 模式下也能匹配 ‘\n’ ，就得注意将 flags 设置为 re.S 等。

如果你看了《正则表达式基础》一文明白了正则表达式但不会用 Python 的 re 模块的话建议再看看网上的 Python正则表达式指南。

不 BB 了，我们来看一个通过下载器下载下来静态页面内容后交给正则解析器处理的例子吧，下面是抓取解析 CSDN 我的博客评论管理列表中每个 item 的文章名字article、文章链接url、评论人名字commentator、评论时间time、评论内容content，然后生成一个字典列表保存解析的数据，要解析的网页内容如下：

解析器代码如下 [该例子完整源码点我查看]：

    def get_page_feedback_dict(self, page_index=1):
        '''
        获取CSDN我的博客页面的评论管理页面我文章的评论列表（按照评论页数获取）
        :return: {'maxPage'100:, 'dict':[{'article':'xxx', 'url':'xxx', 'commentator':'xxx', 'time':'xxx', 'content':'xxx'}]}
        '''
        content = self.opener.open(self.url_feedback+str(page_index)).read().decode("utf-8")
        print(content)
        max_page = re.search(re.compile(r'.*?共(\d+)页'), content).group(1)
        reg_main = re.compile(r".*?(.*?)(.*?)(.*?).*?(.*?)
", re.S)
        main_items = re.findall(reg_main, content)
        dict_list = list()
        for item in main_items:
            dict_list.append({
                'url': item[0],
                'article': item[1],
                'commentator': item[2],
                'time': item[3],
                'content': item[4]
            })
        print(str(dict_list))
        return {'maxPage': max_page, 'dict': dict_list}

获取到的 dict_list 解析后字典列表如下：

[
    {
        'url': 'http://blog.csdn.net/yanbober/article/details/73162298#comments',
        'article': 'Python3.X 爬虫实战（先爬起来嗨）',
        'commentator': 'yanbober', 
        'time': '2017-06-14 14:24',
         'content': '[reply]qq_39168495[/reply]
机器人咯'
    },
    {
        'url': 'http://blog.csdn.net/yanbober/article/details/73162298#comments',
        'article': 'Python3.X 爬虫实战（先爬起来嗨）',
        'commentator': 'yanbober',
        'time': '2017-06-14 14:24',
        'content': 'XXXXXXXXXXXX'
    }, 
    ......
]

如上就是一个通过 Python re 正则表达式编写的爬虫解析器，当然，这个不够健壮，实质需要将解析出来的数据再进行清洗使用，这里不再过多说明，不过可以看到直接使用正则匹配解析的代码是比较晦涩的，除过小型的爬虫以外不建议采用。

3-2 BeautifulSoup4 解析器

BB 完正则匹配解析器我们就可以长舒一口气了，毕竟大清都灭亡了，我们也要抛弃石器时代的解析器，拥抱 21 世纪的 BeautifulSoup4 解析器，关于这个外部神器模块我们可以参考官方网站或者官方中文文档学习。

安装该外部模块直接命令行执行：pip install beautifulsoup4

BeautifulSoup4 是一个工具箱，通过它解析文档可以为我们十分简单的提供需要抓取的数据；它自动会将我们输入的文档转换为 Unicode 编码，输出时转换为 UTF-8 编码，我们不用考虑操蛋的文本解析编码方式（除非文档没有指定编码方式，这种情况下 BeautifulSoup4 就没法自动识别编码方式了，我们需要主动说明下 WEB 页面原始编码方式就行了）。

BeautifulSoup4 除过支持 Python 标准库中的 HTML 解析器外还支持一些第三方解析器，譬如 LXml、html5lib 等（注意：设置不同解析器对于错误格式 WEB 页面解析可能会得到不一样的结果），想要使用这些第三方解析器就得自己先安装好，安装命令如下：

pip install lxml
pip install html5lib

不过依然推荐给 BeautifulSoup4 使用 LXml 作为解析器（解析效率高），下表列出了官方文档中主要的解析器优缺点（图片来自官方文档）:

光说不练假把式，下面给出一个解析知乎登录页面 FORM 表单中的 _xsrf 和 captcha 链接供登录使用，下载器下载下来的待解析知乎登录界面如下：

解析代码如下[该例子完整源码点我查看]：

    def get_login_xsrf_and_captcha(self):
        try:
            url_login = "https://www.zhihu.com/#signin"
            url_captcha = 'http://www.zhihu.com/captcha.gif?r=%d&type=login&lang=cn' % (time.time() * 1000)
            login_content = self.request_session.get(url_login).content
            soup = BeautifulSoup(login_content, 'lxml')
            #find 方法第二个参数还可以是 python 编译的正则表达式
            #譬如soup.find_all("a", href=re.compile(r"/item/\w+"))
            xsrf = soup.find('input', attrs={'name': '_xsrf'})['value']
            captcha_content = self.request_session.get(url_captcha).content
            return {'xsrf': xsrf, 'captcha_content': captcha_content}
        except Exception as e:
            print('get login xsrf and captcha failed!'+str(e))
            return dict()

怎么样，比起正则匹配是不是可读性好了很多，至少不那么晦涩难懂和容易坑自己了，而且效率还比正则高，有没有瞬间感觉从石器时代到了智能时代；对于 BeautifulSoup4 工具包提供的函数不熟悉没关系，自己记得常常查阅他们官方中文文档就行了，你要感觉到庆幸，他们文档是十分精炼简洁的。

3-3 LXml 解析器

进入智能时代以后还有个更牛逼的解析器 ——– LXml，名副其实的屌炸天，关于它可以参见官方文档，这货使用 C 语言编写，解析速度比 BeautifulSoup 更快；上面已经介绍了把 LXml 作为 BeautifulSoup 内置解析器的 BeautifulSoup 用法，这里我们直接给出一个用 LXml 使用 XPath 选择器和内置方法的用法实战说明这个灵活牛叉的解析器，关于细节基础知识不在本系列讨论范围之内，可查看参阅官方文档等。

我们以爬取 https://www.meitulu.com/ 美图录网站为例说明，首先要解析的就是主页的推荐模特列表点击跳转的二级链接（下面的 parse_main_subjects 函数，也即下图中 class=”img” 的 ul 中 li 下的 a 标签的 href 链接）如下：

接着解析进入二级页面（模特大图列表页，其页面第一页为DDD.html、其他页规则为 DDD_index.html），我们解析了这个模特的名字和总共具备多少张照片，然后一页一页解析他们的高清大图下载链接。

解析代码如下[该例子完整源码点我查看]：

class HtmlParser(object):
    def parse_main_subjects(self, content):
        '''
        解析美图录网站主页模特分类页面链接
        :param content: 美图录主页内容
        :return: ['一个模特的大图页面', '一个模特的大图页面']
        '''
        html = etree.HTML(content.lower())
        subject = html.xpath('//ul[@class="img"]/li')
        subject_urls = list()
        for sub in subject:
            a_href = sub[0].get('href')
            subject_urls.append(a_href)
        return subject_urls

    def parse_subject_mj_info(self, content):
        '''
        获取具体模特大图页面开头的模特信息
        :param content: 一个类别的模特页面内容
        :return: {'count': 该模特具备图总数, 'mj_name': 模特名字}
        '''
        html = etree.HTML(content.lower())
        div_cl = html.xpath('//div[@class="c_l"]')
        pic_count = re.search(re.compile(r'.*?(\d+).*?'), div_cl[0][2].text).group(1)
        return {'count': pic_count, 'mj_name': div_cl[0][4].text}

    def parse_page_pics(self, content):
        '''
        获取一个模特页面的模特大图下载链接
        :param content: 一个类别的模特页面内容
        :return: ['大图链接', '大图链接']
        '''
        html = etree.HTML(content.lower())
        return html.xpath('//div[@class="content"]/center/img/@src')

[该例子完整源码点我查看]，其解析器完全使用了 LXml 和 XPath 语法，它就会帮我们从美图录网站主页进去挨个推荐模特二级页面依次自动爬取大图（只爬高清大图）下载，log 如下：

生成的爬取资源如下（依据模特名字命名目录存起来，已经爬取下载过的就不下载了）：

如果看了上面例子还是搞不懂 LXml 的话可以建议你先看下网络上的Python lxml教程一文，然后再去看看官方文档就明白了，不过还是一句话，多练即可，实战几把你就秒懂了。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

4 总结

这一篇内容主要延续上一篇《Python3.X 爬虫实战（先爬起来嗨）》，重点偏向于爬虫爬取静态页面的下载器与解析器常用套路引导，主要适用于理解爬虫流程和自己编写小爬虫程序，对于大型爬虫这些介绍是十分不健壮的，我们一般会采用第三方爬虫框架，对于框架和动态页面爬取我们后面系列会进行介绍的。

关于本篇完整实例源码参见AndroidSpider 、ZhiHuSpider、CsdnDiscussSpider、MeiTuLuSpider。

wocao！震惊！竟然忘了这么晚了。。。。。明天还有事。。。。

^-^当然咯，看到这如果发现对您有帮助的话不妨扫描二维码赏点买羽毛球的小钱（现在球也挺贵的），既是一种鼓励也是一种分享，谢谢！

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
Python3.7出现“ModuleNotFoundError: No module named ‘Tkinter‘”错误的解决方法可爱的小红猪 python
Python3.7出现“ModuleNotFoundError:Nomodulenamed‘Tkinter’”错误的解决方法在网上看到很多针对这个问题的解决方法都是重新安装或配置Tkinter库，但Tkinter是python内置的标准GUI库，安装Python时就已经内置在了库中，不需要另外下载。针对于Tkinter，你的代码很可能是这样的：importTkinter或者是这样fromTkint
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
ubuntu22.04环境中安装pylint 歪歪的酒壶 python linux 开发语言
ubuntu22.04环境中安装pylintsudoapt-getinstallpython3-pipsudoaptitudeinstallpython3-pipsudopipinstallpylintsudoapt-getinstallpython3-pip在安装pylint的时候，需要使用pip命令，在ubuntu22.04环境中命令如下：$sudoapt-getinstallpython3-
使用selenium调用firefox提示Profile Missing的问题解决歪歪的酒壶 selenium 测试工具 python
在Ubuntu22.04环境中，使用python3运行selenium提示ProfileMissing，具体信息为：YourFirefoxprofilecannotbeloaded.Itmaybemissingorinaccessible在这个问题的环境中firefox浏览器工作正常。排查中，手动在命令行执行firefox可以打开浏览器，但是出现如下提示Gtk-Message:15:32:09.9
Windows安装ciphey编码工具，附一道ciscn编码题例 im-Miclelson CTF工具网络安全
TA是什么一款智能化的编码分析解码工具，对于CTF中复杂性编码类题目可以快速攻破。编码自动分析解码的神器。如何安装Windows环境Python3.864位（最新的版本不兼容，32位的也不行）PIP直接安装pipinstallciphey-ihttps://pypi.mirrors.ustc.edu.cn/simple/安装后若是出现报错请根据错误代码行数找到对应文件，r修改成rb即可。使用标准语
Python程序打包指南：手把手教你一步步完成 Python_P叔 python 数据库开发语言
最近感兴趣想将开发的项目转成Package，研究了一下相关文章，并且自己跑通了，走了一下弯路，这里记录一下如何打包一个简单的Python项目，展示如何添加必要的文件和结构来创建包，如何构建包，以及如何将其上传到Python包索引（PyPI）。首先要确保安装最新版本：#Unix/macOSpython3-mpipinstall--upgradepip#windowspy-mpipinstall--u
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
ODOO不同版本与平台选择 chouchengyin2080 c#操作系统运维
1.10.0vs11.0vs8.0截至2017年底，最新的ODOO发布版为ODOO11.0，但功能上有一定精简（去除财务模块，去除工作流支持），技术上变动较大（代码逐步迁移至Python3，前端框架改写得抽象）。所以如果是从生产使用的角度来讲，ODOO10.0是当前最好选择，因为其更稳定，第三方模块也更多更全面。而如果是ODOO技术爱好从业者，则逐步迁移至ODOO11.0也有必要，因为其底层技术架
华为开源镜像站体验：美好终将不期而遇 cuishuogai2817 操作系统 java python
电脑因为前段时间有问题，昨天刚刚重装好系统，之前一大堆运行环境全部要重新弄……T_T今天碰上华为开源镜像站体验，那就测试和体验一把吧！先说说测试环境：网络：广东电信20M企业光纤系统：Windows764-bit&CentOS7.6(VMWare)华为开源镜像站地址：http://t.cn/EcBQJO4测试一：python3.6.6(win)首先是windows下的python3.6.6打开说明
python工程打包成whl文件机灵巢穴_WitNest python python 开发语言
资料：PackagingPythonProjects—PythonPackagingUserGuide6.Modules—Python3.11.4documentation步骤1.安装打包工具python3-mpipinstallsetuptoolswheeltwine2.更新pip工具python3-mpipinstall--upgradepip3.创建工程结构python_test_packa
利用Python3爬取下载bookset网站的kindle电子书 nobodyyang
突然间发现这个网站，可以下载很多kindle电子书。观摩了下，和前段时间刚写的爬取头条有点类似。该网站链接首页：https://bookset.me/，这次爬取排行榜链接：https://bookset.me/?rating=douban，打开观察发现排行榜其实真正分页规则是https://bookset.me/page/num?rating=douban，其中num代表页数。具体代码如下
python离线安装一个第三方库 Lhj0616 python相关 python 第三方库
文章目录实例步骤下载`xlwt`库将文件转移到目标机器在目标机器上安装`xlwt`验证安装总结步骤可能的问题解决方法检查库的兼容性使用`pip`下载适配特定Python版本的库创建虚拟环境创建虚拟环境（Python3.6）创建虚拟环境（Python3.11）检查和验证库的安装下载多个版本的`.whl`文件总结更新：下载的第三方库有依赖库解决方案实例想离线安装一个第三方库xlwt，python版本分
win10配置python_Win 10安装Python及环境变量配置 weixin_39663933 win10配置python
一、Windows系统很多童鞋问之前的教程怎么没有介绍安装python3.5的，现予以补充更新一下。（一）安装python3.51、下载进入Python官网www.python.org，在“Downloads”下拉菜单中的右半部分直接点击python3.5.2版本即可下载，它会自动下载32位的。如果需要64位，点击左半部分“Windows”，选择第二项“LatestPython3Release-P
【Python小知识 - 3】：在cmd中切换不同版本的Python解释器街三仔 PyQt小知识 python 开发语言
文章目录在cmd中切换不同版本的Python解释器在cmd中切换不同版本的Python解释器当电脑中有多个版本的Python解释器时，通过重命名python.exe进行区分。电脑分别下载了3.6.8和3.8.8版本的Python解释器，但是在cmd中输入python命令或pip下载模块时总是使用Python3.6.8版本的解释器。若想在cmd中使用Python3.8.8的解释器，如何进行切换？方法
Python3.8 特性介绍刷漆猫咪
简介海象表达式:=仅位置参数/f-strings说明符=启动异步REPLunittest支持异步简介Python3.8已经发布了,官方文档看这里What’sNewInPython3.8.介绍一些Python3.8中的新特性.海象表达式:=新的语法:=将给变量赋值,这个变量是更大的表达式的一部分.if(n:=len(a))>10:print(f"Lististoolong({n}elements,e
虚拟环境的创建和修改，删除撩本子高手 python pip conda
电脑有关环境的配置电脑版本为window10python==3.9.0Pip安装requirement.txt里面的第三方库pip安装requirement.txt的文件里面的第三方库，格式大概为如图所示。pipinstall-rrequirement.txtpip的虚拟环境的创建（使用方法为python3.x自带的venv）创建虚拟环境python-mvenvven_test#这里的话我是运用了
centos下安装python3 i0208 centos python
Centos7默认自带了Python2.7版本,但是因为项目需要使用Python3.x你可以按照此文的三个方法进行安装.注：本文示例安装版本为Python3.5，一、Python源代码编译安装安装必要工具yum-utils，它的功能是管理repository及扩展包的工具(主要是针对repository)$sudoyuminstallyum-utils使用yum-builddep为Python3构
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
python--排错--AttributeError: 'str' object has no attribute 'decode'，关于python3的字符串我不是庸医 python 排错记录
AttributeError:'str'objecthasnoattribute'decode'一般是因为str的类型本身不是bytes，所以不能解码两个概念:普通str：可理解的语义字节流str（bytes）（0101010101，可视化显示）两个语法Encode:把普通字符串转为机器可识别的bytesDecode:把bytes转为字符串两个差异Python3的str默认不是bytes，所以不能
Django 安装指南 lly202406 开发语言
Django安装指南Django是一个高级的PythonWeb框架，它鼓励快速开发和干净、实用的设计。本指南将详细介绍如何在不同的操作系统上安装Django，包括Windows、macOS和Linux。在Windows上安装Django先决条件Python:Django要求Python3.8或更高版本。可以从Python官网下载适用于Windows的Python安装程序。pip:Python的包管
Cuda 程序编译报错: fatal error: cusparse.h: No such file or directory 原野寻踪实践经验 cuda
编译cuda程序时发现下列报错：/mnt/xxx/miniconda3/envs/xxx/lib/python3.8/site-packages/torch/include/ATen/cuda/CUDAContext.h:6:10:fatalerror:cusparse.h:Nosuchfileordirectory#include^~~~~~~~~~~~检查发现是选择了错误的Cuda版本。ls/
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
【CTF】MISC常用工具集锦/使用方法简介不会代码的小徐 misc 网络安全测试工具
前言#MISC题型多变而且工具繁杂，因此自己花时间整理了一份工具列表，以便日后参考用流畅地阅读这篇博客，你可能需要：Python2.7.18+Python3.8+任何一个更高版本的Python，使用conda管理Linux虚拟机，kali即可流畅访问Google/GitHub等站点的网络通用工具#PuzzleSolver#专为misc手打造的瑞士军刀(?)，整合了多种脚本（base，字频分析，pn
python用递归方式实现最大公约数_Python - 最大公约数算法 weixin_39765325
#Python3.6#最大公约数，最大公因子#GreatestCommonDivisor#辗转相除法defgcd(num1:object,num2:object)->object:print('num1={},num2={},r={}'.format(num1,num2,num1%num2))ifnum1%num2==0:returnnum2returngcd(num2,num1%num2)#更相
【Conda 更换python版本】 weixin_44377636 python python conda 开发语言
1、创建python环境并安装自己需要的版本condacreate--namepython39python=3.92、激活新版本python环境condaactivatepython393、查看当前python版本python-V显示版本，就说明已经安装好了！
centos7-安装docker-compose 报错/lib64/libc.so.6: version `GLIBC_2.28‘ not found wangying202 docker docker centos
新增安装的centos7虚拟机，按要求需要安装docker-compose，遇到了使用docker-compose命令时报错“[11798]ErrorloadingPythonlib‘/tmp/_MEIztwHzf/libpython3.9.so.1.0’:dlopen:/lib64/libc.so.6:version‘GLIBC_2.28’notfound(requiredby/tmp/_MEI
linux(CentOS、Ubuntu)安装python3.12.2环境 weixin_41934979 linux 运维服务器 python
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
python - pip安装及使用详解闫小甲 Python python pip
pip是Python的一个包管理器，它使安装和管理额外的库变得非常方便。通过pip，你可以轻松地安装、升级、卸载Python包。下面将详细介绍如何在Python中使用pip进行安装及基本使用。安装pip对于Windows用户：较新版本的Python（3.4及之后）：自Python3.4版本开始，pip已经默认包含在安装程序中。安装Python时，确保勾选了“AddPythontoPATH”选项，这
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

Python3.X 爬虫实战（静态下载器与解析器）

1 背景

2 Python3 爬虫静态下载器

3 Python3 爬虫静态解析器

3-1 正则匹配解析器

3-2 BeautifulSoup4 解析器

3-3 LXml 解析器

4 总结

你可能感兴趣的:(Python3)