工匠若水

Python3.X 爬虫实战（动态页面爬取解析）

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

1 背景

不知不觉关于 Python 3.X 爬虫系列已经介绍了如下系列：

《正则表达式基础》
《Python3.X 爬虫实战（先爬起来嗨）》
《Python3.X 爬虫实战（静态下载器与解析器）》
《Python3.X 爬虫实战（并发爬取）》
《Python3.X 爬虫实战（缓存与持久化）》

到此关于 Python3.x 静态页面爬虫的基础核心基本已经介绍的差不多了，剩下的就是一些自己个性化的需求了，譬如爬取数据分析等，这种我们后面还会专门来说的。然而我们在该系列的《Python3.X 爬虫实战（静态下载器与解析器）》一文时给自己留了一个锅，这篇我们的重点就是来背这个锅———动态页面爬取解析。之所以叫动态页面爬取解析其实是相对于静态下载器与解析器来说的，因为有时候我们使用静态下载器与解析器对一些要爬取的页面进行解析时竟然没有任何数据，其实大多原因都是我们要爬取的元素是 JS 动态生成的，譬如我们爬取今日头条页面，你会发现今日头条随着我们手指上滑其页面会无限制的上拉加载更多，也就是常说的瀑布流，这时候我们就会觉得该系列前面介绍的爬取方式似乎完全无能为力了，所以我们需要寻求新的爬取解析方式，也就是动态页面爬取解析，其流行的核心主流思路是动态页面逆向分析爬取和模拟浏览器行为爬取，本篇会详细探讨说明。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

2 Python3.X 动态页面逆向分析爬取

以这种方式进行动态页面的爬取实质就是对页面进行逆向分析，其核心就是跟踪页面的交互行为 JS 触发调度，分析出有价值、有意义的核心调用（一般都是通过 JS 发起一个 HTTP 请求），然后我们使用 Python 直接访问逆向到的链接获取价值数据。下面我们以一个实战从头到尾来演示一遍如何逆向分析爬取动态网页今日头条的数据，目标是爬取今日头条搜索出来 list（譬如搜索美女、风景）中每个头条文章点进去详情页的所有大图，然后把他们分类下载下来，首先我们看下今日头条搜索界面如下：

我们爬虫要干的事就是仿照上面在搜索框输入“美女”，然后点击搜索得到结果，然后对于结果页面挨个点进去详情页面，然后把详情页面里的大图都爬取下载下来。这时候如果你上来就按照我们前面系列介绍的静态分析你会发现我们点击完搜索以后上面页面的源码中这个列表只有有限的几十项，如下：

然而我们期望的搜索结果可不是这点啊，所以我们尝试上滑网页会发现怎么页面的链接没变，但是每次上拉到底部就会自动加载更多 item 出来，纳尼，静态爬取遇到这种情况只能懵逼啊，所以我们接下来需要做的就是来逆向分析下我们要爬取的整个过程，使用 FireBug 等来跟踪一下，我们上滑页面时会发现每次要滑到底部页面自动加载时 FireBug 会有如下反馈：

看到这幅图我们简单分析会发现当上拉加载更多时每次都会触发 JS 访问一个接口去请求一个 JSON 数据回来，然后再通过 JS 动态插到了上面第二幅图源码的

标签内部，所以可以确定这是一个动态网页，我们需要做的就是看看网页对这些 JSON 数据是如何展示的。通过观察对比我们会发现上面每次滑动到底部自动加载更多的 JS 请求链接是一个 GET 请求，如下：

http://www.toutiao.com/search_content/?offset=20&format=json&keyword=美女&autoload=true&count=20&cur_tab=1

可以看到参数 offset 一猜就是偏移量（不信自己可以修改使用 PostMan 看下返回数据），format 为数据返回 JSON 格式，keyword 就是我们输入的关键词，autoload 没整明白，但是无伤大雅，照着传即可， count 就是每次请求返回多少个 item，cur_tab 就是搜索页面下面的分类，1 代表综合；到此我们这个动态页面的逆向第一步（页面动态数据来源）已经分析出来了，接下来我们仔细观察上面那个链接的返回值会发现 JSON 体中会有一个 data 字段的 Object 列表，这个列表其实就是我们每次上拉加载更多网页刷新数据的来源，我们会发现上拉加载更多显示出来的 item 如下：

这个 item 的数据就是 JSON 里 data 列表的一项，其左侧缩略图取值字段为 image_url，标题取值字段为 title，左侧来源取值字段为 source，其他类似，当我们点击这个 item 进入正文时会发现跳转正文的链接也在这个 JSON 里，用的是 article_url 字段，当我们进入文章详情去看里面的所有大图链接会惊讶的发现原来都提前预加载数据了，这些大图链接也来自刚才那个 JSON 里，对应的字段是 image_detail 里的 url 值，棒极了，我们完全逆向成功了，而且可以预测出这个爬虫应该会相对稳定，因为通过我们对这个动态页面的逆向会发现我们接下来的爬虫完全不需要面对网页 DOM 解析，而完全是标准的 RESTFUL API 调用，很赞，我们通过这个逆向就可以写出爬虫程序了，下面给出完整程序。

[该实例对应源码 spider_opt_analysis.py 点我获取]

# coding=utf-8
import json
import os
import re
import urllib
from urllib import request
'''
Python3.X 动态页面爬取（逆向解析）实例
爬取今日头条关键词搜索结果的所有详细页面大图片并按照关键词及文章标题分类存储图片
'''

class CrawlOptAnalysis(object):
    def __init__(self, search_word="美女"):
        self.search_word = search_word
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.100 Safari/537.36',
            'X-Requested-With': 'XMLHttpRequest',
            'Host': 'www.toutiao.com',
            'Referer': 'http://www.toutiao.com/search/?keyword={0}'.format(urllib.parse.quote(self.search_word)),
            'Accept': 'application/json, text/javascript',
        }

    def _crawl_data(self, offset):
        '''
        模拟依据传入 offset 进行分段式上拉加载更多 item 数据爬取
        '''
        url = 'http://www.toutiao.com/search_content/?offset={0}&format=json&keyword={1}&autoload=true&count=20&cur_tab=1'.format(offset, urllib.parse.quote(self.search_word))
        print(url)
        try:
            with request.urlopen(url, timeout=10) as response:
                content = response.read()
        except Exception as e:
            content = None
            print('crawl data exception.'+str(e))
        return content

    def _parse_data(self, content):
        '''
        解析每次上拉加载更多爬取的 item 数据及每个 item 点进去详情页所有大图下载链接
        [
            {'article_title':XXX, 'article_image_detail':['url1', 'url2', 'url3']},
            {'article_title':XXX, 'article_image_detail':['url1', 'url2', 'url3']}
        ]
        '''
        if content is None:
            return None
        try:
            data_list = json.loads(content)['data']
            print(data_list)
            result_list = list()
            for item in data_list:
                result_dict = {'article_title': item['title']}
                url_list = list()
                for url in item['image_detail']:
                    url_list.append(url['url'])
                result_dict['article_image_detail'] = url_list
                result_list.append(result_dict)
        except Exception as e:
            print('parse data exception.'+str(e))
        return result_list

    def _save_picture(self, page_title, url):
        '''
        把爬取的所有大图下载下来
        下载目录为./output/search_word/page_title/image_file
        '''
        if url is None or page_title is None:
            print('save picture params is None!')
            return
        reg_str = r"[\/\\\:\*\?\"\<\>\|]"  #For Windows File filter: '/\:*?"<>|'
        page_title = re.sub(reg_str, "", page_title)
        save_dir = './output/{0}/{1}/'.format(self.search_word, page_title)
        if os.path.exists(save_dir) is False:
            os.makedirs(save_dir)
        save_file = save_dir + url.split("/")[-1] + '.png'
        if os.path.exists(save_file):
            return
        try:
            with request.urlopen(url, timeout=30) as response, open(save_file, 'wb') as f_save:
                f_save.write(response.read())
            print('Image is saved! search_word={0}, page_title={1}, save_file={2}'.format(self.search_word, page_title, save_file))
        except Exception as e:
            print('save picture exception.'+str(e))

    def go(self):
        offset = 0
        while True:
            page_list = self._parse_data(self._crawl_data(offset))
            if page_list is None or len(page_list) <= 0:
                break
            try:
                for page in page_list:
                    article_title = page['article_title']
                    for img in page['article_image_detail']:
                        self._save_picture(article_title, img)
            except Exception as e:
                print('go exception.'+str(e))
            finally:
                offset += 20


if __name__ == '__main__':
    #模拟今日头条搜索关键词爬取正文大图
    CrawlOptAnalysis("美女").go()
    CrawlOptAnalysis("旅游").go()
    CrawlOptAnalysis("风景").go()

可以看到下面就是我们通过对动态网页今日头条进行逆向分析后爬取的结果（体验可以获取源码直接运行）：

到此关于动态网页逆向分析爬取的技巧就介绍完了，除过上面这个实例以外其实我们在前面已经用过一点动态网页逆向分析了，具体留作彩蛋可以自己琢磨下我们前面系列文章的 CsdnDiscussSpider 实例中 JS 提交那段逻辑。总归我们可以发现，某种意义上来看通过逆向爬取动态网页虽然比静态页面稍显麻烦，但是其稳定性似乎要比静态网页稳定，因为大多可直接逆向的动态网页数据都是采用标准 RESTFUL API 设计的，爬取解析 API 接口数据一般比匹配解析网页源码要可靠的多；但是有时候我们无法避免使用动静结合的方式，譬如上面爬取今日头条的例子其实还可以做到先动态逆向只获取文章详情页面链接，然后再使用我们前面静态页面爬取解析的技巧去访问文章详情页面获取里面大图，因为获取 item 列表是动态页面，而点击 item 进入的文章页面是静态页面。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

3 Python3.X 模拟浏览器行为爬取

上面我们介绍了动态页面爬取解析的逆向分析爬取方式，我们会惊讶的发现对于单一化动态网站（譬如今日头条，仅仅就是资讯流和详情页面）的逆向相对来说还是比较容易的，其逆向出来的 API 参数很好理解，只有个别看起来无关紧要的参数我们无法猜出含义，但是没有影响我们的爬虫工作。然后现实总是错综复杂的，如果我们要爬取的是一些使用航母级别技术的动态网站怎么办呢，这些网站一般都非常复杂，我们如果还想使用类似 Firebug 等工具对其逆向可能时间和人力成本有点过于昂贵；所以对于这类网站采用上面的逆向分析手段可能不是那么适合了，所以就出现了动态页面爬取的另一种方式———模拟浏览器渲染爬取。

3-1 Selenium 与 PhantomJS 方式

这种方式已经烂大街了，但是这也许是一种折中方案，因为该方式最大的问题就是非常慢，因为它是加载完网页所有资源并渲染好页面后才可以操作，Selenium 本身的定位是用来进行自动化测试的。Selenium 可以按指定的命令自动操作，而 PhantomJS 是基于 Webkit 的无界面浏览器，它能在不可见的内存中完成浏览器的常见功能，所以我们可以利用 Selenium 和 PhantomJS 来实现一个强大到可以处理 JS、Cookie、Header 和任何我们真实情况需要做的事。要用好这种方式我们必须要时刻记得查阅 Selenium 文档和 PhantomJS 文档，关于环境配置等里面都有介绍，这里不再 BB。下面我们就来写一个实战爬虫方便我们爬取自己 QQ 空间所有相册的所有图片，然后把图片都下载下来，因为 QQ 空间我们已经不常用了，但是舍不得里面各种相册的各种照片，又不可能一张一张去手动点击下载，所以我们就有了下面基于 Selenium 和 PhantomJS 的爬虫（呜呜，看起来更像是在给 QQ 空间 WEB 写自动化测试），如下（如果跑起来有诡异 bug，建议增加相关强制等待或者隐式等待时长即可）：
[该实例对应源码 spider_selenium_phantomjs.py 点我获取]

import os
import time
from urllib import request
from PIL import Image
from selenium import webdriver
'''
爬取自己 QQ 空间所有照片
不怎么用 QQ 空间， 但是舍不得空间的照片，一张一张下载太慢，所以按照相册趴下来硬盘留念
'''
class SpiderSelenium(object):
    def __init__(self, qq='', pwd=None):
        self.driver = webdriver.PhantomJS()  #Run in Ubuntu, Windows need set executable_path.
        self.driver.maximize_window()
        self.qq = qq
        self.pwd = pwd
        print('webdriver start init success!')

    def __del__(self):
        try:
            self.driver.close()
            self.driver.quit()
            print('webdriver close and quit success!')
        except:
            pass

    def _need_login(self):
        '''
        通过判断页面是否存在 id 为 login_div 的元素来决定是否需要登录
        :return: 未登录返回 True，反之
        '''
        try:
            self.driver.find_element_by_id('login_div')
            return True
        except:
            return False

    def _login(self):
        '''
        登录 QQ 空间，先点击切换到 QQ 帐号密码登录方式，然后模拟输入 QQ 帐号密码登录，
        接着通过判断页面是否存在 id 为 QM_OwnerInfo_ModifyIcon 的元素来验证是否登录成功
        :return: 登录成功返回 True，反之
        '''
        self.driver.switch_to.frame('login_frame')
        self.driver.find_element_by_id('switcher_plogin').click()
        self.driver.find_element_by_id('u').clear()
        self.driver.find_element_by_id('u').send_keys(self.qq)
        self.driver.find_element_by_id('p').clear()
        self.driver.find_element_by_id('p').send_keys(self.pwd)
        self.driver.find_element_by_id('login_button').click()
        try:
            self.driver.find_element_by_id('QM_OwnerInfo_ModifyIcon')
            return True
        except:
            return False

    def _auto_scroll_to_bottom(self):
        '''
        将当前页面滑动到最底端
        '''
        js = "var q=document.body.scrollTop=10000"
        self.driver.execute_script(js)
        time.sleep(6)

    def _get_gallery_list(self, picture_callback):
        '''
        从相册列表点击一个相册进入以后依次点击该相册里每幅图片然后回调，依此重复各个相册
        所有注释掉的 self.driver.get_screenshot_as_file 与 self.driver.page_source 仅仅为了方便调试观察
        :param picture_callback: 回调函数，当点击一个相册的一幅大图时回调
        '''
        time.sleep(5)
        self._auto_scroll_to_bottom()
        #self.driver.get_screenshot_as_file('my_qzone_gallery_screen.png')
        self.driver.switch_to.frame('app_canvas_frame')

        elements = self.driver.find_elements_by_xpath("//a[@class='c-tx2 js-album-desc-a']")
        gallery_count = len(elements)
        index = 0
        while index < gallery_count:
            print('WHILE index='+str(index)+', gallery_count='+str(gallery_count))
            self._auto_scroll_to_bottom()
            elements = self.driver.find_elements_by_xpath("//a[@class='c-tx2 js-album-desc-a']")
            if index >= len(elements):
                print('WHILE index='+str(index)+', elements='+str(len(elements)))
                break
            print('size='+str(len(elements)))
            #self.driver.get_screenshot_as_file('pppp' + str(hash(elements[index])) + '.png')
            gallery_title = elements[index].text
            elements[index].click()
            time.sleep(5)
            self._auto_scroll_to_bottom()
            #self.driver.get_screenshot_as_file('a_gallery_details_list' + str(hash(elements[index])) + '.png')
            pic_elements = self.driver.find_elements_by_xpath("//*[@class='item-cover j-pl-photoitem-imgctn']")
            for pic in pic_elements:
                pic.click()
                time.sleep(5)
                #self.driver.get_screenshot_as_file('details_' + str(hash(elements[index])) + '_' + str(hash(pic)) + '.png')
                self.driver.switch_to.default_content()
                pic_url = self.driver.find_element_by_id('js-img-border').find_element_by_tag_name('img').get_attribute('src')
                print(gallery_title + ' ---> ' + pic_url)
                if not picture_callback is None:
                    picture_callback(gallery_title, pic_url)
                self.driver.find_element_by_class_name('photo_layer_close').click()
                self.driver.switch_to.frame('app_canvas_frame')
            self.driver.back()
            time.sleep(10)
            index += 1

    def crawl_pictures(self):
        '''
        开始爬取 QQ 空间相册里图片
        '''
        self.driver.get('http://user.qzone.qq.com/{0}/photo'.format(self.qq))
        self.driver.implicitly_wait(20)
        if self._need_login():
            if self._login():
                self._get_gallery_list(self._download_save_pic)
                print("========== QQ " + str(self.qq) + " 的相册爬取下载结束 ===========")
            else:
                print('login with '+str(self.qq)+' failed, please check your account and password!')
        else:
            print('already login with '+str(self.qq))

    def _download_save_pic(self, gallery_title, pic_url):
        '''
        下载指定 url 链接的图片到指定的目录下，图片文件后缀自动识别
        :param gallery_title: QQ 空间相册名
        :param pic_url: 该相册下一张详情图片的 url
        '''
        if gallery_title is None or pic_url is None:
            print('save picture params is None!')
            return
        save_dir = './output/{0}/'.format(gallery_title)
        if os.path.exists(save_dir) is False:
            os.makedirs(save_dir)
        save_file = save_dir + str(hash(gallery_title)) + '_' + str(hash(pic_url))
        if os.path.exists(save_file):
            return
        try:
            with request.urlopen(pic_url, timeout=30) as response, open(save_file, 'wb') as f_save:
                f_save.write(response.read())
            new_stuffer_file = save_file + '.' + Image.open(save_file).format.lower()
            os.rename(save_file, new_stuffer_file)

            print('Image is saved! gallery_title={0}, save_file={1}'.format(gallery_title, new_stuffer_file))
        except Exception as e:
            print('save picture exception.'+str(e))


if __name__ == '__main__':
    SpiderSelenium('请用你的QQ号替换', '请用你的QQ密码替换').crawl_pictures()

替换 QQ 帐号密码后运行上面脚本我们等待后会得到如下结果：

可以发现，我们所有相册的图片都自动被爬取下来按照 QQ 空间相册名字分类存储在了本地磁盘，完全解放了双手，但是明显能感觉到的就是这种方式的爬虫是比较慢的，因为需要等待元素渲染，但是在有些时候这是不得不选择的一种折中方案，譬如 QQ 空间这个动态页面，想要逆向分析难度有点大，所以选择这种方案。

3-2 其他方式

模拟浏览器行为爬取除过上面介绍的 Selenium 结合 PhantomJS 方式外其实还有其他的框架，不过其原理归根结底基本都类似，譬如
Splash、PyV8、Ghost、execjs 等，其 API 用法和上面 Selenium 大同小异，只是写法有差异而已，这里不再一一给出详细例子，感兴趣可以自己去搜搜相关官方文档照着爬爬，没啥特别的。

3-3 对比总结

通过介绍上面几种动态页面的爬取方式我们很容易会得出一个结论，能用逆向分析就尽量逆向，其稳定性和效率别的方案是没法比拟的。通常对于爬虫有句口口相传的真理，会点击使用浏览器 F12 大法就能解决百分之九十的爬虫问题，其他百分之十就需要我们动动脑子了。对于动态页面爬取更是这个道理了，能逆向就尽量逆向，逆向不了就寻找折中方案，折中方案里能使用深度控制 JS 脚本执行方案就尽量（难度略大），其次就是标准的基于浏览器自动化测试框架爬取。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

4 动态页面爬取其他事项

前面静态页面爬取系列文章有人对于模拟登录提交有疑惑，这里要说明的是那里的例子虽然是在说静态页面，实质登录提交 FORM 表单算是动态页面的事情了，所以我们这里对于爬虫过程中的 FORM 表单问题再罗嗦几句。

关于 WEB FORM 如果还不了解其实真的该补补基础了，对于爬虫 FORM 表单的提交其实还是使用 F12 大法分析网页，譬如我们看下 GitHub 的登录 FORM，如下：

想必懂点 WEB 开发的小伙伴都知道编写 WEB 页面 FORM 表单常见的套路就是除过可见的 FORM 元素外很多时候还会采用 hide 的 FORM 元素一同作为 FORM 提交，保证提交接口非交互参数的传递。所以我们可以看到 Github 登录页面的 FORM 里面除过存在可见的 input 元素以外还存在 hide 的 input 元素，input 元素的 name 属性就是提交时的 key 值，FORM 标签的 accept-charset 属性表示编码格式、action 属性表示表单数据的提交
地址（ # 表示当前 URL，其他值就是当前 URL + 值）、method 属性表示 HTTP 的请求方式（这里为 POST），所以我们可以发现抓取的登录提交信息和我们上面分析的一致，如下：

所以对应的我们爬虫 POST 提交数据为：

data = {
    'commit': 'Sign in',
    'utf8': '✓',
    'authenticity_token': 'PnKlT5OeM/FBf4PazfLsCrBsa4PHGAKLsg9DoosP8c1UBpOHVpShB9PwhglKgZwo5G+l45Ra/alPIUIRLVs9VA==',
    'login': '[account]',
    'password': '[password]'
}
#编码很重要
data = urllib.urlencode(data)

这样就可以登录了，不过还有一点要注意，既然登录就是一种状态，所以我们在发起爬虫登录时不要忘记开启 Cookie，这个很重要，原理就不解释了，这样就可以下次自动登录，关于使用 Python 直接获取浏览器 Cookie 来实现自动登录其实也不用过多强调了，获取浏览器 Cookie 的方式也有很多种，甚至可以选择使用 Python 的 browsercookie 模块来获取 Cookie。

上面演示了自己编写代码开启 Cookie 及分析 FORM 表单提交和构造 dict 对象编码提交表单的过程，在实际小爬虫中关于 Cookie 我们可以自己封装一个类来处理，这样会方便许多，不过 Python 还提供了一个更加便捷的 Mechanize 模块来处理表单提交，非常遗憾的是这个模块不支持 Python3.X 版本，所以对于我们这个系列就没必要介绍了，感兴趣的可以自己使用低版本的 Python 玩玩。

算是一个答疑，就此打住，打球去了！

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

^-^当然咯，看到这如果发现对您有帮助的话不妨扫描二维码赏点买羽毛球的小钱（现在球也挺贵的），既是一种鼓励也是一种分享，谢谢！

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

你可能感兴趣的:(Python3)

统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
python namedtuple默认值_可选关键字参数的namedtuple和默认值 weixin_39710041 python namedtuple默认值
Python3.7使用默认值参数。>>>fromcollectionsimportnamedtuple>>>fields=('val','left','right')>>>Node=namedtuple('Node',fields,defaults=(None,)*len(fields))>>>Node()Node(val=None,left=None,right=None)或者更好的方法是使用新
Python3 os.path() 模块 kunkliu #python python
参考文章：https://www.runoob.com/python3/python3-os-path.htmlPython3OS文件/目录方法os.path模块主要用于获取文件的属性。以下是os.path模块的几种常用方法：方法说明os.path.abspath(path)返回绝对路径os.path.basename(path)返回文件名os.path.commonprefix(list)返回l
python3中的os.path模块 hgz_dm 编程语言 python3 os.path
os.path模块主要用于获取文件的属性，这里对该模块中一些常用的函数做些记录。os.abspath(path):获取文件的绝对路径。这里path指的是路径，例如我这里输入“data.csv”[In]os.path.abspath('data.csv')[Out]'E:\\kaggle\\Titanic\\data.csv'os.path.basename(path):获取文件名称。该函数默认通过
在Ubuntu系统下部署大语言模型脱泥不tony ubuntu 语言模型 linux 人工智能大数据产品经理 transformer
前言在Ubuntu系统下部署大语言模型，可以使用HuggingFace的Transformers库来加载和使用预训练的模型。以下是一个详细的步骤：1.安装环境依赖确保你已经安装了Python3和pip。可以使用以下命令安装它们：sudoapt-getupdatesudoapt-getinstall-ypython3python3-pip2.创建并激活虚拟环境（可选）为了隔离项目依赖，你可以创建一个
Python3的安装 Ladeng_uncle python python 后端
环境信息操作系统：CentOSLinuxrelease7.6.1810Python：3.6.5现状说明当前CentOS系统自带了python2.7.5，因为yum会用到python2，所以不能删除，此次安装了python3之后就保持两个版本长期共存吧。本次安装采用的是下载python源码再编译的方式；操作步骤以root身份登录CentOS，以下操作都在默认的~目录下：1、yum更新：yumupda
Linux CentOS 终端关闭后 Python程序仍然运行设置方法 Think Spatial 空间思维 IT python 开发语言语法
服务器：CentOS8安装Pythonsudodnfinstallpython3查看Versionpython3--version安装pippipinstall--upgradepip后台运行python程序原本运行命令为pythonmain.py后台运行的命令直接执行nohuppython3main.py将输出放到main.log文件中nohuppython3main.py>main.log查看
【大模型】DeepSeek-R1-Distill-Qwen部署及API调用油泼辣子多加大模型实战算法 gpt langchain 人工智能
DeepSeek-R1-Distill-Qwen是由中国人工智能公司深度求索（DeepSeek）开发的轻量化大语言模型，基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后，我们可以将其部署，使用API方式进行本地调用1.部署环境本文中的部署基础环境如下所示：PyTorch2.5.1Python3.12(ubuntu22.04)Cuda12.4GPURTX3090(24GB)*1
python系列【仅供参考】：python3 生成pdf 中文乱码问题处理坦笑&&life #python python pdf 开发语言
python3生成pdf中文乱码问题处理python3生成pdf中文乱码问题处理1.首先上代码：2.乱码原因：3.安装字体库4.找一台安装了中文字体的服务器python3生成pdf中文乱码问题处理1.首先上代码：importpdfkit#urlPath是待导出的链接pdfkit.from_url(urlPath,'test.pdf',options={'encoding':'UTF-8'
PTA里面怎么寻找JAVA题目_PTA基础题目集 weixin_39955829 PTA里面怎么寻找JAVA题目
Java代码在上面，下面空两行是python3A/_5T$|#c-t4`%@,S9I7-1厘米换算英尺英寸(15分)0y;n0J%u7p如果已知英制长度的英尺foot和英寸inch的值，那么对应的米是(foot+inch/12)×0.3048。现在，如果用户输入的是厘米数，那么对应英制长度的英尺和英寸是多少呢？别忘了1英尺等于12英寸。0v:C6Z1W/T输入格式：/`"x^7l5J4x1i#{1
python启动多个进程_Python多进程运行两次进程? 魔法小药丸 python启动多个进程
运行下面的python3脚本,由于某种原因我无法理解startWebview函数执行了两次,结果打开了两个PyWebView窗口。#ImportModulesHereimportosimporttimeimportwebviewimportos.pathimportmultiprocessingfromdotenvimportload_dotenvfromflask_wtfimportFlaskF
python关闭一个子进程_python3关闭子进程的两种方式 weixin_39646695 python关闭一个子进程
用scrapy做爬虫的时候需要开多个爬虫子进程，为了定时开启和关闭爬虫子进程，需要对子进程做控制，而关闭进程有两种方法-----要简单高效，直接看方法2吧-----方法1：通过获取全部windows进程，获取增量进程方式该方法是通过获取所有windows进程，将所有进程名为“python.exe”的获取，最后在杀的时候，除了主进程外，全部杀掉该方法存在的问题在于，如果杀进程的时候刚好有其他人的py
服务器python项目部署菜鸡6666 python 服务器开发语言
角色：root,其他用户应该也可以1.安装python3环境#如果是新机器，尽量执行，避免未知报错yum-yupdatepython-vyuminstallpython3python3-v2.使用virtualenvwrapper创建虚拟环境,并使用workon切换不同的虚拟环境#安装virtualenvwrapperpip3installvirtualenvwrapper-ihttps://mi
python APScheduler插件部署服务器报错问题道法自然实事求是 python python 服务器 github
今天我在使用python测试定时任务部署到服务器的时候，一直报下面的错误。Job"send_wechat_webhook(trigger:cron[second='*/2'],nextrunat:2025-03-0712:00:12CST)"raisedanexceptionTraceback(mostrecentcalllast):File"/usr/local/lib/python3.12/s
Python3 爬虫 Scrapy 与 Redis 大秦重工爬虫 scrapy redis
Scrapy是一个分布式爬虫的框架，如果把它像普通的爬虫一样单机运行，它的优势将不会被体现出来。因此，要让Scrapy往分布式爬虫方向发展，就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。一、Scrapy_redis的安装和使用Scrapy自带的待爬队列是deque，而现在需要使用Redis来作为队列，所以就需要将原来操作deque的方法替换为操作R
Python3 之 PyMongo 的安装与使用大秦重工 python 开发语言 mongodb
PyMongo模块是Python对MongoDB操作的接口包，能够实现对MongoDB的增删改查及排序等操作。一．PyMongo的安装直接使用pip安装直接使用pip安装：pipinstallpymongo注意事项：直接使用pip安装可能会遇到网络问题导致安装失败，因此，对于Windows11系统可以访问http://www.lfd.uci.edu/～gohlke/pythonlibs/。这个网站
Python3 与 VSCode：深度对比分析 lly202406 开发语言
Python3与VSCode：深度对比分析引言Python3和VisualStudioCode（VSCode）在软件开发领域扮演着举足轻重的角色。Python3作为一门强大的编程语言，拥有丰富的库和框架，广泛应用于数据科学、人工智能、网络开发等多个领域。而VSCode作为一款轻量级且功能强大的代码编辑器，以其出色的性能和丰富的插件支持，受到了广大开发者的喜爱。本文将对Python3和VSCode进
“告别 dict.update！Python 3.9+ 字典合并的逆天操作符来了” HerrFu@灵思智行科技你不知道的 Python 那些事儿 python 开发语言学习
一、为什么你需要抛弃dict.update在Python3.9之前，合并字典的“标准操作”通常是这样的：config={"host":"localhost","port":8080}defaults={"port":80,"debug":False}#传统合并方式merged=defaults.copy()#防止污染原字典merged.update(config)print(merged)#{'p
android自动化测试 python3.0+appium+uiautomatorviewer+unittest+csv+HTMLTestRunner 登录测试框架 luoyangcoding app自动化测试 app登录自动化脚本
#coding:utf-8importcsv#导入csv库，可以读取csv文件fromappiumimportwebdriverimportunittest#单元测试fromtimeimportsleep#等待时间importtime#时间方法importos#文件、目录方法importsys#引用系统函数fromHTMLTestRunnerimportHTMLTestRunner#定义路径变量，
Django学习实战篇一（适合略有基础的新手小白学习）（从0开发项目）不染_是非 Django django 学习 python
前言：本系列博客将带大家从0开始做一个简单的博客管理系统。完整代码在github上。本项目将用django4.2版本和python3.11版本带大家实现完整开发过程。在学习django过程中，绝大部分的教学和讲解采用的都是老版本的django（1.x，2.x,3.2）和python（3.6），目前最新django版本为5.1，python版本也到了3.12了。对于django版本而言，1.
python版本更新历史_Python3 是否已经完成了取代 Python2 的历史进程？ wongzo python版本更新历史
最新情况：搞web开发之类的还是用py2的多，但搞数据科学现在基本都py3了，之前不推荐py3是因为它不支持一些3D绘图库，但现在一些机器学习库刚出来的新版有的只支持py3，所以搞数据的还是用py3吧。--------------------------------照目前的情形看，哪怕python3退出历史舞台了python2还会活的好好的！官方倒是想让py2早死早超生，然而天不遂人愿，1：由于p
Python 3.13 的改进 CS创新实验室 Python python 开发语言
Python3.13的改进Python3.13是一个充满新功能和改进的优秀版本，已经有大量文章详细介绍了发布说明。因此，本文不会讨论那些已经耳熟能详的内容，只就几个不鲜为人知的改进给予介绍。让调试变得更好尽管PDB的操作界面简陋，但它毕竟简单。之前，在PDB中会遇到这样的问题：try:1/0exceptZeroDivisionErrorase:breakpoint()那么，当读取e时会发生什么：-
Python 版本变更历史及版本选择指南郝开 Python python 版本选择
Python版本变更历史及版本选择指南Python版本变更历史及版本选择指南1.Python3.13.1（2023年发布）主要特性适用场景2.Python3.12（2022年发布）主要特性3.Python3.11（2022年发布）主要特性4.Python3.10（2021年发布）主要特性5.Python3.9（2020年发布）主要特性6.Python3.8（2019年发布）主要特性7.Python
Qwen1.5-7B-实现RAG应用详细步骤大数据追光猿大模型数据库 AI编程语言模型人工智能深度学习
1.准备工作1.1安装依赖确保你的环境中安装了以下工具和库：Python：建议使用Python3.8或更高版本。PyTorch：用于运行深度学习模型。Transformers：HuggingFace提供的库，支持加载和运行预训练模型。FAISS：用于向量检索的高效库。GPTQ支持库：如auto-gptq或gptqmodel。安装命令运行以下命令安装所需的Python包：pipinstalltorc
二.Jupyter Notebook 无敌小昊昊 AI/Python jupyter python linux
JupyterNotebook1.安装condainstalljupyter2.使用#激活虚拟环境condaactivateeny_Python3.12#启动jupyterlab
计算机毕业设计Python+uniapp今日健康饮食食谱小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp今日健康饮食食谱小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram
pytorch安装记录 cy010124 pytorch 人工智能 python
在conda中创建环境(condacreate-npytorch1python=3.12)，接着进入pytorch1环境（condaactivatepytorch1）。使用官网命令安装pytorch，第一次安装显示python版本过高，torchaudio和torchvision不支持3.12，python3.10可以同时满足，于是准备换成3.10。删除环境，首先切换到base环境（condaac
如何使用 Python+Flask+win32print 实现简易网络打印服务江梦寻 python flask 开发语言后端 pytest web3.py win32
Python实现网络打印机：Flask+win32print在工作场景中，我们可能需要一个简单的网页接口，供他人上传文档并自动打印到指定打印机。本文将演示如何使用Python+Flask+win32print库来实现这一需求。代码详见：https://github.com/poboll/webprint1.环境准备Windows10/11Python3.8+打印机（已安装并可用）Flaskpywi
二.Python开发环境搭建许理 001python python 开发语言
1.环境搭建开发环境搭建（Python3环境搭建|菜鸟教程(runoob.com)）主要就是安装Python的解释器2.解释器分类Python的解释器分类：CPython（官方）用c语言编写的Python解释器PyPy用Python语言编写的Python解释器IronPython用.net编写的Python解释器Jython用Java编写的Python解释器3.步骤：1.下载安装包python-3
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate elemen 挽风821 软件测试 selenium 测试工具
报错原因：页面还没加载完，就开始找元素了使用time.sleep()等待几秒就可以了#创建ChromeWebDriverdriver=webdriver.Chrome(service=Service('D:\ProgramFiles\python\python3.10.0\chromedriver.exe'),options=chrome_options)driver.maximize_windo
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他