bingshi8956

Python3网络爬虫实战-40、使用Selenium爬取淘宝商品

在前一章中，我们已经成功尝试分析Ajax来抓取相关数据，但是并不是所有页面都可以通过分析Ajax来完成抓取。比如，淘宝，它的整个页面数据确实也是通过Ajax获取的，但是这些Ajax接口参数比较复杂，可能会包含加密密钥等，所以如果想自己构造Ajax参数，还是比较困难的。对于这种页面，最方便快捷的抓取方法就是通过Selenium。本节中，我们就用Selenium来模拟浏览器操作，抓取淘宝的商品信息，并将结果保存到MongoDB。

1. 本节目标

本节中，我们要利用Selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息，并将其保存到MongoDB。学习过程中有不懂的可以加入我们的学习交流秋秋圈784中间758后面214，与你分享Python企业当下人才需求及怎么从零基础学习Python，和学习什么内容。相关学习视频资料、开发工具都有分享

2. 准备工作

本节中，我们首先以Chrome为例来讲解Selenium的用法。在开始之前，请确保已经正确安装好Chrome浏览器并配置好了ChromeDriver；另外，还需要正确安装Python的Selenium库；最后，还对接了PhantomJS和Firefox，请确保安装好PhantomJS和Firefox并配置好了GeckoDriver。如果环境没有配置好，可参考第1章。

3. 接口分析

首先，我们来看下淘宝的接口，看看它比一般Ajax多了怎样的内容。

打开淘宝页面，搜索商品，比如iPad，此时打开开发者工具，截获Ajax请求，我们可以发现获取商品列表的接口，如图7-19所示。

[外链图片转存失败(img-xFzaHnCE-1565083295492)(https://upload-images.jianshu.io/upload_images/17885815-bd286a4b1de6dec8.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-19 列表接口

它的链接包含了几个GET参数，如果要想构造Ajax链接，直接请求再好不过了，它的返回内容是JSON格式，如图7-20所示。

[外链图片转存失败(img-P062P0J8-1565083295494)(https://upload-images.jianshu.io/upload_images/17885815-6dc5ef82d3bcd30f.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-20 JSON数据

但是这个Ajax接口包含几个参数，其中_ksTS、rn参数不能直接发现其规律，如果要去探寻它的生成规律，也不是做不到，但这样相对会比较烦琐，所以如果直接用Selenium来模拟浏览器的话，就不需要再关注这些接口参数了，只要在浏览器里面可以看到的，都可以爬取。这也是我们选用Selenium爬取淘宝的原因。

4. 页面分析

本节的目标是爬取商品信息。图7-21是一个商品条目，其中包含商品的基本信息，包括商品图片、名称、价格、购买人数、店铺名称和店铺所在地，我们要做的就是将这些信息都抓取下来。

[外链图片转存失败(img-SHxzfp2M-1565083295497)(https://upload-images.jianshu.io/upload_images/17885815-2e2e352d23e17e27.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-21 商品条目

抓取入口就是淘宝的搜索页面，这个链接可以通过直接构造参数访问。例如，如果搜索iPad，就可以直接访问https://s.taobao.com/search?q=iPad，呈现的就是第一页的搜索结果，如图7-22所示。

[外链图片转存失败(img-SCaxJeq2-1565083295498)(https://upload-images.jianshu.io/upload_images/17885815-a03da4b3ad7b82e5.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-22 搜索结果

在页面下方，有一个分页导航，其中既包括前5页的链接，也包括下一页的链接，同时还有一个输入任意页码跳转的链接，如图7-23所示。

[外链图片转存失败(img-9S2OYYkv-1565083295498)(https://upload-images.jianshu.io/upload_images/17885815-c6c51ee255bc0cc1.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-23 分页导航

这里商品的搜索结果一般最大都为100页，要获取每一页的内容，只需要将页码从1到100顺序遍历即可，页码数是确定的。所以，直接在页面跳转文本框中输入要跳转的页码，然后点击“确定”按钮即可跳转到页码对应的页面。

这里不直接点击“下一页”的原因是：一旦爬取过程中出现异常退出，比如到50页退出了，此时点击“下一页”时，就无法快速切换到对应的后续页面了。此外，在爬取过程中，也需要记录当前的页码数，而且一旦点击“下一页”之后页面加载失败，还需要做异常检测，检测当前页面是加载到了第几页。整个流程相对比较复杂，所以这里我们直接用跳转的方式来爬取页面。

当我们成功加载出某一页商品列表时，利用Selenium即可获取页面源代码，然后再用相应的解析库解析即可。这里我们选用pyquery进行解析。下面我们用代码来实现整个抓取过程。

5. 获取商品列表

首先，需要构造一个抓取的URL：https://s.taobao.com/search?q=iPad。这个URL非常简洁，参数q就是要搜索的关键字。只要改变这个参数，即可获取不同商品的列表。这里我们将商品的关键字定义成一个变量，然后构造出这样的一个URL。

然后，就需要用Selenium进行抓取了。我们实现如下抓取列表页的方法：

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from urllib.parse import quote

browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)
KEYWORD = 'iPad'

def index_page(page):
    """
    抓取索引页
    :param page: 页码
    """
    print('正在爬取第', page, '页')
    try:
        url = 'https://s.taobao.com/search?q=' + quote(KEYWORD)
        browser.get(url)
        if page > 1:
            input = wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager div.form > input')))
            submit = wait.until(
                EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager div.form > span.btn.J_Submit')))
            input.clear()
            input.send_keys(page)
            submit.click()
        wait.until(
            EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager li.item.active > span'), str(page)))
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.m-itemlist .items .item')))
        get_products()
    except TimeoutException:
        index_page(page)
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

这里首先构造了一个WebDriver对象，使用的浏览器是Chrome，然后指定一个关键词，如iPad，接着定义了index_page()方法，用于抓取商品列表页。

在该方法里，我们首先访问了搜索商品的链接，然后判断了当前的页码，如果大于1，就进行跳页操作，否则等待页面加载完成。

等待加载时，我们使用了WebDriverWait对象，它可以指定等待条件，同时指定一个最长等待时间，这里指定为最长10秒。如果在这个时间内成功匹配了等待条件，也就是说页面元素成功加载出来了，就立即返回相应结果并继续向下执行，否则到了最大等待时间还没有加载出来时，就直接抛出超时异常。

比如，我们最终要等待商品信息加载出来，就指定了presence_of_element_located这个条件，然后传入了.m-itemlist .items .item这个选择器，而这个选择器对应的页面内容就是每个商品的信息块，可以到网页里面查看一下。如果加载成功，就会执行后续的get_products()方法，提取商品信息。

关于翻页操作，这里首先获取页码输入框，赋值为input，然后获取“确定”按钮，赋值为submit，分别是图7-24中的两个元素。

[外链图片转存失败(img-QkJ51ttd-1565083295500)(https://upload-images.jianshu.io/upload_images/17885815-086f4af83f5237b8.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-24 跳转选项

首先，我们清空了输入框，此时调用clear()方法即可。随后，调用send_keys()方法将页码填充到输入框中，然后点击“确定”按钮即可。

那么，怎样知道有没有跳转到对应的页码呢？我们可以注意到，成功跳转某一页后，页码都会高亮显示，如图7-25所示。

[外链图片转存失败(img-1lY956W9-1565083295501)(https://upload-images.jianshu.io/upload_images/17885815-95c91d266c5179cd.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-25 页码高亮显示

我们只需要判断当前高亮的页码数是当前的页码数即可，所以这里使用了另一个等待条件text_to_be_present_in_element，它会等待指定的文本出现在某一个节点里面时即返回成功。这里我们将高亮的页码节点对应的CSS选择器和当前要跳转的页码通过参数传递给这个等待条件，这样它就会检测当前高亮的页码节点是不是我们传过来的页码数，如果是，就证明页面成功跳转到了这一页，页面跳转成功。

这样刚才实现的index_page()方法就可以传入对应的页码，待加载出对应页码的商品列表后，再去调用get_products()方法进行页面解析。

6. 解析商品列表

接下来，我们就可以实现get_products()方法来解析商品列表了。这里我们直接获取页面源代码，然后用pyquery进行解析，实现如下：

from pyquery import PyQuery as  pq

def get_products():

    """

    提取商品数据

    """

    html  =  browser.page_source

    doc  =  pq(html)

    items  =  doc('#mainsrp-itemlist .items .item').items()

    for  item in  items:

        product  =  {

            'image':  item.find('.pic .img').attr('data-src'),

            'price':  item.find('.price').text(),

            'deal':  item.find('.deal-cnt').text(),

            'title':  item.find('.title').text(),

            'shop':  item.find('.shop').text(),

            'location':  item.find('.location').text()

        }

        print(product)

        save_to_mongo(product)

首先，调用page_source属性获取页码的源代码，然后构造了PyQuery解析对象，接着提取了商品列表，此时使用的CSS选择器是#mainsrp-itemlist .items .item，它会匹配整个页面的每个商品。它的匹配结果是多个，所以这里我们又对它进行了一次遍历，用for循环将每个结果分别进行解析，每次循环把它赋值为item变量，每个item变量都是一个PyQuery对象，然后再调用它的find()方法，传入CSS选择器，就可以获取单个商品的特定内容了。

比如，查看一下商品信息的源码，如图7-26所示。

[外链图片转存失败(img-kTSYFl9w-1565083295501)(https://upload-images.jianshu.io/upload_images/17885815-74312c0d0e72d899.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-26 商品信息源码

可以发现，它是一个img节点，包含id、class、data-src、alt和src等属性。这里之所以可以看到这张图片，是因为它的src属性被赋值为图片的URL。把它的src属性提取出来，就可以获取商品的图片了。不过我们还注意data-src属性，它的内容也是图片的URL，观察后发现此URL是图片的完整大图，而src是压缩后的小图，所以这里抓取data-src属性来作为商品的图片。

因此，我们需要先利用find()方法找到图片的这个节点，然后再调用attr()方法获取商品的data-src属性，这样就成功提取了商品图片链接。然后用同样的方法提取商品的价格、成交量、名称、店铺和店铺所在地等信息，接着将所有提取结果赋值为一个字典product，随后调用save_to_mongo()将其保存到MongoDB即可。

7. 保存到MongoDB

接下来，我们将商品信息保存到MongoDB，实现代码如下：

MONGO_URL  =  'localhost'

MONGO_DB  =  'taobao'

MONGO_COLLECTION  =  'products'

client  =  pymongo.MongoClient(MONGO_URL)

db  =  client[MONGO_DB]

def save_to_mongo(result):

    """

    保存至MongoDB

    :param result: 结果

    """

    try:

        if  db[MONGO_COLLECTION].insert(result):

            print('存储到MongoDB成功')

    except Exception:

        print('存储到MongoDB失败')

Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

这里首先创建了一个MongoDB的连接对象，然后指定了数据库，随后指定了Collection的名称，接着直接调用insert()方法将数据插入到MongoDB。此处的result变量就是在get_products()方法里传来的product，包含单个商品的信息。

8. 遍历每页

刚才我们所定义的get_index()方法需要接收参数page，page代表页码。这里我们实现页码遍历即可，代码如下：

MAX_PAGE  =  100

def main():

    """

    遍历每一页

    """

    for  i  in  range(1,  MAX_PAGE  +  1):

        index_page(i)

其实现非常简单，只需要调用一个for循环即可。这里定义最大的页码数为100，range()方法的返回结果就是1到100的列表，顺序遍历，调用index_page()方法即可。

这样我们的淘宝商品爬虫就完成了，最后调用main()方法即可运行。

9. 运行

运行代码，可以发现首先会弹出一个Chrome浏览器，然后会访问淘宝页面，接着控制台便会输出相应的提取结果，如图7-27所示。

[外链图片转存失败(img-TUEMw2C5-1565083295502)(https://upload-images.jianshu.io/upload_images/17885815-79b12c43eb095966.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-27 运行结果

可以发现，这些商品信息的结果都是字典形式，它们被存储到MongoDB里面。

再看一下MongoDB中的结果，如图7-28所示。

[外链图片转存失败(img-l6CGDzNH-1565083295503)(https://upload-images.jianshu.io/upload_images/17885815-f65cfbab109f63d3.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图7-28 保存结果

可以看到，所有的信息都保存到MongoDB里了，这说明爬取成功。

10. Chrome Headless模式

从Chrome 59版本开始，已经开始支持Headless模式，也就是×××面模式，这样爬取的时候就不会弹出浏览器了。如果要使用此模式，请把Chrome升级到59版本及以上。启用Headless模式的方式如下：

chrome_options  =  webdriver.ChromeOptions()

chrome_options.add_argument('--headless')

browser  =  webdriver.Chrome(chrome_options=chrome_options)

首先，创建ChromeOptions对象，接着添加headless参数，然后在初始化Chrome对象的时候通过chrome_options传递这个ChromeOptions对象，这样我们就可以成功启用Chrome的Headless模式了。

11. 对接Firefox

要对接Firefox浏览器，非常简单，只需要更改一处即可：


browser  =  webdriver.Firefox()

这里更改了browser对象的创建方式，这样爬取的时候就会使用Firefox浏览器了。

12. 对接PhantomJS

如果不想使用Chrome的Headless模式，还可以使用PhantomJS（它是一个×××面浏览器）来抓取。抓取时，同样不会弹出窗口，还是只需要将WebDriver的声明修改一下即可：

browser  =  webdriver.PhantomJS()

另外，它还支持命令行配置。比如，可以设置缓存和禁用图片加载的功能，进一步提高爬取效率：


SERVICE_ARGS  =  ['--load-images=false',  '--disk-cache=true']

browser  =  webdriver.PhantomJS(service_args=SERVICE_ARGS)

Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

本节中，我们用Selenium演示了淘宝页面的抓取。利用它，我们不用去分析Ajax请求，真正做到可见即可爬。

drissionpage爬虫自动化入门案例与视频教程与相关代码十一姐爬虫自动化 drissionpage
目录零、各种关于drissionpage文章视频案例解决方案合集一、dp安装与首次打开网页测试使用二、dp获取网页内容html/text/attr入门三、dp输入点击input/click/eles元素交互等入门四、dp获取cookies信息入门五、dp实现翻页并下载图片入门六、dp实现网页接口数据包监听入门（类似network和fiddler）七、dp实现高并发10倍速度爬取详情页信息八、dp实
Python enumerate函数晓之以理的喵~~ Python python 服务器 linux
在Python编程中，enumerate()函数是一个强大而有用的工具，用于在迭代可迭代对象（如列表、元组、字符串等）的同时获取元素的索引。本文将深入探讨enumerate()函数的用法、语法、示例代码，并探讨其在实际编程中的应用场景。什么是enumerate()函数？enumerate()函数是Python内置的函数之一，用于在迭代可迭代对象时返回一个包含索引和元素的迭代器。一般语法如下：enu
python的输入函数（在线笔试会用到）算法黑哥 python
文章目录input()输入函数用冒泡排序为例子1输入的表示2输入一个整数3属于一个数组input()输入函数用冒泡排序为例子#冒泡排序defbubble_sort1(li):forkinrange(len(li)-1):foriinrange(len(li)-1-k):ifli[i]>li[i+1]:li[i],li[i+1]=li[i+1],li[i]returnli1输入的表示a=input(
卓越效能，极简运维，体验云上的Serverless架构，领取转轮日历！数据库阿里云
技术解决方案【CloudUp挑战赛】」上线了！业务的持续稳定可服务，决定着企业对客户的服务质量，是企业发展的基础。应用部署的高可用架构和弹性能力对于业务的稳定与发展起着至关重要的作用，但企业同时需要考虑资源维护成本和费用成本。本方案采用云上的Serverless架构，整合了专有网络VPC、应用型负载均衡ALB、Serverless应用引擎以及PolarDBMySQL版Serverless数据库服务
CRM系统如何重塑销售全流程绩效分析程序员机器学习人工智能
在当今竞争激烈的商业环境中，销售绩效分析对于企业的持续增长至关重要。客户关系管理（CRM）系统通过提供销售全流程的绩效分析能力，帮助企业深入了解销售活动的各个环节，从而优化销售策略，提高销售效率和业绩。一、数据收集与整合：构建分析基础CRM系统能够从多个渠道收集客户数据，包括客户的基本信息、购买历史、互动记录以及销售活动的详细信息。这些数据被整合到一个统一的数据库中，为绩效分析提供了全面的基础。例
python word模板中添加图片程序媛小胖 python word
word：{{barcode}}python:document=DocxTemplate(src)ifcontext.get('barcode'):#图片路径context['barcode']=InlineImage(document,context['barcode'],height=Mm(20))document.render(context)ifnotos.path.exists(os.p
使用 PEP 420 命名空间包构建统一目录风格及可选功能支持
背景在Python项目开发中，随着代码包数量和复杂度的增加，为了更好地管理多个代码包的命名空间及其依赖，推荐使用PEP420提供的命名空间包功能。通过这种方式，可以构建属于同一发行商（vendor）下的多个独立代码包，且这些包可以分别位于不同的代码仓库中。在此基础上，某些代码包可能需要进一步支持可选功能模块（例如optional1和optional2），用户可以根据需要选择安装这些功能模块。本文将
【YashanDB知识库】重装新库及元数据和数据导出导入指导数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7253741.html?templateId=171...开始本文操作之前默认已经部署有3mn3cn3-3dn的yashan分布式数据库，并且已经配置好环境变量，开始操作之前请先停止所有业务。从旧库导出数据创建目录$cd~$mkdir-p/data/yashan/save\_data
python之enumerate函数 Yong_zhi python学习 python
文章目录一、enumerate函数介绍：二、语法三、我个人的一些学习尝试用python实现与enumerate函数同等功能一、enumerate函数介绍：在Python中，enumerate函数是一个用于将一个可迭代对象转换成一个enumerate对象的函数，同时也在循环中同时迭代元素和索引值。二、语法enumerate(iterable,start=0)参数说明iterable:必选参数，表示可
内附源码｜头部基模企业信赖之选——DMS+Lindorm智能搜索方案数据库阿里云data+ai
本文为数据库「拥抱Data+AI」系列连载第6篇，该系列是阿里云瑶池数据库面向各行业Data+AI应用场景，基于真实客户案例&最佳实践，展示Data+AI行业解决方案的连载文章。本篇针对企业构建智能搜索服务的痛点，介绍如何利用阿里云Data+AI解决方案构建一站式AI搜索服务，深入分析了DMS+Lindorm的智能搜索解决方案。1、智能搜索成为信息消费的趋势近两年，AI大模型的迅速崛起为搜索产品注
飞腾平台Ne10安装使用指南
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台Ne10安装使用指
飞腾平台VSIPL-FT安装使用指南
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台VSIPL-FT安
一文弄懂事务的四个特性 Cider瞳读研的日常拾光数据库性能优化 mysql 后端 golang 面试 c++
事务的四个特性（ACID）在数据库管理系统中，事务（Transaction）是一组操作的集合，这些操作要么全部成功执行，要么全部失败回滚。为了保证事务的正确性和可靠性，数据库系统引入了事务的四个特性，即ACID：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）。这些特性确保了数据库在并发操作和系统故障的情况下仍能保持数据的
深入理解视图的创建与删除：数据库管理中的高级功能 qcidyu 文章归档数据库优化数据安全数据查询数据库管理删除视图创建视图数据库视图
title:深入理解视图的创建与删除：数据库管理中的高级功能date:2025/1/21updated:2025/1/21author:cmdragonexcerpt:在现代数据库管理系统中，视图是一个重要的高级功能，可以为用户提供定制化的数据视图以满足特定需求。视图不仅能够简化复杂的查询，还能增强数据安全性和访问效率。categories:前端开发tags:数据库视图创建视图删除视图数据库管理数
淘宝爬虫自动化 qq_42307546 爬虫自动化 python
importjsonimportosimportreimportthreadingimporttimeimportopenpyxlfromDrissionPageimportChromiumOptions,ChromiumPage#创建一个excel文件defcreate_excel(file_name):#实例化工作簿对象workbook=openpyxl.Workbook()#激活当前工作表w
飞腾平台mlbench安装使用指南
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台下mlbench使
python enumerate函数进击的铁甲小宝 python python 开发语言
pythonenumerate函数枚举（enumerate）是Python内置函数。1.允许我们遍历数据并自动计数。2.创建包含索引的元组列表。1.遍历数据代码1：#enumerate简单例程my_list=['apple','banana','grapes','pear']forcounter,valueinenumerate(my_list):print(counter,value)输出1(0
飞腾平台FFmpeg安装使用指南
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台FFmpeg安装使
【多模态 AI】从跨模态学习到生成革命：文本、图像与音频的深度交融网罗开发人工智能 AI 大模型机器学习人工智能 AIGC
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
【Python常用函数】一文让你彻底掌握Python中的enumerate函数阿黎逸阳学习python python
任何事情都是由量变到质变的过程，学习Python也不例外。只有把一个语言中的常用函数了如指掌了，才能在处理问题的过程中得心应手，快速地找到最优方案。本文和你一起来探索Python中的enumerate函数，让你以最短的时间明白这个函数的原理。也可以利用碎片化的时间巩固这个函数，让你在处理工作过程中更高效。文章目录一、enumerate函数定义二、enumerate函数实例例1：enumerat
Golang网络刘贤松精品文章 golang 游戏服务器
golang游戏服务器框架在Go语言中，有许多优秀的游戏服务器框架，以下是一些比较流行的框架：Leaf：一个轻量级的游戏服务器框架，支持多进程、分布式、热更新等特性。它提供了一些常用的组件，如网络层、定时器、数据库等等，可以帮助开发者快速构建游戏服务器。go-ethereum：一个基于以太坊协议的区块链游戏服务器框架，支持智能合约、代币、加密等特性。它提供了丰富的API，可以轻松构建去中心化的游戏
五.python-docx向word中插入图片一起编程哇 word 开发语言 python
一.简介Document对象有一个add_paragraph()方法插入图片,只需要传入路径或者字节流即可,实际上它也是调用段落的Run对象的add_picture()二.基本使用1.导入模块fromdocximportDocument2.插入图片"""下面这两种写法是一样的"""document.add_picture("./imgs/gd.jpeg")document.add_paragrap
飞腾平台Arm ComputeLibrary编译安装指南算法linuxarm后端芯片
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台ArmComput
第三章：Python中的输入函数和运算符巧克力配酸奶 python基础学习记录 python 开发语言
一、Python中的输入函数input()input()函数的介绍input()函数的基本使用代码演示代码编写#输入函数input()present=input("你想要什么礼物呢？")print(present,type(present))结果分析你想要什么礼物呢？巧克力巧克力二、Python中的运算符Python中常见的运算符2.1算术运算符2.1.1算术运算符标准算术运算符加（+）、减（-）
Python 读取PDF文档内容提取PDF文本和图片 nuclear2011 python 开发语言
目录一、介绍二、安装Python库三、Python实现PDF文本和图片提取/读取PDF文档内容1、从整个PDF文档提取文本2、从特定PDF页面提取文本3、从特定PDF页面区域提取文本4、从整个PDF文档提取图片5、从特定PDF页面提取图片一、介绍在当今的工作和生活中，PDF文档已经成为无处不在的文件格式。许多企业和机构选择将重要文件，如合同、报告等，保存为PDF格式以进行存储和管理。有时候，我们需
飞腾X100适配Ubuntu说明
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾X100适配Ubunt
飞腾X100适配OpenEuler说明
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾X100适配OpenE
自动化测试框架：DrissionPage 研创通之逍遥峰开源工具自动化爬虫
一、工具概述DrissionPage是一个基于python的网页自动化工具。它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和requests的高效率。它功能强大，内置无数人性化设计和便捷功能。它的语法简洁而优雅，代码量少，对新手友好。支持Windows、Linux和Mac系统，满足不同用户的需求；需要Python3.6或更高版本，确保了代码的现代性和兼容性；支持所
基于飞腾平台的Sqoop的安装配置
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台Sqoop1.99
基于飞腾平台的Hive的安装配置后端hive大数据数据库运维
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台Hive3.1.2
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {