JunJunTech

scrapy爬虫折腾系列-02

Scrapy折腾系列-02

1、笔记

response是一个scrapy.http.response.html.HtmlResponse对象，可执行xpath和css语法来提取数据
提取出来的数据，是一个 Selector或者是一个selectorList对象，要想获取其中的字符串，得执行getall或者get方法
getall方法：获取selector中的所有文本，返回的是一个列表
get方法：获取selector中的第一个文本，返回的是str
如果数据解析回来，要传给pipeline执行，那么可以使用yield来返回，或者是在前面定义一个item集合，将后面收集到的item一个一个的append进去，最后在统一返回item集合
item: 建议在items.py文件中定义好模型，好比java中的bean,将它封装为一个对象，以后不要再使用字典，显得不专业
pipeline：这个是专门用来保存数据的，其中有3个方法会经常使用
- open_spider(self,spider) :当爬虫被打开时执行
- process_item(slef,item,spider):当爬虫有items传过来时调用
- close_spider(self,spider):当爬虫关闭时调用
- 要激活pipeline，应该在setting.py中，设置item_pipeline,将pipeline的注释取消掉
在pipeline中需要使用json将字典转化为json,需要导入json,import json,所以需要把对象转化为字典：dict(item)

2、优化数据存储

刚才我们使用对象转化为字典，或者直接传入字典的方式方式，最后使用python自带的转化为json的库来转化数据并保存在文件中。

转化为json格式还有很多方法，比如这里使用的exporters的方法，先导入from scrapy.exporters import JsonLinesItemExporter 或者JsonItemExporter

3、抓取多个页面

在parse方法体里定义一个base_domain字符串，你要采集的域名
在获取单个页面内容的下面判断是否有下一个页面存在
1. 如果没有，return出去，如果有，就调用scrapy.Request()方法，Request方法有2个参数，一个是url,另外一个是callback回调函数，在这里，我们先将url拼接好，然后回调函数就是本身的parse函数，即callback=self.parse,回调函数不写（）,最后再yield出去就行了，yield表示的是返回当前的这一个请求，而return是返回当前请求并跳出控制语句

4、CrawlSpider

满足定义规则的url就会执行，去调用crawlSpider，不用像传统的爬虫一样，需要手动调用yield scrapy.Request()

创建爬虫: scrapy genspider -t crawl 爬虫名域名

查看网页http://www.wxapp-union.com/portal.php?mod=list&catid=2，查找其中的规律：

文章详情页：　http://www.wxapp-union.com/article-5536-1.html>　　根据-5536-1来表示文章

教程页：　 http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1　根据ｐａｇｅ变化来翻页

编写start_urls(初始爬取页面): start_urls = [‘http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1’] 从第一页爬取

编写rule规则：如果只是想要获取url列表，不需要回调函数，如果是需要返回文章响应的数据，就需要回调函数，接下来定义rule规则：

rules = (
        Rule(LinkExtractor(allow=r'http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=\d'), follow=True),
        Rule(LinkExtractor(allow=r'http://www.wxapp-union.com/article-.+\.html'), callback="parse_item", follow=True),
    )

重写parse_item

    def parse_item(self, response):
        title = response.xpath('//div[@class="cl"]/h1/text()').get()
        print(title)

先打印title看看：

配置settting.py

1.请求头
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.19 Safari/537.36'
}
2.机器人规则
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
3.设置下载速度，防止被封ip
DOWNLOAD_DELAY = 1

5.cmd命令太麻烦，自己编写py文件执行

#调用scrapy的cmdline模块，来实现命令行操作
# -*- coding: utf-8 -*-
from scrapy import  cmdline

cmdline.execute("scrapy crawl wxapppp_spider".split())

6.运行

2019-09-16 11:20:34 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
微信小程序之onLaunch与onload异步问题 
2019-09-16 11:20:35 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
烧脑！JS+Canvas带你体验「偶消奇不消」的智商挑战 
2019-09-16 11:20:37 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
微信小程序使用多色图标详解 
2019-09-16 11:20:38 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
微信小程序 select 下拉框组件 
2019-09-16 11:20:39 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
基于小程序·云开发构建高考查分小程序丨实战 
2019-09-16 11:20:41 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
利用微信电脑最新版 反编译微信小程序 无需root 
2019-09-16 11:20:42 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
微信小程序路由栈不能超过 10 的解决方案 
2019-09-16 11:20:43 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
微信小程序自定义头部返回按钮及回到首页样式 
2019-09-16 11:20:45 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
小程序底层实现原理及一些思考 
2019-09-16 11:20:46 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
用uniapp写个天气的微信小程序和支付宝小程序 
2019-09-16 11:20:47 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
微信小程序上传照片后旋转问题解决 
2019-09-16 11:20:49 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
微信小程序实现pdf,word等格式文件上传 
2019-09-16 11:20:50 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
Taro编写微信小程序时，自定义组件样式引入后不生效

7.接下来获取作者时间

//p[@class="authors"]/a/text()   xpath表达式  作者
//p[@class="authors"]/span/text()   时间

    def parse_item(self, response):
        title = response.xpath('//div[@class="cl"]/h1/text()').get()
        # print(title)
        author = response.xpath('//p[@class="authors"]/a/text()').get()
        time = response.xpath('//p[@class="authors"]/span/text()').get()

        print("author: %s/pub_time: %s/title: %s"%(author,time,title))
        print('*'*30)

运行start.py
运行结果:
author: Rolan/pub_time: 2019-8-26 00:09/title: 用小程序·云开发两天搭建mini论坛丨实战 
******************************
2019-09-16 11:41:44 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5475-1.html)
author: Rolan/pub_time: 2019-8-19 00:47/title: 微信小程序canvas绘制圆角base64图片 
******************************
2019-09-16 11:41:45 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5475-1.html)
author: Rolan/pub_time: 2019-8-21 00:52/title: 小程序自定义弹层禁止页面滚动方案详解 
******************************
2019-09-16 11:41:46 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5475-1.html)
author: Rolan/pub_time: 2019-8-19 00:51/title: 扫小程序码实现网站登陆,提供源代码 
******************************
2019-09-16 11:41:48 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5475-1.html)
author: Rolan/pub_time: 2019-8-19 00:37/title: uni-app微信小程序接入人脸核身SDK 
******************************
2019-09-16 11:41:49 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5475-1.html)
author: Rolan/pub_time: 2019-8-14 00:49/title: 微信小程序 - 输入起点、终点获取距离并且进行路线规划（腾讯地图） ... ... 
******************************
2019-09-16 11:41:51 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
author: Rolan/pub_time: 2019-3-18 00:32/title: 微信小程序开发中遇到的问题及解决办法（一） 
******************************
2019-09-16 11:41:53 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
author: Rolan/pub_time: 2019-3-19 10:16/title: 微信小程序开发之多图片上传+服务端接收 
******************************
2019-09-16 11:41:53 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5540-1.html)
author: Rolan/pub_time: 2019-9-11 00:01/title: 小程序上线多项新能力，“服务商助手”C位登场 
******************************
2019-09-16 11:41:54 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5540-1.html)
author: Rolan/pub_time: 2019-9-4 14:12/title: 这些小程序技巧，你敢说你一个用不到？ 
******************************
2019-09-16 11:41:55 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
author: Rolan/pub_time: 2019-3-22 00:34/title: 微信小程序开发中的代码片段总结 
******************************
2019-09-16 11:41:56 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
author: Rolan/pub_time: 2019-4-4 00:24/title: 微信小程序开发早知道 
******************************
2019-09-16 11:41:57 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-4793-1.html)
author: Rolan/pub_time: 2019-1-2 14:48/title: 一诞小程序总结 
******************************
2019-09-16 11:41:58 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-4793-1.html)
author: Rolan/pub_time: 2019-1-2 00:12/title: 你的年目标实现了吗，记一次开发微信小程序 
******************************
2019-09-16 11:41:59 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5511-1.html)
author: Rolan/pub_time: 2019-8-30 00:08/title: 微信小程序生成自适应海报 
******************************
2019-09-16 11:42:01 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5480-1.html)
author: Rolan/pub_time: 2019-8-21 00:07/title: 微信小程序 webview 与 h5 实时通讯的实现 
******************************
2019-09-16 11:42:02 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5484-1.html)
author: Rolan/pub_time: 2019-8-21 00:15/title: 解决小程序中webview页面多层history返回问题 
******************************
2019-09-16 11:42:04 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5496-1.html)
author: Rolan/pub_time: 2019-8-27 00:09/title: 微信小程序和Jenkins不得不说的二三事 
******************************
2019-09-16 11:42:04 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5496-1.html)
author: Rolan/pub_time: 2019-8-26 00:06/title: 【微信小程序】图片压缩-纯质量压缩，非长宽裁剪压缩 
******************************
2019-09-16 11:42:06 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/article-5486-1.html)
author: Rolan/pub_time: 2019-8-26 00:02/title: 研究了多个出行类小程序后，我们发现了留住用户的秘密 
******************************
2019-09-16 11:42:07 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
author: Rolan/pub_time: 2019-4-23 00:43/title: 微信小程序开发——点击按钮退出小程序的实现 
******************************
2019-09-16 11:42:07 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
author: Rolan/pub_time: 2019-5-5 00:42/title: 微信小程序开发需要注意的一些规范 
******************************

8.获取内容

        content = response.xpath('//td[@id="article_content"]//text()').getall()

        # print("author: %s/pub_time: %s/title: %s"%(author,time,title))
        print(content)
        print('*'*30)

显示：

2019-09-16 12:32:20 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
[' \n                     \n                    ', '经过最近两年多的发展，', '小程序', '的地位也逐渐越来越高了，各个平台前赴后继做了自家的小程序平台，随着市场的需求越来愈多，我们开发各平台的小程序的激情也随（被）之（逼）高（无）涨（奈）。', '\r\n', '为何选择uniapp？uni-app 是一个使用 Vue.js 开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、H5、以及各种小程序（微信/支付宝/百度/头条/QQ/钉钉）等多个平台。即使不跨端，uni-app同时也是更好的小程序开发框架。来自官方。喜欢taro， wepy，mpvue的朋友也莫喷我，大家各有所好，大家开心就好。', '\r\n', '智行天气小程序（支付宝小程序、微信小程序）', '\r\n', '\r\n', '效果图', '\r\n', '1、获取位置信息', '\r\n', '在定位功能中，本程序用到腾讯地图的api 以及 腾讯天气的api接口，', '\r\n', '\r\n', '需要到官网中注册开发者账号，通过注册后得到的appKey来请求我们需要的数据，详细注册步骤请自行度娘', '\r\n', '\r\n', '由于需要用到定位功能，uniapp的getLocation方法获取到的是当前位置的坐标，然后对应百度地图具体城市', '\r\n', ......

在这里，他会显示我门这是一个list,不能用str类型输出，所以我们要把list转化为str

        article_content = "".join(content).strip() #转化为字符串类型并去除空白

2019-09-16 12:36:55 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
[' \n                     \n                    ', '今天下午突然听到群里有人说微信', '小程序', '工具更新了,文档也更新了不少内容.', '顾不上吃冬至的饺子.我就冲进来了.', '先说分享功能,目前真机尚不能调试.开发工具上可以看看效果.后续还会更新.', 'Page()中加上如下代码后在右上角就会出现三个小白点', 'title:分享的标题.', 'desc:分享一段描述.', 'path:这个参数有点意思.以前在微信中的分享一般都是url.这里是当前页面这里应该是pages/index?id=123这里的id目前还不知道是什么.', '也就是说以后你可以在微信中像分享一个网页一样分享一个页面了.', 'onShareAppMessage: ', 'function', ' ', '()', ' {\r\n    ', 'return', ' {\r\n      title: ', "'垃圾分类黑板报'", ',\r\n      desc: ', "'垃圾分类就选垃圾分类黑板报!'", ',\r\n      path: ', "'/page/user?id=123'", '\r\n    }\r\n  }', '分享参数用处:', '我这里没有用到路径后的参数,说个场景:参数是用户昵称,A分享了XXX小程序到微信群里,B点开小程序,弹个toast,”来自A的分享”.', ' ']

5、存json入文件

1、封装对象 —>items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class WxAppItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # pass
    title = scrapy.Field()
    author =scrapy.Field()
    time =scrapy.Field()
    content =scrapy.Field()

2.把数据保存在json文件中 —>pipeline.py

因为content内容很多，所以我们使用JsonLinesItemExporter类来处理，先映入

from scrapy.exporters import JsonLinesItemExporter

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exporters import JsonLinesItemExporter

class WxAppPipeline(object):
    def __init__(self):
        self.fp = open('wxapp.json','wb')
        # 使用jsonLinesExporter
        self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding="utf-8")

    # 写入文件
    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item
    
    # 关闭文件
    def close_spider(self,spider):
        self.fp.close()

3.返回数数item

    def parse_item(self, response):
        title = response.xpath('//div[@class="cl"]/h1/text()').get()
        # print(title)
        author = response.xpath('//p[@class="authors"]/a/text()').get()
        time = response.xpath('//p[@class="authors"]/span/text()').get()
        content = response.xpath('//td[@id="article_content"]//text()').getall()
        article_content = "".join(content).strip() #转化为字符串类型并去除空白
        item = WxAppItem(title=title, author=author, time=time, content=content)
        yield  item

将数据item yeild出去

运行start.py

发现在运行了：

 'time': '2019-9-9 00:23',
 'title': '微信小程序 select 下拉框组件 '}
2019-09-16 12:52:02 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1)
2019-09-16 12:52:02 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.wxapp-union.com/article-5529-1.html>
{'author': 'Rolan',
 'content': [' \n

但是问题来了，我们不是要写入wxapp.json文件吗，为什么项目中没有生成该文件呢？

原因是：我们没有打开pipeline

解决方案：

ITEM_PIPELINES = {
   'wx_app.pipelines.WxAppPipeline': 300,
}

在运行一次：就发现有该文件了打开wxapp.json

{"title": "微信小程序开发之页面分享 onShareAppMessage 分享参数用处 ", "author": "Rolan", "time": "2019-8-19 00:08", "content":[.....]}

6、总结

6.1crawlspider

需要使用linkExtractor和rule，这两个东西决定爬虫的具体走向

1.allow设置规则：要能够限制在我们指定的想要的url，不要与其他url产生相同的则正表达式。

2.什么时候使用follow：再爬取时，需要将满足当前条件的url进一步跟进时，就设置为true,否则设置为false

3.什么时候该指定callback: 如果这个url对应的页面只是为了获取更多的url,并不需要里面的数据，那么可以不指定callback

7、更多详情

更多详情请访问： juntech

你可能感兴趣的:(python,scrapy)

开源项目常见问题解决方案——cryptography 周屹隽
开源项目常见问题解决方案——cryptographycryptographycryptographyisapackagedesignedtoexposecryptographicprimitivesandrecipestoPythondevelopers.项目地址:https://gitcode.com/gh_mirrors/cr/cryptography项目基础介绍cryptography是一个
python 利用pandas实现从CSV导出并格式化后写入.jsonl文件风_流沙 python工具备忘录 python pandas 开发语言
你可以使用pandas库来读取CSV文件，然后通过一些格式化操作将数据转换为JSONL格式并写入文件。JSONL（JSONLines）格式是一种每行一个JSON对象的文件格式。下面是一个示例，演示了如何使用pandas读取CSV文件，处理数据并将其导出到JSONL文件中：示例代码：importpandasaspdimportjson#读取CSV文件df=pd.read_csv('data.csv'
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Python第六章07：元组的定义和操作苹果.Python.八宝粥 python 前端开发语言
#tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
Python中Requests的Cookies的简单使用北条苒茗殇 python 开发语言 Requests
概述Python的Requests库中有一个cookies，是用于管理HTTPCookie的工具，可以像字典一样操作Cookie，支持自动处理作用域（域名、路径）和持久化，cookies是一个RequestsCookieJar的类型。一、概念1.作用自动存储服务器返回的Cookie根据请求域名和路径进行自动发送匹配的Cookie支持手动添加、修改、删除Cookie2.RequestsCookieJ
Pytest基础使用北条苒茗殇 pytest
概述Pytest是Python里的一个强大的测试框架，灵活易用，可以进行功能，自动化测试使用，可以与Requests，Selenium等进行结合使用，同时可以生成Html的报告。一、Pytest的基本使用在未指定Pytest的配置文件时，会对以下文件进行执行：test_*.py，如：test_1.py*_test.py，如：1_test.py会对以下的类和函数进行执行：类：以Test_开头的类，如
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
python中rmdir和rmtree的用法 Gin387 python
shutil.rmtree()是Python中shutil模块提供的一个函数，用于递归删除整个目录树（包括子目录和所有文件）。os.rmdir()（只能删除空目录）不同，shutil.rmtree()可以强制删除非空目录importshutil#删除指定目录及其所有内容shutil.rmtree('path/to/directory')
构建 Python 插件架构：打造灵活可扩展的模块化应用全栈探索者chen python python 架构开发语言学习机器学习程序人生插件
构建Python插件架构：打造灵活可扩展的模块化应用前言在现代软件开发中，单一的代码库往往难以满足不断变化的业务需求和多样化的扩展场景。如何设计一个应用，使其既能保持核心功能的稳定，又能轻松集成第三方功能、模块或定制化扩展？答案就是——插件架构。通过插件架构，你可以让应用具备极高的灵活性，支持动态加载、无缝扩展以及解耦维护。本文将深入探讨如何在Python中设计和构建一个插件架构。从核心概念、模块
31天Python入门——第11天:挑战一口气把闭包·装饰器讲明白安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.闭包扩展知识:闭包的自由变量是如何存储的2.装饰器装饰器的应用场景3.补充练习1.闭包闭包是指在一个函数内部定义的函数，并且这个内部函数可以访问外部函数的变量、参数.换句话说，闭包是一个包含了函数及其相关引用环境的组合体.在Python中，当一个函数返回了内部函数的引用时，这个内部函数可以访问并操作外部函数的局部变量，它就创建了一个闭包,即使外部函数已经执行完毕，它
opencv python rgb转yuv_OpenCV之色彩空间与色彩空间转换 xiao fei opencv python rgb转yuv
python代码：importcv2ascvsrc=cv.imread("test.jpg")cv.namedWindow("rgb",cv.WINDOW_AUTOSIZE)cv.imshow("rgb",src)#RGBtoHSVhsv=cv.cvtColor(src,cv.COLOR_BGR2HSV)cv.imshow("hsv",hsv)#RGBtoYUVyuv=cv.cvtColor(sr
【AI大模型】搭建本地大模型GPT-NeoX：详细步骤及常见问题处理 qzw1210 gpt 人工智能深度学习
搭建本地大模型GPT-NeoX：详细步骤及常见问题处理GPT-NeoX是一个开源的大型语言模型框架，由EleutherAI开发，可用于训练和部署类似GPT-3的大型语言模型。本指南将详细介绍如何在本地环境中搭建GPT-NeoX，并解决过程中可能遇到的常见问题。1.系统要求1.1硬件要求1.2软件要求操作系统:Linux(推荐Ubuntu20.04或更高版本)CUDA:11.2或更高版本Python
python 列表倒序输出小琳爱分享 python python
python列表倒序输出#使用reverseli1=[1,6,4,3,7,9]li2=['a','m','s','g']li1.reverse()li2.reverse()print(li1,li2)#利用list切片li1=[1,6,4,3,7,9]li2=['a','m','s','g']print(li1[::-1])print(li2[::-1])#利用算法进行转换，这里需要用到深层cop
python怎么输出倒序 hakesashou python基础知识 python java 服务器
python怎么输出倒序？下面给大家介绍四种方法：创建测试列表>>> lst = [1,2,3,4,5,6]方法1：>>> lst.reverse() #reverse()反转>>> lst[6, 5, 4, 3, 2, 1]方法2：>>> lst1 = [i for i in reversed(lst)] #reversed只适用于与序列(列表、元组、字符串)>>> lst1[6, 5, 4,
chatgpt赋能python：Python怎么倒序列表 aijinglingchat ChatGpt python chatgpt 人工智能计算机
Python怎么倒序列表列表是Python中最常用的数据结构之一，但在实际使用时，有时需要将列表进行倒序排列。Python提供了多种方法来实现这个需求，本文将简要介绍这些方法以及它们的使用场景。方法1：使用reverse()函数使用列表的reverse()方法是Python中最简单直接的方法来倒序列表。该方法会将原列表倒置。lst=[1,2,3,4,5]lst.reverse()print(lst
“统计视角看世界”专栏阅读引导赛卡统计视角看世界信息可视化数据分析
根据文章主题和逻辑关系，我为您设计以下阅读引导方案：1.六西格玛基础2.帕累托图3.直方图4.散点图基础5.散点图高阶6.多变量可视化7.密度图进阶8.回归分析配套文字说明：入门基石（必读）《1.六西格玛遇上Python》→方法论总纲，建议优先精读基础三剑客（可并行）├─《2.帕累托图》→重点数据排序与决策├─《3.直方图》→数据分布核心工具└─《4.散点图》→数据探索第一视角高阶应用链（递进学习
自定义mavlink 生成wireshark wlua插件错误（已解决） JasonComing 问题收集 wireshark wlua mavlink
进入正题python3-mpymavlink.tools.mavgen--lang=WLua--wire-protocol=2.0--output=output/developmessage_definitions/v1.0/development.xml编译WLUA的时候遇到一些问题1.ERROR:SCHEMASV:SCHEMAV_CVC_ENUMERATION_VALID3765:0:ERRO
吐血整理 python最全习题100道（含答案）持续更新题目，建议收藏！ Bejpse 面试学习路线阿里巴巴 python 开发语言 pycharm redis java-ee
最近为了提升python水平，在网上找到了python习题，然后根据自己对于python的掌握，整理出来了答案，如果小伙伴们有更好的实现方式，可以下面留言大家一起讨论哦~已知一个字符串为“hello_world_yoyo”,如何得到一个队列[“hello”,”world”,”yoyo”]test=‘hello_world_yoyo’使用split函数，分割字符串，并且将数据转换成列表类型print
2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
Python 用户账户(创建用户账户) 钢铁男儿 Python 从入门到精通 python sqlite 数据库
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
使用欧拉法数值求解微分方程的 Python 实现神经网络15044 python 深度学习算法 python 开发语言
编写函数y=Eular(x,h)，使用欧拉法数值求解微分方程初值为函数Eular(x,h)中Cx为计算结束时微分方程x的值，h为计算步长再编写脚本，通过调用函数分别以不同步长(例如h=1.0，h=0.5，h=0.25)计算y(3)，并分析步长和误差之间的关系。以下是使用欧拉法数值求解微分方程的Python实现。假设我们要求解的微分方程是dydx=f(x,y)\frac{dy}{dx}=f(x,y)
使用AirtableLoader轻松加载数据到Python bavDHAUO python 开发语言
在现代软件开发中，数据的管理与使用非常关键。Airtable作为一种灵活的数据库应用，提供了简便且强大的数据处理方式。而通过使用AirtableLoader这种工具，可以轻松地将Airtable中的数据加载到Python项目中进行处理。技术背景介绍Airtable是一款集电子表格和数据库功能于一体的工具，它以其简单易用、强大的扩展性而受到众多开发者的喜爱。AirtableLoader是一个文档加载
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持