itwriter

数据从业者必读：抓取了一千亿个网页后我才明白，爬虫一点都不简单

　　英文原文：FOR E-COMMERCE DATA SCIENTISTS: LESSONS LEARNED SCRAPING 100 BILLION PRODUCTS PAGES

　　编者按：互联网上有浩瀚的数据资源，要想抓取这些数据就离不开爬虫。鉴于网上免费开源的爬虫框架多如牛毛，很多人认为爬虫定是非常简单的事情。但是如果你要定期上规模地准确抓取各种大型网站的数据却是一项艰巨的挑战，其中包括网站的格式经常会变、架构必须能灵活伸缩应对规模变化同时要保持性能，与此同时还要挫败网站反机器人的手段以及维护数据质量。流行的 Python 爬虫框架 Scrapy 开发者 Scrapinghub 分享了他们抓取一千亿个网页后的经验之谈。

　　现在爬虫技术似乎是很容易的事情，但这种看法是很有迷惑性的。开源的库/框架、可视化的爬虫工具以及数据析取工具有很多，从网站抓取数据似乎易如反掌。然而，当你成规模地在网站上抓东西时，事情很快就会变得非常棘手。

　　自 2010 年以来抓取超过 1000 亿个产品页面，我们将会通过系列文章来分享从中学到的经验教训，让你深入了解从电子商务商店中规模析取数据时所面临的挑战，并且跟你分享应对这些挑战的某些最佳实践。

　　本文是该系列文章的第一篇，在这里我们将提供规模抓取产品数据所面临主要挑战的概览，以及 Scrapinghub 从抓取 1000 亿产品页面中学到的经验教训。

　　成立于 2010 年的 Scrapinghub 是领先的数据析取公司之一，也是当今最健壮和流行的 web 爬虫框架 Scrapy 的作者。目前 Scrapinghub 每月抓取许多全球最大型电子商务公司的页面数超过 80 亿（其中 30 亿是产品页面）。

　　对于那些对规模爬取网页技术感兴趣但对要不要建立专门的 web 爬取团队或者外包给专门的 web 爬取公司的人来说，最好看看这个免费指南，企业 web 爬虫：规模化 web 爬取技术指南

　　规模爬取技术为什么重要？

　　跟标准的 web 爬取应用不一样的是，规模爬取电子商务产品数据有一项独特挑战使得 web 抓取要困难许多。

　　本质上这些挑战可归结为两件事情：速度和数据质量。

　　由于时间通常是限制因素，规模抓取要求你的爬虫要以很高的速度抓取网页但又不能拖累数据质量。对速度的这张要求使得爬取大规模产品数据变得极具挑战性。

　　挑战#1——草率而且总是在变的网站格式

　　这一点很明显但也许不是最性感的挑战，但是草率而一直在变的网站格式是目前为止你在规模析取数据时将会面临的最大挑战。这未必是因为任务的复杂性，而是由于你要投入的时间和资源。

　　如果你花过时间开发过电子商务商店的爬虫的话，你就会知道电子商务网站代码之草率是一种流行病。这可不仅仅是 HTML 完构性或者偶尔的字符编码问题。这些年来我们遇到过形形色色的问题——HTTP 响应代码的误用，损坏的 JavaScript 代码，或者 Ajax 的误用：

停掉产品时移除页面的商店在网站升级后突然间会在 404 错误处理程序返回 200 响应码。
不恰当的 JSON 转义破坏了部分页面的 JavaScript 代码（比如‘b0rk’d’），导致你需要用正则表达式来抓取那部分数据。
滥用 Ajax 调用的商店以至于你只能靠渲染该页面（这会导致爬取慢很多）或者模仿 API 调用（导致要付出更多的开发努力）来获得数据。

　　像这样草率的代码会导致编写爬虫非常痛苦，但也会使得可视化爬取工具或者自动析取不再可行。

　　在规模爬取的时候，你不仅要浏览成百上千个有着草率代码的网站，还将被迫应对不断演变的网站。一条好的经验法则是要预计你的目标网站每隔 2 到 3 个月就会发生让你的爬虫工作不了的变化。

　　这也许看起来不像是多大的事，但是当你规模抓取时，那些事件就会累积。比方说，Scrapinghub 有一个规模比较大的电子商务项目大概有 4000 个爬虫抽取约 1000 个电子商务网站，意味着每天可能会经历 20 到 30 次爬虫失败。

　　而且网站在不同地区、语言的变化，A/B测试以及包装/定价的派生也会制造出各种问题导致爬虫失败。

　　没有容易的解决方案

　　不幸的是，不存在银弹可以彻底解决这些问题。很多时候这只是随着规模而扩大投入更多资源到你的项目上才能解决的事情。再拿上一个例子来说吧，那个项目有 18 名全职的爬虫工程师以及 3 名专职的 QA 工程师来确保客户总能得到可靠的数据流。

　　不过，你的团队有经验以后就会学会如何开发出更加健壮的爬虫，从而检测并处置目标网站格式中的异常。

　　如何处理目标网站有各种布局可能的情况呢？用多个爬虫也许不是最好的做法，我们的最佳实践是只用一个产品爬虫来处理不同页面布局个各种可能规则和模式。你的爬虫可配置性越强越好。

　　尽管这些实践会让你的爬虫更加复杂（我们有些爬虫有好几千行），但它会确保你的爬虫更容易维护。

　　由于大多数公司日常都需要析取产品数据，等待几天让你的工程团队修复任何坏掉的爬虫不是可选项。当出现这些情况时，Scrapinghub 会利用自己开发的基于机器学习的数据析取工具来作为后备，直到爬虫修复好。这个基于 ML 的析取工具会自动识别目标网站的目标字段（产品名称、价格、货币单位、图像、SKU 等）并且返回想要的结果。

　　我们会在未来几周之内发布这项工具以及相关的指导文章，告诉大家如何将机器学习用到你的数据析取过程当中。

　　挑战 2：可伸缩的架构

　　你将面临的第二个挑战是建设一个可随每日请求数增长而扩充且性能不会下降的爬虫基础设施。

　　在规模析取产品数据时，一个串行爬取的简单 web 爬虫是不堪此任的。通常一个串行的 web 爬虫会循环发出请求，每一项请求都要 2 到 3 秒钟完成。

　　如果你的爬虫每天发出的请求数不到 40000 的话这种做法是没有问题的。然而，超过这个点你就得过渡到一种让你每天可以完成数百万请求而不会性能下降的爬虫架构。

　　这个话题得用一篇文章才能说得清楚，未来几周我们将发布一篇专门的文章来讨论如何设计和开发高吞吐量的爬取架构。然而，本节的剩余部分我们将讨论一些高级原则和最佳实践。

　　正如我们讨论过那样，在规模爬取产品数据时速度是关键。你需要确保在时间阈值范围内（通常是 1 天）可以找到并且爬取所有要求的产品页面。为此你需要做以下一些事情：

　　将产品发现与产品析取分开

　　为了规模爬取产品数据你需要将你的产品发现爬虫与产品析取爬虫分开。

　　产品发现爬虫的目标应该是让它浏览目前产品目录（或者“货架”）然后存储该目录下的产品 URL 供产品析取爬虫使用。

　　这个可以靠 Scrapinghub 开发的开源工具 Frontera 之类的爬虫前端辅助完成。尽管 Frontera 原先的目的是配合 Scrapy 使用的，但它其实完全是不可知论者，可用于任何爬虫框架或者独立项目。在这篇文章中，我们分享了如何利用 Frontera 来规模抓取 HackerNews 的东西。

　　分配更多资源给产品析取

　　由于每一个产品目录“货架”可包含 10 到 100 种产品，而且析取产品数据需要的资源要比析取产品 URL 更多，发现爬虫通常运行要比产品析取爬虫更快。这种情况下，你需要有多个析取爬虫来对应每一个发现爬虫。一条好的经验法则是每 10 万个页面分配一个析取爬虫。

　　挑战 3：维护吞吐量性能

　　一级方程式的目标是将车上一切不必要的载荷都剔除掉，并且以速度之名将引擎最后一丝马力都榨干，从这个意义上来说规模抓取可以跟一级方程式相比较。规模 web 抓取也是一样的道理。

　　在析取大量数据时，在现有硬件资源条件下，你总是会想方设法要寻找请求周期最小化爬虫性能最大化的手段。这一切都是希望你能给每个请求节省下来那么几微秒的时间。

　　为此你的团队需要对 web 爬取框架、代理管理以及所使用的硬件具备深刻理解，这样才能对它们进行调整以优化性能。你还需要关注：

　　爬取效能

　　规模爬取时你应该始终把焦点放在以尽量少的请求析取所需数据上。任何额外请求或者数据析取都会放缓你爬取网站的节奏。在设计你的爬虫时请记住这些提示：

作为最后一招，仅使用无界面浏览器，比如 Splash 或者 Puppeteer 来渲染 JavaScript。用无界面浏览器渲染 JavaScript 同时爬取是非常耗资源的，会严重影响爬取的速度。
如果你可以从货架页面（比如产品名称、价格、评分等）获得所需的数据而不需要向独立的产品页面提出请求的话，那就不要向产品页面发出请求。
不要请求或者析取图像，除非迫不得已。

　　挑战 4：反机器人的对策

　　如果你批量抓取电子商务网站的话一定会遇到采用反机器人对策的网站。

　　规模小一点的网站其反机器人对策就是些基本手段（屏蔽发送请求过量的 IP）。然而，较大的电子商务网站，比如 Amazon 等，会采用复杂的反机器人对策，比如 Distil Networks、Incapsula 或者 Akamai 等来使得析取数据困难许多。

　　代理

　　了解到这一点之后，任何项目想要规模抓取才数据，首要的基本需求就是得用代理。规模抓取数据时你需要可观的代理清单，而且需要实现必要的 IP 轮转、请求限制、会话管理以及黑名单逻辑来预防代理被屏蔽。

　　或者除非你有或者愿意用一支规模可观的团队管理你的代理，否则的话你应该把抓取流程中的这一部分外包出去。提供各种水平服务的代理服务有很多。

　　然而，我们的建议是找一家能够提供单个代理配置端点并且将所有的代理管理复杂性隐藏起来的代理提供商。在没有重新发明轮子、开发和维护自己的内部代理管理基础设施的情况下规模抓取就已经很耗资源了。

　　大多数大型电子商务公司都采用这种做法。一些全球最大型的电子商务网站采用 Scrapinghub 开发的智能下载器 Crawlera，这个东西的代理管理完全是外包的。当你的爬虫每天要发出 2000 万条请求时，把注意力放在分析数据而不是管理代理上会有意义得多。

　　代理以外

　　不幸的是，光靠使用代理服务并不足以确保你能规避大型电子商务网站的反机器人对策。越来越多的网站正在利用复杂的反机器人对策来监控你的爬虫行为，检测其是否真人访客。

　　这些范机器人对策不仅使得爬取电子商务网站越来越困难，而且克服这些手段如果做得不对的话也会严重拖累爬虫性能。

　　这些机器人对策有很大一部分使用到了 JavaScript 来确定请求是否来自于爬虫还是人（Javascript 引擎检查、字体枚举、WebGL 与 Canvas 等）。

　　不过正如前面所述，规模爬取时你希望限制可编写脚本的无界面浏览器（Splash 或者 Puppeteer 等）的使用，因为渲染页面的任何 JavaScript 都非常耗资源并且放慢爬取网站的速度。

　　这意味着为了确保你能取得必要的吞吐量让爬虫提交每天的产品数据，你往往需要痛苦地对目标网站采用的反机器人对策进行逆向工程，并且在不使用无界面浏览器的情况下设计你的爬虫抵消那些对策。

　　挑战 5：数据质量

　　从数据科学家的角度来说，任何网站爬取项目最重要的考虑是析取数据的质量。规模爬取只会令这一关注变得更加重要。

　　当每天都要析取数百万数据点时，想靠人工来验证数据是否干净和完整是不可能的。变脏或者不完整的数据很容易就会流入到你的数据流里面，进而破坏了数据分析的效果。

　　尤其是在抓取同一个的不同版本（不同的语言、地区等）或者不同商店上的产品时更是如此。

　　在爬虫开发的设计阶段，需要进行仔细的 QA 流程，爬虫代码要经过同行评审和测试以确保用最可靠的方式析取到想要的数据。确保最高数据质量的最好的办法是部署一套自动化 QA 监控系统。

　　作为任何数据析取项目的一部分，你需要计划和开发一套监控系统，这套系统将提醒你任何不一致的数据以及发生的爬虫错误。Scrapinghub 开发了一个机器学习算法来检测：

数据验证错误——每一个数据项都有定义好的遵循一致模式的数据类型和值。我们的数据验证算法会提醒项目的 QA 团队任何与预期数据类型不一致的数据项，然后再进行人工检查、提醒已验证或者标记为错误。
产品差异化错误——从同一网站的多个版本（不同语言、地区）爬取相同产品数据时，有可能变量或者像产品重量或者尺寸这样本该是固定值的数据项也会不一样。这可能是网站反机器人对策向你的一到多个爬虫提供篡改信息的结果。再次地，你需要算法来识别和标记类似这样的情况。
基于数量的不一致性——另一个关键的监控脚本是检测返回记录的任何异常变化。这可能预示网站已经做出改变或者你的爬虫被提供了篡改的信息。
网站变化——目标网站发生的结构性改变是爬虫失效的主要原因。我们的专用监控系统会监控到这一点。该工具会对目标网站进行频繁的检查，确保自从上次抓取之后没有发生任何变化。如果改变被发现，它也会发出通知。

　　我们会在稍后的文章中专门讨论自动质量保证的细节。

　　总结

　　正如你所看到那样，规模抓取产品数据会面临一系列的独特挑战。希望这篇文章能够让你更加意识到相关挑战，并且就如何解决这些问题获得启发。

　　然而，这只是本系列文章的第一部分，所以如果你感兴趣的话可以注册我们的电子邮件列表，一旦下一篇文章发表了我们会第一时间通知你。

微服务整合sentinel 借我一匹梦的马微服务 sentinel java
这里写自定义目录标题背景实现方式——sentinel使用规则——热点规则实现逻辑注意背景提供服务给第三方，但是需要给的权限码进行限制，并且可动态配置，包括限流的接口，限流次数，限流日期，限流ip，限流时间实现方式——sentinel控制台（Dashboard）：可以通过控制台进行限流，并通过配置实现（如果不通过配置，服务重启以后配置就没了），但是我当时测试了一下没成功，可能哪里没弄对，可参照官方文
列表反转：reverse() 方法的深度剖析测试者家园测试开发和测试 Python 零基础学Python 人工智能 Python 零基础学Python 零基础职场和发展软件开发和测试智能化测试
数据结构的基本操作始终是打牢编程基础的关键。而在对列表（list）这一核心数据结构的操作中，反转（reversing）是一项既常用又容易被低估的重要操作。Python提供了原地反转的reverse()方法，与返回新序列的切片[::-1]或内置函数reversed()形成了鲜明对比。本文将全面剖析list.reverse()方法，从其语义、实现机制、适用场景，到其在测试、开发与自动化中的实际运用，力
基于大模型的急性结石性胆囊炎全流程预测与干预系统技术方案大纲 LCG元大模型医疗研究-方案大纲人工智能机器学习深度学习方案大纲
目录一、引言二、术前阶段（一）疾病预测与诊断辅助（二）手术风险评估（三）手术方案制定辅助三、术中阶段（一）实时监测与风险预警（二）手术决策支持四、术后阶段（一）并发症风险预测（二）术后护理计划制定五、麻醉方案定制与优化（一）术前麻醉风险评估（二）术中麻醉管理六、统计分析与模型优化（一）数据收集与整理（二）模型性能评估（三）模型优化与更新七、实验验证与证据支持（一）回顾性队列研究（二）前瞻性随机对照
Java入门：从java后端到全栈七月 m0_56662269 程序员 java 后端面试
前言继续总结吧，没有面试就继续夯实自己的基础，前阵子的在面试过程中遇到的各种问题陆陆续续都会总结出来分享给大家，这次要说的也是面试中被问到的一个高频的问题，我当时其实没答好，因为很早之前是看过springboot启动过程的源码，但是时间隔得有点久了（两年多没用过springboot），所以当时也没答好。这次好好总结这部分知识。第一个暴击：Spring上一份Spring的手绘思维脑图（就像是个知识大
使用datafusion和tpchgen-rs进行完整的TPCH 22个查询的基准测试 l1t 数据库编程语言软件工程 rust github database
1.从源码编译bench二进制文件。下载datafusion源码,解压到目录，比如/par/dafu，cd/par/dafu/benchmarksexportCARGO_INCREMENTAL=1exportPATH=/par:/par/mold240/bin:$PATH因为mold默认使用并行编译，而这些二进制文件很大，如果出现资源不足情况，就会编译失败：(signal:9,SIGKILL:ki
探索Actix-web REST API with JWT：构建高效安全的后端应用郁蝶文Yvette
探索Actix-webRESTAPIwithJWT：构建高效安全的后端应用actix-web-rest-api-with-jwtAsimpleCRUDbackendappusingActix-web,DieselandJWT项目地址:https://gitcode.com/gh_mirrors/ac/actix-web-rest-api-with-jwt在当今的软件开发领域，构建一个既高效又安全的
Python开发从新手到专家：第十四章面向对象（ OOP）程序设计 caifox菜狐狸 Python开发从新手到专家 python OOP 面向对象类继承多态静态方法
在Python开发的旅程中，我们已经探索了诸多基础概念与实用技巧，从简单的变量赋值到复杂的函数嵌套，每一步都为构建更强大的程序奠定了坚实的基础。如今，我们即将踏入一个全新的领域——面向对象程序设计（OOP）。这一章将带你领略OOP的独特魅力，它不仅是一种编程范式，更是一种全新的思考问题和解决问题的方式。面向对象程序设计的核心在于“对象”和“类”。通过将数据和操作数据的方法封装在一起，我们可以构建出
【Rust + Actix Web】现代后端开发：从零构建高并发 Web 应用 LCG元前端 rust 前端开发语言
目录项目概述环境准备项目创建与依赖配置系统架构设计核心代码实现1.数据库模型(`src/models.rs`)2.应用状态管理(`src/state.rs`)3.核心业务逻辑(`src/handlers.rs`)4.主应用入口(`src/main.rs`)高并发优化策略1.异步处理模型2.连接池配置优化3.缓存策略设计性能测试结果部署方案Docker部署配置(`Dockerfile`)Kubern
【HarmonyOS NEXT】实现电话拨打功能奔跑的露西鸿蒙 HarmonyOS harmonyos
一、背景在现代移动应用中，直接拨打电话是一个常见且重要的功能。无论是电商应用的客服热线、社交应用的联系人拨打，还是企业应用的快速联系功能，都需要便捷的电话拨打能力。二、实现思路API调用：使用@ohos.telephony.call模块的makeCall方法三、具体实现importcallfrom'@ohos.telephony.call';import{BusinessError}from'@k
【HarmonyOS NEXT】使用半模态实现动态高度底部弹窗奔跑的露西鸿蒙 HarmonyOS windows linux 服务器
一、背景在开发过程中，底部弹窗是一种常见的交互方式，下面总结如何实现高度根据内容动态调整的底部弹窗，并提供两种实现方案常见场景：当弹窗内容由动态数据驱动时（比如商品详情、任务列表、评论区等），内容高度可能随数据量变化数据少时弹窗矮一点数据多时弹窗高一点（但不超过屏幕80%）支持拖拽收起、点击空白关闭头部/底部可能有固定高度的模块（如标题栏、操作按钮）二、实现步骤第一步：创建基础底部弹窗推荐使用半模
用 Python 打造立体数据世界：3D 堆叠条形图绘制全解析 Code_Verse python 科研绘图
在数据可视化的工具箱里，3D图表总能带来眼前一亮的效果——它突破了二维平面的限制，用立体空间展示多维度数据关系，让复杂的数据层级一目了然。今天我们要解锁的「3D堆叠条形图」，就是一种能同时呈现类别、子类别、数值大小的强大可视化工具，特别适合展示具有分层结构的数据。无论是商业报表中的多维度业绩分析，还是科研数据中的多指标对比，它都能让你的数据呈现瞬间高级起来～为什么选择3D堆叠条形图？先聊聊这种图表
概念篇: 01-带你认识Dockerfile 企鹅侠客 dockerfile dockerfile命令
在本篇文章中，我们将带你认识Dockerfile——构建Docker镜像的"蓝图"。我们会介绍它的基本概念和常用指令，帮助你理解如何使用它来打包你的应用。简单了解Docker（背景知识）在我们深入Dockerfile之前，简单回顾一下几个核心概念：Docker是什么？想象一下集装箱：无论里面装什么货物（代码、库、配置），集装箱本身（Docker）都能让货物在任何港口（任何机器环境）轻松装卸和运行。
python爬取京东图片通信小小白 python 爬虫 python 爬虫图片
网上的淘宝爬取图片的代码一般都已经不能实际运行了，在查看淘宝网源代码是找不到图片源地址，估计采取了反爬技术。又去京东看了下，发现很容易爬取。根据下面网址构建urlhttps://list.jd.com/list.html?cat=670%2C671%2C1105&go=0https://list.jd.com/list.html?cat=670,671,1105&page=2&sort=sort_
数据图的类型以及如何在 Python 中创建和自定义唐城唐城奇妙之旅-GIS python 信息可视化数据分析
有人说：一个人从1岁活到80岁很平凡，但如果从80岁倒着活，那么一半以上的人都可能不凡。生活没有捷径，我们踩过的坑都成为了生活的经验，这些经验越早知道࿰
C#工程中输出类型转换以及程序运行后控制台窗口不退出设置 nanke_yh C#c#输出类型切换控制台窗口暂停
本想调试一个小的代码，无意间发现的两个C#工程中的小技巧点，在此记录一下。一、窗口不退出调试的代码主要是时间信息的转换与输出，为此新建了控制台应用工程，可以将调试信息打印出来。但执行后发现直接结束，控制台信息都没能看到就退出了。我们知道在C/C++中遇到这种情况一般是加上：getchar();或者system("pause");为了防止C#控制台窗口执行后闪退，需要在代码最后加上一句代码：Cons
蓝队溯源反制一键利用工具网络安全进阶渗透测试工具 web安全渗透测试网络安全渗透工具
蓝队利器、溯源反制、NPS漏洞利用、NPSexp、NPSpoc、Burp插件、一键利用最近做攻防演练发现了很多内网穿透的工具，其中最多的就是nps，红队老哥好像还挺喜欢这个的，真的是多，每天导出攻击IP，浅浅扫一下端口，基本都能发现这个nps。贼多NPS存在一个身份验证的缺陷，无需登录，直接进后台，后台功能点全都可以用。具体利用是伪造两个参数auth_key、timestamp。但是这俩参数的生命
第一章城镇道路工程 1.4 挡土墙施工泽克一建市政章节复习笔记
1.4挡土墙施工1.4.1挡土墙结构形式及分类1.挡土墙类型1.重力式砌体挡土墙混凝土压顶、浆砌块石挡墙、浆砌块石基础依靠墙体自重抵挡土压力作用形式简单、就地取材、施工方便、造价低人工耗用量大、工效低、工期长、挡土墙高度受限2.重力式混凝土挡土墙依靠墙体自重抵抗土压力作用一般采用现浇混凝土或片石混凝土形式简单、就地取材、施工简便3.重力式钢筋混凝土挡土墙墙趾、凸榫、钢筋依靠墙体自重抵挡土压力作用墙
python采集淘宝评论，API接口丨json数据示例参考 ID_18007905473 API python 大数据 json python
在Python中采集淘宝商品评论数据，通常需要通过淘宝开放平台提供的API接口来实现。然而，淘宝开放平台并没有直接提供公开的评论API接口，因此需要通过其他方式间接获取评论数据。以下是一个使用Python通过网页爬虫技术获取淘宝商品评论数据的示例。请注意，这个示例仅用于学习和研究目的，请确保遵守淘宝的使用条款和相关法律法规。示例代码importrequestsfrombs4importBeauti
Python采集京东商品详情数据API接口概述及JSON数据格式参考 ID_18007905473 API python 前端服务器 json
前言一、京东商品详情API接口概述京东开放平台提供了多种API接口，允许开发者通过编程方式获取商品详情数据。以下是常见的接口类型及功能：商品基础信息接口接口名称：jd.union.open.goods.query功能：获取商品标题、价格、图片、库存等基础信息。适用场景：商品列表展示、价格监控等。商品详情接口接口名称：jd.union.open.goods.detail.query功能：获取商品详细
京东商品详情API接口概述（属性规格详情图价格等json数据返回参考） ID_18007905473 API json 服务器
京东商品详情API接口概述京东商品详情API接口是京东开放平台为开发者提供的核心服务，用于获取商品的详细信息，包括属性、规格、详情图、价格等。开发者可通过该接口实现商品展示、价格监控、数据分析等功能。以下是接口的详细说明及JSON数据返回示例。一、接口功能商品基本信息商品ID、名称、品牌、分类、产地等。价格信息当前价格、原价等。库存信息库存数量、库存状态（有货/无货）、预售信息等。规格参数商品的规
Python采集淘宝商品评论API接口概述，json格式数据参考 ID_18007905473 python API python json 前端
一、淘宝商品评论API接口概述淘宝开放平台提供了taobao.item.reviews.get接口，用于获取指定商品的评论数据。该接口支持分页查询、多条件筛选（如时间范围、评分等级）和自定义返回字段，适用于电商数据分析、竞品研究和用户行为洞察等场景。核心功能：分页获取评论：支持通过page_no和page_size参数控制返回数据的分页。多维度筛选：可按时间范围（start_date、end_da
基于Python的京东商品信息采集实战：用Playwright+Pandas打造高效数据抓取工具 Python爬虫项目 2025年爬虫实战项目 python pandas 开发语言爬虫游戏笔记
一、项目背景与目标在当今电商生态中，价格、销量、评论等商品信息对用户和商家来说至关重要。无论是做数据分析、电商监控，还是构建商品推荐系统，第一步都是：获取真实的商品数据。本项目以京东商城搜索结果页为目标，通过构建一个高效、可复用的商品信息采集爬虫系统，实现对商品名称、价格、店铺、评论数、链接等核心信息的提取。二、技术路线概述我们采用如下技术架构：模块技术选型浏览器自动化Playwright（现代、
Python爬虫：爬取物流公司运输数据与包裹跟踪信息 Python爬虫项目 python 爬虫开发语言数据挖掘旅游
一、前言随着电商行业的蓬勃发展，物流服务已成为不可或缺的一部分。消费者对物流运输状态的关注越来越高，实时查询包裹的运输进度成为日常生活的一部分。物流公司爬虫正是为了自动化获取物流公司的运输数据和包裹的跟踪信息，帮助消费者、商家以及物流公司本身进行数据分析、优化物流链条和提高客户体验。本文将详细介绍如何使用Python爬虫从多个物流公司网站或API接口中抓取运输数据、包裹跟踪信息以及相关的统计分析数
Python采集京东商品API接口概述及JSON格式数据参考 ID_18007905473 python API 数据库 python 开发语言
前言一、接口概述京东商品详情API接口是京东开放平台为开发者提供的服务，用于获取京东平台上商品的详细信息。通过调用该接口，开发者可以获取商品的名称、价格、库存、图片、规格参数、用户评价等结构化数据，适用于电商应用、价格监控、数据分析等场景。二、接口特点数据全面性接口返回的数据涵盖多个维度，包括：商品基本信息：名称、品牌、型号、分类等。价格信息：当前售价、原价、促销价、折扣信息等。库存信息：库存数量
第一章城镇道路工程 1.5 安全质量控制泽克一建市政章节复习笔记
1.5城镇道路工程安全质量控制1.5.1城镇道路工程安全技术要点1.管线及邻近建筑物的保护1.管线的保护取得详细资料，设施管理单位向施工、监理进行详细交底研究确定拆迁或保护加固方案、形成文件施工前进行详探,人工开挖探沟,结构以下先施工。施工现场做好标识、施工图做好标志加固部位定期检查、维护。专人监护2.邻近建筑物的保护施工前调查,获取相关数据。采取合理的施工方案和加固措施设置沉降、位移观察点,2.
SQL Server 等待数据库引擎恢复句柄失败 y523648 数据库服务器运维
用管理员身份运行PowerShell，模拟扇区大小为4KbNew-ItemProperty-Path"HKLM:\SYSTEM\CurrentControlSet\Services\stornvme\Parameters\Device"-Name"ForcedPhysicalSectorSizeInBytes"-PropertyTypeMultiString-Force-Value"*4095"验
Leetcode【串联所有单词的子串】
30.串联所有单词的子串给定一个字符串s和一个字符串数组words。words中所有字符串长度相同。s中的串联子串是指一个包含words中所有字符串以任意顺序排列连接起来的子串。例如，如果words=["ab","cd","ef"]，那么"abcdef"，"abefcd"，"cdabef"，"cdefab"，"efabcd"，和"efcdab"都是串联子串。"acdbef"不是串联子串，因为他不是
【Python】科研代码学习：十三 Accelerate 溢流眼泪【科研代码】python 学习开发语言
【Python】科研代码学习：十三AccelerateAccelerate统一的加速接口修改训练代码(torch.nn)更简单的使用Accelerate【HF官网-Doc-Accelerate：API】HFAccelerate是一个库，能够让PyTorch代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus卡）前言：建议Python3.8+pipinstallaccelerate统一的加速
【python】2.set集合一个玉米栗 python python
Set集合创建一个空集合使用set(),若创建的集合内元素有值可以使用creatset={'tom','arry','张三','李四'}集合内重复的元素会被自动去掉集合是无序的，可变类型的数据集合添加元素set.add('addname')-addname为要添加的元素set.remove():删除集合的元素set.update('添加元素包含字典，列表，集合'):向集合中更新元素set.clea
pip install accelerate后accelerate命令无法执行的问题轩轩的学习之路 pip linux windows
这是因为默认使用的是.local/bin/accelerate而不是conda环境里的accelerate查看accelerate路径与python是否一致whichpythonwhichaccelerate打印输出果然accelerate路径有问题（python）/home/ubuntu/.conda/envs/Emb/bin/python（accelerate）/home/ubuntu/.lo
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

数据从业者必读：抓取了一千亿个网页后我才明白，爬虫一点都不简单

你可能感兴趣的:(数据从业者必读：抓取了一千亿个网页后我才明白，爬虫一点都不简单)