奔跑吧邓邓子

【Python爬虫(15)】从0到1：Python爬虫实战攻克电商网站动态数据堡垒

【Python爬虫】专栏简介：本专栏是 Python 爬虫领域的集大成之作，共 100 章节。从 Python 基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。

目录

一、引言
二、准备工作
- 2.1 环境搭建
- 2.2 目标电商网站分析
三、攻克登录验证
- 3.1 了解登录机制
- 3.2 代码实现登录
四、突破反爬虫机制
- 4.1 常见反爬虫手段剖析
- 4.2 应对策略与代码实现
五、动态商品信息爬取
- 5.1 动态加载原理
- 5.2 使用 Selenium 爬取数据
六、数据清洗与整理
- 6.1 数据去重
- 6.2 格式规范化
- 6.3 缺失值处理
七、总结与展望

一、引言

在当今数字化时代，电商网站积累了海量的商品信息，这些信息涵盖了产品的价格、销量、用户评价等多维度数据，对于市场分析、商业决策以及消费者洞察具有不可估量的价值。通过对电商网站数据的深入挖掘，企业能够精准把握市场趋势，了解消费者需求，优化产品策略，从而在激烈的市场竞争中占据优势。

然而，大多数电商网站如淘宝、京东等采用了动态网页技术，商品信息并非一次性全部加载在初始页面中，而是通过 JavaScript 动态加载。这一技术虽然提升了用户体验，却给数据爬取带来了极大的挑战。同时，电商网站为了保护数据安全和自身运营秩序，设置了严格的登录验证与反爬虫机制，进一步增加了爬取的难度。

本章节将深入探讨如何使用 Python 实现对动态加载商品信息的电商网站的爬取，详细阐述应对登录验证与反爬虫机制的策略，以及爬取后的数据清洗与整理方法，帮助读者掌握从复杂电商网站获取高质量数据的核心技能。

二、准备工作

2.1 环境搭建

在开始爬取电商网站之前，需要确保 Python 环境已经搭建好，并且安装了必要的库。以下是主要库的安装与配置说明：

Selenium：这是一个用于驱动浏览器的库，能够模拟用户在浏览器中的操作，对于处理动态加载的网页非常有效。通过 pip 安装，命令为pip install selenium。安装完成后，还需要下载对应浏览器的驱动，如 Chrome 浏览器需要下载 ChromeDriver。下载后将其解压到某个已经配置好环境变量的路径下，确保系统能够找到该驱动。
BeautifulSoup：用于解析 HTML 和 XML 文档的 Python 库，常与 requests 库一起使用，用于从网页中提取数据。安装命令为pip install beautifulsoup4。
requests：可以实现跟浏览器一样发送各种 HTTP 请求来获取网站的数据。使用pip install requests进行安装。

2.2 目标电商网站分析

以淘宝为例，其页面结构复杂，商品信息通过 JavaScript 动态加载。在浏览器中打开淘宝商品搜索页面，通过开发者工具（如 Chrome 浏览器的 F12）可以分析其页面结构和动态加载方式。

页面结构：淘宝页面包含众多的 HTML 元素，商品信息分布在不同的标签和类中。例如，商品标题通常在标签的title属性中，商品价格在特定的或标签内。

动态加载方式：淘宝使用 Ajax 技术实现动态加载，当用户滚动页面或进行搜索操作时，浏览器会向服务器发送异步请求，获取更多的商品信息并动态更新页面。这些请求通常包含一些参数，如搜索关键词、页码等。

数据接口：通过分析网络请求，可以找到淘宝获取商品信息的数据接口。这些接口返回的通常是 JSON 格式的数据，包含了丰富的商品详情，如商品 ID、标题、价格、销量、评价等。了解这些接口的参数和返回数据结构，有助于更高效地获取数据，但需要注意的是，直接访问这些接口可能会触发反爬虫机制，需要谨慎处理。

三、攻克登录验证

3.1 了解登录机制

以淘宝为例，其登录方式较为多样，常见的有手机号登录、淘宝账号登录以及第三方平台（如支付宝）登录。当选择手机号或淘宝账号登录时，需要准确输入对应的账号和密码。为了防止恶意登录和自动化攻击，淘宝采用了多种验证码类型，其中滑块验证码是较为常见的一种。

滑块验证码的原理是基于图像识别技术，用户需要将滑块拖动到指定位置，以验证其是人类操作。通常，滑块验证码会根据图片中的特定区域，如颜色、形状、纹理等进行识别。这种验证码对于爬虫程序来说具有一定难度，因为爬虫程序难以模拟人类的视觉识别能力和精准的操作。

3.2 代码实现登录

使用 Selenium 库可以有效地模拟浏览器操作，实现登录功能。下面是使用 Selenium 登录淘宝的示例代码：

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time # 启动浏览器 driver = webdriver.Chrome() # 打开淘宝登录页面 driver.get("https://login.taobao.com/member/login.jhtml") # 等待页面加载，切换到账号密码登录 WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//a[text()="密码登录"]'))).click() # 输入账号和密码 WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "fm-login-id"))).send_keys("your_username") WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "fm-login-password"))).send_keys("your_password") # 处理滑块验证码 try: # 等待滑块验证码出现 slider = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "geetest_slider_button"))) # 模拟拖动滑块，这里使用第三方打码平台（以超级鹰为例）的思路，先获取验证码图片，发送到打码平台识别 # 实际使用需要安装相关库并注册打码平台账号获取正确的API信息 # 假设获取到的移动距离为distance distance = 200 # 这里是示例值，实际需要从打码平台获取 # 模拟拖动滑块的操作，这里简单模拟为匀速拖动，实际可以根据人类行为优化 start_x = slider.location['x'] for i in range(0, int(distance), 5): driver.execute_script(f"arguments[0].style.transform = 'translate3d({start_x + i}px, 0, 0)';", slider) time.sleep(0.1) # 点击登录按钮 WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR, ".fm-button.fm-submit.password-login"))).click() except Exception as e: print(f"验证码处理或登录过程出现问题: {e}") # 检查是否登录成功 if "https://www.taobao.com/" in driver.current_url: print("登录成功") else: print("登录失败") # 关闭浏览器 driver.quit()

在上述代码中，首先通过webdriver.Chrome()启动 Chrome 浏览器并打开淘宝登录页面。然后使用WebDriverWait等待页面元素加载完成，找到账号、密码输入框并输入相应信息。

对于滑块验证码，先等待滑块元素出现，然后可以采用第三方打码平台（如超级鹰）来获取滑块需要移动的距离。这里简单模拟了拖动滑块的操作，实际应用中可以根据人类行为习惯，如先加速后减速的方式来优化拖动轨迹，以更好地绕过验证码检测。最后点击登录按钮，并检查当前页面 URL 来判断是否登录成功。登录成功后，就可以在后续的代码中进行商品信息的爬取操作了。

四、突破反爬虫机制

4.1 常见反爬虫手段剖析

淘宝作为国内领先的电商平台，拥有一套完善且强大的反爬虫机制，旨在保护平台数据安全、维护用户体验以及保障商家利益。其常见的反爬虫手段涵盖多个维度：

请求频率限制：淘宝会对每个 IP 地址在一定时间内的请求次数进行严格限制。例如，规定一个 IP 地址每分钟最多只能发起 100 次请求。若某个 IP 在短时间内，如 1 分钟内发起了超过 100 次的请求，淘宝服务器便会将其识别为异常访问，极有可能是爬虫程序，进而对该 IP 进行封禁，封禁时间可能从几分钟到数小时不等，严重时甚至会永久封禁。

请求头检测：淘宝会仔细检测请求头中的各项信息，其中 User - Agent 字段是重点检测对象。正常用户使用不同浏览器（如 Chrome、Firefox、Safari 等）和操作系统（如 Windows、MacOS、Linux、Android、iOS 等）访问淘宝时，User - Agent 会呈现出多样化的特征。而爬虫程序若使用固定的 User - Agent，很容易被淘宝识别出来。此外，Referer 字段也会被检测，它表示请求的来源页面。正常用户在淘宝内的浏览是有一定路径的，若 Referer 字段显示请求来自一个与淘宝毫无关联的网站，或者缺失该字段，淘宝就可能判定该请求为爬虫请求。

IP 封锁：当淘宝监测到某个 IP 地址存在异常访问行为，如频繁访问特定页面、短时间内大量请求不同商品页面等，会立即对该 IP 进行封锁。被封锁的 IP 将无法正常访问淘宝的相关页面，直到封禁时间结束或者该 IP 通过申诉等方式解除封禁。

验证码机制：当淘宝检测到可疑的访问行为时，会弹出验证码窗口，要求用户输入正确的验证码才能继续访问。验证码的形式丰富多样，包括文字验证码、滑块验证码、点触验证码等。以滑块验证码为例，它需要用户将滑块准确拖动到指定位置，以验证访问者是否为真实人类用户。爬虫程序想要自动识别和输入验证码难度极大，因为这涉及到复杂的图像识别和模拟人类操作的技术。

浏览器指纹识别：淘宝利用浏览器指纹识别技术，收集浏览器的各种特征信息，如浏览器类型、版本、操作系统、屏幕分辨率、插件信息等，形成一个独特的浏览器指纹。通过分析浏览器指纹，淘宝能够判断访问者是否是之前访问过的用户，或者是否使用了自动化工具的爬虫程序。每个用户的浏览器指纹几乎是独一无二的，这使得爬虫程序难以伪装成正常用户。

蜜罐技术：淘宝服务器端会设置一些陷阱链接或虚假的页面元素，这些内容对于正常用户来说是不可见或不会被点击的，但爬虫程序在按照一定规则提取页面链接时，可能会误触这些陷阱。一旦淘宝服务器检测到某个 IP 访问了这些陷阱链接，就会立即判定该 IP 是爬虫程序，并对其进行反制。

4.2 应对策略与代码实现

针对淘宝的反爬虫机制，我们可以采取一系列有效的应对策略，并通过代码实现来绕过这些限制：

设置合理请求间隔：为了避免触发淘宝的请求频率限制，在代码中设置合理的请求间隔是非常必要的。例如，使用time模块的sleep函数，让每次请求之间间隔 3 - 5 秒，模拟人类正常的浏览速度。示例代码如下：

import time import requests for i in range(10): response = requests.get('https://example.taobao.com') print(f"第{i + 1}次请求成功") time.sleep(4) # 设置请求间隔为4秒

使用代理 IP 池：构建或使用第三方的代理 IP 池，不断更换请求的 IP 地址，以此绕过 IP 封锁和请求频率限制。以下是使用requests库结合代理 IP 进行请求的示例代码，假设proxy_list是一个包含多个代理 IP 的列表：

import requests import random proxy_list = [ "http://proxy1.example.com:8080", "http://proxy2.example.com:8080", "http://proxy3.example.com:8080" ] proxy = random.choice(proxy_list) response = requests.get('https://example.taobao.com', proxies={"http": proxy, "https": proxy})

实际应用中，代理 IP 池可以通过购买专业的代理服务或者自行编写爬虫从免费代理 IP 网站获取，但需要注意免费代理 IP 的稳定性和可靠性较低。同时，要对代理 IP 进行有效性检测，确保其能够正常使用。可以编写一个函数来检测代理 IP 是否可用，示例代码如下：

def check_proxy(proxy): try: response = requests.get('https://www.baidu.com', proxies={"http": proxy, "https": proxy}, timeout=5) if response.status_code == 200: return True else: return False except Exception: return False

伪装请求头：随机生成或从预设的请求头列表中选择 User - Agent 等信息，伪装请求头，使其更接近正常浏览器的请求。下面是一个伪装请求头的示例代码：

import requests import random user_agents = [ "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Safari/605.1.15", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0" ] headers = { "User - Agent": random.choice(user_agents), "Referer": "https://www.taobao.com" } response = requests.get('https://example.taobao.com', headers=headers)

此外，还可以根据不同的请求类型和页面，动态调整请求头中的其他字段，如添加Accept - Encoding、Accept - Language等字段，进一步增强伪装效果。通过综合运用这些应对策略和代码实现，可以在一定程度上有效地绕过淘宝的反爬虫机制，提高爬虫程序的稳定性和成功率，但同时也要注意遵守法律法规和网站的使用条款，避免对网站造成不必要的负担和影响。

五、动态商品信息爬取

5.1 动态加载原理

以淘宝为例，当用户在淘宝搜索商品并打开搜索结果页面时，页面初始加载的只是一些基本的 HTML 结构和少量静态数据，如页面布局、导航栏等信息。而商品列表中的商品信息，如商品名称、价格、销量、图片等，是通过 Ajax 技术动态加载的。

当页面加载完成后，浏览器会根据用户的操作（如滚动页面、点击加载更多按钮等），向服务器发送异步请求。这些请求通常是通过 JavaScript 代码中的XMLHttpRequest对象或者fetch API 来实现的。在请求中，会携带一些参数，如搜索关键词、页码、商品类别筛选条件等，服务器根据这些参数，从数据库中查询相应的商品数据，并将数据以 JSON 格式返回给浏览器。浏览器接收到返回的数据后，再通过 JavaScript 代码将这些数据解析并插入到 HTML 页面的相应位置，从而实现商品信息的动态加载。这样，用户在浏览商品列表时，无需重新加载整个页面，就能获取到更多的商品信息，大大提升了用户体验。

5.2 使用 Selenium 爬取数据

利用 Selenium 库可以有效地模拟用户在浏览器中的操作，从而获取动态加载的商品信息。下面以爬取淘宝手机商品信息为例，展示具体的代码实现：

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time # 启动浏览器 driver = webdriver.Chrome() # 打开淘宝搜索页面 driver.get("https://s.taobao.com/search?q=手机") # 等待页面加载，模拟滚动页面以加载更多商品 for i in range(3): driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(2) # 等待商品列表加载完成 WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, '.m-itemlist.items.item'))) # 提取商品信息 products = [] items = driver.find_elements(By.CSS_SELECTOR, '.m-itemlist.items.item') for item in items: product = {} # 商品名称 product['name'] = item.find_element(By.CSS_SELECTOR, '.title').text.strip() # 商品价格 product['price'] = item.find_element(By.CSS_SELECTOR, '.price').text.strip() # 商品销量 sales_text = item.find_element(By.CSS_SELECTOR, '.deal-cnt').text.strip() product['sales'] = sales_text.replace('人付款', '') if '人付款' in sales_text else sales_text products.append(product) print(products) # 关闭浏览器 driver.quit()

在上述代码中，首先使用webdriver.Chrome()启动 Chrome 浏览器，并打开淘宝搜索 “手机” 的页面。然后通过循环调用driver.execute_script(“window.scrollTo(0, document.body.scrollHeight);”)模拟滚动页面，每次滚动后等待 2 秒，以便让页面有足够的时间加载更多商品。接着使用WebDriverWait等待商品列表中的所有商品项加载完成。最后，通过 CSS 选择器定位每个商品项，并提取商品名称、价格和销量信息，将其存储在一个列表中并打印出来。

在实际应用中，还可以根据需要进一步扩展代码，如处理翻页操作，以获取更多页面的商品信息。处理翻页时，可以先找到页面中的下一页按钮元素，然后使用click方法模拟点击操作，每次点击后重复上述获取商品信息的步骤，直到获取完所有需要的页面数据。例如：

# 翻页操作 while True: try: # 找到下一页按钮 next_button = WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.CSS_SELECTOR, '.next')) ) next_button.click() time.sleep(3) # 等待新页面商品列表加载完成 WebDriverWait(driver, 10).until( EC.presence_of_all_elements_located((By.CSS_SELECTOR, '.m-itemlist.items.item')) ) # 提取新页面商品信息 items = driver.find_elements(By.CSS_SELECTOR, '.m-itemlist.items.item') for item in items: product = {} product['name'] = item.find_element(By.CSS_SELECTOR, '.title').text.strip() product['price'] = item.find_element(By.CSS_SELECTOR, '.price').text.strip() sales_text = item.find_element(By.CSS_SELECTOR, '.deal-cnt').text.strip() product['sales'] = sales_text.replace('人付款', '') if '人付款' in sales_text else sales_text products.append(product) except Exception: break

这样就可以实现对多页商品信息的爬取，从而获取更全面的电商网站商品数据。

六、数据清洗与整理

在成功爬取电商网站的商品信息后，得到的数据往往存在各种问题，如重复数据、格式不规范、缺失值等，这些问题会影响后续的数据分析和应用。因此，需要对数据进行清洗与整理，以提高数据的质量和可用性。

6.1 数据去重

在爬取电商网站商品信息时，由于各种原因（如多次访问同一页面、网站数据更新机制等），可能会获取到重复的商品数据。这些重复数据不仅会占用额外的存储空间，还会影响数据分析的准确性和效率，因此需要进行去重处理。

一种简单有效的去重方法是使用集合（Set）数据结构。集合是 Python 中的一种无序且元素唯一的数据结构，它可以自动去除重复的元素。在爬取商品信息时，可以将每个商品的唯一标识（如商品 ID）或包含关键信息的元组添加到集合中。例如：

product_ids = set() unique_products = [] for product in products: product_id = product['id'] # 假设商品ID为'id'字段 if product_id not in product_ids: product_ids.add(product_id) unique_products.append(product)

在上述代码中，首先创建一个空集合product_ids用于存储已出现的商品 ID，然后遍历爬取到的商品列表products。对于每个商品，获取其 ID 并检查是否已在集合中。如果不在集合中，则将该商品 ID 添加到集合中，并将商品添加到unique_products列表中，从而实现去重。

另一种方法是使用哈希算法。哈希算法可以将任意长度的输入数据转换为固定长度的哈希值，且相同的输入数据会得到相同的哈希值。在数据去重中，可以对每个商品的关键信息（如商品 ID、名称、价格等）进行哈希计算，然后将哈希值与已有的哈希值进行比较。如果哈希值相同，则认为是重复数据。下面是使用哈希算法去重的示例代码：

import hashlib hash_set = set() unique_products = [] for product in products: product_info = f"{product['id']}{product['name']}{product['price']}" # 假设关键信息为ID、名称和价格 hash_value = hashlib.md5(product_info.encode()).hexdigest() if hash_value not in hash_set: hash_set.add(hash_value) unique_products.append(product)

在这段代码中，首先创建一个空集合hash_set用于存储哈希值。然后遍历商品列表，将每个商品的关键信息拼接成一个字符串product_info，对其进行 MD5 哈希计算得到哈希值hash_value。如果该哈希值不在集合中，则将其添加到集合中，并将商品添加到unique_products列表中，以此实现数据去重。哈希算法的优点是速度快，适用于处理大量数据，但可能会存在哈希冲突（即不同的数据得到相同的哈希值）的情况，需要根据具体情况进行处理。

6.2 格式规范化

爬取到的电商商品数据中，价格、日期等字段的格式可能多种多样，不便于后续的数据分析和处理，因此需要对其进行格式规范化。

以价格字段为例，可能存在以下几种格式：“199.00 元”、“$29.99”、“￥99” 等。可以使用正则表达式提取其中的数字部分，并统一转换为浮点数类型。示例代码如下：

import re for product in products: price_str = product['price'] match = re.search(r'\d+(\.\d+)?', price_str) if match: price = float(match.group()) product['price'] = price

在上述代码中，使用re.search函数查找价格字符串中的数字部分，\d+(.\d+)?这个正则表达式表示匹配一个或多个数字，后面可以跟着一个可选的小数点和一个或多个数字。如果找到匹配的数字，则将其转换为浮点数并更新商品的价格字段。

对于日期字段，可能存在 “2024/01/01”、“2024-01-01”、“01/01/2024” 等不同格式。可以使用datetime模块将其统一转换为标准的日期格式，如 “YYYY - MM - DD”。示例代码如下：

from datetime import datetime for product in products: date_str = product['date'] try: date = datetime.strptime(date_str, '%Y/%m/%d') product['date'] = date.strftime('%Y-%m-%d') except ValueError: try: date = datetime.strptime(date_str, '%Y-%m-%d') product['date'] = date.strftime('%Y-%m-%d') except ValueError: try: date = datetime.strptime(date_str, '%m/%d/%Y') product['date'] = date.strftime('%Y-%m-%d') except ValueError: pass

在这段代码中，使用datetime.strptime函数尝试将不同格式的日期字符串解析为datetime对象，然后使用strftime函数将其格式化为 “YYYY - MM - DD” 的标准格式。如果解析失败，则尝试其他可能的日期格式。通过这样的处理，可以使日期字段的格式统一，便于后续的日期计算和分析。

6.3 缺失值处理

在爬取电商商品数据时，由于网络问题、网页结构变化等原因，可能会导致部分数据缺失，如商品价格缺失、销量缺失等。对于缺失值的处理，需要根据业务需求和数据特点选择合适的方法。

如果缺失值较少，可以直接删除包含缺失值的商品记录。例如，使用 Pandas 库的dropna方法：

import pandas as pd df = pd.DataFrame(products) df = df.dropna() products = df.to_dict('records')

在上述代码中，首先将商品列表转换为 Pandas 的DataFrame对象，然后使用dropna方法删除包含缺失值的行，最后再将处理后的DataFrame转换回列表形式。

如果缺失值较多，直接删除可能会导致数据量大幅减少，影响数据分析的准确性。此时，可以使用均值、中位数或特定值填充缺失值。以价格字段为例，使用均值填充缺失值的代码如下：

import pandas as pd df = pd.DataFrame(products) mean_price = df['price'].mean() df['price'] = df['price'].fillna(mean_price) products = df.to_dict('records')

在这段代码中，先计算价格字段的均值mean_price，然后使用fillna方法将价格字段中的缺失值用均值填充。同样，如果使用中位数填充，只需将mean_price替换为df[‘price’].median()即可。对于一些特定的业务场景，也可以使用特定值进行填充，如对于销量缺失值，可以填充为 0，表示销量未知但可认为是 0 。通过合理处理缺失值，可以提高数据的完整性和可用性，为后续的数据分析和挖掘提供更可靠的数据基础。

七、总结与展望

本次实战围绕电商网站动态网页爬取展开，重点攻克了登录验证、反爬虫机制以及动态商品信息爬取和数据清洗整理等关键环节。在登录验证方面，通过 Selenium 库模拟浏览器操作，成功绕过了复杂的滑块验证码；针对反爬虫机制，采用设置合理请求间隔、使用代理 IP 池和伪装请求头的策略，有效提高了爬虫的稳定性和成功率；在动态商品信息爬取中，借助 Selenium 模拟用户操作，实现了对动态加载商品数据的获取；最后，通过数据去重、格式规范化和缺失值处理等操作，对爬取到的数据进行了清洗与整理，提升了数据的质量和可用性。

然而，电商网站的数据爬取仍然面临诸多挑战，同时也蕴含着更多的探索空间。读者可以尝试对更多不同类型的电商网站进行爬取，进一步加深对不同网站反爬虫机制和页面结构的理解。在进阶技术方面，分布式爬虫是一个值得深入研究的方向。分布式爬虫通过将爬取任务分配到多个节点上并行处理，能够显著提高爬取效率，应对大规模数据爬取的需求。例如，可以使用 Scrapy - Redis 等分布式爬虫框架，结合 Redis 数据库实现任务分发和结果合并，充分发挥多台计算机的计算资源。

增量爬取也是一项具有重要应用价值的技术。它能够监测网站数据的更新，仅抓取新增或变化的数据，避免重复爬取，减少资源消耗。在实际应用中，可以通过记录上次爬取的时间戳或数据标识，对比新获取的数据，实现增量更新。此外，随着人工智能技术的发展，将机器学习、深度学习算法应用于爬虫领域，如利用图像识别技术更智能地处理验证码，通过自然语言处理技术对爬取到的商品描述、用户评价等文本数据进行更深入的分析挖掘，也是未来的研究热点和发展趋势。希望读者在掌握本次实战内容的基础上，积极探索这些进阶技术，不断提升自己在数据爬取和分析领域的能力。

你可能感兴趣的:(Python爬虫,python,爬虫,开发语言,电商网站,动态数据)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种

Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令

Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由

python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam

Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt

Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python

Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl

Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性

（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm

（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)

（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt

Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt

用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个

Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于

python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰

Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath

Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati

Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298

seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！

NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg

Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth

pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，

Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d

Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势

Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序

Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验

苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让

苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众

苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我

java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51

Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境      a>、添加jar包:      aa>、hibernatte开发包中/lib/required/所

设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述        若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。

读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);

js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>

erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少

JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //

POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma

工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A

android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应

Spring事务传播行为详解 bijian1013 java spring 事务传播行为
        在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。         Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这

eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择   OR   Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------

【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka

Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口

bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">

读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（

常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC

搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
    最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先

oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M

JSON字符串转换为对象 dieslrae java json
    作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.

C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,

vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.

14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m

一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样

Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新

Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses

第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/

Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t

Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为

正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

首页 - 关于我们 - 站内搜索 - Sitemap - 侵权投诉

版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.