TVHead

结合Selenium和正则表达式提高爬虫效率

任务

爬取https://www.aliexpress.com/wholesale?SearchText=cartoon+case&d=y&origin=n&catId=0&initiative_id=SB_20200523214041这个页面下的商品详情，由于页面是异步加载的，需要使用Selenium模拟浏览器来获取商品url。但直接使用Selenium定位网页元素速度又很慢，因此需要结合Re或者BeautifulSoup来提高爬取效率。

模拟登陆

使用Selenium模拟登录，登录成功后获取cookie。

def login(username, password, driver=None):
    driver.get('https://login.aliexpress.com/')
    driver.maximize_window()
    name = driver.find_element_by_id('fm-login-id')
    name.send_keys(username)
    name1 = driver.find_element_by_id('fm-login-password')
    name1.send_keys(password)
    submit = driver.find_element_by_class_name('fm-submit')
    time.sleep(1)
    submit.click()
    return driver


browser = webdriver.Chrome()
browser = login('[email protected]','ab123456',browser)
browser.get('https://www.aliexpress.com/wholesale?trafficChannel=main&d=y&SearchText=cartoon+case<ype=wholesale&SortType=default&page=')

这个网站对用户监管不严，使用邮箱注册都不需要进行验证，可以用这个网站获取假邮箱进行注册：http://www.fakemailgenerator.com/

其实后续真正运行程序爬的时候并没有登录，爬了十页也没碰到反爬。

获取商品详情页的URL

这一过程需要解决的问题在于该网页是ajex异步加载的，网页不会在打开的同时加载全部数据，在下拉的同时网页刷新返回新的数据包并渲染，因此通过request无法一次性读到网页的全部源码。解决思路是通过Selenium来模拟浏览器下拉行为以获取一页内全部的数据，然后暂时还是通过sel去获取元素。

登录后打开任务需要的页面会出现广告弹窗，首先需要关闭广告弹窗：

def close_win(browser):
    time.sleep(10)
    try:
        closewindow = browser.find_element_by_class_name('next-dialog-close')
        browser.execute_script("arguments[0].click();", closewindow)
    except Exception as e:
        print(f"searchKey: there is no suspond Page1. e = {e}")

模拟下拉行为并获取一页中全部商品的url：

def get_products(browser):
    wait = WebDriverWait(browser, 1)
    for i in range(30):
        browser.execute_script('window.scrollBy(0,230)')
        time.sleep(1)
        products = wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME,"product-info")))
        if len(products) >= 60:
            break
        else:
            print(len(products))
            continue
    products = browser.find_elements_by_class_name('product-info')
    return products

后来经学长指点发现不需要这么麻烦，搜索页的商品信息虽然是经过下滑操作才会通过JS动态渲染，但商品信息其实都是写在html文档里的，可以通过以下方式获取：

url = 'https://www.aliexpress.com/wholesale?trafficChannel=main&d=y&SearchText=cartoon+case<ype=wholesale&SortType=default&page='
driver = webdriver.Chrome()
driver.get(url)
info = re.findall('window.runParams = (\{.*\})',driver.page_source)[-1]
infos = json.loads(info)
items = infos['items']

然后就可以慢慢去匹配。

获取商品内页详情

这一部分的问题在于需要爬取的网页很多，继续使用sel会导致爬虫速度很慢，另外商品内页的数据似乎不是异步返回的。解决方案是先使用sel访问商品内页，将整个网页源码down下来后用正则表达式去匹配元素：

def get_pro_info(product):
    url = product.find_element_by_class_name('item-title').get_attribute('href')
    driver = webdriver.Chrome()
    driver.get(url)
    page = driver.page_source
    driver.close()
    material=re.findall(r'"skuAttr":".*?#(.*?);',page)
    color=re.findall(r'skuAttr":".*?#.*?#(.*?)"',page)
    stock=re.findall(r'skuAttr":".*?"availQuantity":(.*?),',page)
    price=re.findall(r'skuAttr":".*?"actSkuCalPrice":"(.*?)"',page)
    pics = re.findall(r'', page)
    video = re.findall(r'id="item-video" src="(.*?)"', page)
    return material, color, stock, price, pics, titles, video

接入MySQL

爬取到的数据要求用数据库储存，这里需要接入MySQL，数据库crawl和表SKU都是提前建好的：

conn = pymysql.connect(host='localhost', user='root', password='ab226690',db='crawl')
mycursor = conn.cursor()

通过循环实现数组数据的写入，这里很坑的一点是insert的时候pymysql的格式转换和python不是完全一样，参数用'%s'匹配就可以，不需要针对数字型字段搞整形或浮点型：

    #写入sku表
    sql = "INSERT INTO SKU(skuID,material,color,stock,price, url) VALUES (%s,%s,%s,%s,%s,%s)"#就是这里，虽然有些变量是数值型，但还是用%s来对应
    for i in range(len(skuID)):
        if titles:
            params = (skuID[i], material[i], color[i], stock[i], price[i],url)
        else:
            params = (skuID[i], material[i], ' ', stock[i], price[i],url)
        try: 
            mycursor.execute(sql,params)
            conn.commit()
        except IntegrityError: #当出现duplicate primary key时会抛出这个错误，这里这样写的本意是碰到重复主键就跳过这一条记录，但实际运行这段代码的时候还是会报错。偷懒的解决办法是把主键取消，但这样好像不是很合理，日后知道怎么解决再来更新
            conn.rollback()
            continue

实现写入操作时碰到的另一个问题是用re匹配不到元素时返回的是一个空的list，这样会导致无法写入mysql而报错，因此要判断待写入的变量是否是空的list，是的话要赋合适的值：

    sql = "INSERT INTO product(url, product_name, rating, reviews, video, shipping) VALUES (%s,%s,%s,%s,%s,%s)"

    if rating:
        pass
    else:
        rating = '0.0'

    if review:
        pass
    else:
        review = '0'
    
    if video:
        pass
    else:
        video = ' '
    
    if shipping:
        pass
    else:
        shipping = '0.0'
        
    params = (url, pro_name, rating,review, video, shipping)
    mycursor.execute(sql,params)

关闭数据库连接：

conn.commit()

提升速度

除了前面提到的使用selenium访问后转用re匹配外，还发现一个提升爬虫效率的点：

browser = webdriver.Chrome()
browser.get(source_url)
browser = close_win(browser)

像这样重复地实例化和关闭浏览器驱动是很耗费时间的，因此要使用尽量少的浏览器窗口来访问网站。

本任务中是只实例化了两个webdriver，一个用来访问多个商品的展示页，一个用来访问商品内页，具体方法就是实例化后不要这两个driver，一直用它们来get新的网页。原来的代码中是每打开一个网页都初始化一个新的webdriver去访问，做出这一修改后代码运行时间减少了一半。

def scratch_page(source_url):
    browser = webdriver.Chrome()
    browser.get(source_url)
    browser.maximize_window()
    browser = close_win(browser)
    pros = get_products(browser)
    #商品内页的浏览器
    browser2 = webdriver.Chrome()
    error_file = open('ERROR.txt','a+',encoding='utf8')
    for pro in pros:
        url, pro_name, skuID, material, color, stock, price, pics, titles, video,rating,shipping, review = get_pro_info(pro, browser2)#对前面的get_pro_info
    做简单修改
        if len(skuID)!=len(color):
            error_file.write('url:'+url+'\n')
            continue
        save_data_to_sql(url,pro_name, skuID, material, color, stock, price, pics, titles, video,rating,shipping,review)
    error_file.close()
    browser.close()
    browser2.close()

　完整代码

from selenium import webdriver
import time 
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
import pymysql
from sqlalchemy.exc import IntegrityError#捕获重复主键的异常

def login(username, password, driver=None):
    driver.get('https://login.aliexpress.com/')
    driver.maximize_window()
    name = driver.find_element_by_id('fm-login-id')
    name.send_keys(username)
    name1 = driver.find_element_by_id('fm-login-password')
    name1.send_keys(password)
    submit = driver.find_element_by_class_name('fm-submit')
    time.sleep(1)
    submit.click()
    return driver

def close_win(browser):
    time.sleep(5)
    try:
        closewindow = browser.find_element_by_class_name('next-dialog-close')
        closewindow.click()
    except Exception as e:
        print(f"searchKey: there is no suspond Page1. e = {e}")
    return browser

def get_products(browser):
    wait = WebDriverWait(browser, 1)
    for i in range(30):
        browser.execute_script('window.scrollBy(0,230)')
        time.sleep(1)
        products = wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME,"product-info")))
        if len(products) >= 60:
            break
        else:
            continue
    products = browser.find_elements_by_class_name('product-info')
    return products

def get_pro_info(product, driver):
    url = product.find_element_by_class_name('item-title').get_attribute('href')
    driver.get(url)
    time.sleep(0.5)
    page = driver.page_source
    material=re.findall(r'"skuAttr":".*?#(.*?);',page)
    color=re.findall(r'"skuAttr":".*?#.*?#(.*?)"',page)
    stock=re.findall(r'"skuAttr":".*?"availQuantity":(.*?),',page)
    price=re.findall(r'"skuAttr":".*?"skuCalPrice":"(.*?)"',page)
    pics = re.findall(r'', page)
    titles = re.findall(r'', page)
    video = re.findall(r'id="item-video" src="(.*?)"', page)
    skuID = re.findall(r'"skuId":(.*?),',page)
    pro_name = re.findall(r'"product-title-text">(.*?)', page)
    rating = re.findall(r'itemprop="ratingValue">(.*?)', page)
    shipping = re.findall(r'(.*?) ', page)
    review = re.findall(r'"reviewCount">(.*?) Reviews', page)
    #当商品没有颜色可选时，网页源码结构变化，需要重新匹配
    if titles:
        pass
    else:
        material = re.findall(r'"skuAttr":".*?#(.*?)"', page)
        color=[]
        pics = re.findall(r'"imagePathList":\["(.*?)",', page)
    return url, pro_name, skuID, material, color, stock, price, pics, titles, video,rating,shipping, review 

def save_data_to_sql(url,pro_name, skuID, material, color, stock, price, pics, titles, video,rating,shipping,review):
    url = re.findall('/item/(.*?).html',url)
#    try:
    conn = pymysql.connect(host='localhost', user='root', password='ab226690',db='crawl')
    mycursor = conn.cursor()
    #写入sku表
    sql = "INSERT INTO SKU(skuID,material,color,stock,price, url) VALUES (%s,%s,%s,%s,%s,%s)"
    for i in range(len(skuID)):
        if titles:
            params = (skuID[i], material[i], color[i], stock[i], price[i],url)
        else:
            params = (skuID[i], material[i], ' ', stock[i], price[i],url)
#        mycursor.execute(sql,params)
#        conn.commit()
        try:
            mycursor.execute(sql,params)
            conn.commit()
        except IntegrityError:
            conn.rollback()
            continue
    #写入img表
    sql = "INSERT INTO image(url, color, img) VALUES (%s,%s,%s)"
    i = 0
    if titles:
        for i in range(len(titles)):
            params = (url, titles[i], pics[i])
#            mycursor.execute(sql,params)
#            conn.commit()
            try:
                mycursor.execute(sql,params)
                conn.commit()
            except IntegrityError:
                conn.rollback()
                continue
    else:
        params = (url, ' ', pics)
#        mycursor.execute(sql,params)
#        conn.commit()
        try:
            mycursor.execute(sql,params)
            conn.commit()
        except IntegrityError:
            conn.rollback()
    #写入product表
    sql = "INSERT INTO product(url, product_name, rating, reviews, video, shipping) VALUES (%s,%s,%s,%s,%s,%s)"

    if rating:
        pass
    else:
        rating = '0.0'

    if review:
        pass
    else:
        review = '0'
    
    if video:
        pass
    else:
        video = ' '
    
    if shipping:
        pass
    else:
        shipping = '0.0'
        
    params = (url, pro_name, rating,review, video, shipping)
    mycursor.execute(sql,params)
    conn.commit()
#    try:
#        mycursor.execute(sql,params)
#        conn.commit()
#    except Exception:
#        conn.rollback()
    conn.close()
#    except Exception as e:
#    conn.rollback()
#    print(e)
        
def scratch_page(source_url):
    browser = webdriver.Chrome()
    browser.get(source_url)
    browser.maximize_window()
    browser = close_win(browser)
    pros = get_products(browser)
    #商品内页的浏览器
    browser2 = webdriver.Chrome()
    error_file = open('ERROR.txt','a+',encoding='utf8')
    for pro in pros:
        url, pro_name, skuID, material, color, stock, price, pics, titles, video,rating,shipping, review = get_pro_info(pro, browser2)
        if len(skuID)!=len(color):
            error_file.write('url:'+url+'\n')
            continue
        save_data_to_sql(url,pro_name, skuID, material, color, stock, price, pics, titles, video,rating,shipping,review)
    error_file.close()
    browser.close()
    browser2.close()
    
url = 'https://www.aliexpress.com/wholesale?trafficChannel=main&d=y&SearchText=cartoon+case<ype=wholesale&SortType=default&page='
for p in range(1,11):
    url_ = url + str(p)
    start_time = time.time()
    scratch_page(url_)
    end_time = time.time()
    print('成功爬取' + str(p) + '页')
    print('第' + str(p) + '页耗时： '+str(start_time-end_time)+'s')

2、Flink 在 DataStream 和 Table 之间进行转换猫猫爱吃小鱼粮 Flink SQL flink 大数据
1.概述TableAPI和DataStreamAPI都可以处理有界流和无界流。DataStreamAPI提供了流处理的基础（时间、状态和数据流管理）；TableAPI抽象了许多内部内容，并提供了一个结构化和声明性的API；在处理历史数据时，需要管理有边界的流；无边界流出现在实时处理场景中，这些场景可能需要先使用历史数据进行初始化。为了高效执行，这两个API都以优化的批处理执行模式处理有界流。由于批
Python 潮流周刊#71：PyPI 应该摆脱掉它的赞助依赖（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，1则音视频，全文2000字。以下是本期摘要：文章&教程①PyPI应该摆脱掉它的赞助依赖②创建不分大小写的Python字符串类③用Tree-sitter&Jedi重
Python 潮流周刊#72：Python 3.13.0 最终版已发布！（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了14篇文章，12个开源项目，4则音视频，全文2300字。以下是本期摘要：文章&教程①Python3.13.0最终版已发布！②关于Python3.13，了解这些信息就够了③Python3.13
Python 潮流周刊#67：uv 的重磅更新（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①uv：统一的Python打包工具②PyJWT和python-jose在处理JWT令牌时的差异③Kindle+Pytho
Python 潮流周刊#68：2023 年 Python 开发者调查结果（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2100字。以下是本期摘要：文章&教程①2023年Python开发者调查结果②为什么在Docker中我仍然要用Python虚拟环境？③我如何用P
MediaCrawler 小红书爬虫源码分析
前言MediaCrawler是最近冲上Github热搜的开源多社交平台爬虫。虽然现在已删库，但还好我眼疾手快，有幸还Fork了一份，乘着周末，简单分析了下小红书平台的相关代码。爬虫难点一般写爬虫，都需要面对以下几个问题如果app/网页需要登录，如何获取登录态（cookie/jwt）大部分app/网页都会对请求参数进行sign，如果有，如何获取sign逻辑绕过其它遇到的反爬措施我将带着这三个问题，阅
2021 寄网数据库西电大题软工 _ZCWzy 学习
大题1：给了一个类似书上employee,works,company的关系模式，写关系代数和sql语句大题2：给了事务的执行，求串行执行有几种方式，串行执行后XY的结果；新的调度是否是可串行化？用两项锁协议改写该调度，并且写出XY的结果大题3：给了书上instr_dept的那个关系模式问是不是BCNF；改写为BCNF大题4：给了关系模式R，求其中属性AB的闭包；问AB是否是候选码大题5：ER设计寄
2021 西电软工计组期末试题题型(回忆版) _ZCWzy
今天刚考完。这是帮助后面的学习学妹复习而撰写的，数据我记不住了，2020年的考试题型请参考：https://github.com/LevickCG/Happy-SE-in-XDU/blob/master/%E8%AE%A1%E7%BB%84I/2020_final.md虽然2020有疫情奖励难度变低，但是2021和2020我感觉难度没什么太大的差别同样的，如果你想冲高分，一定要把课后习题全部搞懂。
深入理解 ECMAScript 2024 新特性：正则表达式 /v 标志李游Leo 前端 ECMAScript ecmascript 正则表达式前端
ECMAScript2024（ES15）标准引入了新的正则表达式标志/v，这一新增功能不仅优化了多行匹配的处理，还增加了对特殊字符匹配的支持。这一变革对于需要处理复杂文本数据的应用场景尤为重要，比如日志分析、代码审核等。接下来，本文将深入探讨/v标志的实际应用价值，并通过多个编程案例来展示其强大的实际应用能力。/v标志的技术背景与应用正则表达式作为开发者的有力工具，经常被用于字符串搜索、验证和替换
探索Java中的事件驱动架构（EDA）微赚淘客机器人开发者联盟@聚娃科技 java 架构 python
探索Java中的事件驱动架构（EDA）大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天，我想和大家分享一下Java中的事件驱动架构（Event-DrivenArchitecture，EDA），希望能帮助大家在构建高效、可扩展的系统时有所启发。一、什么是事件驱动架构？事件驱动架构（EDA）是一种软件架构模式，其中系统中的各个组件通
C# 提升性能效率东城十三 C#c#开发语言
以下是一些提升C#程序运行效率的完整解决方法，包括代码优化、内存管理、并行和异步处理、编译和运行时优化、以及性能分析和监控。1.优化代码逻辑避免不必要的计算和方法调用//避免重复计算doubleresult=Math.Sqrt(2);//计算一次for(inti=0;i();dictionary[1]="one";dictionary[2]="two";//查找比在列表中更快if(dictiona
Python WebSocket服务器介绍一只会写程序的猫 Python python websocket 服务器
PythonWebSocket服务器介绍WebSocket是一种在Web浏览器和服务器之间实现全双工通信的协议。它允许服务器主动发送消息到浏览器，而不需要浏览器发起请求。Python提供了许多库和框架来实现WebSocket服务器，本文将介绍如何使用Python构建一个简单的WebSocket服务器。WebSocket协议和工作原理WebSocket协议是通过HTTP协议的升级实现的。在HTTP协
快手不发作品ip地址会变吗 hgdlip 快手 ip tcp/ip 快手
在数字时代，我们每个人的在线行为都留下了独特的痕迹。这些痕迹不仅仅是我们的言论或行为，还包括我们的IP地址——一个在网络世界中标识我们位置的数字标签。近年来，随着短视频平台的兴起，如快手这样的应用已经深入人们的日常生活。那么，当我们在快手这样的平台上不发布作品时，我们的IP地址是否会发生变化呢？本文将探讨这一问题，并深入分析IP地址在数字时代的重要性和影响。首先，我们需要了解IP地址的基本概念。I
家政服务小程序，打造智慧家政新体验冠品网络科技小程序小程序开发小程序制作
春节即将来临，家政市场呈现出了火热的场景，大众对家政服务的需求持续增加。近年来，家政市场开始倾向数字化、智能化，借助科学技术打造家政数字化平台，让大众在手机上就可以预约家政服务，减少传统家政市场中繁琐流程。通过家政系统商家可以更好的派单，服务人员也能快速接单，完成工作，提高消费者的家政体验，推动市场创新发展。传统的家政市场需要中介等介绍人对接，用户需要花费大量时间寻找合适的服务人员，过程较为繁琐。
QML学习 —— 34、视频媒体播放器（附源码） [無限進步] QML qml 音视频媒体播放器
效果说明您可以单独使用MediaPlayer播放音频内容（如音频），也可以将其与VideoOutput结合使用以渲染视频。VideoOutput项支持未转换、拉伸和均匀缩放的视频演示。有关拉伸均匀缩放演示文稿的描述，请参见fillMode属性描述。播放可能出错问题出现的问题: DirectShowPlayerService::doRender:Unresolvederrorc
空降中层如何做好管理工作？成功过渡的实用策略空降中层管理公司管理团队管理
空降中层的管理工作充满挑战，既需要迅速适应新环境，又要赢得下属的信任和支持。作为新任的管理者，空降中层不仅要快速理解公司的文化、业务和团队，还要在短时间内建立起有效的领导力和管理体系。做好管理工作可以从以下几个方面着手：快速融入团队、建立信任与沟通、明确目标与期望、优化团队结构、激励与激发团队潜力、以及借助数据与工具进行决策。本文将深入探讨这些管理策略，以帮助空降中层快速适应并实现有效管理。一、快
时间轮算法及简易实现后端算法
一、时间轮算法是什么？1.基本概念时间轮（TimeWheel）是一种高效的定时任务调度算法，用于管理和调度大量的定时任务。它的核心思想是将时间划分为多个槽（Slot），每个槽代表一个时间间隔，任务根据其延迟时间被分配到对应的槽中。时间轮通过一个指针（Pointer）周期性地移动，触发当前槽中的任务执行。2.核心名词解释槽（Slot）：时间轮被划分为多个槽，每个槽代表一个时间间隔。例如，一个时间轮有
Python 潮流周刊#86：Jupyter Notebook 智能编码助手（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①介绍JupyterNotebook智能助手②用纯Python写一个“Redis”，速度比原生Redis还快？③30分钟
C#性能优化集锦枫0子K C#WinForm编程 C#性能性能优化
做C#开发总会遇到那么些令人头疼的问题，而相对于C/C++来说可能最头疼的就是性能问题。或许不能流畅到像C/C++的程序那样，但是多多注意性能问题，结合C#本身自有的优势，也是毫不逊色于其他开发语言的。本文只列举针对C#的性能优化手段，其他的优化手段再看心情吧。privatevoidbutton2_Click(objectsender,EventArgse){Stopwatchsw=newStop
PL/SQL语言的语法糖技术的探险家包罗万象 golang 开发语言后端
PL/SQL语言的语法糖引言PL/SQL（ProceduralLanguage/StructuredQueryLanguage）是Oracle公司为其数据库管理系统（DBMS）设计的一种过程化语言。作为一种扩展SQL的语言，PL/SQL不仅支持数据的查询和操作，还增加了更复杂的编程特性，比如变量声明、控制结构、异常处理等，从而使得程序员能够编写出更加灵活和高效的数据库应用程序。然而在PL/SQL中
C#语言的数据结构技术的探险家包罗万象 golang 开发语言后端
C#语言的数据结构探讨数据结构是计算机科学中一种用于组织、存储和管理数据的方式。有效地使用数据结构能使算法更加高效，并提高程序的性能。在C#语言中，我们可以构建和使用多种数据结构，以满足不同的需求。本文将介绍C#中的常用数据结构，包括数组、链表、栈、队列、哈希表、树和图等，并探讨它们的特点、实现和应用场景。1.数组数组是一种最基础且常用的数据结构。它是一个固定大小的线性结构，可以通过索引访问其中的
Go语言的学习路线技术的探险家包罗万象 golang 开发语言后端
Go语言的学习路线随着科技的迅速发展，编程语言也在不断进化，Go（又称Golang）作为一种现代化的编程语言，其简单性、高效性和强大的并发支持吸引了越来越多的开发者。本文将为您提供一条系统的Go语言学习路线，帮助您从零基础逐步掌握这门语言。一、Go语言简介Go语言是Google于2007年开发的一种开源编程语言，旨在提高编程的效率，与传统的编程语言相比，Go具有以下几个显著的优点：简洁性：Go设计
【自动化革命】——Java云原生应用故障注入测试的全自动化之旅墨夶 Java学习资料2 自动化 java 云原生
在当今快速变化的技术环境中，确保应用程序的高可用性和容错能力是开发者和运维团队的核心关注点。特别是在微服务架构之上构建的Java云原生应用中，面对复杂的网络环境、动态变化的服务依赖关系以及随时可能出现的各种意外情况，传统的手动测试方法已经难以满足需求。为了验证这些系统在遭遇突发状况时依然能够保持稳定运行，故障注入测试（FaultInjectionTesting,FIT）应运而生，并逐渐成为一种不可
《智守数据堡垒——AI驱动的MySQL数据治理合规框架》墨夶数据库学习资料2 人工智能 mysql 数据库
在当今数字化转型加速的时代，企业面临着前所未有的数据挑战。一方面，海量的数据为企业带来了巨大的商业价值；另一方面，如何确保这些数据的安全性、一致性和合法性成为了亟待解决的问题。尤其是在金融、医疗等高度监管行业中，任何数据泄露或不当使用都可能导致严重的法律后果和社会影响。为此，构建一个既高效又能满足法律法规要求的数据治理体系显得尤为重要。今天，我们将探讨一种创新性的解决方案——利用人工智能（AI）技
洞察事件驱动架构的灵魂——Java中实现高度可观察性的艺术墨夶 Java学习资料1 架构 java 开发语言
在当今的软件开发领域，构建一个既能够高效响应变化又具备强大监控能力的应用系统已成为开发者们追求的目标。事件驱动架构（EDA）因其天然的支持异步处理、松耦合特性而备受青睐。然而，如何确保这样一个复杂且动态变化的系统具有良好的可见性和可控性？这就需要我们深入探讨“可观察性”这一概念，并学习如何通过精心设计让Java应用程序中的每一个事件都能被清晰地追踪和理解。本文将带您走进事件驱动架构的核心，揭示增强
用Python进行websocket接口测试代码小念软件测试自动化测试技术分享 python websocket 开发语言
这篇文章主要介绍了用Python进行websocket接口测试，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下我们在做接口测试时，除了常见的http接口，还有一种比较多见，就是socket接口，今天讲解下怎么用Python进行websocket接口测试。SocketSocket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求，使主机间或者一台计算机上的进程间可
吴恩达系列——微调（Fine-tuning）与生成模型的应用疯狂小料 ai prompt
微调（Fine-tuning）是指在已有预训练模型的基础上，对模型进行进一步训练，以适应特定任务或需求。在自然语言处理领域，生成模型通过微调可以在特定场景下生成更加准确、一致的输出，同时保护用户的隐私，减少不当信息的泄露。本文将结合生成模型的工作原理和实际应用，解释微调如何提升生成模型的效果，并探讨其在保护隐私方面的优势。1.生成模型与Prompt的作用生成模型，如GPT系列，通常通过接受一个输入
标准化可观察量：Web标准新成员及其与RxJS的差异 exploration-earth 前端 javascript 开发语言
当前，可观察对象（乃至信号）正逐步成为Web标准体系不可或缺的一部分，这一趋势不仅预示着Web开发技术的进一步成熟与规范化，也为开发者们提供了更加统一、高效的编程接口。相较于RxJS这一流行的响应式编程库中的Observables，标准化的可观察量在设计理念与实现细节上均展现出若干显著的不同点，这些差异旨在更好地适应Web环境的特殊需求，提升开发效率与代码的可维护性。具体而言，标准化后的可观察量可
Java 8新特性详解与实战小码快撩 java
引言Java8是Java发展历程中的一个里程碑版本，它引入了众多革新性的新特性和优化，大大提升了开发者的工作效率和代码质量。本文将详细解析Java8中的关键新特性，并通过实例代码进行深入讲解。一、Lambda表达式（LambdaExpression）Lambda表达式（LambdaExpression）是Java8中引入的一个重大特性，它提供了一种更简洁的匿名函数实现方式。Lambda表达式允许将
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

结合Selenium和正则表达式提高爬虫效率

任务

模拟登陆

获取商品详情页的URL

获取商品内页详情

接入MySQL

提升速度

完整代码

你可能感兴趣的:(结合Selenium和正则表达式提高爬虫效率)

　完整代码