南方有乔木、

使用selenium自动化工具爬取微博内容和评论

任务需求是爬取微博的内容和评论。一开始我是准备直接用正常的爬虫来做，但是发现微博上的内容几乎都是动态加载生成的。所以了解了一下就学习使用·selenium自动化测试工具来爬取相关数据。

首先是不登录微博，发现只能查看最多二十条数据，这自然限制太大所以还是需要实现登录后再爬取。

1.登录微博

由于微博现在的登录不能只输入账号密码，所以通过查找了一些方法后选用了注入cookie来实现自动登录。而想要注入的cookie需要自己先登录获得。这里直接使用了各位大佬给出的方法。实现扫码登录后获取cookie。

from selenium import webdriver
from time import sleep
import json
from selenium.webdriver.common.by import By

if __name__ == '__main__':
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.get('https://weibo.com/login.php')
    sleep(6)
    a = driver.find_element(By.XPATH, '//*[@id="pl_login_form"]/div/div[1]/div/a[2]')
    a.click()
    sleep(10)
    dictCookies = driver.get_cookies()  # 获取list的cookies
    jsonCookies = json.dumps(dictCookies)  # 转换成字符串保存
    with open('微博_cookies.txt', 'w') as f:
        f.write(jsonCookies)
    print('cookies保存成功！')

2.通过获取到的cookie实现自动登录然后爬取用户微博内容和评论

2.1打开浏览器，进入到登录页面。这里我最大化窗口了。

# 打开浏览器，进入到微博登录页面
def browser_initial():
    browser = webdriver.Chrome()
    browser.maximize_window()
    browser.get('https://weibo.com/login.php')
    return browser

2.2实现自动化登录

# 将已经登录获得的cookie写入，实现自动登录
def log_csdn(browser):
    with open('微博_cookies.txt', 'r', encoding='utf8') as f:
        listCookies = json.loads(f.read())

    # 往browser里添加cookies
    for cookie in listCookies:
        cookie_dict = {
            'domain': '.weibo.com',
            'name': cookie.get('name'),
            'value': cookie.get('value'),
            "expires": '',
            'path': '/',
            'httpOnly': False,
            'HostOnly': False,
            'Secure': False
        }
        #print(cookie_dict)
        browser.add_cookie(cookie_dict)
    sleep(1)
    browser.get('https://weibo.com/login.php')

登录后的页面如下图

2.3搜索内容并且爬取

这时候需要在左上角的搜索框输入自己需要搜索的用户，然后通过按回车来实现搜索

得到新的页面里可以看到最上方会显示相关的账户，找到相关元素并点击即可

最后进入到用户的完整页面

这时侯就可以开始爬取用户的微博信息和评论了。由于微博的内容是动态加载的，通过F12可以看到一开始是仅展示六条内容的元素

通过滑动，元素会逐渐增加，但是上限是12个，并且后面会出现元素顺序和微博内容顺序不符的情况。如果单单爬取微博的内容，不爬评论那还好，只需要定位到每一个元素块，获取其内部的text文本然后处理一下就可以获得自己想要的信息。但是由于还要爬取相应的评论内容，并且评论还要和微博内容相对应，所以不能直接进行爬取。

这里我选择微博内容里的时间元素里的href

通过点击这个a标签，可以跳转到该条微博的详情页面

这时候就可以分块爬起微博的内容以及转发数、评论数、点赞数和评论的内容了。要注意的是这里的转发数评论数这些可能存在多个，比如此图里是转发他人微博，他人微博里也有转发数这些。还有就是评论的内容有可能是开启精选后的，和普通的评论内容要做判断。爬取完微博内容和评论后点击上方的返回按钮，回到之前的页面。

hrefs = []

# 搜索内容
def search(username):
    # 等待元素出现再进行下一步
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "woo-pop-ctrl")))
    # 获取搜索框元素
    searchinput = browser.find_element(By.CLASS_NAME, 'woo-input-main')
    # 将要搜索的内容写入搜索框
    searchinput.send_keys(username)
    # 等待0.5秒后按回车
    sleep(0.2)
    searchinput.send_keys(Keys.ENTER)
    # 转移句柄到新的页面
    new_window = browser.window_handles[-1]
    # 关闭原来的页面
    browser.close()
    # 窗口转移到新的页面
    browser.switch_to.window(new_window)
    # 等待
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "card-wrap")))
    # 定位用户微博头像并点击
    weibo = browser.find_element(By.XPATH, '//div[@class="card card-user-b s-brt1 card-user-b-padding"]/div/a')
    weibo.click()
    new_window = browser.window_handles[-1]
    browser.switch_to.window(new_window)
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "vue-recycle-scroller__item-view")))

    # 微博一次最多给12条内容的元素，并且给出的元素不保证顺序。
    # 所以第一次进入页面的时候获取所有的内容元素，a标签里的href唯一，所以将其提取出来
    for t in range(3):
        a = browser.find_elements(By.XPATH, '//div[@class="woo-box-item-flex head_main_3DRDm"]/div/div[2]/a')
        # 在获取到的列表里进行筛选，已经爬取过的微博就跳过
        for i in range(len(a)):
            if a[i].get_attribute("href") in hrefs:
                print("已经搜索过")
                continue
            else:
                print("还没搜索过")
                # 每次都向下滑动400像素，大致符合一条微博的高度
                changepage(400)
                # sleep(0.5)
                newpage = a[i].get_attribute("href")
                # 打印href
                print(newpage)
                hrefs.append(newpage)
                # print(comments)
                # 打印已经搜索的微博内容数
                print(len(hrefs))
                # 使用js脚本来点击元素，否则可能出现元素不在网页上，无法交互的报错
                # a[i].click()
                browser.execute_script("arguments[0].click();", a[i])
                # 不要直接用href去请求，否则点击返回的时候会直接回到微博首页面
                # browser.get(newpage)
                sleep(0.5)
                # 爬取具体内容页面的内容和评论
                findall()
                sleep(0.2)
                # 找到返回按钮并点击
                WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.XPATH,
                                            '//div[@class="woo-box-flex woo-box-alignCenter Bar_left_2J3kl Bar_hand_2VAG1"]/i')))
                back = browser.find_element(By.XPATH,
                                            '//div[@class="woo-box-flex woo-box-alignCenter Bar_left_2J3kl Bar_hand_2VAG1"]/i')
                back.click()

text = []

# 将页面向下滑动px像素
def changepage(px):
    browser.execute_script("window.scrollBy(0, {})".format(px))

# 爬取微博的内容和评论
def findall():
    # 等待页面元素加载
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "Feed_body_3R0rO")))
    body = browser.find_element(By.CLASS_NAME, 'Feed_body_3R0rO')
    # 通过换行来划分内容
    bodytext = body.text.split("\n")
    print(bodytext)
    # 找到转发评论点赞的元素，但是如果有微博内容为转发他人的微博，则存在两个footer元素，
    # 所以寻找多个，然后取最后那一个
    footer = browser.find_elements(By.TAG_NAME, 'footer')
    footertext = footer[-1].text.split("\n")
    print(footertext[1])
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "Detail_box_3Jeom")))
    try:
        prompt = browser.find_element(By.CLASS_NAME, "RepostCommentList_tip_2O5W-")
        print(prompt.text)
        t = False
    except:
        t = True
    print(t)
    while t:
        try:
            browser.find_element(By.XPATH, '//div[@class="Bottom_text_1kFLe"]')
            t = False
        except:
            t = True
            WebDriverWait(browser, 15).until(
                EC.presence_of_element_located((By.XPATH, '//div[@class="vue-recycle-scroller__item-wrapper"]')))
            pagecomment = browser.find_elements(By.XPATH, '//div[@class="vue-recycle-scroller__item-view"]')
            for i in pagecomment:
                comment = i.text.split("\n")
                if comment in text:
                    continue
                else:
                    print(comment)
                    text.append(comment)
        sleep(0.1)
        changepage(600)

最后爬取内容和评论的总的代码如下：

from selenium import webdriver
from time import sleep
import json
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

text = []
hrefs = []

# 打开浏览器，进入到微博登录页面
def browser_initial():
    browser = webdriver.Chrome()
    browser.maximize_window()
    browser.get('https://weibo.com/login.php')
    return browser


# 将已经登录获得的cookie写入，实现自动登录
def log_csdn(browser):
    with open('微博_cookies.txt', 'r', encoding='utf8') as f:
        listCookies = json.loads(f.read())

    # 往browser里添加cookies
    for cookie in listCookies:
        cookie_dict = {
            'domain': '.weibo.com',
            'name': cookie.get('name'),
            'value': cookie.get('value'),
            "expires": '',
            'path': '/',
            'httpOnly': False,
            'HostOnly': False,
            'Secure': False
        }
        #print(cookie_dict)
        browser.add_cookie(cookie_dict)
    sleep(1)
    browser.get('https://weibo.com/login.php')
    #print(browser.get_cookies())
    #browser.refresh()  # 刷新网页,cookies才成功

# 搜索内容
def search(username):
    # 等待元素出现再进行下一步
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "woo-pop-ctrl")))
    # 获取搜索框元素
    searchinput = browser.find_element(By.CLASS_NAME, 'woo-input-main')
    # 将要搜索的内容写入搜索框
    searchinput.send_keys(username)
    # 等待0.5秒后按回车
    sleep(0.2)
    searchinput.send_keys(Keys.ENTER)
    # 转移句柄到新的页面
    new_window = browser.window_handles[-1]
    # 关闭原来的页面
    browser.close()
    # 窗口转移到新的页面
    browser.switch_to.window(new_window)
    # 等待
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "card-wrap")))
    # 定位用户微博头像并点击
    weibo = browser.find_element(By.XPATH, '//div[@class="card card-user-b s-brt1 card-user-b-padding"]/div/a')
    weibo.click()
    new_window = browser.window_handles[-1]
    browser.switch_to.window(new_window)
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "vue-recycle-scroller__item-view")))

    # 微博一次最多给12条内容的元素，并且给出的元素不保证顺序。
    # 所以第一次进入页面的时候获取所有的内容元素，a标签里的href唯一，所以将其提取出来
    for t in range(3):
        a = browser.find_elements(By.XPATH, '//div[@class="woo-box-item-flex head_main_3DRDm"]/div/div[2]/a')
        # 在获取到的列表里进行筛选，已经爬取过的微博就跳过
        for i in range(len(a)):
            if a[i].get_attribute("href") in hrefs:
                print("已经搜索过")
                continue
            else:
                print("还没搜索过")
                # 每次都向下滑动400像素，大致符合一条微博的高度
                changepage(400)
                # sleep(0.5)
                newpage = a[i].get_attribute("href")
                # 打印href
                print(newpage)
                hrefs.append(newpage)
                # print(comments)
                # 打印已经搜索的微博内容数
                print(len(hrefs))
                # 使用js脚本来点击元素，否则可能出现元素不在网页上，无法交互的报错
                # a[i].click()
                browser.execute_script("arguments[0].click();", a[i])
                # 不要直接用href去请求，否则点击返回的时候会直接回到微博首页面
                # browser.get(newpage)
                sleep(0.5)
                # 爬取具体内容页面的内容和评论
                findall()
                sleep(0.2)
                # 找到返回按钮并点击
                WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.XPATH,
                                            '//div[@class="woo-box-flex woo-box-alignCenter Bar_left_2J3kl Bar_hand_2VAG1"]/i')))
                back = browser.find_element(By.XPATH,
                                            '//div[@class="woo-box-flex woo-box-alignCenter Bar_left_2J3kl Bar_hand_2VAG1"]/i')
                back.click()

# 将页面向下滑动px像素
def changepage(px):
    browser.execute_script("window.scrollBy(0, {})".format(px))

# 爬取微博的内容和评论
def findall():
    # 等待页面元素加载
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "Feed_body_3R0rO")))
    body = browser.find_element(By.CLASS_NAME, 'Feed_body_3R0rO')
    # 通过换行来划分内容
    bodytext = body.text.split("\n")
    print(bodytext)
    # 找到转发评论点赞的元素，但是如果有微博内容为转发他人的微博，则存在两个footer元素，
    # 所以寻找多个，然后取最后那一个
    footer = browser.find_elements(By.TAG_NAME, 'footer')
    footertext = footer[-1].text.split("\n")
    print(footertext[1])
    WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "Detail_box_3Jeom")))
    try:
        prompt = browser.find_element(By.CLASS_NAME, "RepostCommentList_tip_2O5W-")
        print(prompt.text)
        t = False
    except:
        t = True
    print(t)
    while t:
        try:
            browser.find_element(By.XPATH, '//div[@class="Bottom_text_1kFLe"]')
            t = False
        except:
            t = True
            WebDriverWait(browser, 15).until(
                EC.presence_of_element_located((By.XPATH, '//div[@class="vue-recycle-scroller__item-wrapper"]')))
            pagecomment = browser.find_elements(By.XPATH, '//div[@class="vue-recycle-scroller__item-view"]')
            for i in pagecomment:
                comment = i.text.split("\n")
                if comment in text:
                    continue
                else:
                    print(comment)
                    text.append(comment)
        sleep(0.1)
        changepage(600)

if __name__ == "__main__":
    # 打开浏览器进入微博登录页面
    browser = browser_initial()
    # 使用cookie登录微博
    log_csdn(browser)
    # 爬取相关用户的评论
    search("杭州地铁")

里面的数据处理还没做，大家可以自己打印出来后根据自己的需要进行处理。

人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
生成式AI+安全：API防护的“进化革命”——从被动防御到智能对抗的技术跃迁数信云 DCloud 人工智能安全 ai
在生成式AI重塑数字世界的今天，API作为数据流动的“数字血管”，其安全性已成为企业生死存亡的关键。行业数据显示，2025年全球77%的企业将深度整合生成式AI技术，承载着75%互联网流量的API体系，正驱动着超2000亿美元的数字经济浪潮。然而，这场技术革命也催生了新型威胁：攻击者利用生成式AI自动化构造恶意请求，绕过传统规则引擎；大模型API的滥用导致算力耗尽与数据泄露；甚至AI生成的代码漏洞
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
如何做好兼容性测试测试工具
要做好兼容性测试，需要关注环境搭建、设备多样性、测试工具选择、问题追溯等重要环节，其中对环境搭建尤为关键。本质上，兼容性测试就是在各种不同的操作系统、硬件设备与网络环境中进行应用或系统的功能验证，以确保最终产品无论在何种环境下都能稳定运行。尤其是在环境搭建方面，建议采用虚拟机、真实设备与云端环境相结合的方式进行多维度测试，为后续的深度测试奠定扎实基础。一、兼容性测试的基本概念在软件测试领域，兼容性
微服务架构中10个常用的设计模式微服务
在当今的微服务架构中，常见的十种设计模式，分别是服务发现模式、API网关模式、断路器模式、边车模式、负载均衡模式、Saga事务模式、CQRS模式、分片模式、分布式日志跟踪模式、熔断与降级模式。其中，服务发现模式十分关键，通过自动化发现和定位服务，减少人工配置带来的不确定性，让系统可扩展性与高可用性得以更好地保障。同时，这一模式还能有效降低运维难度，在服务数量急剧增加的情况下依然保持灵活管理，提高线
2024年一文1800字从0到1使用Python Flask实战构建Web应用(1) 2401_84564025 程序员 python flask 前端
现在我也找了很多测试的朋友，做了一个分享技术的交流群，共享了很多我们收集的技术文档和视频教程。如果你不想再体验自学时找不到资源，没人解答问题，坚持几天便放弃的感受可以加入我们一起交流。而且还有很多在自动化，性能，安全，测试开发等等方面有一定建树的技术大牛分享他们的经验，还会分享很多直播讲座和技术沙龙可以免费学习！划重点！开源的！！！qq群号：110685036第三部分：运行Flask应用在app.
OpenStack Heat模板实战：快速创建用户、容器、网络与云主机类型冯·诺依曼的 openstack 网络 ssh 运维云计算
Heat是OpenStack中的编排服务，通过YAML模板自动化资源管理。本文通过4个实战案例，详解如何用Heat模板创建用户体系、Swift容器、网络资源及云主机类型。一、创建用户、Domain、租户及用户绑定目标：在chinaskillsDomain下创建beijing_group租户，并创建用户cloud。#user_create.ymlheat_template_version:2016-
Python在股票数据分析中的应用有哪些？如何用Python获取股票数据并进行可视化财云量化 python炒股自动化量化交易程序化交易 python python股票数据分析数据获取可视化股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
open-webui使用searXNG插件连接自定义的联网搜索服务程序 chinayeren 教程 python ai llama chatgpt
项目背景因为国内无法访问内置的一些免费搜索插件，安装完searXNG本地服务端后根据教程中连接始终无法连接，docker方案国内也无法使用的情况下，本地使用python写一个Flask服务程序使用爬虫技术提供联网搜索数据。下面是实现代码V1#!/usr/bin/python3#_*_coding:utf-8_*_##Copyright(C)2025-2025#@Title:这是一个模拟searXN
HarmonyOS Next ohpm-repo自动化运维——日志、备份与监控 harmonyos
在HarmonyOSNext开发过程中，ohpm-repo作为私有仓库管理工具，其稳定运行对于项目的顺利推进至关重要。有效的自动化运维是保障ohpm-repo高效运行的关键，涵盖日志管理、仓库备份与恢复以及批量操作等多个方面。接下来，我们详细探讨这些自动化运维能力。如何管理ohpm-repo的日志？ohpm-repo有一个内置的日志记录器，定义了四种日志类型，分别是访问日志（access.log）
GitHub图床 Thinking_calculus Linux github
GitHub之图床github当图床使用的方法了解了，最简单的、安全的方式是创建一个私有库，通过发起issue的方式把想要保存的图片放在issue区title中可以添加便于记忆的字段，虽然大概率以后不会用到，但如果需要时可以使用爬虫爬取issue保存下来，也便于查找之前还有些照片以仓库的形式同步在这个仓库中，但取url这个过程十分麻烦，不过如果是用于储存大量照片的话，使用仓库同步的方式可能不会差,
【step by step】Easyi3C Host I3C/I2C adapter (8) Scott.W 嵌入式硬件 python 功能测试
Easyi3C是一家领先的嵌入式系统工具供应商，可简化各种通信协议的开发和调试。公司提供一系列产品，旨在帮助工程师和开发人员更高效地使用I3C/I2C、USB和MIPI、JEDEC、MCTP等协议。Easyi3C提供PythonAPI。用户可以使用Python脚本对Easyi3C进行编程和控制，通过I2C或I3C协议访问从设备。API的使用，适合用户搭建更加复杂的测试环境，对提高自动化测试程度会有
探秘C# .NET Core Health Checks：从零打造全方位应用健康监测系统——实战代码解析与深度注释墨瑾轩一起学学C#【一】c#.netcore 开发语言
在C#中，.NETCoreHealthChecks提供了一种标准化的方式来监控应用程序及其依赖项的运行状态。这种健康检查机制允许开发人员轻松地集成各种自定义检查，确保系统的健康状况，并通过HTTP接口对外暴露检查结果，便于监控工具或服务发现组件进行自动化监控。以下我们将详细阐述如何在.NETCore中实现健康检查，并附带代码示例及详尽注释。1.安装HealthChecksNuGet包首先，需要在项
2025年：AI将编写99%的代码？OpenAI高管宣告编程革命的临界点东方佑量子变法人工智能机器学习（深度学习）人工智能
引言：AI编程的「奇点」已至「2025年底，99%的编码将实现AI自动化」——这并非科幻电影的桥段，而是OpenAI首席产品官KevinWeil在近期采访中掷出的惊世预言。他断言，今年将是AI在编程领域永久超越人类的拐点，一场由AI驱动的开发革命正在席卷全球。一、OpenAI的激进预测：AI编程的「军备竞赛」1.1从GPT-3到o1：AI能力的指数级跃升GPT-3时代：仅能完成简单代码（如按钮功能
HarmonyOS Next ohpm-repo 自动化运维——批量管理与数据迁移 SameX-4869 运维 harmonyos 自动化
在企业级HarmonyOSNext开发中，ohpm-repo私有仓库的自动化运维是提升开发效率、保障项目稳定运行的关键。通过实现批量管理和数据迁移等功能，可以极大地提高运维效率，降低人工操作成本。下面我们就来详细探讨如何实现这些自动化运维目标。如何导出与迁移已有仓库数据？使用ohpm-repoexport_pkginfo导出已上架的包信息ohpm-repo提供了export_pkginfo命令，可
Python常用数据结构我真的不会做啊 python 数据结构开发语言
背景：最近在学习自动化测试，发现基本是用python写的脚本就顺带好好学一学python，准备以后也深入学习一下今天简单的介绍一下python里面常用的数据结构吧Python数据结构原生数据结构原生数据结构元组Tuple()tup1=('Python','Java',1,2)tup2=(9527,)注意：1、使用()、tuple()创建元组，元组可以为空且元素类型可以不同；2、若元组中仅包含一个数
使用python3批量查询ip9000.txt的9000端口标题 longerxin2020 Linux 脚本集合 python 开发语言
fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsfromselenium.common.exceptionsimportWebDriverException#配置chromium浏览器选项options=Options()options.binary_location="/usr/bin/ch
DeepSeek 与云原生后端：AI 赋能现代应用架构一ge科研小菜菜后端人工智能后端
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在当今快速发展的互联网时代，云原生（CloudNative）架构已成为后端开发的主流趋势。云原生后端的核心目标是利用云计算的弹性、可扩展性和高可用性，为现代应用提供稳定可靠的后端支持。而人工智能（AI）技术的发展，使得智能化成为云原生后端的新趋势。DeepSeek作为新一代AI技术，在云原生后端的自动化运维、智能资源调度、安全增强和高效数
python_学习爬虫遇到的第一个问题_urllib获取baidu首页源代码 KJDETL python_爬虫 python 学习爬虫
第一天学习爬虫，学习的是urllib的基本用法，通过urllib.request获取baidu首页源代码。#导入urllib所需要的库importurllib.request#左边自定义名称，右边是要访问的地址url='https://www.baidu.com/Index.htm'#左边自定义名称可以叫做响应，右边是通过urllib.request.urlopen方法向url发出请求respon
软件测试工程师面试题（含答案）美团程序员自动化测试软件测试软件测试面试软件测试软件测试面试面试职场和发展
面试题列表1、自我介绍，涉及工作经历答：基本信息+擅长测试方向+个人突出亮点+以往工作经历等等。2、在公司中测试的流程是什么答：测试流程：需求评审>测试计划>测试计划>测试方案>编写用例>执行用例>回归测试>提交缺陷报告>提交测试报告3、举例一个项目，在项目中做了什么答：可以聊聊做了性能、自动化、工具开发，测试平台开发、功能等自己擅长的地方。4、如何提升测试效率，如何保障测试质量答：测试人员应该从
在使用selenium进行爬虫时， add_experimental_optio(),add_argument()的用法数据牧马人 selenium 爬虫测试工具
driver.add_experimental_option('excludeSwitches',['enable-automation'])是在使用SeleniumWebDriver与浏览器交互时设置的一行代码。这行代码用于禁用浏览器中的自动化检测。具体来说，当你在使用SeleniumWebDriver与浏览器交互时，有些浏览器（例如GoogleChrome）可能会检测到自动化行为（例如，通过检
Python 赋能经济趋势与股票研究：数据驱动的投资洞察 Small踢倒coffee_氕氘氚笔记经验分享
在当今数据爆炸的时代，Python凭借其强大的数据处理能力和丰富的开源库，已成为经济趋势分析和股票研究的利器。本文将探讨如何利用Python进行以下方面的研究：**一、数据获取与清洗*****数据来源:*****财经数据API:**Tushare、AKShare、YahooFinance、AlphaVantage等提供丰富的股票、基金、宏观经济等数据。***网络爬虫:**使用BeautifulSo
GitHub一周热门ai项目 2025.3.17 BillyXie23 AI探索 ai 人工智能
项目1：Significant-Gravitas/AutoGPT地址:significant-gravitas.github.com/AutoGPT描述:AutoGPT致力于为所有人提供可访问的AI工具，让用户专注于重要事务。Stars:173,449推荐理由:适合想要探索自动化AI应用的开发者，支持自定义扩展，开源生态强大，适合构建智能助手、自动化流程等场景。项目2：AUTOMATIC1111/
突破反爬终极指南：如何用Python实现100%隐形数据抓取（附实战代码）煜bart 机器人人工智能 web3.py
引言：当爬虫遭遇铜墙铁壁2023年Q2最新统计显示，全球Top100网站中89%部署了AI驱动的反爬系统，传统爬虫存活率暴跌至17%。本文将揭秘一套基于深度伪装技术的爬虫方案，在最近三个月实测中保持100%成功率，成功突破Cloudflare、Distil等顶级防护系统。---###一、指纹伪装：让爬虫"隐身"的核心科技####1.1浏览器指纹深度克隆（代码实现）```pythonfromsele
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
如何利用 AI 技术快速定位和修复生产环境问题 pytorch人工智能
摘要生产环境的问题往往难以复现，排查成本高，直接影响用户体验。传统的日志分析、异常监控、APM（应用性能监控）等方法已经被广泛使用，但随着AI技术的发展，我们可以进一步自动化问题检测、智能日志分析、异常根因分析，极大提高生产问题的排查效率。本文将探讨如何利用AI技术优化生产环境的排查流程，并提供实际可运行的示例代码，帮助开发者掌握AI赋能下的智能问题诊断方法。引言生产环境的稳定性是衡量一个系统可靠
Python爬虫实战教程——如何爬取多个国家的实时汇率数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 chrome 信息可视化
1.引言随着全球经济一体化，跨国交易和投资变得越来越普遍，实时汇率数据成为了金融领域和国际贸易中的关键数据。对于金融分析师、投资者或者是开发者来说，能够实时获取并分析汇率数据是至关重要的。本文将深入探讨如何使用Python爬虫技术抓取多个国家的实时汇率数据。我们将使用最新的技术和工具，介绍如何通过Python编写一个高效、可扩展的汇率数据爬虫。2.为什么需要实时汇率数据？汇率数据被广泛应用于以下几
漫画算法python篇pdf_用Python抓取漫画并制作mobi格式电子书 jian bao 漫画算法python篇pdf
想看某一部漫画，但是用手机看感觉屏幕太小，用电脑看吧有太不方面。正好有一部Kindle，决定写一个爬虫把漫画爬取下来，然后制作成mobi格式的电子书放到kindle里面看。本人对于Python学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习Python。欢迎各位到来Python学习群：943752371一起讨论视频分享学习。Python是未来的发展方向，正在挑战我们的分析能力
go python 比较 devops_5 大 DevOps 工具，你用过几个？ weixin_39692271 go python 比较 devops
DevOps的概念在软件开发行业中逐渐流行起来。越来越多的团队希望实现产品的敏捷开发，DevOps使一切成为可能。有了DevOps，团队可以定期发布代码、自动化部署、并将持续集成/持续交付作为发布过程的一部分。虽然DevOps背后有各种各样的概念，但幸好有一些工具可以让你更容易地理解和实现。在本文中，你将了解这些工具，并将它们作为软件发布/维护工具包工作的一部分开始使用。DevOps有很多可使用的
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

使用selenium自动化工具爬取微博内容和评论

你可能感兴趣的:(爬虫,selenium,自动化,测试工具,爬虫,新浪微博)