伊滴小朋友

编程实战（1）——爬取牛客ACM编程题信息

编程实战（1）——爬取牛客ACM编程题信息

文章目录

编程实战（1）——爬取牛客ACM编程题信息
- - 简述
  - 网页分析
  - 代码解释
  - - 信息头和存储结构
    - 获取题号列表
    - 题目号、限制信息、题目标题
    - 题目描述
    - 奇怪字符串的处理
    - 输入输出样例
    - 标签、难度
    - 转json文件输出
  - 源码

简述

最近做项目需要把ACM牛客网的编程题里面的信息爬出来然后进行分析。需要爬取的数据有：题目号（NC开头）、标题名、难度、知识点、题目描述信息、限制信息和输入输出样例等；

运行环境：Anaconda python 3.8；
爬虫库是BeautifulSoup+requests，安装教程可以自行参考相关博客；
爬取的基网址：https://ac.nowcoder.com/acm/problem/list（不是牛客首页，因为首页里面的编程题比较少，所以当时为了追求题目量选择直接爬acm里面的题库）

网页分析

首先登录基网址（没有账号的一定要注册一个账号，因为查看题目详细信息需要用户登录的状态），可以看到题目列表。

往下翻会有分页，一共有两万多页，咱们也要不了那么多题目，所以只爬大概三十页这也就可以了。

点击不同的页面，他的url会变成这样的格式：https://ac.nowcoder.com/acm/problem/list?keyword=&tagId=&platformTagId=0&sourceTagId=0&difficulty=0&status=all&order=id&asc=true&pageSize=50&page= + 页号，因此我们可以用这个页号的变化来遍历不同的页。

题目列表中有每一题的题号、标题、知识点、难度信息，如果还要获取输入输出、限制和题目描述信息的话得点进去才行。我们以第一题牛牛的数列为例来讲一下原理。

这里一定要有账号登录，不然爬虫程序执行的时候网页会不给你爬！

点进去的页面是这样的，里面我们想要的各种信息（但是没有知识点标签）。然后观察一下网页的url，发现格式是：https://ac.nowcoder.com/acm/problem/ + 题目数字编号。

因此，我们可以利用这两种url的固定格式来完成大量的遍历爬取，具体思路是：

遍历每一页，爬取每一页所有题目的题号、难度、标签（因为详情页面没有标签信息和难度），将题号存成一个列表numlist；
利用这一页爬好的题号列表numlist，遍历之，把题号跟https://ac.nowcoder.com/acm/problem/ 拼接，进入每个详情页面，爬取其他详细信息；
把所有的信息整理输出；

for i in 页面范围：
	#爬取每一页的所有题号列表numlist
    for j in numlist:
        #根据每个题号进入对应详情页面，爬取信息
        #存储

接下来是代码部分。

代码解释

这一部分涉及到的元素属性名选择器的地方请对照网页F12的元素栏来参考；

信息头和存储结构

    url = "https://ac.nowcoder.com/acm/problem/list?		keyword=&tagId=&platformTagId=0&sourceTagId=0&difficulty=0&status=all&order=id&asc=true&pageSize=50&page=" + str(page)
    
    headers = {
        "User-Agent": '你的user agent',
        "Cookie": '你的cookie'
    }

这两个参数的获取方式简单提一下步骤：

在已经登录的页面上右键->检查、在菜单栏种找到“网络”，然后按ctrl+R，选择列表中第一个（一般名字是题号）；
在右边那一栏中找到cookie和user agent，copy下来即可；

图例（user agent同理）：

存储结构方面，我是用了简单粗暴的方法：先每个属性搞了一个列表，遍历的时候一个个添加，也可以用其他的方法。

QNum = []
QTitle = []
QDifficulty = []
QContent = []
QTag = []
QTimeLimit = []
QSpaceLimit = []
QInput = []
QOutput = []

获取题号列表

	response = requests.get(url, headers=headers) #获取请求
    BasicSoup = BeautifulSoup(response.content, 'lxml') #用bs4爬取list全部的页面元素

    tablelist = BasicSoup.find_all(name="table", attrs={"class": "no-border"})[0].find_all(name="tr")[1:] #根据属性class、属性名为no-border来寻找符合条件的table元素，然后获取除去表头之外所有的tr元素
    numlist = [] #存储题号的列表
    
    for i in tablelist:
        item = i.attrs['data-problemid'] #获取所有tr元素的data-problemid属性值
        numlist.append(item) #添加属性

题目号、限制信息、题目标题

    urls = 'https://ac.nowcoder.com/acm/problem/' + i #每个详情页面的url

    responses = requests.get(urls, headers=headers)
    content = responses.content
    soup = BeautifulSoup(content, 'lxml') #得到所有元素的html文档

    QTitle.append(soup.find_all(name="div", attrs={"class": "question-title"})[0].text.strip("\n"))#获取标题

    mainContent = soup.find_all(name="div", attrs={"class": "terminal-topic"})[0]#找到主体部分

    div = mainContent.find_all(name="div", attrs={"class": "subject-item-wrap"})[0].find_all("span")#找到题号、限制信息所在的div
    
    num = div[0].text.strip("题号：") #其实前面已经爬过了一次了。。
    QNum.append(num)
    QTimeLimit.append(div[1].text.strip("时间限制："))
    QSpaceLimit.append(div[2].text.strip("空间限制："))#获取信息

题目描述

    div1 = mainContent.find_all(name="div", attrs={"class": "subject-question"})[0]#题目描述
    div2 = mainContent.find_all(name="pre")[0]#输入描述
    div3 = mainContent.find_all(name="pre")[1]#输出描述

    descriptDict = {"题目描述：": divTextProcess(div1), "输入描述：": divTextProcess(div2), "输出描述：": divTextProcess(div3)}#这三个信息都属于题目描述，弄成一个字典
    QContent.append(descriptDict)#把字典存到题目描述列表中

奇怪字符串的处理

def divTextProcess(div):

    strBuffer = div.get_text()    #获取文本

    strBuffer = strBuffer.replace("{", " $").replace("}", "$ ")    #替换公式标记

    strBuffer = strBuffer.replace("  ", "")    #去除多个空格

    strBuffer = strBuffer.replace("\n\n\n", "\n")    #去除多个换行符

    strBuffer = strBuffer.replace("\xa0", "")    #去除内容中用\xa0表示的空格

    strBuffer = strBuffer.strip()    #去除首位空格

    return strBuffer

输入输出样例

	div4 = mainContent.find_all(name="div", attrs={"class": "question-oi-cont"})[0]
    div5 = mainContent.find_all(name="div", attrs={"class": "question-oi-cont"})[1]
    QInput.append(divTextProcess(div4))
    QOutput.append(divTextProcess(div5))

标签、难度

这里因为是开始爬了才发现标签不在详细页面里面，所以必须返回到对应的list页面中爬，逻辑有点点乱。。。。

	response = requests.get(url, headers=headers)
    BasicSoup = BeautifulSoup(response.content, 'lxml')#返回list页面

    diff = BasicSoup.find_all(name="tr", attrs={"data-problemid": i})[0].find_all(name="td")[3].text.strip("\n")
    QDifficulty.append(diff)#获取难度信息

    problem = BasicSoup.find_all(name="tr", attrs={"data-problemid": i})[0].find_all(name="a", attrs={
        "class": "tag-label js-tag"})
    tag = "" #由于一道题目的标签可能不止一个，因此为了后续的格式化，做一下字符串处理
    count = 0 #指针，如果是第一个标签就不要在前面加逗号
    for i in problem:
        if count == 0:
            tag = tag + i.text
        else:
            tag = tag + "," + i.text
            count = count + 1
    QTag.append(tag)#获取标签信息

转json文件输出

result = {}#python里面的json库必须要字典型数据

for i in range(len(QNum)):#存储
    message = {}
    message.update({"questionNum": QNum[i]})
    message.update({"questionTitle": QTitle[i]})
    message.update({"difficulty": QDifficulty[i]})
    message.update({"content": QContent[i]})
    message.update({"PositiveTags": QTag[i]})
    message.update({"TimeLimit": QTimeLimit[i]})
    message.update({"SpaceLimit": QSpaceLimit[i]})
    message.update({"Input": QInput[i]})
    message.update({"Output": QOutput[i]})
    result.update({str(i+1): message})

with open("文件名.json","w",encoding="UTF-8") as f:
    json.dump(result, f, ensure_ascii=False) #输出文件

源码

import json
import requests
from bs4 import BeautifulSoup


def divTextProcess(div):

    strBuffer = div.get_text()    #获取文本

    strBuffer = strBuffer.replace("{", " $").replace("}", "$ ")    #替换公式标记

    strBuffer = strBuffer.replace("  ", "")    #去除多个空格

    strBuffer = strBuffer.replace("\n\n\n", "\n")    #去除多个换行符

    strBuffer = strBuffer.replace("\xa0", "")    #去除内容中用\xa0表示的空格

    strBuffer = strBuffer.strip()    #去除首位空格

    return strBuffer


QNum = []
QTitle = []
QDifficulty = []
QContent = []
QTag = []
QTimeLimit = []
QSpaceLimit = []
QInput = []
QOutput = []

for page in range(1, 36):
    print("page " + str(page) + " begin----------------------------")
    url = "https://ac.nowcoder.com/acm/problem/list?keyword=&tagId=&platformTagId=0&sourceTagId=0&difficulty=0&status=all&order=id&asc=true&pageSize=50&page=" + str(
        page)
    headers = {
        "User-Agent": '你的user agent',
        "Cookie": '你的cookie'
    }
    response = requests.get(url, headers=headers)
    BasicSoup = BeautifulSoup(response.content, 'lxml')

    tablelist = BasicSoup.find_all(name="table", attrs={"class": "no-border"})[0].find_all(name="tr")[1:]
    numlist = []
    for i in tablelist:
        item = i.attrs['data-problemid']
        numlist.append(item)

    for i in numlist:

        urls = 'https://ac.nowcoder.com/acm/problem/' + i
        headers = {
            "User-Agent": '你的user agent',
            "Cookie": '你的cookie'
        }

        responses = requests.get(urls, headers=headers)
        content = responses.content
        soup = BeautifulSoup(content, 'lxml')

        QTitle.append(soup.find_all(name="div", attrs={"class": "question-title"})[0].text.strip("\n"))

        mainContent = soup.find_all(name="div", attrs={"class": "terminal-topic"})[0]

        div = mainContent.find_all(name="div", attrs={"class": "subject-item-wrap"})[0].find_all("span")
        num = div[0].text.strip("题号：")
        QNum.append(num)
        QTimeLimit.append(div[1].text.strip("时间限制："))
        QSpaceLimit.append(div[2].text.strip("空间限制："))

        div1 = mainContent.find_all(name="div", attrs={"class": "subject-question"})[0]
        div2 = mainContent.find_all(name="pre")[0]
        div3 = mainContent.find_all(name="pre")[1]
        descriptDict = {"题目描述：": divTextProcess(div1), "输入描述：": divTextProcess(div2), "输出描述：": divTextProcess(div3)}
        QContent.append(descriptDict)

        div4 = mainContent.find_all(name="div", attrs={"class": "question-oi-cont"})[0]
        div5 = mainContent.find_all(name="div", attrs={"class": "question-oi-cont"})[1]
        QInput.append(divTextProcess(div4))
        QOutput.append(divTextProcess(div5))

        response = requests.get(url, headers=headers)
        BasicSoup = BeautifulSoup(response.content, 'lxml')

        diff = BasicSoup.find_all(name="tr", attrs={"data-problemid": i})[0].find_all(name="td")[3].text.strip("\n")
        QDifficulty.append(diff)

        problem = BasicSoup.find_all(name="tr", attrs={"data-problemid": i})[0].find_all(name="a", attrs={
            "class": "tag-label js-tag"})
        tag = ""
        count = 0
        for i in problem:
            if count == 0:
                tag = tag + i.text
            else:
                tag = tag + "," + i.text
            count = count + 1
        QTag.append(tag)

        print("-----------------" + str(num) + "  finished-----------------")
    print("page " + str(page) + " finished----------------------------\n")

# print(QNum)
# print(QTitle)
# print(QTag)
# print(QContent)
# print(QDifficulty)
# print(QInput)
# print(QOutput)
# print(QSpaceLimit)
# print(QTimeLimit)

result = {}

for i in range(len(QNum)):
    message = {}
    message.update({"questionNum": QNum[i]})
    message.update({"questionTitle": QTitle[i]})
    message.update({"difficulty": QDifficulty[i]})
    message.update({"content": QContent[i]})
    message.update({"PositiveTags": QTag[i]})
    message.update({"TimeLimit": QTimeLimit[i]})
    message.update({"SpaceLimit": QSpaceLimit[i]})
    message.update({"Input": QInput[i]})
    message.update({"Output": QOutput[i]})
    result.update({str(i+1): message})

# for item in result.items():
#     print(item)

with open("NiuKeACM.json","w",encoding="UTF-8") as f:
    json.dump(result, f, ensure_ascii=False)

你可能感兴趣的:(爬虫,python,机器学习,爬虫,python,机器学习)

python设置国内源 twilightdream python
mkdir.pipcd.piptouchpip.confnanopip.conf贴上[global]trusted-host=mirrors.aliyun.comindex-url=http://mirrors.aliyun.com/pypi/simple
华为OD机考 2025C卷 - 围棋的气 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD机考2025C卷华为OD2025C卷
围棋的气华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述围棋棋盘由纵横各19条线垂直相交组成，棋盘上一共19x19=361个交点，对弈双方一方执白棋，一方执黑棋，落子时只能将棋子置于交点上。“气”是围棋中很重要的一个概念，某个棋子有几口气，是指其上下左右方向四个相邻的交叉点中，有几个交叉点没有棋子，由此可知：在棋
华为OD机考 2025C卷 - 对称美学 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
对称美学华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述对称就是最大的美学，现有一道关于对称字符串的美学。已知：第1个字符串：R第2个字符串：BR第3个字符串：RBBR第4个字符串：BRRBRBBR第5个字符串：RBBRBRRBBRRBRBBR相信你已经发现规律了，没错！就是第i个字符串=第i-1号字符串取反+第
华为OD机试 2025 B卷 - We are a Team (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
WeareaTeam华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：消息构成为abc，整数a、b分别代表两个人的标号，整数c代表指令c==0代表a和b在一个团队内c==1
Python中if-else判断语句、while循环语句以及for循环语句的使用总结 bentou_
1.if-esle流程判断语句我们来直接看一个例子，如下，判断我们定义的用户名和用户输入的用户名是否一致。代码当中有几个注意点：判断的时候用双等号表示判断是否一致（三个等号表示赋值）你有没有注意到这里不是用的大括号而是用的冒号！python3对父级和子级的写法是极为严格的，就像这里的if跟else，都是父级，需要顶格写；下面的两个子级（print那里）就需要缩进一个tab。_username="b
Python库安装国内源奔跑的石头_ python python AI编程
关注公众号“码字读书会”，了解最新消息。Python国内源包括企业和高校机构打不得开源软件包资源。著名的有阿里云、华为云、清华。个人常用的有清华源临时使用命令如下：pipinstall-ittps://pypi.tuna.tsinghua.edu.cn/simple包名
Python从入门到荒废-配置国内下载源 zrhsmile Python python
为提升Python包安装速度，配置国内下载源是常见需求。以下是主流方法汇总，结合稳定性和易用性推荐：一、pip永久配置国内源（推荐）通过修改配置文件实现“一次配置，长期生效”：创建/修改配置文件Windows：路径：%APPDATA%\pip\pip.ini（如C:\Users\用户名\AppData\Roaming\pip\pip.ini）内容：[global]index-url=https:/
《精雕细琢 Python 对象：深入理解 __slots__ 的性能魔法与实战应用》
《精雕细琢Python对象：深入理解slots的性能魔法与实战应用》引言：探索Python的对象管理机制在Python中，一切皆对象。然而，每一个对象背后都隐藏着复杂的运行机制。尤其在类设计中，我们往往忽略了对象属性的存储方式。今天，我们将深入剖析一个常被高级开发者使用的“利器”——__slots__，它能有效减少内存占用、提升性能，但也伴随着一些权衡和陷阱。本文旨在回答三个核心问题：__slot
LeetCode第337题_打家劫舍III @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习
LeetCode第337题：打家劫舍III文章摘要本文详细解析LeetCode第337题"打家劫舍III"，这是一道中等难度的二叉树动态规划问题。文章提供了基于深度优先搜索和动态规划的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升二叉树和动态规划能力的程序员。核心知识点：二叉树、动态规划、深度优先搜索难度等级：中等推荐人群：具有基础数据结构知识，想要提
爬虫基础理论总结 qianxun0921
一、什么是爬虫爬虫：又称网页蜘蛛,网络机器人，从互联网上自动抓取数据的程序，通俗地讲，就是可以爬取浏览器中看得到的数据二、爬虫的基本流程1、分析网站，得到目标url2、根据url，发起请求，获取页面的HTML源码3、从页面源码中提取数据：a、提取到目标数据，做数据的筛选和持久化存储b、从页面中提取新的url地址，继续执行第二步操作4、爬虫结束：所有的目标url都提取完毕，并且得到数据了，再也没有其
python：numpy分享（保姆级教程）苏苏susuus python numpy 开发语言
目录一、概念二、相关属性三、ndarray及其实例创建（一）ndarray介绍（二）zeros（）、ones（）、empty（）函数（三）**arange(),**类似python的range()，创建一个一维ndarray数组。（四）**matrix()**,是ndarray的子类，只能生成2维的矩阵（五）rand（）、randn（）、randint（）、uniform（）（都是numpy.ra
Gin框架路由 TZX_0710
介绍Gin是一个golang的微框架，封装比较优雅，API友好，源码注释比较明确，具有快速灵活，容错方便等特点对于golang而言，web框架的依赖要远比Python，Java之类的要小。自身的net/http足够简单，性能也非常不错借助框架开发，不仅可以省去很多常用的封装带来的时间，也有助于团队的编码风格和形成规范安装1.安装Gingoget-ugithub.com/gin-gonic/gin2
学习日志15 python im_AMBER 学习 python
1filter()函数filter(function,iterable)filter函数是python中的高阶函数,第一个参数是一个筛选函数,第二个参数是一个可迭代对象,返回的是一个生成器类型,可以通过next获取值。filter()函数是Python内置的高阶函数，其主要功能是对可迭代对象中的每个元素运用筛选函数进行判断，然后把符合条件的元素以生成器的形式返回。下面为你详细介绍它的用法和特性：基
Python爬虫热点项目之实现代理IP池（IP proxy pool）薛定谔的猫96 Python 爬虫
代理池概述代理池就是由多个稳定可用代理IP组成的池子。用来应对ip反爬，而网上的免费代理稳定可用的极少，更有甚者连收费的也不都是稳定可用。开发环境：windous，python3，sublimetext使用的主要模块：requests，lxml，pymongo，Flask完整源码请前往我的github仓库查看：https://github.com/R2h1/ProxyPool欢迎star哦！！！代
python基础练习题：超市收银系统不爱说话的分院帽 python 开发语言
这个超市收银系统包含以下功能：商品管理：支持添加和显示商品信息（ID、名称、价格、库存）购物车功能：可以添加、移除商品，查看购物车和计算总价结算功能：生成收据、处理支付、计算找零并更新库存数据模型：使用面向对象设计，包含商品、购物车和超市类系统运行后会显示菜单，用户可以通过数字选择不同操作，整个流程不需要图形界面，通过命令行交互完成购物和结算过程。importdatetimeclassProduc
Python零基础入门：魔法方法详解
一、什么是魔法方法？魔法方法（MagicMethods）是Python中一种特殊的方法，它们以双下划线(__)开头和结尾（如__init__、__str__等）。魔法方法允许你定义类在特定情况下的行为，例如初始化、字符串表示、运算符重载等。二、常见的魔法方法分类1.构造和初始化__new__(cls,[...]):创建实例时调用的第一个方法__init__(self,[...]):实例初始化方法_
Python文件与流处理：高效读写数据的艺术不爱说话的分院帽 python快速入门 python 数据库开发语言
引言作为一名程序员，我们每天都需要与文件打交道——无论是读取配置文件、处理日志文件，还是存储程序生成的数据。Python提供了强大而灵活的文件处理能力，让这些操作变得简单高效。本文将深入探讨Python中的文件与流处理，帮助你掌握这一核心技能。、一、文件操作基础1.打开文件Python使用内置的open()函数来打开文件：#基本语法file=open('example.txt','r')#打开文件
Python 计算月头月尾一本正经胡说八道的猫
一本正经胡说八道的猫#!/usr/bin/envpython#-*-coding:utf-8-*-importdatetimeimportcalendartime=datetime.date(2022,1,20)#年，月，日#求该月第一天first_day=datetime.date(time.year,time.month,1)print('该月第一天:%s'%(first_day))#求前一个
python学生成绩管理系统【完整版】，Python开发基础面试题
name=self.username.get()password=self.password.get()ifname==‘hacker707’andpassword==‘admin’:self.page.destroy()MenuPage(self.root)else:showinfo(title=‘错误’,message=‘账号或密码错误！’)db.pyimportjsonclassStuden
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Redis-py 实战指南：从安装到向量索引，Python 操作 Redis 全解析佑瞻数据库与知识图谱 redis python 数据库人工智能
在Python开发中，操作Redis数据库是很多场景下的刚需，而redis-py作为Redis官方推荐的Python客户端，更是我们绕不开的工具。但你是否在安装时踩过版本兼容的坑？是否在连接集群或配置TLS时犯过难？甚至想尝试向量索引却不知从何下手？今天我们就从基础到进阶，手把手带你玩转redis-py，让Python操作Redis变得简单又高效。一、redis-py安装：避坑指南首先，我们需要安
Python返回函数完全指南：从基础到高级应用 Python_trys python 数据库开发语言 Python教程 Python技巧 Python入门 Python基础
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】前言在Python编程中，函数不仅可以执行操作，还可以作为返回值，这种特性为编程带来了极大的灵活性和强大的表达能力。本文将全面介绍Python中的返回函数，从基础概念到高级应用场景，帮助开发者掌握这一重要特性。一、返回函数的基本概念1.1什么是返回函数？返回函数指的是一个函数可以返回另一个函数作为其结果。在Python中，函数是一等对象，可
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
AutoGen C#三步变强：比Python还野的多AI协作实战！墨瑾轩一起学学C#【四】c#python 人工智能
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣一、第一步：环境搭建——给AutoGen装上"AI乐高积木"目标：用C#搭建AutoGen基础环境，像组装乐高一样准备工具。步骤：克隆AutoGen项目：访问AutoGenGitHub仓库，克隆到本地：gitclonehttps://github.com/mi
C#进行串口应用开发如何处理串口的异常情况 openwin_top c#串口应用开发问题系列 c#开发语言串口通讯上位机
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析在C#中进行串口应用开发时，处理串口的异常情况是非常重要的。常见的串口异常包括端口不可用、数据传输错误、超时等
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
python包管理神器【uv】详解若叶. python uv 开发语言 pip virtualenv
目录1uv简介与安装1.1uv作用1.2安装方式一：github/release页下载。方式二：命令行安装(win)方式三：pypi安装确认安装成功1.3卸载2命令帮助3uv管理python版本3.1`uvpython--参数`3.2`uvpythonlist`3.3`uvpythoninstall`4uv运行单个脚本4.1`uvrun.py文件`4.2`uvinit--script`4.3`uv
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他