肥～吉～

python爬虫编程实践 Task2--Beautiful Soup库入门（实战：中国大学排名定向爬取）

Beautiful Soup库入门

1.Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。
2.它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
3. BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。
4.虽然说BeautifulSoup4 简单容易比较上手，但是匹配效率还是远远不如正则以及xpath的，一般不推荐使用，推荐正则的使用。

0 Beautiful Soup库的理解

Beautiful Soup库是解析、遍历、维护“标签树”的功能库，也叫beautifulsoup4 或 bs4。约定引用方式如下，即主要是用BeautifulSoup类。BeautifulSoup对应一个HTML/XML文档的全部内容。

from bs4 import BeautifulSoup # 导入
import bs4
soup = BeautifulSoup('data', 'html.parser' ) # 创建Beautiful Soup对象

bs4库将任何读入的HTML文件或字符串都转换成为’utf-8’编码（国际通用的标准编码格式，能够很好的支持中文等第三国语言），由于python3系列默认支持编码是’utf-8’，因此在做相关解析时使用bs库没有任何障碍。若用的python2解析器，则要无穷无尽的做相应的转换。

# bs4库编码的小例子
soup = BeautifulSoup("中文
","html.parser")
soup.p.string

print(soup.p.prettify())

1 Beautiful Soup库解析器

soup = BeautifulSoup(‘data’， ‘html.parser’)

解析器	使用方法	条件	特点
bs4 HTML解析器	BeautifulSoup(mk,‘html.parser’)	安装bs4库	Python的内置标准库,执行速度适中,文档容错能力强
lxml HTML解析器	BeautifulSoup(mk,‘lxml’)	pip install lxml	速度快,文档容错能力强
lxml XML解析器	BeautifulSoup(mk,‘xml’)	pip install lxml	速度快,唯一支持XML的解析器
html5lib解析器	BeautifulSoup(mk,‘html5lib’)	pip install html5lib	最好的容错性,以浏览器的方式解析文档,生成HTML5格式的文档,速度慢

2 Beautiful Soup库的基本元素

Beautiful Soup将复杂HTNL文档转换成一个复杂的树形结构，每个节点都是python对象，所有对象可以分为以下5种：

Tag：标签，最基本的信息组织单元，分别用<>和标明开头和结尾
Name：标签的名字，
…
的名字是’p’，格式：.name
Attributes：标签的属性，字典形式组织，格式：.attrs
NavigableString：标签内非属性字符串，<>…中字符串，格式：.string
Comment：标签内字符串的注释部分，一种特殊的Comment类型

# 导入bs4库
from bs4 import BeautifulSoup
import requests 

r = requests.get('https://python123.io/ws/demo.html') # 抓取页面（Demo网址）
demo = r.text  # 抓取的数据（网页源码）
demo

# 解析HTML页面
soup = BeautifulSoup(demo, 'html.parser')  # bs4的解析器，解析页面数据（网页源码）
# 有层次感的输出解析后的HTML页面
print(soup.prettify()) # prettify()为HTML文本<>及其内容增加更加'\n',有层次感的输出
# prettify()可用于标签，方法：.prettify()

1）Tag标签，用soup.访问获得：

任何存在于HTML语法中的标签都可以用soup.访问获得
当HTML文档中存在多个相同soup.对应内容时，soup.返回第一个

soup.a # 访问标签a
>> <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>

soup.title # 访问标签title
>> <title>This is a python demo page</title>

2）标签的name（名字）:

每个都有自己的名字，通过soup..name获取，字符串类型

soup.a.name
>> 'a'
soup.a.parent.name
>> 'p'
soup.p.parent.name
>> 'body'

标签的Attributes（属性）：

一个可以有0或多个属性，字典类型，soup..attrs

tag = soup.a
print(tag.attrs)  
print(tag.attrs['class'])
print(type(tag.attrs))
>> {'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}
>> ['py1']
>> <class 'dict'>

标签的NavigableString：

标签内非属性字符串，格式：soup..string, NavigableString可以跨越多个层次

print(soup.a.string)
print(type(soup.a.string))
>> Basic Python
>> <class 'bs4.element.NavigableString'>

5）标签的Comment：

标签内字符串的注释部分，Comment是一种特殊类型(有–>)

newsoup = BeautifulSoup("This is not a comment
","html.parser")

newsoup.b.string
>> 'This is a comment'
type(newsoup.b.string)
>> bs4.element.Comment

newsoup.p.string
>> 'This is not a comment'
type(newsoup.p.string)
>> bs4.element.NavigableString

3 基于bs4库的HTML内容遍历方法

HTML基本格式:<>…构成了所属关系，形成了标签的树形结构

1）标签树的下行遍历

属性	说明
.contents	子节点的列表，将所有儿子节点存
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup.prettify())

print(soup.contents)# 获取整个标签树的儿子节点

print(soup.body.content)#返回标签树的body标签下的节点

print(soup.head)#返回head标签

print(soup.head.contents)#返回head标签的儿子节点

for child in soup.body.children:#遍历儿子节点
    print(child)

for child in soup.body.descendants:#遍历子孙节点
    print(child)

2）标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

soup.title.parent

soup.html.parent

for parent in soup.a.parents: # 遍历所有先辈节点，包括soup本身，所以要区别判断
    if parent is None:
        print(parent)
    else:
        print(parent.name)

3）标签树的平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

print(soup.a.next_sibling)#a标签的下一个标签

print(soup.a.next_sibling.next_sibling)#a标签的下一个标签的下一个标签

print(soup.a.previous_sibling)#a标签的前一个标签

print(soup.a.previous_sibling.previous_sibling)#a标签的前一个标签的前一个标签

for sibling in soup.a.next_siblings:#遍历后续节点
    print(sibling)

4 基于bs4库的HTML内容的查找方法

# name : 对标签名称的检索字符串
soup.find_all('a')

soup.find_all(['a', 'p'])

# attrs: 对标签属性值的检索字符串，可标注属性检索
soup.find_all("p","course")

soup.find_all(id="link") # 完全匹配才能匹配到
>> []

#  recursive: 是否对子孙全部检索，默认True
soup.find_all('p',recursive=False)
>> []

# string: <>…中字符串区域的检索字符串
soup.find_all(string = "Basic Python") # 完全匹配才能匹配到
>> ['Basic Python']

5 实战：中国大学排名定向爬取

采用requests-bs4路线实现了中国大学排名定向爬虫
对中英文混排输出问题进行了优化
爬取url：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
爬取思路：
1.从网络上获取大学排名网页内容
2.提取网页内容中信息到合适的数据结构（二维数组）-排名，学校名称，总分
3.利用数据结构展示并输出结果

if isinstance(tr,bs4.element.Tag):

1.isinstance:判断一个对象是否是一个已知的类型，类似于type（）

type（）不考虑子类是父类的一种类型，不考虑继承关系
isinatance（）认为子类是父类的一种类型，考虑继承关系

2.bs4.element.Tag

bs4是包，element是模块，Tag是类名
tag是‘bs4.element.Tag’的实例对象，或者说tag的数据类型是bs4.element.Tag

# 导入库
import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)  # 获取url信息，并且设置时间
        r.raise_for_status()  # 产生异常信息
        r.encoding=r.apparent_encoding  # 修改编码
        return r.text  # 将网页的信息内容返回给程序的其他部分
    except:
        return ""

def fillUnivList(ulist,html):# 提取HTML中关键的数据并且添加一个列表中
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find("tbody").children: # 解析HTML代码中的tbody标签所在的位置，在tbody标签中找到每一所大学对应的tr标签
        if isinstance(tr,bs4.element.Tag): #检测tr标签的类型，如果类型不是bs4库定义的Tag类型则过滤掉
            tds=tr('td')  # 对tr标签中的td标签做查询，将所有的td标签存为一个列表类型tds
            ulist.append([tds[0].string,tds[1].string,tds[3].string])  #  在ulist中增加我们需要的对应字段（大学排名，大学名称，大学得分）

def printUnivList(ulist,num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"  # 生成一个输出模板的变量，主要增加中间的宽度设定，将变量的输出按照顺序来表示。
    # 把字符串宽度都定义为10，但是中文本身的宽度都不到10所以会填充西文空格（字符），就会导致字符的实际宽度长短不一，所以需要用chr(12288)增加中文空格的变量位置
    # 在1号位填充{3}的原因是：中英文全半角造成不对齐的原因产生在1号位；
    # {3}指的是我们需要对format函数的三个变量(排名，学校名称，总分)进行填充（也就是中文字符的空格填充）
    print(tplt.format("排名","学校名称","总分",chr(12288))) # 实现对表头的打印，用chr(12288)增加中文空格的变量位置
    for i in range(num):
        u=ulist[i] # 将第i个学校信息用一个简短的变量u来代替
        print(tplt.format(u[0],u[1],u[2],chr(12288))) # 将每一所学校信息打印出来。（注：为了保证输出效果，需要用跟表头相一致的字符串表示）
    
def main():
    uinfo=[]
    url='http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
    html=getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,30) # 30 univs
    
main()

若输出再添加一个“省市”变量，则fillUnivList函数和printUnivList函数里面的内容应做相应的改变，如下所示：

def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find("tbody").children: 
        if isinstance(tr,bs4.element.Tag): 
            tds=tr('td')  
            ulist.append([tds[0].string,tds[1].string,tds[3].string,tds[2].string]) 
            #  在ulist中增加我们需要的对应字段（大学排名，大学名称，总分，省份）

def printUnivList(ulist,num):
    tplt = "{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}"  
    # 添加了地区（省市），相应地作为填充不足10个字符长度的chr(12288)已经不是3了，而是4。所以，在1号位上应填充{4}
    print(tplt.format("排名","学校名称","总分","省市",chr(12288))) 
    for i in range(num):
        u=ulist[i] 
        print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))

关于Python format 输出的格式问题，总结如下：

采用.format打印输出时，可以定义输出字符串的输出宽度，在 ‘:’ 后传入一个整数, 可以保证该域至少有这么多的宽度。用于美化表格时很有用。

但是在打印多组中文的时候，不是每组中文的字符串宽度都一样，当中文字符宽度不够的时候，程序默认采用西文空格（字符）填充，中西文空格宽度不一样，就会导致输出文本不整齐。

所以，中文对齐问题的解决方法是：采用中文字符的空格填充chr(12288)

手把手构建智能体：多模态AI Agent视-语-决融合实战指南
目录一、原创架构设计：三重融合智能体系统横向对比流程图：传统AIvs多模态Agent二、企业级可运行代码实现1.跨模态融合模块2.决策生成模块3.YAML配置文件（config.yaml）三、量化性能对比四、生产级部署方案安全部署架构安全审计要点部署步骤五、技术前瞻性分析下一代多模态智能体演进方向六、附录：完整技术图谱结语：构建真正智能的决策系统本文将深入探讨多模态AIAgent的核心架构设计与实
git详解旺代前端框架 git
目录常用命令速查一、Git的概念与作用二、Git仓库（Repository）1.本地仓库2.远程仓库三、Git的三个核心区域1.工作区（WorkingDirectory）2.暂存区（StagingArea/Index）3.版本库（Repository/GitDirectory）四、文件的四种状态五、切换版本六、分支（Branch）1.分支的概念2.分支的创建与删除3.分支合并4.合并冲突七、远程仓
Java 数据类型详解：从初学者到理解底层原理超浪的晨 java合集开发语言 java 后端
作为一名Java开发工程师，你可能已经对数据类型有了一定的了解。但无论你是刚入门的新手，还是想系统回顾基础知识的老手，这篇文章都将帮助你全面、深入地掌握Java中的数据类型。一、什么是数据类型？在Java中，数据类型（DataType）决定了变量可以存储什么类型的数据，以及该变量占用多少内存空间。Java是一种静态类型语言，也就是说，在声明变量时必须指定其数据类型。Java的数据类型可以分为两大类
MySQL中查询JSON数组字段包含特定字符串的方法一勺菠萝丶 mysql json 数据库
问题背景在MySQL数据库中，当某个字段存储的是JSON数组（如["喷绘","2.6m喷绘","M喷绘","直喷","双透","气模"]），需要查询数组中包含特定字符串（如’气模’）的记录时，传统的LIKE语句无法直接使用。本文介绍两种高效的解决方案。解决方案对比1.精确匹配方案（推荐）当需要完全匹配数组中的元素时（如精确查找"气模"）：SELECT*FROMprocess_unit_prices
194、Django Channels实战：构建实时WebSocket应用多多的编程笔记 django websocket sqlite
DjangoChannels：实现WebSocket与实时通信本文将向您介绍Python开发框架Django中的一个重要组件——DjangoChannels，它使得在Django中实现WebSocket通信变得轻而易举。通过阅读本文，您将了解WebSocket的概念、DjangoChannels的工作原理以及如何在实际项目中使用它来实现实时通信。1.WebSocket：实现快速双向通信在介绍Dja
学生选课系统(11457) codercode2022 visual studio code spring boot 开发语言 matlab java laravel objective-c
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
Django Channels WebSocket实时通信实战：从聊天功能到消息推送
引言在Web开发中，实时通信功能（如在线聊天、实时通知、数据推送）已成为许多应用的核心需求。传统的HTTP协议由于其请求-响应模式的限制，无法高效实现实时通信。WebSocket作为一种全双工通信协议，为实时Web应用提供了理想的解决方案。本文将详细介绍如何使用DjangoChannels构建WebSocket应用，实现实时聊天和后端主动消息推送功能。一、技术背景1.1DjangoChannels
LK32T102学习2-GPIO
GPIO即可编程输入输出口，LK32T102有3组GPIO口，每组最多32条口线。GPIO口线可以实现很多的功能，可以说掌握了GPIO功能也就MCU编程也就基本实现了MCU的入门。GPIO功能使用要注意LTK320T的管脚是多功能的，可作为数字量管脚，也可以作为模拟量管脚。输入模式浮空输入模式输入完全由外部输入决定PU，PD都不导通上拉输入模式IO悬空时输入为高电平PU导通，PD不导通下拉输入模式
STM32开发方式及基本介绍
相关推荐STM32新建一个工程STM32的开发有三种方式1.寄存器版本2.库函数版本3.HAL库版本一、库函数开发与寄存器开发的关系很多人都是从学51单片机转而想进一步学习STM32，他们习惯了51单片机的寄存器开发方式，ST官方库摆在面前会不知道从何下手。其实简单来说，固件库就是函数的集合，固件库函数的作用是向下负责与寄存器直接打交道，向上提供用户函数调用的接口。举一个例子来解释STM32固件库
线性代数在图像处理中的应用 --- 纳尼? 2D的高斯核可以通过1D的高斯核直接生成？（秩为1的矩阵）松下J27 Linear Algebra 线性代数图像处理人工智能
二维高斯核，Rank秩等于一的矩阵之前，我在学习图像处理的时候，会经常用到Gaussianblur，也就是二维高斯低通滤波。当时用的都是Matlab中，现成的图像处理库。只需要输入sigma和kernelsize这些参数就行了，完全不需要考虑高斯核中的每个点长啥样。虽然教科书里面也会有一些配图，例如：直到后来，我学习高斯图像金字塔的时候发现，在别人的代码里面，他在生成二维高斯核的时候，并不是直接写
Flutter介绍 PyCrawlFlutter Lab Flutter开发 flutter
什么是Flutter？Flutter是一个开源的UI软件工具包，由谷歌开发，用于从单一的代码库创建精美的、编译型的移动应用、Web和桌面应用程序。它使用Dart语言编写，特别注重性能和响应式设计。Flutter的优势和不足优势Flutter是一个完全免费且彻底开源的软件开发工具包，它加速了应用的开发过程。通过Flutter，开发者能够设计出卓越的用户界面（UI），同时显著减少代码编写量。它还允许开
动态规划、背包问题入门 2303_Alpha 动态规划代理模式算法笔记 c语言
目录1、动态规划定义2、数塔问题题目描述：思路：代码实现：3、最长有序子序列问题描述：代码实现：动态规划基本思想特点4、背包问题①01背包问题空间复杂度优化②完全背包③多重背包二进制优化④二维费用背包1、动态规划定义动态规划是一种用于解决优化问题的算法策略，它的核心是把一个复杂的问题分解为一系列相互关联的子问题，并通过求解子问题的最优解来构建原问题的最优解。它将一个问题分解为若干个子问题，然后从最
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
从零开始开发纯血鸿蒙应用之发布共享包御承扬纯血鸿蒙系列 harmonyos 华为
从零开始开发纯血鸿蒙应用〇、前言一、认识ohpm1、搭建环境2、ohpm命令二、配置ohpm1、注册OpenHarmony三方库中心仓账号2、创建传输密钥三、构建har包制品1、添加README2、完善描述文件3、摘除依赖4、构建制品四、发布制品〇、前言鸿蒙应用，除了以完整的APP上架应用市场的形式外，还可以类似JS模块通过ohpm工具发布到三方中心仓库。目前，支持通过ohpm进行发布的鸿蒙模块，
鸿蒙开发进阶（HarmonyOS ）开发ArkTS卡片页面凹~凸~曼 HarmonyOS 鸿蒙开发 OpenHarmony harmonyos 华为鸿蒙系统前端 android ui 移动开发
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）开发者可以使用声明式范式开发ArkTS卡片页面。如下卡片页面由DevEcoS
JVM垃圾回收算法全解析：从基础到GC调优实战 Java大师兄学大数据AI应用开发 AI人工智能与大数据应用开发 AI实战 jvm 算法 ai
JVM垃圾回收算法全解析：从基础到GC调优实战关键词：JVM、垃圾回收算法、基础原理、GC调优、实战应用摘要：本文将全面深入地解析JVM垃圾回收算法，从最基础的概念开始讲起，帮助读者理解垃圾回收的本质和原理。接着详细介绍各种常见的垃圾回收算法，并用通俗易懂的方式解释其工作机制。之后通过实战案例展示如何进行GC调优，让读者不仅了解理论知识，还能掌握实际应用技能。最后对垃圾回收的未来发展趋势进行探讨，
HarmonyOS ArkTS卡片堆叠滑动组件实战与原理详解（含源码）谦和的大熊鸿蒙开发 harmonyos 华为
HarmonyOSArkTS卡片堆叠滑动组件实战与原理详解（含源码）作者：kumaleap|项目地址：ArkSwipeDeckonGitHub一、项目背景与定位随着鸿蒙生态的快速发展，ArkTS组件化开发成为主流。Tinder风格的卡片堆叠滑动交互广泛应用于社交、推荐、内容发现等场景。ArkSwipeDeck致力于为HarmonyOS提供一个高性能、易扩展、纯净的卡片堆叠滑动组件，助力开发者快速实
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
Node.js特训专栏-实战进阶：13. ORM/ODM工具选型与使用爱分享的程序员 Node.js javascript 前端 node.js
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情ORM/ODM工具选型与使用在当今的软件开发领域，数据库交互是众多应用程序的核心环节。无论是Web应用、移动后端，还是数据分析平台，高效、可靠地操作数据库至关重要。对象关系映射（ORM）和对象文档映射（ODM）工具应运而生，它们简化了数据
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
【大数据入门核心技术-DolphinScheduler】（二）DolphinScheduler安装部署-集群模式 forest_long 大数据技术入门到21天通关大数据 spark hive hadoop 交互 flink mapreduce
目录一、部署模式1、单机模式2、伪集群模式3、集群模式二、部署安装1、下载2、创建mysql元数据库3、配置一键部署脚本4、初始化数据库5、一键部署DolphinScheduler6、访问DolphinSchedulerUI三、启停命令一、部署模式DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluste
OpenLayers 入门指南：序言凌往昔 OpenLayers 入门指南 WebGIS OpenLayers
本专栏旨在帮助零GIS基础的开发人员系统掌握OpenLayers这一强大的开源Web地图库，通过“理论+实战”结合的方式，逐步实现从创建地图到构建一个基础地图应用模版。无论你是前端开发者、GIS爱好者，都可以通过此专栏零基础开始用OpenLayers开发一个基础地图应用。如果你对OpenLayers已经有过了解和使用，且对API也掌握的比较熟了，不建议订阅此专栏！一、前端框架Vue3TypeScr
基于python版本secsgem源码开发gem，该gem作为一个中间平台，既要连接EAP，又要连接探针台，应该如何设置devicetype、connectmode SunkingYang #SECS协议 python gem eap 中间平台三方连接设备类型
文章目录一、角色定义与连接模式设计1.中间平台的双向角色2.核心参数设置二、代码实现步骤1.创建两个独立连接实例2.数据转发逻辑实现三、高级配置与注意事项1.状态机管理2.多线程与异步处理3.协议兼容性4.调试与错误排查四、典型应用场景1.配方管理2.事件与报警处理五、扩展方案（多设备协同）总结基于Python的secsgem库开发中间平台需同时连接EAP（作为Host端）和探针台（作为Equip
基于PHP音乐交流论坛的设计与实现(含源文件) 设计源码分享 java
欢迎添加微信互相交流学习哦！项目源码：https://gitee.com/oklongmm/biye摘要本系统采用PHP语言，在Windows平台上设计实现一个网络论坛，实现了论坛的的基本功能：账户申请、登陆、帖子分类管理、查看、发帖、回帖、送花、加好友、发短信；用户界面亲切友善，便于使用；后台管理简单。本系统之所以坚持PHP与MySQL数据组合，因为在众多的数据库中，MySQL数据库有着特殊的魅
Python 爬虫入门（九）：Scrapy安装及使用「详细介绍」 blues_C Python爬虫实战 python 爬虫 scrapy
Python爬虫入门（九）：Scrapy安装及使用「详细介绍」前言1.Scrapy简介2.Scrapy的安装2.1环境准备2.2安装Scrapy3.创建Scrapy项目3.1创建项目3.2项目结构简介4.编写爬虫4.1创建爬虫4.2解析数据4.3运行爬虫5.存储数据5.1存储为JSON文件5.2存储到数据库5.2.1MongoDB6.处理请求和响应6.1请求头设置6.2处理响应7.高级功能7.1使
光伏发电园区管理系统 - Three.js + Django 实现方案小赖同学啊 test Technology Precious javascript django 开发语言
光伏发电园区管理系统-Three.js+Django实现方案我将设计一个基于Three.js和Django的光伏发电园区管理系统，包含3D可视化、实时监控和数据分析功能。系统架构设计API请求数据存储数据存储数据存储获取获取前端-Three.jsDjango后端数据库外部API光伏设备数据气象数据发电数据实时天气电价信息技术栈与依赖前端：Three.js(r128)-3D渲染Chart.js-数据
GitHub每周最火火火项目（6.30-7.6） FutureUniant Github周推 github microsoft 人工智能 ai 计算机视觉
1.NanniCoder/MediaCrawler项目名称：MediaCrawler项目介绍：该项目采用Python语言开发，专注于多平台媒体内容的爬取工作。从用途来看，它能够精准抓取小红书笔记、抖音视频、快手视频、B站视频、微博帖子、百度贴吧帖子及评论、知乎问答文章等各类媒体平台的内容。在使用场景方面，对于新媒体运营者而言，可借助它批量采集行业内多平台的热门内容、竞品动态，为自身内容创作、运营策
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc