代码骑士

第二章复杂的HTML解析（上）

2.1 不是一直都要用锤子

看到这个小标题是不是想问：啥是锤子？

原文中有一段文字：

当米开朗基罗被问及如何完成《大卫》这样匠心独具的雕刻作品时，他有一段著名的回
答：“很简单，你只要用锤子把石头上不像大卫的地方敲掉就行了。”

锤子就是一个工具，为了帮助我们更好的获得我们想要得到的东西。但是，我们的标题叫“不要一直都要使用锤子”，就说明，我们在爬取信息时，不是要把多余部分都“敲掉”，而是直接找到我们想要的部分，把它保存下来。

用锤子将不需要的地方都敲掉，这话听起来是多么的粗暴。而我们的爬虫可是一个技术活儿，这么粗暴的方式并不适用于我们。所以作者告诉我们，写爬虫要用脑子，多思考，多使用技巧。

千万不要不经思考就写代码，一定要三思而后行。

接下来会介绍基于位置、上下文、属性和内容选择标签的标准方式和创新方式。这里展示的技巧如果运用得当，将会助你在编写更稳定可靠的网络爬虫的路上走得更远。

2.2 再端一碗BeautifulSoup

这一节将介绍通过属性查找标签的方法，标签组的使用，以及标签解析树的导航过程

基本上，你遇到的每个网站都有层叠样式表（cascading style sheet，CSS）。虽然你可能会认为，专门为了让浏览器和人类可以理解网站内容而设计一个展现样式的层，是一件愚蠢
的事，但是 CSS 的发明却是网络爬虫的福音。CSS 可以让 HTML 元素呈现出差异化，使
那些具有完全相同修饰的元素呈现出不同的样式。

也就是说，通过不同的标签属性，我们能很快的找到我们想要的东西。

这里可能有人对CSS不了解，所以不得不提一下前端“三剑客”了（HTML+CSS+JavaScript）。

1、HTML，中文译为超文本标记语言，是构成网页文档的主要语言，主要用来实现静态页面。一般情况下，用户看到的文字，图形，动画，声音，表格，链接等元素都是由HTML语言描述的。“超”，即超越文本，指可设置样式、可展示图片，而最核心的是“超级链接”,可以链接到其他文档。由于HTML是由标签组成的，所以使用HTML就是在基本结构上加标签。

2、CSS中文译作层叠样式表，用于控制网页样式

3、JavaScript是一种网页脚本语言。通过在HTML网页中直接嵌入Javascript脚本，可以实现响应浏览器事件，读写HTML元素内容，更改HTML元素样式等功能。JavaScript代码可以很容易的嵌入html页面中。也可以单独将Javascript代码写在一个文件中。浏览器对JavaScript脚本程序进行解释执行

详细内容可看这位大佬的文章：(27条消息) 前端“三剑客”——HTML,CSS,JS_欢迎来到晨的博客-CSDN博客_前端三剑客https://blog.csdn.net/qq_44002167/article/details/101382839?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164700934616780274176783%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=164700934616780274176783&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-101382839.pc_search_result_cache&utm_term=%E5%89%8D%E7%AB%AF%E4%B8%89%E5%89%91%E5%AE%A2&spm=1018.2226.3001.4187 下面让我们创建一个网络爬虫来抓取这个网页：

http://www.pythonscraping.com/pages/warandpeace.html

页面是这样的，花花绿绿的，

其实它是列夫托尔斯泰的著名长篇小说《战争与和平》的节选

我们要做的事情是：

在这个页面里，小说人物的对话内容都是红色的，人物名称都是绿色的。我们要抓取所有的绿色的名称然后放在一张表里。

我们返回刚才的页面，按下F12，查看源代码，通过观察发现：

xxxxxxx：这个标签中间的字符就是页面里绿色的部分。

例如：

green">Anna Pavlovna

网络爬虫可以通过 class 属性的值，轻松地区分出两种不同的标签。

现在我们就写个爬虫，获取小说中人物的名称：

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html.read(),'html.parser')

nameList = bs.findAll('span', {'class':'green'})
for name in nameList:
    print(name.get_text())

* findAll也可以写作find_all

通过 BeautifulSoup 对象，我们可以用 find_all 函数提取只包含在
标签里的文字，这样就会得到一个人物名称的 Python 列表

输出结果(代码执行以后就会按照《战争与和平》中的人物出场顺序显示所有的人名。)：

实现之后是不是感觉很兴奋很神奇，那么这有是如何实现的呢？

之前，我们调用 bs.tagName 只能获取页面中指定的第一个标签。现在，调用
bs.find_all(tagName, tagAttributes) 可以获取页面中所有指定的标签，不再只是第一
个了。
获取人名列表之后，程序遍历列表中所有的名字，然后打印 name.get_text()，就可以把标
签中的内容分开显示了。

.get_text():

.get_text() 会清除你正在处理的 HTML 文档中的所有标签，然后返回一个只包含文字的 Unicode 字符串。假如你正在处理一个包含许多超链接、段落和其他标签的大段文本，那么 .get_text() 会把这些超链接、段落和标签都清除掉，只剩下一串不带标签的文字。

用 BeautifulSoup 对象查找你想要的信息，比直接在 HTML 文本里查找信息要简单得多。通常在你准备打印、存储和操作最终数据时，应该最后才使用 .get_text()。一般情况下，你应该尽可能地保留 HTML 文档的标签结构。

2.2.1 BeautifulSoup的find()和find_all()

BeautifulSoup 里的 find() 和 find_all() 可能是你最常用的两个函数。借助它们，你可以
通过标签的不同属性轻松地过滤 HTML 页面，查找需要的标签组或单个标签。

这两个函数非常相似，BeautifulSoup 文档里两者的定义就是这样：
find_all(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)

下面是这两个函数中的参数解释：

1、标签参数 tag 前面已经介绍过——你可以传递一个标签的名称或多个标签名称组成的
Python 列表做标签参数。例如，下面的代码将返回一个包含 HTML 文档中所有标题标签
的列表：
.find_all(['h1','h2','h3','h4','h5','h6'])
2、属性参数 attributes 用一个 Python 字典封装一个标签的若干属性和对应的属性值。例如，下面这个函数会返回 HTML 文档里红色与绿色两种颜色的 span 标签：
.find_all('span', {'class':{'green', 'red'}})
3、递归参数 recursive 是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息？如果 recursive 设置为 True，find_all 就会根据你的要求去查找标签参数的所有子标签，以
及子标签的子标签。如果 recursive 设置为 False，find_all 就只查找文档的一级标签。
find_all 默认是支持递归查找的（recursive 默认值是 True）；一般情况下这个参数不需要设置，除非你真正了解自己需要哪些信息，而且抓取速度非常重要，那时你可以设置递
归参数。
4、文本参数 text 有点不同，它是用标签的文本内容去匹配，而不是用标签的属性。假如我们想查找前面网页中包含“the prince”内容的标签数量，可以把之前的 find_all 方法换成下
面的代码：
nameList = bs.find_all(text='the prince')
print(len(nameList))
输出结果为“7”。
5、范围限制参数 limit 显然只用于 find_all 方法。find 其实等价于 limit 等于 1 时的 find_all。如果你想获取网页中的前 x 项结果，就可以设置它。但是要注意，设置这个参数之后，获得的前几项结果是按照网页上的顺序排序的，未必是你想要的那前几项。
6、还有一个关键词参数 keyword，可以让你选择那些具有指定属性的标签。例如：
title = bs.find_all(id='title', class_='text')
上述代码返回第一个在 class_ 属性中包含单词 text 并且在 id 属性中包含 title 的标签。
需要注意的是，通常情况下，页面中每个 id 的属性值只能被使用一次。因此在实际情况
中，上面的代码可能并不实用，而以下代码可以达到同样的效果：
title = bs.find(id='title')

2.2.2 其他BeautifulSoup对象

看到这里，你已经见过 BeautifulSoup 库里的两种对象了。
BeautifulSoup对象
前面代码示例中的 bs。
标签Tag对象
BeautifulSoup 对象通过 find 和 find_all，或者直接调用子标签获取的一列对象或单个
对象，就像：
bs.div.h1
但是，这个库还有另外两种对象，虽然不常用，却应该了解一下。

NavigableString对象
用来表示标签里的文字，而不是标签本身（有些函数可以操作和生成 NavigableString
对象，而不是标签对象）。
Comment对象
用来查找 HTML 文档的注释标签，。
这 4 个对象是你用 BeautifulSoup 库时会遇到的所有对象（写作本书的时候）。

2.2.3 导航树

find_all 函数通过标签的名称和属性来查找标签。但是如果你需要通过标签在文档中的位
置来查找标签，该怎么办？这就是导航树（navigating trees）的作用。

用一个网页的源代码举例：

https://www.pythonscraping.com/pages/page3.htmlhttps://www.pythonscraping.com/pages/page3.html

在后面几节内容里，我们仍然以这个 HTML 标签结构为例。

1. 处理子标签和其他后代标签

在计算机科学和一些数学领域中，你经常会听到“虐子”事件（比喻对一些子事件的处理方式）：移动它们，储存它们，删除它们，甚至杀死它们。值得庆幸的是，这里只选择它们。

和许多其他库一样，在 BeautifulSoup 库里，孩子（child） 和后代（descendant）有显著的不同：

子标签：就是父标签的下一级

而后代标签：是指父标签下面所有级别的标签。

举个例子：

tr 标签是 table 标签的子标签，而 tr、th、td、img 和 span 标签都是table 标签的后代标签

一句话总结就是：所有的子标签都是后代标签，但不是所有的后代标签都是子标签。

一般情况下，BeautifulSoup 函数总是处理当前标签的后代标签。例如，bs.body.h1 选择了body 标签后代里的第一个 h1 标签，不会去找 body 外面的标签。bs.div.find_all("img") 会找出文档中的第一个 div 标签，然后获取这个 div 后代里所有 img 标签的列表。

如果你只想找出子标签，可以用 .children 标签：

from urllib.request import urlopen
from bs4 import BeautifulSoup

html=urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html,'html.parser')

for child in bs.find('table',{'id':'giftList'}).children:#打印table标签中id赋值为giftList标签的子标签
    print(child)

输出结果：

这段代码会打印 giftList 表格中所有产品的数据行，包括最开始的列名行。如果你用
descendants() 函数而不是 children() 函数，那么就会打印出二十几个标签，包括 img 标
签、span 标签，以及每个 td 标签。掌握子标签与后代标签的差别十分重要！

2. 处理兄弟标签

BeautifulSoup 的 next_siblings() 函数使得从表格中收集数据非常简单，尤其是带标题行
的表格：

from urllib.request import urlopen
from bs4 import BeautifulSoup

html=urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html,'html.parser')

for sibling in bs.find('table',{'id':'giftList'}).tr.next_siblings:
    print(sibling)

输出结果：

这段代码会打印产品表格里所有行的产品，第一行表格标题除外。为什么标题行被跳过了
呢？对象不能是自己的兄弟标签。任何时候你获取一个标签的兄弟标签，都不会包含这个
标签本身。正如函数名本身揭示的，这个函数只调用后面的兄弟标签。例如，如果我们选
择一组标签中位于中间位置的一个标签，然后调用 next_siblings() 函数，那么就只会返
回在它后面的兄弟标签。因此，选择标题行，然后调用 next_siblings，就可以选择表格
中除了标题行以外的所有行。

使标签具体化：

如果我们选择 bs.table.tr 或直接用 bs.tr 来获取表格中的第一行，上面的代码也可以获得正确的结果。但是，我还是写了一行更长、更完整的代码：
bs.find('table',{'id':'giftList'}).tr
from urllib.request import urlopen
from bs4 import BeautifulSoup

html=urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html,'html.parser')

for sibling in bs.find('table',{'id':'giftList'}).tr:
    print(sibling)
输出结果：

即使页面上只有一个表格（或其他目标标签），只用标签也很容易丢失细节。
另外，页面布局是不断变化的。一个标签这次是在表格中第一行的位置，没准儿哪天就在第二行或第三行了。如果想让你的爬虫更稳定，最好还是让标签的选择更加具体。如果有属性，就利用标签的属性。
和 next_siblings 一样，如果你很容易找到一组兄弟标签中的最后一个标签，那么
previous_siblings 函数也会很有用。
当然，还有 next_sibling 和 previous_sibling 函数，它们的作用跟 next_siblings 和
previous_siblings 类似，只是它们返回的是单个标签，而不是一组标签。

3. 处理父标签

在抓取网页的时候，查找父标签的需求比查找子标签和兄弟标签要少很多。通常情况
下，如果以抓取网页内容为目的来观察 HTML 页面，我们都是从最上层标签开始的，然
后思考如何定位我们想要的数据块所在的位置。但是，偶尔在特殊情况下你也会用到
BeautifulSoup 的父标签查找函数 parent 和 parents。例如：
from urllib.request import urlopen
from bs4 import BeautifulSoup

html=urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html,'html.parser')

print(bs.find('img',{'src':'../img/gifts/img1.jpg'}).parent.previous_sibling.get_text())
输出结果：

这段代码会打印 ../img/gifts/img1.jpg 这个图片所对应商品的价格（这个示例中价格是 $15.00）。

这又是怎么实现的呢？

下面是我们正在处理的 HTML 页面的部分结构，其中用数字表示了步骤。

这章内容比较多，分成两部分学习，易于消化吸收。

HTML+CSS面试试题（部分）四分十七前端学习html html css 大数据
目录1:主流浏览器的内核分别是什么？2:每个HTML文件开头都有，它的作用是什么3:div+css的布局较table布局有什么优点？4:img的alt属性与title属性有何异同5:strong标签与em标签的异同6:渐进增强和优雅降级之间的不同7:为什么利用多个域名来存储网站资源8:网页标准和标准制定机构的意义9:简述一下src与href的区别10:网页制作会用的图片格式有哪些11:微格式，前端
从 React 看前端 UI 代码范式革命哔哩哔哩技术前端 react.js ui
前言本来打算写的主题是“我为什么讨厌ReactHooksAPI“，展开聊聊“小甜甜”是如何变成“牛夫人”的，没想到越写越严肃：）React是两次前端范式革命的引领者，至今仍有繁荣的社区和旺盛的创造力；React多次天才又激进的创新，一些想法被借鉴改良、一些引发广泛质疑，大部分是被认同和接受的；可以说React以一个框架之力，推动了整个前端领域的发展。范式是一种公认的模型或模式。本文从React出发
uniapp微信小程序canvas隐藏 Ann_R uni-app 微信小程序小程序
亲测好用~HTML我是把canvas嵌套在view里并被view设置idCSS把它给顶出去#canvas{position:fixed;top:-9999999999999rpx;}本文作者：小泽沐优声本文链接：https://www.cnblogs.com/ooo51o/p/12956678.html版权声明：本作品采用知识共享署名-非商业性使用-禁止演绎2.5中国大陆许可协议进行许可。
vue2前端使用图片展现视频,无法销毁请求贾宝玉单臂擒方腊前端音视频
实现思路，使用canvas绘制图像，然后使用动画帧刷新页面exportdefault{props:{info:{type:Object,default:()=>({url:'',index:''}),},},data(){return{currentImage:null,isFullScreen:false,canvas:null,ctx:null,canvasStyle:{height:'100
【CTF比赛Web题目快速探测】 D-river security web安全安全
CTF比赛Web题目快速探测一、快速信息收集1.基础信息扫描2.工具自动化辅助二、快速漏洞探测1.高频漏洞靶向测试2.前端相关漏洞三、工具链组合利用1.BurpSuite自动化2.专用工具链3.编码/解码辅助四、常见CTFWeb题快速索引表五、速攻思维导图六、总结在CTF比赛中快速攻克Web题目的核心是“高效信息收集+靶向性漏洞探测”，需结合手动测试与工具链快速定位漏洞类型。以下是一套实战优化流程
使用PHP爬虫获取1688商品分类：实战案例指南数据小爬虫@ php 爬虫开发语言
在电商领域，商品分类信息是商家进行市场调研、选品分析和竞争情报收集的重要基础。1688作为国内领先的B2B电商平台，提供了丰富且详细的商品分类数据。通过PHP爬虫技术，我们可以高效地获取这些分类信息，为商业决策提供有力支持。一、为什么选择PHP爬虫？PHP是一种广泛使用的服务器端脚本语言，特别适合用于Web开发和网络爬虫。它具有强大的网络请求和HTML解析能力，能够轻松实现从网页中提取数据的功能。
rabbitmq 学习之 mirror queue cluster 搭建（26） xiaoliuliu2050 rabbitmq
官网:https://www.rabbitmq.com/ha.html高可用（镜像）队列默认情况下，queues存放在RabbitMQ集群的单个节点之上。exchanges和bindings恰恰相反，在集群中的所有节点中都有存档。queues可以配置镜像以此可以在多个节点中有备份。每个镜像队列包含一个master节点和一个或者多个slave节点。如果master节点由于某种原因失效，那么“资历最老
Vue 和 dhtmlx-gantt 实现图表构建动态多级甘特图效果，横坐标为动态刻度不是日期 Tan-玛卡巴卡甘特图
注意事项：1、横坐标根据日期转换成时间刻度在（gantt.config.scales）；2、获取时间刻度的最大值（findMaxRepairTime）；3、甘特图多级列表需注意二级三级每个父子id需要唯一（convertData）安装依赖npminstalldhtmlx-gantt--save在当前页引入和配置dhtmlx-ganttimportganttfrom"dhtmlx-gantt";//
前端vue用jsmind写思维导图 Tan-玛卡巴卡前端 vue.js javascript
1、下载依赖npm安装npminstall--savejsmindyarn安装yarnjsmind版本:"jsmind":"^0.4.6",2、完整代码：查看节点删除节点-->放大缩小展开：主题：名称：{{obj.topic?obj.topic:'-'}}部门：{{obj.orgName?obj.orgName:'-'}}描述：{{obj.jobType?obj.jobType:'-'}}状态：正
Vue 实现垂直菜单分类栏目，鼠标移入下方出现悬浮二级菜单容器效果 Tan-玛卡巴卡 html dreamweaver servlet
需要注意的是二级菜单的盒子要在最大的盒子里面要把它撑开而不是和导航一个div，下面是实现的效果但有点潦草具体样式需自行调整具体代码如下：html代码： {{item}} 中文{{$t('appHeader.pickerTitle')}} Eng --
vue实现滚动公告效果vue-seamless-scroll Tan-玛卡巴卡 vue.js javascript 前端
1、下载npminstallvue-seamless-scroll2、页面引入也可以全局引入我是当前页面用所以选择页面引入importvueSeamlessScrollfrom'vue-seamless-scroll/src';components:{vueSeamlessScroll},3、html代码0">公告{{item.title}}4、声明的变量data(){return{default
uniapp websocket实现数据实时更新 jonychen1 websocket web推送 uniapp
近期个人在使用uniapp开发一款实时图表的项目，因为涉及到数据的实时刷新，所以起初是考虑使用轮询来实现。不过一旦数据量大起来后，轮询对客户端和服务端的压力都比较大，导致使用轮询的扩展性不佳。搜索了一遍，很多开发者建议使用websocket来实现数据的实时更新。什么是websocketWebSocket是Html5定义的一个新协议，与传统的http协议不同，该协议可以实现服务器与客户端之间全双工通
使用 Spring Boot 实现前后端分离的海康威视 SDK 视频监控 William Dawson spring boot
使用SpringBoot实现前后端分离的海康威视SDK视频监控系统，可以分为以下几个步骤：1.系统架构设计前端：使用Vue.js、React或Angular等前端框架实现用户界面。后端：使用SpringBoot提供RESTfulAPI，负责与海康威视SDK交互。通信：前后端通过HTTP/WebSocket进行通信。视频流：通过海康威视SDK获取视频流，并使用RTSP/RTMP/HLS等协议推送到前
npm 常用指令指南风干牛肉巴旦木 npm
以下是一些常用的NPM（NodePackageManager）指令，它们在前端开发中非常实用：#NPM常用指令大全##包管理###安装依赖```bashnpminstall安装package.json中列出的所有依赖。安装开发依赖npminstall--save-dev安装并添加到devDependencies。安装特定版本的包npminstall@安装指定版本的包。全局安装包npminstal
Vue入门常见指令星星不打輰前端 vue.js javascript 前端
Vue(视图信息与脚本数据双向绑定）Vue的基础入门Vue的实现流程：1、在HTML的body标签中引入需要通过Vue进行数据绑定的标签2、在HTML中的相关的视图标签中设置标签元素的id（）3、通过外链的形式将Vue的核心库进行导入：4、在另外一个script中书写对应的Vue–JS脚本--（1：创建对应的Vue对象，并且进行实例化）--（2：指定Vue对象绑定的标签元素–》el："#app"-
工程化与框架系列（22）--前端性能优化（中）一进制ᅟᅠ ‌‍‎‏ 前端工程化与框架前端性能优化状态模式
前端性能优化（运行）引言运行时性能直接影响用户交互体验和应用流畅度。本文将深入探讨前端运行时性能优化的各种策略和技术，包括渲染优化、内存管理、计算优化等关键主题，帮助开发者构建高性能的Web应用。运行时性能概述运行时性能优化主要关注以下方面：渲染性能：减少重排重绘，优化动画效果内存管理：防止内存泄漏，优化内存使用计算优化：提升JavaScript执行效率事件处理：优化事件监听和响应异步操作：合理使
Vue.js 开发入门指南 2401_89793006 热门话题 vue.js flutter 前端
Vue.js开发入门指南Vue.js是一款流行的前端框架，它轻量、高效且易于上手，非常适合构建交互式Web应用。本文将介绍Vue.js的基础概念，并带你实现一个简单的Vue应用。1.Vue.js简介Vue.js是一个渐进式JavaScript框架，核心库专注于视图层，并且易于与其他库或现有项目集成。它的主要特点包括：双向数据绑定：数据和视图保持同步。组件化开发：方便代码复用，提高开发效率。虚拟DO
npm、Yarn 与 pnpm：选择最适合你的包管理工具奶凶的小熊崽前端 npm npm 前端 node.js
在前端项目中，npm、pnpm和yarn都是包管理工具，主要用于管理JavaScript依赖。它们的核心功能类似，但在性能、依赖管理方式、磁盘空间占用等方面有所不同。以下是它们的详细对比，以及在项目中的选择建议。一、三者的基本介绍1️⃣npm（NodePackageManager）官方默认包管理器，随Node.js一起安装（无需额外安装）。版本：npmv1-v4（较早版本）：安装速度较慢，存在幽灵
Vue项目结构分析企鹅会游泳 1 vue
Vue项目结构分析1.概览使用CLI构建出来的Vue项目结构是这样的里面我们需要关注的内容如下图，重点需要关注的用小红旗标了，其中我们最常修改的部分就是components文件夹了，几乎所有需要手动编写的代码都在其中。接下来我们分析几个文件，目的是理解各个部分是怎么联系到一起的。2.index.html首页文件的初始代码如下：wj-vue就是一个普普通通的html文件，让它不平凡的是，下面有一行注
深入解析 Vue3 核心架构与实战范式：从响应式原理到 Composition API 设计哲学嘉图明架构前端框架
引言：框架演进的必然选择在2020年发布的Vue3并非简单的版本迭代，而是对前端工程化痛点的系统性解决方案。本文将深入剖析其架构设计，结合TypeScript类型系统和ChromeDevTools性能分析工具，揭示Vue3如何通过底层重构实现开发体验与运行效率的双重突破。一、响应式系统的量子跃迁：Proxy的颠覆性设计1.1从Object.defineProperty到Proxy的范式转移//Vu
【前端知识】Web Components开发框架quarkC介绍问道飞鱼前端开发技术前端 javascript 开发语言 web components
文章目录概述**QuarkC简介****核心特性****QuarkC的使用方法****1.安装QuarkC****2.创建一个简单的QuarkC组件****3.使用组件****QuarkC的优势****1.更低的学习成本****2.更好的开发体验****3.跨框架兼容性****4.性能优化****5.社区支持与生态****6.开放性和灵活性****QuarkC的适用场景****总结**构建复杂We
python文本处理beautifulsoup4库安装与使用范哥来了 python 开发语言
BeautifulSoup4（通常简称为bs4）是一个非常强大的Python库，用于从HTML和XML文件中提取数据。它能够解析文档，并提供方便的方法来遍历、搜索和修改解析树。下面是如何安装以及一些基本的使用示例。安装beautifulsoup4首先，确保你的环境中已经安装了Python和pip（Python的包管理工具）。然后，在命令行中运行以下命令来安装beautifulsoup4：pipin
Github 2024-07-12 Java开源项目日报Top10 老孙正经胡说 github java 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-07-12统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Java项目10Android开源轻量级流媒体前端创建周期：3158天开发语言：Java协议类型：GNUGeneralPublicLicensev3.0Star数量：28641个Fork数量：2896次关注人数：28641人贡献人数：312人Open
简单分析Mysql不同方式联表查询的效率问题逆袭的小学生 MySQL 联表 mysql join
前言：在项目中看别人写的后台代码发现了多种连表查询的方式，所以来调查一下哪种连表查询方式效率较高，以及如何优化，因为初入门，所以可能有些知识不准确，理解大意即可，对细节感兴趣的请自行查找。参考：https://www.cnblogs.com/wyq178/p/11576065.htmlhttps://blog.csdn.net/hzz532968708/article/details/773704
阿里云服务器Linux(centos)系统安装nginx1.20.2 DHLSP15 服务器 linux 阿里云
阿里云服务器Linux(centos)系统安装nginx1.20.21.安装依赖包一共要安装4种依赖（基于c语言）yum-yinstallgcczlibzlib-develpcre-developensslopenssl-devel2.下载nginx安装包并解压安装包nginx官网下载：http://nginx.org/en/download.html创建一个文件夹//先进入local目录下cd/
初学者如何用 Python 写第一个爬虫？陆鳐LuLu python 爬虫开发语言
编写第一个Python爬虫并不难，以下是一个简单的步骤指南，帮助从零开始。1.安装必要的库首先，你需要安装requests和BeautifulSoup这两个库。requests用于发送HTTP请求，BeautifulSoup用于解析HTML内容。pipinstallrequestsbeautifulsoup42.导入库在你的Python脚本中导入所需的库。importrequestsfrombs4
ASIHTTPRequest类库简介和使用说明从小爱吃苹果干 iOS ASIHttpRequest ASIHTTPRequest
一、简介原文链接http://www.cnblogs.com/dotey/archive/2011/05/10/2041966.html1.下载源码官方网站：http://allseeing-i.com/ASIHTTPRequest/。可以从上面下载到最新源码，以及获取到相关的资料。2.概况使用iOSSDK中的HTTP网络请求API，相当的复杂，调用很繁琐，ASIHTTPRequest就是一个对C
出现 defineProps is a compiler macro and no longer needs to be imported. 解决方法码农研究僧 BUG javascript Bug Vue3 宏
目录1.问题所示2.原理分析3.解决方法1.问题所示执行前端代码的时候，出现如下问题：[@vue/compiler-sfc]definePropsisacompilermacroandnolongerneedstobeimported.[@vue/compiler-sfc]defineEmitsisacompilermacroandnolongerneedstobeimported.截图如下所示：
html页面自动刷新滚动,VUE实现HTML页面滚动，标题实时刷新新职语 html页面自动刷新滚动
follow.gif源码currentcardis{{title}}v-for="(item,index)inlist":c-data="item":key="index">{{item}}footerexportdefault{data(){return{title:'hey',list:[1,2,3,4,5,6,7,8,9,10]}},mounted(){lettimer=nullwindow
html页面刷新瞬间有滚动条,js实现刷新页面后回到记录时滚动条的位置【两种方案可选】... 孙佳纯 html页面刷新瞬间有滚动条
当div中绑定数据，给它一个属性overflow-y:scroll，添加长度大小，使其能够出现滚动条；每次刷新的时候滚动条总是会出现在最上方，这使我很头疼，经过查阅网上资料，返现两种方法可行。如下：第一种方案将上一个页面的div的scrolltop距离长度记录在cookie中，然后通过js调整刷新页面时的长度记录，代码如下：js代码：var_h=0;functionSetH(o){_h=o.scr
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

第二章 复杂的HTML解析（上）