weiweiweiweia

使用网络爬虫抓取网站的数据。

新手网络爬虫实战入门：

一前言

**强烈建议：**请在电脑的陪同下，阅读本文。本文以实战为主，阅读过程如稍有不适，还望多加练习。
本文的实战内容有：

网络小说下载(静态网站)
优美壁纸下载(动态网站)
爱奇艺VIP视频下载

二网络爬虫简介

网络爬虫，也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容，而网页地址(URL)就是我们在浏览器中输入的网站链接。比如：https://www.baidu.com/，它就是一个URL。

在讲解爬虫内容之前，我们需要先学习一项写爬虫的必备技能：审查元素（如果已掌握，可跳过此部分内容）。

1 审查元素

(2) 简单实例

requests库的基础方法如下：

官方中文教程地址：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

requests库的开发者为我们提供了详细的中文教程，查询起来很方便。本文不会对其所有内容进行讲解，摘取其部分使用到的内容，进行实战说明。

首先，让我们看下requests.get()方法，它用于向服务器发起GET请求，不了解GET请求没有关系。我们可以这样理解：get的中文意思是得到、抓住，那这个requests.get()方法就是从服务器得到、抓住数据，也就是获取数据。让我们看一个例子(以 www.gitbook.cn为例)来加深理解：

# -*- coding:UTF-8 -*-
import requests

if name == ‘main’:
target = ‘http://gitbook.cn/’
req = requests.get(url=target)
print(req.text)

requests.get()方法必须设置的一个参数就是url，因为我们得告诉GET请求，我们的目标是谁，我们要获取谁的信息。运行程序看下结果：

左侧是我们程序获得的结果，右侧是我们在www.gitbook.cn网站审查元素获得的信息。我们可以看到，我们已经顺利获得了该网页的HTML信息。这就是一个最简单的爬虫实例，可能你会问，我只是爬取了这个网页的HTML信息，有什么用呢？客官稍安勿躁，接下来进入我们的实战正文。

三爬虫实战

1 小说下载

(1) 实战背景

小说网站-笔趣看：URL：http://www.9xds.com/

笔趣看是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。因此，本次实战就是从该网站爬取并保存一本名为《一念永恒》的小说，该小说是耳根正在连载中的一部玄幻小说。PS：本实例仅为交流学习，支持耳根大大，请上起点中文网订阅。

(2) 小试牛刀

我们先看下《一念永恒》小说的第一章内容，URL：http://www.9xds.com/book/6940//1790072.html

我们先用已经学到的知识获取HTML信息试一试，编写代码如下：

# -*- coding:UTF-8 -*-
import requests

if name == ‘main’:
target = ‘’
req = requests.get(url=target)
print(req.text)

运行代码，可以看到如下结果：

可以看到，我们很轻松地获取了HTML信息。但是，很显然，很多信息是我们不想看到的，我们只想获得如右侧所示的正文内容，我们不关心div、br这些html标签。如何把正文内容从这些众多的html标签中提取出来呢？这就是本次实战的主要内容。

###（3）Beautiful Soup

**爬虫的第一步，获取整个网页的HTML信息，我们已经完成。接下来就是爬虫的第二步，解析HTML信息，提取我们感兴趣的内容。**对于本小节的实战，我们感兴趣的内容就是文章的正文。提取的方法有很多，例如使用正则表达式、Xpath、Beautiful Soup等。对于初学者而言，最容易理解，并且使用简单的方法就是使用Beautiful Soup提取感兴趣内容。

Beautiful Soup的安装方法和requests一样，使用如下指令安装(也是二选一)：

pip install beautifulsoup4
easy_install beautifulsoup4

一个强大的第三方库，都会有一个详细的官方文档。我们很幸运，Beautiful Soup也是有中文的官方文档。

URL：http://beautifulsoup.readthedocs.io/zh_CN/latest/

同理，我会根据实战需求，讲解Beautiful Soup库的部分使用方法，更详细的内容，请查看官方文档。

现在，我们使用已经掌握的审查元素方法，查看一下我们的目标页面，你会看到如下内容：

不难发现，文章的所有内容都放在了一个名为div的“东西下面”，这个"东西"就是html标签。HTML标签是HTML语言中最基本的单位，HTML标签是HTML最重要的组成部分。不理解，没关系，我们再举个简单的例子：

一个女人的包包里，会有很多东西，她们会根据自己的习惯将自己的东西进行分类放好。镜子和口红这些会经常用到的东西，会归放到容易拿到的外侧口袋里。那些不经常用到，需要注意安全存放的证件会放到不容易拿到的里侧口袋里。

html标签就像一个个“口袋”，每个“口袋”都有自己的特定功能，负责存放不同的内容。显然，上述例子中的div标签下存放了我们关心的正文内容。这个div标签是这样的：

细心的朋友可能已经发现，除了div字样外，还有id和class。id和class就是div标签的属性，content和showtxt是属性值，一个属性对应一个属性值。这东西有什么用？它是用来区分不同的div标签的，因为div标签可以有很多，我们怎么加以区分不同的div标签呢？就是通过不同的属性值。

仔细观察目标网站一番，我们会发现这样一个事实：class属性为showtxt的div标签，独一份！这个标签里面存放的内容，是我们关心的正文部分。

知道这个信息，我们就可以使用Beautiful Soup提取我们想要的内容了，编写代码如下：

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
if __name__ == "__main__":
     target = 'http://www.9xds.com/book/6940//1790072.html'
     req = requests.get(url = target)
     html = req.text
     bf = BeautifulSoup(html)
     texts = bf.find_all('div', class_ = 'showtxt') print(texts)

1
2
3
4
5
6http://www.9xds.com/book/6940//1790072.html
7
8
9

在解析html之前，我们需要创建一个Beautiful Soup对象。BeautifulSoup函数里的参数就是我们已经获得的html信息。然后我们使用find_all方法，获得html信息中所有class属性为showtxt的div标签。find_all方法的第一个参数是获取的标签名，第二个参数class_是标签的属性，为什么不是class，而带了一个下划线呢？因为python中class是关键字，为了防止冲突，这里使用class_表示标签的class属性，class_后面跟着的showtxt就是属性值了。看下我们要匹配的标签格式：

这样对应的看一下，是不是就懂了？可能有人会问了，为什么不是find_all(‘div’, id = ‘content’, class_ = ‘showtxt’)?这样其实也是可以的，属性是作为查询时候的约束条件，添加一个class_='showtxt’条件，我们就已经能够准确匹配到我们想要的标签了，所以我们就不必再添加id这个属性了。运行代码查看我们匹配的结果：

我们可以看到，我们已经顺利匹配到我们关心的正文内容，但是还有一些我们不想要的东西。比如div标签名，br标签，以及各种空格。怎么去除这些东西呢？我们继续编写代码：

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
if __name__ == "__main__":
     target = 'http://www.9xds.com/book/6940//1790072.html'
     req = requests.get(url = target) html = req.text
     bf = BeautifulSoup(html)
     texts = bf.find_all('div', class_ = 'showtxt')
     print(texts[0].text.replace('\xa0'*8,'\n\n'))

find_all匹配的返回的结果是一个列表。提取匹配结果后，使用text属性，提取文本内容，滤除br标签。随后使用replace方法，剔除空格，替换为回车进行分段。在html中是用来表示空格的。replace(’\xa0’*8,’\n\n’)就是去掉下图的八个空格符号，并用回车代替：

程序运行结果如下：

可以看到，我们很自然的匹配到了所有正文内容，并进行了分段。我们已经顺利获得了一个章节的内容，要想下载正本小说，我们就要获取每个章节的链接。我们先分析下小说目录：

URL：http://www.9xds.com/book/6940/

通过审查元素，我们发现可以发现，这些章节都存放在了class属性为listmain的div标签下，选取部分html代码如下：



《一念永恒》最新章节列表
第1027章 第十道门
第1026章 绝伦道法！
第1025章 长生灯！
第1024章 一目晶渊
第1023章 通天道门
第1022章 四大凶兽！
第1021章 鳄首！
第1020章 一触即发！
第1019章 魁祖的气息！
第1018章 绝望的魁皇城
第1017章 我还是恨你！
第1016章 从来没有世界之门！
《一念路向北》正文卷
 外传1 柯父。
外传2 楚玉嫣。
 外传3 鹦鹉与皮冻。
第一章 他叫白小纯
 第二章 火灶房
第三章 六句真言
 第四章 炼灵

在分析之前，让我们先介绍一个概念：父节点、子节点、孙节点。

和

限定了

标签的开始和结束的位置，他们是成对出现的，有开始位置，就有结束位置。我们可以看到，在

标签包含

标签，那这个

标签就是

标签的子节点，

标签和

标签，那么

标签和

标签就是

标签的孙节点。有点绕？那你记住这句话：谁包含谁，谁就是谁儿子！

**他们之间的关系都是相对的。**比如对于

标签，它的子节点是标签，它的父节点是

标签。这跟我们人是一样的，上有老下有小。

看到这里可能有人会问，这有好多

标签和标签啊！不同的

标签，它们是什么关系啊？显然，兄弟姐妹喽！我们称它们为兄弟结点。
好了，概念明确清楚，接下来，让我们分析一下问题。我们看到每个章节的名字存放在了标签里面。标签还有一个href属性。这里就不得不提一下标签的定义了，标签定义了一个超链接，用于从一张页面链接到另一张页面。标签最重要的属性是 href 属性，它指示链接的目标。

我们将之前获得的第一章节的URL和标签对比看一下：

http://www.9xds.com/book/6940//1790072.html
第一章 他叫白小纯

不难发现，标签中href属性存放的属性值/book/6940/5403177.html是章节URLhttp://www.9xds.com/book/6940//1790072.html的后半部分。其他章节也是如此！那这样，我们就可以根据标签的href属性值获得每个章节的链接和名称了。

总结一下：小说每章的链接放在了class属性为listmain的

标签下的标签中。链接具体位置放在html->body->div->dl->dd->a的href属性中。先匹配class属性为listmain的

标签，再匹配标签。编写代码如下：

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
if __name__ == "__main__":
     target = 'http://www.9xds.com/book/6940/'
     req = requests.get(url = target)
     html = req.text
     div_bf = BeautifulSoup(html)
     div = div_bf.find_all('div', class_ = 'listmain')
     print(div[0])

还是使用find_all方法，运行结果如下：

很顺利，接下来再匹配每一个标签，并提取章节名和章节文章。如果我们使用Beautiful Soup匹配到了下面这个标签，如何提取它的href属性和标签里存放的章节名呢？

第一章 他叫白小纯

方法很简单，对Beautiful Soup返回的匹配结果a，使用a.get(‘href’)方法就能获取href的属性值，使用a.string就能获取章节名，编写代码如下：

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
if __name__ == "__main__":
     server = 'http://www.9xds.com/'
     target = 'http://www.9xds.com/book/6940/'
     req = requests.get(url = target) html = req.text
     div_bf = BeautifulSoup(html)
     div = div_bf.find_all('div', class_ = 'listmain')
     a_bf = BeautifulSoup(str(div[0]))
     a = a_bf.find_all('a')
     for each in a:
          print(each.string, server + each.get('href'))

因为find_all返回的是一个列表，里边存放了很多的标签，所以使用for循环遍历每个标签并打印出来，运行结果如下。

最上面匹配的一千多章的内容是最新更新的12章节的链接。这12章内容会和下面的重复，所以我们要滤除，除此之外，还有那3个外传，我们也不想要。这些都简单地剔除就好。

###（3）整合代码

每个章节的链接、章节名、章节内容都有了。接下来就是整合代码，将获得内容写入文本文件存储就好了。编写代码如下：

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests, sys

“”"
类说明:下载《笔趣看》网小说《一念永恒》
Parameters:
无
Returns:
无
Modify:
2017-09-13
“”"
class downloader(object):

def __init__(self):
    self.server = 'http://www.9xds.com/'
    self.target = 'http://www.9xds.com/book/6940/'
    self.names = []            #存放章节名
    self.urls = []            #存放章节链接
    self.nums = 0            #章节数

"""
函数说明:获取下载链接
Parameters:
    无
Returns:
    无
Modify:
    2017-09-13
"""
def get_download_url(self):
    req = requests.get(url = self.target)
    html = req.text
    div_bf = BeautifulSoup(html)
    div = div_bf.find_all('div', class_ = 'listmain')
    a_bf = BeautifulSoup(str(div[0]))
    a = a_bf.find_all('a')
    self.nums = len(a[15:])                                #剔除不必要的章节，并统计章节数
    for each in a[15:]:
        self.names.append(each.string)
        self.urls.append(self.server + each.get('href'))

"""
函数说明:获取章节内容
Parameters:
    target - 下载连接(string)
Returns:
    texts - 章节内容(string)
Modify:
    2017-09-13
"""
def get_contents(self, target):
    req = requests.get(url = target)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all('div', class_ = 'showtxt')
    texts = texts[0].text.replace('\xa0'*8,'\n\n')
    return texts

"""
函数说明:将爬取的文章内容写入文件
Parameters:
    name - 章节名称(string)
    path - 当前路径下,小说保存名称(string)
    text - 章节内容(string)
Returns:
    无
Modify:
    2017-09-13
"""
def writer(self, name, path, text):
    write_flag = True
    with open(path, 'a', encoding='utf-8') as f:
        f.write(name + '\n')
        f.writelines(text)
        f.write('\n\n')

if name == “main”:
dl = downloader()
dl.get_download_url()
print(’《一年永恒》开始下载：’)
for i in range(dl.nums):
dl.writer(dl.names[i], ‘一念永恒.txt’, dl.get_contents(dl.urls[i]))
sys.stdout.write(" 已下载:%.3f%%" % float(i/dl.nums) + ‘\r’)
sys.stdout.flush()
print(’《一年永恒》下载完成’)

很简单的程序，单进程跑，没有开进程池。下载速度略慢，喝杯茶休息休息吧。代码运行效果如下图所示：

2 优美壁纸下载

###（1）实战背景

已经会爬取文字了，是不是感觉爬虫还是蛮好玩的呢？接下来，让我们进行一个进阶实战，了解一下反爬虫。

URL：https://unsplash.com/

看一看这些优美的壁纸，这个网站的名字叫做Unsplash，免费高清壁纸分享网是一个坚持每天分享高清的摄影图片的站点，每天更新一张高质量的图片素材，全是生活中的景象作品，清新的生活气息图片可以作为桌面壁纸也可以应用于各种需要的环境。

看到这么优美的图片，我的第一反应就是想收藏一些，作为知乎文章的题图再好不过了。每张图片我都很喜欢，批量下载吧，不多爬，就下载50张好了。

###（2）实战进阶

我们已经知道了每个html标签都有各自的功能。标签存放一下超链接，图片存放在哪个标签里呢？html规定，图片统统给我放到标签中！既然这样，我们截取就Unsplash网站中的一个标签，分析一下：

可以看到，标签有很多属性，有alt、src、class、style属性，其中src属性存放的就是我们需要的图片保存地址，我们根据这个地址就可以进行图片的下载。

那么，让我们先捋一捋这个过程：

使用requeusts获取整个网页的HTML信息；
使用Beautiful Soup解析HTML信息，找到所有标签，提取src属性，获取图片存放地址；
根据图片存放地址，下载图片。

我们信心满满地按照这个思路爬取Unsplash试一试，编写代码如下：

# -*- coding:UTF-8 -*-
import requests
if __name__ == '__main__':
     target = 'https://unsplash.com/'
     req = requests.get(url=target)
     print(req.text)

按照我们的设想，我们应该能找到很多标签。但是我们发现，除了一些


        你可能感兴趣的:(使用网络爬虫抓取网站的数据。)
        
            
                
                    无需配置！深脑云一键启用DeepSeek全系AI模型
                        小深ai硬件分享
人工智能深度学习服务器
                        解锁无限算力潜能，开启DeepSeek镜像云算力新征程！在人工智能风起云涌的时代，算力就是驱动创新的引擎，而优质的模型镜像则是引领变革的密钥。我们向您介绍一下我们的深脑云算力平台，这里汇聚了DeepSeek的各大版本镜像，为您的科研、开发与创新之路注入强大动力！强大的DeepSeek模型家族DeepSeek，作为AI领域的璀璨明星，以其卓越的性能和先进的技术架构闻名遐迩。我们的平台精心整合了Dee
                    
                    AI服务器散热黑科技：让芯片“冷静”提速
                        小深ai硬件分享
人工智能深度学习服务器
                        AI服务器为何需要散热黑科技在人工智能飞速发展的当下，AI服务器作为核心支撑，作用重大。从互联网智能推荐，到医疗疾病诊断辅助，从金融风险预测，到教育个性化学习，AI服务器广泛应用，为各类复杂人工智能应用提供强大算力。然而，AI服务器在运行时面临着严峻的散热挑战。随着人工智能技术的不断发展，对AI服务器的计算能力要求越来越高，这使得服务器的功率密度急剧增加。以GPT-4的训练为例，它需要大量的GPU
                    
                    基于STM32的智能图书馆管理系统
                        STM32发烧友
stm32嵌入式硬件单片机
                        1.引言传统图书馆管理存在借还效率低、书籍定位困难等问题。本文设计了一款基于STM32的智能图书馆管理系统，通过RFID技术、智能导航与自助服务终端，实现图书精准管理，提升读者服务体验。2.系统设计2.1硬件设计主控芯片：STM32F429ZI，集成LCD控制器与硬件JPEG解码感知模块：RFID读写器（MFRC522）：识别图书标签红外传感器（E18-D80NK）：检测书籍存取状态重量传感器（H
                    
                    后端重载和重写的区别
                        kidding723
后端重载重写OverridingOverloading
                        重载相同的方法名，形参数量不同或者参数顺序不同或者参数类型不同称为方法重载重写方法名和形参列表相同重写方法前提:必须存在继承关系(1)方法重载是：一个类中定义了多个方法名相同,而他们的参数的数量不同或数量相同而类型和次序不同,则称为方法的重载(Overloading)。(2)方法重写是：在子类存在方法与父类的方法的名字相同,而且参数的个数与类型一样,返回值也一样的方法,就称为重写(Overridi
                    
                    记录自己的日常总结与错误
                        快乐呆橘
mysqlgithubvisualstudiojavaandroid
                        //1.解决VMware的方法：管理员身份运行cmd->输入netshwinsockreset->重启电脑同时也是windows修复网络问题的一种方法//2.解决spring中tx报错问题：在设置xmlcatalog时要把key改成http://www.springframework.org/schema/tx/spring-tx.xsd//3.解决jsp链接数据库中文乱码问题：首先在mysql端
                    
                    关于AndroidStudio中Gradle文件引发的问题导致HelloWorld无法运行的解决方法
                        ZSH月下独饮
Android学习androidstudio安卓androidkotlin
                        关于AndroidStudio中Gradle文件引发的问题导致HelloWorld无法运行的解决方法前言AndroidStudio下载安装教程（超级详细）官网下载点击启动安装配置文件HelloWorld无法运行问题1：Unabletolocateadb问题2：运行按钮灰色问题3：小锤子不能用解决方法感想在下的绵薄之力如果您已安装好AndroidStudio,并且创建好了HelloWorld项目和虚
                    
                    C# 语法 vs. C++ 语法：全面对比与核心区别解析
                        不会编程的程序猿ᅟ
c#c++开发语言
                        引言C#和C++是两种广泛使用的编程语言，分别由微软和BjarneStroustrup开发。尽管它们都属于C语言家族，但在语法、特性和应用场景上存在显著差异。本文将从多个角度详细对比C#和C++的语法区别，帮助你更好地理解这两种语言的特点。一、语言设计目标1.C#设计目标：C#是一种现代化的、面向对象的编程语言，旨在简化开发过程，提高开发效率。主要应用：Windows应用、Web开发、游戏开发（U
                    
                    记录一次进程被操作系统强制终止（OOM Killer）
                        别告诉我有BUG
jvmjava
                        问题背景场景：在一次系统迁移中，团队将原本运行在16G内存物理机的Java服务迁移到8G内存虚拟机，直接复用了原有的JVM参数（如-Xmx12g）。服务启动后运行正常，但几小时后突然宕机，日志中无明确错误，仅显示进程终止。影响：服务不可用持续30分钟部分业务数据丢失，用户投诉激增分析过程1.初步排查现象确认：进程消失，无Java堆栈或异常日志。系统日志/var/log/messages中发现OOM
                    
                    **激发创作潜能，CSDN创作挑战赛等你来战！**
                        爱编程的Loren
活动文章活动文章
                          ####写作挑战赛来啦！  各位热爱写作的同学们，你们是否在寻找一个展示自己才华的平台？你们是否想要挑战自己，体验不一样的写作激情？现在，有一个绝佳的机会摆在你面前！我们特别举办一次为期14天的创作挑战赛，鼓励大家挖掘自己的创作潜能，展现自己的写作才华。让我们一起在写作的海洋中畅游，书写出属于我们的故事！  ####创作要求一览  1.**创作主题**：本次挑战赛的主题为计算机领域相关内容，欢
                    
                    GCC预处理器探索：利用-E选项和CMake优化代码构建
                        泡沫o0
C++项目设计：理论实践与创新C/C++编程世界:探索C/C++的奥妙构建系统全解：从CMakelinuxqt开发语言c++c语言嵌入式c++11
                        目录标题第一章：宏展开的基本概念与GCC预处理器1.1宏定义与展开1.2GCC的预处理器1.3使用GCC展开宏的示例第二章：在CMake中配置预处理命令2.1使用`add_custom_command`和`add_custom_target`2.1.1`add_custom_command`2.1.2`add_custom_target`2.2实际应用第三章：预处理的高级应用和优化策略3.1条件编
                    
                    QTextEdit达到指定行数自动清理+光标移动到末端（QT/C++）
                        ibuki_fuko
Qt与C++qt开发语言
                        标题2：QTextEdit/QPlainTextEdit/QLineEdit/QTextBrowser达到指定行数自动清理标题3：设置QTextEdit/QPlainTextEdit/QLineEdit/QTextBrowser的光标移动到文本末端标题4：设置QT文本框显示内容过多自动清理且光标移动到文本框末端1、使用场景：有大量数据实时刷新显示在QT的文本框相关组件时，需要清理部分之前的数据，并
                    
                    如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？
                        是纯一呀
WSLDockerAIspark分布式mllib
                        如果MLlib中没有你所需要的模型，并且不打算结合更强大的框架（如TensorFlowOnSpark或Horovod），仍然可以使用Spark进行分布式训练，但需要手动处理训练任务的分配、数据准备、模型训练、结果合并和模型更新等过程。模型训练阶段将模型的训练任务分配到Spark集群的各个节点。数据并行：每个节点会处理数据的不同部分，并计算该部分的梯度或模型参数。自定义算法：如果使用的是自定义算法（
                    
                    WebSocket（WS）协议系列（二）事件机制
                        是纯一呀
网络WebSocketwebsocketpython网络协议
                        通讯双方怎么知道对方什么时候会发消息过来并接收的，是通过轮询吗？轮询是指客户端定期向服务器发送请求，检查是否有新的数据（即客户端不断发起请求）。就是你的舔狗，每天定时定点发消息问你，在吗？睡了吗？看电影吗？检查你是否有想和ta说话的意愿。你说话了，就是有新的数据，ta就get到了。WebSocket不使用传统的轮询机制，它通过事件驱动的方式处理消息的接收和发送。而WebSocket连接在建立后是持
                    
                    android studio 上传新项目到svn svn仓库是空的
                        mxiaoyem
androidstudioandroidstudiosvn
                        svn上传新项目，仓库是空的。解决：再把项目commit一下。之后有一段长时间的等待。。。。里面文件名字变黑色证明上传成功，绿色是关联上了。没有提交。
                    
                    深度应用场景：DeepSeek —— 探索AI赋能的智慧未来
                        人工智能专属驿站
人工智能
                        深度应用场景：DeepSeek——探索AI赋能的智慧未来随着人工智能的迅猛发展，数据的价值已不再局限于简单的存储与处理，它们正变得更加智能与高效。DeepSeek，这一创新的AI技术平台，正以其独特的深度学习能力，开启了各行各业的智能化变革。让我们走进一个由DeepSeek打造的深度应用场景，探索它如何推动未来的发展。1.智能医疗：精准诊断，拯救生命想象一下，医生们不再是唯一的诊断专家，而是与AI
                    
                    力扣解题思路——183.从不订购的客户
                        编程小彭
leetcode数据库算法
                        题目：查找从不订购的客户Customers表：+-------------+---------+|ColumnName|Type|+-------------+---------+|id|int||name|varchar|+-------------+---------+在SQL中，id是该表的主键。该表的每一行都表示客户的ID和名称。Orders表：+-------------+------+
                    
                    MXTU MAX 苹果cmsv10模板 仿毒舌自适应主题/短视X体验版完全开源
                        希希分享
软希网58soho_cn源码资源仿毒舌自适应主题/
                        基于MxonePro二开的主题，全开源未加密。MXTUMAX仿毒舌苹果CMS影视自适应主题主题说明：1、将mxtheme目录放置根目录|将mxpro目录放置template文件夹中2、苹果cms后台-系统-网站参数配置-网站模板-选择mxpro模板目录填写html3、网站模板选择好之后一定要先访问前台，然后再进入后台设置4、主题后台地址：MXTUMAX图图主题,/admin.php/admin/m
                    
                    【面试准备】运维工程师
                        C.尚水.Y
我的面试准备面试运维职场和发展
                        面试目标：岗位职责分析：1、IT相关设备、环境、运行状况的采购、安装、维护、保养、检查、IT资产管理；2、防火墙、路由器、网络交换机、VPN、服务器等性能优化，配置修改；3、光纤和ADSL线路的监控、测试、报障；4、ERP账号、文件服务器等软件账号的开放与权限管理、维护；5、邮箱OA服务器、文件服务器、ERP数据库服务器的日常管理、维护；6、公司网络工程的规划、项目实施、技术支持;—对这个运维工程
                    
                    如何用 python 获取实时的股票数据？_python efinance(2)
                        元点三
2024年程序员学习pythonjavalinux
                        先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
                    
                    如何用 python 获取实时的股票数据？_python efinance，2024年最新pdf面试简历
                        元点三
2024年程序员学习pythonpdf面试
                        先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
                    
                    1002:方便记忆的电话号码
                        努力的小Qin

                        1002:方便记忆的电话号总时间限制:2000ms内存限制:65536kB描述英文字母（除Q和Z外）和电话号码存在着对应关系，如下所示：A,B,C->2D,E,F->3G,H,I->4J,K,L->5M,N,O->6P,R,S->7T,U,V->8W,X,Y->9标准的电话号码格式是xxx-xxxx，其中x表示0-9中的一个数字。有时为了方便记忆电话号码，我们会将电话号码的数字转变为英文字母，如把
                    
                    FastStone 10.x 注册码
                        一条晓鱼
linuxc++githubgitwindows
                        简介FastStoneCapture是一款经典好用的屏幕截图软件，在屏幕截图领域具有广泛的应用和众多优势。软件基本信息FastStoneCapture体积小巧，占用内存少，这使得它在运行时不会给计算机系统带来过多的负担，即使在配置较低的电脑上也能流畅运行。例如，在一些老旧的办公电脑上，FastStoneCapture可以快速启动并进行截图操作，而不会出现明显的卡顿现象。它的界面简洁干净，操作相对简
                    
                    C语言/C++常见习题问答集锦(七十八)之数字流星雨
                        五一编程
笔记c语言c++算法数据结构vc++
                        C语言/C++常见习题问答集锦(七十八)之数字流星雨程序之美流星雨是在夜空中有许多的流星从天空中一个所谓的辐射点发射出来的天文现象。这些流星是宇宙中被称为流星体的碎片，在平行的轨道上运行时以极高速度投射进入地球大气层的流束。大部分的流星体都比沙砾还要小，因此几乎所有的流星体都会在大气层内被销毁，不会击中地球的表面；能够撞击到地球表面的碎片称为陨石。数量特别庞大或表现不寻常的流星雨会被称为“流星突出
                    
                    【分布式理论12】事务协调者高可用：分布式选举算法
                        roman_日积跬步-终至千里
分布式架构分布式算法
                        文章目录一、分布式系统中事务协调的问题二、分布式选举算法1.Bully算法2.Raft算法3.ZAB算法三、小结与比较一、分布式系统中事务协调的问题在分布式系统中，常常有多个节点（应用）共同处理不同的事务和资源。前文【分布式理论9】分布式协同：分布式系统进程互斥与互斥算法【分布式理论10】分布式协同：分布式互斥算法最佳实现：分布式锁的原理与实现【分布式理论11】分布式协同之分布式事务中介绍了分布式
                    
                    【分布式理论16】分布式调度2：资源划分和调度策略
                        roman_日积跬步-终至千里
分布式架构分布式
                        文章目录一、资源划分：Linux容器的应用1.LXC的Namespace机制：资源隔离2.LXC的CGroup机制：资源管理二、任务与资源如何匹配1.任务队列与资源池2.资源调度策略在分布式系统中，资源的有效分配和调度是确保计算任务高效执行的关键。为了能够合理地利用系统资源并优化计算任务的执行，资源划分和调度策略显得尤为重要。本节将从Linux容器资源划分、资源池与任务队列的匹配，以及不同的调度策
                    
                    使用BLIP模型生成图像描述的可查询索引
                        dgay_hua
python计算机视觉开发语言
                        在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。使用示例代码进行演示，帮助读者理解和实践。技术背景介绍随着计算机视觉技术的发展，图像描述生成成为了重要的研究领域。通过对图像内容自动生成文字描述，可以大大提高对图像信息的检索和管理效率。Salesfo
                    
                    flash 调用 脚本_Flash脚本-使用Flash发送电子邮件
                        culh2177
unityqtshelljavascriptjavaViewUI
                        flash调用脚本1.Createabuttononwhichyouremaillinkwillbedisplayed.1.创建一个按钮，在该按钮上将显示您的电子邮件链接。2.Rightclickthebutton,andgotothe"actions"tab.2.右键单击按钮，然后转到“操作”选项卡。3.Inserttheaction:3.插入动作：geturl(mailto:[email protected]
                    
                    python中enumerate()函数的用法
                        neu_张康

                        python中enumerate()函数的用法enumerate是翻译过来是枚举的意思，看下它的方法原型：enumerate(sequence,start=0)，返回一个枚举对象。sequence必须是序列或迭代器iterator，或者支持迭代的对象。enumerate()返回对象的每个元素都是一个元组，每个元组包括两个值，一个是计数，一个是sequence的值，计数是从start开始的，star
                    
                    卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别
                        知识鱼丸
深度学习神经网络cnn人工智能深度学习AlexNet经典神经网络
                        深度学习中较为常见的神经网络模型AlexNet，AlexNet是一个采用GPU训练的深层CNN，本质是种LeNet变体。由特征提取层的5个卷积层两个下采样层和分类器中的三个全连接层构成。先看原理：AlexNet网络特点采用ReLU激活函数，使训练速度提升6倍采用dropout层，防止模型过拟合通过平移和翻转的方式对数据进行增强采用LRN局部响应归一化，限制数据大小，防止梯度消失和爆炸。但后续证明批
                    
                    Flink CDC报错ArrayIndexOutOfBoundsException解决思路
                        学亮编程手记
大数据flinkdoris
                        FlinkCDC用两个并行度会报错。一个并行度就不会报错。不知道是什么原因？同步java.lang.ArrayIndexOutOfBoundsException？解决思路看日志，应该是mysql文本字段中有换行符之类的，应该会有一个url的报错提示，然后curl那个url看具体报错。这个问题可能是由于FlinkCDC的并行度设置不正确导致的。当您尝试使用两个并行度时，可能会遇到数组越界异常（jav
                    
                                html
                                    周华华
html
                                    js 
 1，数组的排列 
var arr=[1,4,234,43,52,]; 
 for(var x=0;x<arr.length;x++){ 
   for(var y=x-1;y<arr.length;y++){ 
     if(arr[x]<arr[y]){ 
    &
                                
                                【Struts2 四】Struts2拦截器
                                    bit1129
struts2拦截器
                                    Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 
  
Struts2中自定义拦截器的步骤是：
                                
                                make:cc 命令未找到解决方法
                                    daizj
linux命令未知make cc
                                    安装rz sz程序时，报下面错误： 
  
[root@slave2 src]# make posix 
cc   -O -DPOSIX -DMD=2 rz.c -o rz 
make: cc：命令未找到 
make: *** [posix] 错误 127 
  
系统：centos 6.6 
环境：虚拟机 
  
错误原因：系统未安装gcc，这个是由于在安
                                
                                Oracle之Job应用
                                    周凡杨
oracle job
                                      
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。 
  
一：查看相关job信息 
   1、相关视图  
 dba_jobs  
 all_jobs  
 user_jobs  
 dba_jobs_running 包含正在运行
                                
                                多线程机制
                                    朱辉辉33
多线程
                                    转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 
程序、进程和线程： 
 程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
                                
                                web报表工具FineReport使用中遇到的常见报错及解决办法（一）
                                    老A不折腾
web报表finereportjava报表报表工具
                                    FineReport使用中遇到的常见报错及解决办法（一） 
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。 
  
出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 
  
1、address pool is full： 
含义：地址池满，连接数超过并发数上
                                
                                mysql rpm安装后没有my.cnf
                                    林鹤霄
没有my.cnf
                                    Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的， 
至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法， 
第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动， 
第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
                                
                                Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题
                                    aigo
root
                                    原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ 
  
Step 4: Run ADB command from your PC 
  
On the PC, you need install Amazon Fire ADB driver and instal
                                
                                javascript 中var提升的典型实例
                                    alxw4616
JavaScript
                                    // 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧
myname = 'global';
var fn = function () {
	console.log(myname); // undefined
	var myname = 'local';
	console.log(myname); // local
};
fn()

// 上述代码实际上等同于以下代码
m
                                
                                定时器和获取时间的使用
                                    百合不是茶
时间的转换定时器
                                    定时器:定时创建任务在游戏设计的时候用的比较多 
  Timer();定时器 
TImerTask();Timer的子类  由 Timer 安排为一次执行或重复执行的任务。 
  
  
  定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
                                
                                JDK1.5 Queue
                                    bijian1013
javathreadjava多线程Queue
                                    JDK1.5 Queue 
LinkedList： 
LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须 保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
                                
                                http认证原理和https
                                    bijian1013
httphttps
                                    一.基础介绍 
        在URL前加https://前缀表明是用SSL加密的。 你的电脑与服务器之间收发的信息传输将更加安全。 
        Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 
http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
                                
                                【Java范型五】范型继承
                                    bit1129
java
                                    定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 
  
package com.tom.lang.generics;

public abstract class SuperGenerics<T1, T2> {
    private T1 t1;
    private T2 t2;

    public abstract void doIt(T
                                
                                【Nginx六】nginx.conf常用指令(Directive)
                                    bit1129
Directive
                                    1. worker_processes    8; 
表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 
  
nobody    53879 118449  0 Apr22 ?        00:26:15 nginx: worker process          
                                
                                lua 遍历Header头部
                                    ronin47
lua header 遍历　
                                     
 local headers = ngx.req.get_headers()   
 ngx.say("headers begin", "<br/>")   
 ngx.say("Host : ", he
                                
                                java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。
                                    bylijinnan
java
                                    
import java.util.Arrays;

public class MinSumASumB {

	/**
	 * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序.
	 * 
	 * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 
	 * 例如: 
	 * int[] a = {100,99,98,1,2,3
                                
                                redis
                                    开窍的石头
redis
                                    在redis的redis.conf配置文件中找到# requirepass foobared 
把它替换成requirepass 12356789 后边的12356789就是你的密码 
 
打开redis客户端输入config get requirepass 
返回 
redis 127.0.0.1:6379> config get requirepass 
1) "require
                                
                                [JAVA图像与图形]现有的GPU架构支持JAVA语言吗？
                                    comsci
java语言
                                     
 
      无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情 
 
 
       
                                
                                安装ubuntu14.04登录后花屏了怎么办
                                    cuiyadll
ubuntu
                                    这个情况，一般属于显卡驱动问题。 
可以先尝试安装显卡的官方闭源驱动。 
按键盘三个键：CTRL + ALT  +  F1 
进入终端，输入用户名和密码登录终端： 
安装amd的显卡驱动       
sudo  
apt-get  
install  
fglrx       
安装nvidia显卡驱动       
sudo  
ap
                                
                                SSL 与 数字证书 的基本概念和工作原理
                                    darrenzhu
加密ssl证书密钥签名
                                    SSL 与 数字证书 的基本概念和工作原理 

http://www.linuxde.net/2012/03/8301.html 
 
SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 
 
 
 

http://www.ibm.com/developerworks/cn/webspher
                                
                                Ubuntu设置ip的步骤
                                    dcj3sjt126com
ubuntu
                                    在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。 
转载不是错： 
Ubuntu命令行修改网络配置方法 
/etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 
1. 以D
                                
                                php包管理工具推荐
                                    dcj3sjt126com
PHPComposer
                                    http://www.phpcomposer.com/ 
       Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。  
中文文档  
入门指南  
下载  
安装包列表   
Composer 中国镜像      
                                
                                Gson使用四（TypeAdapter）
                                    eksliang
jsongsonGson自定义转换器gsonTypeAdapter
                                    转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 
       Gson的TypeAapter可以理解成自定义序列化和返序列化 二、应用场景举例 
       例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
                                
                                JQM控件之Navbar和Tabs
                                    gundumw100
htmlxmlcss
                                    在JQM中使用导航栏Navbar是简单的。 
 
只需要将data-role="navbar"赋给div即可： 
 

<div data-role="navbar">
    <ul>
        <li><a href="#" class="ui-btn-active&qu
                                
                                利用归并排序算法对大文件进行排序
                                    iwindyforest
java归并排序大文件分治法Merge sort
                                      
归并排序算法介绍，请参照Wikipeida 
zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 
基本思想： 
大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数 
低于限制行数的子文件直接排序 
两个排序好的子文件归并到父文件 
直到最后所有排序好的父文件归并到输入
                                
                                iOS UIWebView URL拦截
                                    啸笑天
UIWebView
                                    本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
                                
                                索引的碎片整理SQL语句
                                    macroli
sql
                                    SET NOCOUNT ON
DECLARE @tablename VARCHAR (128)
DECLARE @execstr VARCHAR (255)
DECLARE @objectid INT
DECLARE @indexid INT
DECLARE @frag DECIMAL
DECLARE @maxfrag DECIMAL
--设置最大允许的碎片数量,超过则对索引进行碎片
                                
                                Angularjs同步操作http请求with $promise
                                    qiaolevip
每天进步一点点学习永无止境AngularJS纵观千象
                                    // Define a factory
app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) {
      var deferred = $q.defer();
      AccountService.getProfile().then(function(res) {
  
                                
                                hibernate联合查询问题
                                    sxj19881213
sqlHibernateHQL联合查询
                                    最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。 
针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 
  
1 几个常识： 
 （1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。 
 （2）hql的默认查询策略，在进行联合查询时，会产
                                
                                struts2.xml
                                    wuai
struts
                                    <?xml version="1.0" encoding="UTF-8" ?> 
<!DOCTYPE struts PUBLIC 
 "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" 
 "http://struts.apache
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

使用网络爬虫抓取网站的数据。

新手网络爬虫实战入门：

一 前言

二 网络爬虫简介