机灵鹤

Python爬虫实战：爬取解放日报新闻文章

上一篇《Python 网络爬虫实战：爬取人民日报新闻文章》发布之后，确实帮到了不少朋友。

前几天，我好哥们问我：我想爬另一个日报新闻网站，网页结构几乎跟人民日报几乎一模一样，但是我用你的那个代码去爬却爬不下来数据呢？

顺着哥儿们发来的网址（网站传送地址：解放日报），我点进去看了一下，界面大概长这样。

跟人民日报的主页界面非常相似，都是版面列表 -- 文章列表 -- 文章详情的这种结构。

本来我觉得肯定是我这哥儿们代码基础不过关，报的语法错误，先 “嘲讽” 他一波，然后帮他改好就得了。

没想到一分析，才发现这个网站的新闻数据，是 Ajax 动态加载出来的（具体区别就是，人民日报的数据是提前生成好在网页里，跟网页一起返回显示的；而解放日报则是分开的，先返回一个空网页，然后再通过数据的接口请求数据，把数据动态加载到空网页里显示）

虽然这个动态加载的爬虫也并不难，花了十来分钟就改完了，但是我感觉这还是蛮典型的一种类型的，所以趁这个机会拿来跟大家分享一下，遇到了这种类似的情况应该怎么做。

一、分析网站

其实第一步应该是 明确需求 的，就是要明确我们需要什么样的数据，希望以什么样的形式才保存等等。不过由于我们这个跟《人民日报》爬虫目标一致，所以需求部分就暂且略过了。

我们直接来分析网站。

1.1 数据动态加载是怎么回事儿

很多刚接触爬虫的同学，上来 F12 打开开发者工具，就咔咔定位数据找标签，如果是像人民日报那样的静态网页还好，你分析时看到的标签是什么样子，用代码爬的时候基本上也是那个样子；但是遇到解放日报这种动态加载的网站，就直接懵逼了，明明我标签位置，名字，class 和 id 什么的都没写错，为什么爬取的时候就总是报错说找不到标签呢？

答案就是，你找的那个标签是动态生成的，原始网页源码里根本没有，当然找不到了。

大家看下面，这是解放日报的版面导航列表。

一般大家爬取的时候，会先找到这个

标签，然后在这个标签下找到所有的

标签，然后再找标签，然后就找到了想要的数据。

然鹅，当我们打开查看网页源码的时候（chrome 浏览器为例，鼠标右键，查看网页源代码），发现源代码里并没有我们需要的数据，而是一个类似于模板的东西。数据是通过后续动态的加载进来的。

当我们用爬虫去爬的时候，获取到的也是这样的源代码，当然取不到数据啦。

Tips1: 分析网页的时候，可以先查看一下网页源代码，看看自己需要的数据是否在里面，如果有，则可以继续接着分析，如果没有，说明数据是动态加载进来的，要换个思路。

1.2 数据是怎么获取到的

既然网页源代码中找不到数据，那么我们去哪儿获得数据呢？

这就涉及到一个词，叫 “抓包” ，可能听上去很高深很难的样子，其实很简单的。我们知道数据肯定是通过发起 网络请求 获得的，就是网页向服务器发送一条请求，然后服务器把需要的数据回复回来，我们把网页向服务器发送的请求，和浏览器返回的数据，使用一些工具和手段截获下来进行分析，这个过程就是 “抓包”。

可能大家听着还是有点迷糊，下面我来具体演示一下。

打开开发者工具，切换到 Network，然后刷新网页（这里可以抓到网页加载过程中，向服务器发起的各种类型的请求）。

然后上图红框中圈出来的，就是我们抓取到的一条一条的请求包，有 js 脚本的，有 css 文件的，还有图片的等等各种类型的。我们要在这么多的 “请求包” 里找到包含我们需要的数据的包。

把列表里的这些请求从上到下一条一条的点开（在 Preview 里可以预览请求返回的数据），查看哪条请求是我们想要找的。

如上图箭头标识的请求点开以后，预览里的内容正好就是版面导航栏里的内容（预览里点击小箭头可以展开），我们成功找到了正确的请求。

也就是抓包成功！

1.3 抓到的包怎么用？

包含数据的请求包我们是抓到了，但是我们具体要怎么用呢？怎么把它用到爬虫程序里，通过它来爬数据呢？

还是那条请求，我们切换到 Headers 页签，可以查看到关于这条请求的一些基本信息。

主要关注几个部分 Request URL（请求链接），Request Method（请求方法），Query String Parameters（请求参数），（当然请求头的那些东西，User-Agent ，Cookie 什么的，按照实际情况该怎么加就怎么加）。

我们的目的就是，通过 python 代码模拟浏览器发出这条请求，直接获取服务器返回的数据（返回的数据就是前面预览里的那些）。

import requests

url = "https://www.shobserver.com/staticsg/data/journal/2021-04-24/navi.json?ver=1619268138175"
r = requests.get(url)
print(r.text)

我们简单写几行代码模拟一下这个过程（url 就是上图中 Request URL 的内容，requests.get() 是因为 Request Method 是 GET）。

运行结果如下，可以成功获得数据。

1.4 怎么爬其他日期的数据

运行上面的代码，我们可以获得到 2021 年 4 月 24日的新闻数据，那我们如果想爬其他日期的新闻数据该怎么办呢？

这里我们观察一下请求的 url

https://www.shobserver.com/staticsg/data/journal/2021-04-24/navi.json?ver=1619268138175

其中有一段 2021-04-24 的字样，我们猜测，这个可能就是用来控制获取数据的日期的，改成别的日期比如 2021-04-20 再试一下。

https://www.shobserver.com/staticsg/data/journal/2021-04-20/navi.json?ver=1619268138175

发现同样可以成功。

这样我们就知道，可以通过修改 url 里的日期字符串，来爬取指定日期的数据。

1.5 解析数据

该请求返回的数据，是 json 格式的字符串，我们需要用 json 库来进行解析。

（有同学可能想问了，那么一大串乱码似的文字，你怎么知道它是 json 格式的呢？简单来讲，看两个特点，一个是大括号 {} 包起来的，另一个是键值对格式，就是 xxx : xxx 这种形式的。实在不知道怎么判断的话，就去前面讲抓包的部分，看预览的地方，如果有小箭头能够折叠展开的，就是 json 格式）

我们可以看到 pages 里有版面的列表，每个版面的 articleList 里有文章列表，包含了我们需要的版面和文章列表信息。具体解析的 Python 代码这里就不讲了，文末会贴源码。

1.6 怎么爬文章详细内容

首先点开一个文章的正文页，用前面同样的分析方法过一遍，很容易知道，正文内容也是动态加载进来的，而且正文的数据是通过下面这条请求来获得到的。

我们简单写段代码来验证一下

import requests

url = "https://www.shobserver.com/staticsg/data/journal/2021-04-24/01/article/312840.json?ver=1619271661571"
r = requests.get(url)
print(r.text)

运行结果

经过对这条请求的 url 的分析，我们可以知道，/2021-04-24 是日期，/01 是指版面的编号，/312840 是文章的id。

https://www.shobserver.com/staticsg/data/journal/2021-04-24/01/article/312840.json?ver=1619271661571

至此，我们完成了对网站的分析，讲解了如何判断网站数据是动态加载还是静态加载，如果是动态加载的话如何抓包，抓包以后如何使用等等，并抓到了新闻版面列表，文章列表，文章正文内容的请求接口。如果有哪里没有讲清楚，或者对以上内容有不太明白的地方，可以留言问我。

下面进行写代码，正式爬取。

二、编码环节

下面是爬虫源码，供大家学习交流使用，请勿用于非法用途。

import requests
import bs4
import os
import datetime
import time
import json
 
def fetchUrl(url):
    '''
    功能：访问 url 的网页，获取网页内容并返回
    参数：目标网页的 url
    返回：目标网页的 html 内容
    '''
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
    r = requests.get(url, headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text

def saveFile(content, path, filename):
    '''
    功能：将文章内容 content 保存到本地文件中
    参数：要保存的内容，路径，文件名
    '''
    # 如果没有该文件夹，则自动生成
    if not os.path.exists(path):
        os.makedirs(path)
    # 保存文件
    with open(path + filename, 'w', encoding='utf-8') as f:
        f.write(content)

def download_jfrb(year, month, day, destdir):
    '''
    功能：网站 某年 某月 某日 的新闻内容，并保存在 指定目录下
    参数：年，月，日，文件保存的根目录
    '''
    url = 'https://www.shobserver.com/staticsg/data/journal/' + year + '-' + month + '-' + day + '/navi.json'
    html = fetchUrl(url)
    jsonObj = json.loads(html)

    for page in jsonObj["pages"]:
        pageName = page["pname"]
        pageNo = page["pnumber"]
        print(pageNo, pageName)
        for article in page["articleList"]:
            title = article["title"]
            subtitle = article["subtitle"]
            pid = article["id"]
            url = "https://www.shobserver.com/staticsg/data/journal/" + year + '-' + month + '-' + day + "/" + str(pageNo) + "/article/" + str(pid) + ".json"
            print(pid, title, subtitle)

            html = fetchUrl(url)
            cont = json.loads(html)["article"]["content"]
            bsobj = bs4.BeautifulSoup(cont, 'html.parser')
            content = title + subtitle + bsobj.text
            print(content)
            
            path = destdir + '/' + year + month + day + '/' + str(pageNo) + " " + pageName + "/"
            fileName = year + month + day + '-' + pageNo + '-' + str(pid) + "-" + title + '.txt'
            saveFile(content, path, fileName)

if __name__ == '__main__':
    '''
    主函数：程序入口
    '''
    # 爬取指定日期的新闻
    newsDate = input('请输入要爬取的日期（格式如 20210416 ）:')
    year = newsDate[0:4]
    month = newsDate[4:6]
    day = newsDate[6:8]
    download_jfrb(year, month, day, 'Data')
    print("爬取完成：" + year + month + day)

以上是爬取单天的新闻文章的爬虫，如果希望爬取一段时间内的新闻文章数据，可以参照《Python 网络爬虫实战：爬取人民日报新闻文章》中的代码进行修改。

三、运行效果

运行程序，输入 20210424 以后，爬虫自动爬取了 2021年4月24日的新闻数据，并保存在 Data / 20210424 / 目录下。

新闻文章列表

新闻文章正文

如果文章中有哪里没有讲明白，或者讲解有误的地方，欢迎在评论区批评指正，或者扫描下面的二维码，加我微信，大家一起学习交流，共同进步。

你可能感兴趣的:(Python,网络爬虫实战,解放日报,python爬虫,Ajax)

安装与部署openeuler 的HA VX-IT BANG 服务器网络 linux
实现原理LinuxHA（HighAvailability，高可用性）是指利用Linux操作系统构建的高可用集群解决方案，旨在确保关键业务服务在面临硬件故障、软件错误、网络中断等各种异常情况时，依然能够持续、稳定地运行，尽量减少服务中断时间，提高系统的可靠性和可用性。以下从几个方面详细介绍：关键组件和技术心跳监测（Heartbeat）这是LinuxHA系统中最基础也是最重要的组件之一。它通过在节点之
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
关于防火墙运维面试题2 编织幻境的妖运维网络 php
三、防火墙配置与管理类21.如何根据企业的网络安全策略，制定一套全面的防火墙规则集？需要考虑哪些关键因素？以下是根据企业网络安全策略制定全面防火墙规则集的指导，以及需要考虑的关键因素：一、关键因素（一）网络架构与拓扑了解企业的网络结构明确企业网络是简单的星型拓扑、复杂的网状拓扑还是混合拓扑等。例如，在星型拓扑中，所有设备都连接到一个中心交换机或集线器，这种结构下防火墙规则可能相对集中和简单；而在网
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
关于防火墙运维面试题编织幻境的妖运维 php 网络
一、防火墙基础概念类1.请详细阐述防火墙在网络安全体系中的具体作用及核心原理。以下是防火墙在网络安全体系中的具体作用及核心原理的详细阐述：防火墙在网络安全体系中的作用访问控制限制非法访问：防火墙可以根据预设的规则，允许或拒绝特定的网络流量通过。例如，企业内部网络可能只允许来自特定IP地址范围的员工访问敏感资源，而阻止其他未经授权的外部IP地址的访问，从而保护内部网络免受未经授权的访问和潜在的攻击。
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
解决安装 Node 出现的问题 code_stream #其他内容 node.js
日期：2025-2-16最近要开启一个新项目，我需要使用最新的Node环境。但是我重装之后，出现了一些列的问题，参考网络上的教程，基本上都无法解决，什么配置环境变量，什么创建文件夹，都没有作用，教程太落后了，问AI也是绕圈，毕竟AI的数据集也是来自互联网。最后总算解决了。方式就是，傻瓜式安装（下载node后，安装一直下一步就好，它会帮你完成一切配置），安装之后，最重要的一步来了，记得重启电脑！！！
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
100道计算机网络面试八股文（答案、分析和深入提问）整理守护海洋的猫计算机网络面试职场和发展 python django
1.说一说POST与GET有哪些区别回答在计算机网络中，POST和GET是HTTP协议中两种主要的请求方法，它们各自具有不同的特性和用途。下面是二者的主要区别：1.数据传输方式GET：数据通过URL传递，参数以查询字符串的形式附加在URL后面。示例：http://example.com/api?name=value&age=30POST：数据包含在HTTP请求的主体部分，数据不会显示在URL中。示
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
代理IP助力AI图像处理，开启行业新篇章傻啦嘿哟关于代理IP那些事儿人工智能 tcp/ip 图像处理
目录一、代理IP技术简介二、代理IP在AI图像处理中的应用1.提升数据访问速度2.增强数据处理能力3.突破网络限制三、代理IP在AI图像处理中的实际案例案例一：AI图像生成软件案例二：AI动画创作四、代理IP技术的未来展望五、结语在科技日新月异的今天，AI图像处理技术以其广泛的应用前景和强大的处理能力，正深刻改变着我们的世界。从人脸识别、自动驾驶到医学影像分析，AI图像处理技术无处不在，发挥着不可
DeepSeek原理介绍以及对网络安全行业的影响 AI拉呱 Deepseek 人工智能
大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。1.DeepSeek公司介绍1.1DeepSeek是什么：wh
【数据分析】通过个体和遗址层面的遗传相关性网络分析生信学习者1 数据分析数据分析数据挖掘 r语言数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理应用场景加载R包数据下载函数个体层面的遗传相关性网络分析导入数据数据预处理构建遗传相关性的个体网络对个体网络Nij进行可视化评估和选择最佳模型评估和选择最佳模型最佳模型进行总结拟合优度检验遗址层面的遗传相关性网络分析导入数据数据预处理构建遗址之间的遗传相关性网络可视化图条件边预测与模型评估总结系统信息介绍个
【Python 学习 / 7】模块与文件操作卜及中 Python基础 python 学习数据库
文章目录前言一、导入模块1.导入整个模块2.导入模块中的特定函数3.给模块或函数起别名二、常用模块1.`math`模块2.`random`模块3.`os`模块4.`sys`模块三、文件处理1.打开文件2.读取文件3.写入文件4.关闭文件5.使用`with`语句管理文件四、日期时间1.`datetime`模块获取当前日期和时间创建日期和时间对象格式化日期和时间解析字符串为日期对象2.`time`模块
如何安装Hadoop 薇晶晶 hadoop 大数据分布式
Hadoop入门(一)——CentOS7下载+VM上安装（手动分区）Hadoop入门(二)——VMware虚拟网络设置+Windows10的IP地址配置+CentOS静态IP设置Hadoop入门(三)——XSHELL7远程访问工具+XFTP7文件传输Hadoop入门(四)——模板虚拟机环境准备Hadoop入门(五)——Hadoop集群搭建-克隆三台虚拟机Hadoop入门(六)——JDK安装Hado
高电服务器托管：企业IT基础设施的可靠之选 wayuncn 服务器服务器 github 运维
高电服务器托管服务，是指企业将自身高耗电的服务器设备或算力服务器设备交由专业托管公司进行管理和维护的一种服务模式。托管公司提供包括安全机房环境、网络设备、系统软件以及专业技术人员等全方位支持，使企业能够专注于核心业务的开发和运营。高电服务器托管服务内容高电服务器托管服务通常涵盖以下几个方面：机房管理：提供安全、稳定、可靠的机房环境，配备完善的消防、监控、空调等设施，确保服务器稳定运行。硬件维护：对
二级等保对机房的要求 wayuncn 安全 web安全
‌随着信息技术的发展，信息系统的重要性日益凸显。为了保障信息系统的安全性，国家制定了《信息安全等级保护管理办法》。本文依据该办法中的二级等保标准，详细介绍机房物理安全、网络安全、主机安全以及应用及数据安全的要求。机房物理安全要求对于达到二级等保级别的单位而言，在选址方面应当考虑远离自然灾害频发地区;建筑物结构坚固耐用，具备良好的防水、防火性能1.具体来说：环境控制温湿度调节设施齐全有效;配备不间断
NETworkManager-v2025.1.18.0-开源网络管理与故障排除工具私人珍藏库 windows 网络
NETworkManager链接：https://pan.xunlei.com/s/VOJWBmfe1dtEI9-_qNMdFKJAA1?pwd=z8xt#
SIP协议ALG实现逻辑【概览】（一）看兵马俑的程序员 NAT+ALG 网络网络协议
SIP（SessionInitiationProtocol）是一种用于控制多媒体通信会话的信令协议，广泛应用于VoIP（VoiceoverIP）、视频通话、即时消息等实时通信应用中。ALG（ApplicationLayerGateway，应用层网关）是通过理解应用层协议来调整网络流量的网络设备功能，尤其在NAT（NetworkAddressTranslation，网络地址转换）环境下的通信场景中，
等保系列之——网络安全等级保护测评工作流程及工作内容等保管家 web安全安全
等保系列之——网络安全等级保护测评工作流程及工作内容引言随着信息技术的快速发展，网络安全问题日益凸显。为了保障信息系统的安全稳定运行，我国实施了网络安全等级保护制度（简称等保）。等保测评作为该制度的重要组成部分，对于提高信息系统的安全防护能力具有重要意义。等保测评概述等保测评全称是信息安全等级保护测评，它依据国家标准《信息安全技术网络安全等级保护测评要求》进行，旨在评估信息系统的安全防护能力是否达
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他