机灵鹤

Python 网络爬虫实战：去哪儿网旅游攻略图文爬取保存为 Markdown电子书

接上回，《Python 网络爬虫实战：爬取《去哪儿》网数千篇旅游攻略数据》。

我们爬取到了数千篇的旅游攻略文章的数据。

但是事情还没有结束，对于大部分的人来讲，最希望得到的东西应该不是这种干巴巴的 Excel 数据，

而是这种图文并茂的文章吧！

其实之前我们爬过很多类似的网站，比如《人民日报新闻爬虫》，《知乎问题回答爬虫》，都是爬取大段的文章。

不过区别在于，那些爬虫的关注点在于文字，主要用来做分词，语义情感等方面的分析，也就是说不是给人看的，是给程序看的，所以直接将图片，超链接，排版格式等东西舍弃，仅提取文字，使用记事本保存即可。

而这篇爬虫不同，爬取旅游攻略文章，重点在于阅读体验，如果抛弃了图片，抛弃了排版，爬到的攻略文章也就失去了灵魂。

BUT，用什么格式的文件可以保存图文，还可以尽可能保留原始排版呢？想来想去，我觉得 Markdown 或许是最佳选择。

0x00 分析网站

相比于上一篇爬虫中各式各样的数据，这篇爬虫要爬的内容就简单很多了。

以 https://travel.qunar.com/travelbook/note/6910266 这篇文章为例，使用开发者工具（F12）来进行分析。

可以看到，文章的正文部分是在一个

标签中的，其中每一个子 div 标签存放一个章节的内容。

分析完毕，是不是确实很简单呢？

如果是按照之前的做法，我可能直接一个 '.text' 或者 '.string' ，把其中的文字提取出来就完事儿了。

但是这里我们不能这样做，需要把它完整地取出来，保留其原本的结构，转换成 Markdown 格式进行存储。

0x01 将 HTML 转成 Markdown 格式

这里我结合使用了 BeautifulSoup 和 html2text 库。

BeautifulSoup 库用来定位提取文章的正文部分，html2text 库用来将正文部分的 html 文本转化成 markdown 格式。

1. 提取正文部分

import requests
from bs4 import BeautifulSoup

def getContent(html):
    '''
    提取文章的正文部分的 html
    '''
    bsObj = BeautifulSoup(html,'lxml')
    title = bsObj.find("h1").text
    content = bsObj.find("div",attrs = {"id":"tpl_1"})
    return str(content)

url = 'https://travel.qunar.com/travelbook/note/6910266'
html = fetchUrl(url)    # fetchUrl(url) 函数用于发起网络请求 
content = getContent(html)
print(content)

运行结果：

网站没有设置过多的反爬机制，成功获取到文章的正文部分。

2. 将正文部分的 html 转换成 Markdown 格式

这部分主要是通过 html2text 库来完成，不过该库在转换过程中，有一些转换错误的地方，需要对转换结果做一定的处理。（以下是我在用 html2text 库转换去哪儿网站攻略文章时出现的问题，不知道是库有问题还是网站的问题，大家使用的话根据实际情况进行调整）

① 章节标题格式

html 中的 h 标签，转换成 Markdown 后，会在 # 后面多两个换行符。

如 h1 标签会转换成 "#\n\n"，而实际我们需要的是 "# "（ # 后面加空格）

text = text.replace("#\n\n", "# ")

有些标题是有超链接的（网页中查看时，鼠标移上去会有 Tips 框弹出），这些Tips信息转换成 Markdown 格式后显示会有点混乱。我们直接将其超链接去除，只保留纯粹的标题文字。

header5 = content.find_all("h5")
for h5 in header5:
    t5 = h5.find("div", attrs = {"class":"b_poi_title_box"})
    h5.insert_after("##### " + t5.text)
    h5.extract()

② 莫名其妙的换行符

可能是网页源码中有一些特殊的字符，转换后出现了很多换行符。

text = text.replace("\\.",".")
text = text.replace(".\n",". ")
text = text.replace("tr-\n","tr-")

③ 不需要的标签

文章正文部分中夹杂着一些标签，比如下图中的 “评论” ，是我们不需要的，可以将其处理去掉。

我们可以在转换前，直接使用 BeautifulSoup 的 extract 函数将其剔除。

cmts = content.find_all("div", attrs = {"class":"ops"})
for s in cmts:
    s.extract()

④ 正文中出现了Markdown 格式控制符号

有些文章中的文字比较活泼可爱，用了很多颜文字，比如 ~~~ ^_^ ~~~ 等，而 ~~~ ，``，* 等这些符号是 Markdown 中用来控制格式的符号，导致虽然文章转换没什么问题，但是显示出现了问题。

# 正文中 ~ 的个数不确定，经过观察这样大概就基本可以正确显示了。
html = html.replace("~~", "~").replace("~~", "~")

等等等等，还有其他细节方面的调整，其实也不算是共性问题，分享出来可能意义也不是很大，就不一一列举了，大家遇到了的话针对性地调整就可以了。

0x02 完善代码开始爬取

1. 读取 URL 列表

这里我们直接从上篇文章中爬取得到的 csv 文件中读取（大家感兴趣的可以去看看，跑跑文章中的代码就可以很容易得到）。

为了方便，我这里上传了一份测试用的文档（下载链接），大家可以去下载使用。（CSDN的下载需要积分，大家有积分的权当支持一下博主啦！如果链接失效了，或者没有下载积分，可以在文末加我微信找我要）

import pandas as pd

df = pd.read_csv('data.csv', sep = ',', usecols = [0，1])
for index, title, url in df.itertuples():
    print(title)
    print(url)

运行结果：

可以读取到每篇文章的标题和链接。

2. 发起网络请求

下面是 fetchUrl 函数，用于发起网络请求。

import requests

def fetchUrl(url):
    '''
    发起网络请求
    '''
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36',
    }
    r = requests.get(url,headers=headers)
    r.raise_for_status()
    r.encoding = "utf-8"
    return r.text

3. 爬取正文并转换成 Markdown 格式

getContent 函数用来从网页源码中提取正文部分的 Html 文本，并进行一些简单的预处理。

包括对图片，标题格式的替换，无关标签的剔除，以及一些有干扰的特殊字符的替换。

from bs4 import BeautifulSoup

def getContent(html):
    '''
    提取文章的正文部分的 html
    '''
    html = html.replace(" ", "")
    html = html.replace("~~", "~").replace("~~", "~")

    bsObj = BeautifulSoup(html,'lxml')
    title = bsObj.find("h1").text
    content = bsObj.find("div",attrs = {"id":"b_panel_schedule"})

    imgs = content.find_all("img")
    for img in imgs:
        src = img['data-original']
        txt = img['title']
        img.insert_after("![{0}]({1})".format(txt,src))
        img.extract()

    header5 = content.find_all("h5")
    for h5 in header5:
        t5 = h5.find("div", attrs = {"class":"b_poi_title_box"})
        #print(t5.text)
        h5.insert_after("##### " + t5.text)
        h5.extract()

    cmts = content.find_all("div", attrs = {"class":"ops"})
    for s in cmts:
        s.insert_after('< br/>')
        s.extract()

    return str(content)

Html2Markdown 函数，主要作用是将 html 文本转换成 Markdown 格式，并对转换过程中出现的一些格式错误进行修正。

import html2text as ht

def Html2Markdown(html):
    '''
    将文章正文部分由 html 格式转换成 Markdown 格式
    '''
    text_maker = ht.HTML2Text()
    text = text_maker.handle(html)
    text = text.replace("#\n\n", "# ")
    text = text.replace("\\.",".")
    text = text.replace(".\n",". ")
    text = text.replace("< br/>","\n")
    text = text.replace("tr-\n","tr-")
    text = text.replace("查看全部 __","")
    return text

4. 保存文件

我们保存文件时，使用文章标题作为文件名存储。而文件名中有一些字符，如正反斜杠 / \ ，英文引号 ' "，英文大于小于号 <> 等等，我们需要对其进行剔除，或者替换成中文的符号。否则会报错，保存失败。

import os

def saveMarkdownFile(title,content):
    '''
    保存文本到 Markdown 文件中
    title：文件名
    content：要保存的文本内容
    '''
    # 剔除或替换文件名中不允许出现的符号
    title = title.replace("\\","")
    title = title.replace("/","")
    title = title.replace("\"","”")
    title = title.replace("\'","’")
    title = title.replace("<","《")
    title = title.replace(">","》")
    title = title.replace("|","&")
    title = title.replace(":","：")
    title = title.replace("*","x")
    title = title.replace("?","？")
    
    with open("data/" + title + ".md", 'w', encoding='utf-8') as f:
        f.write(content)

5. 爬虫调度器

最后我们需要写一个爬虫调度的函数，来启动并控制我们的爬虫。

import time
from random import randint

def main():

    df = pd.read_csv('data.csv', sep = ',', usecols = [0，1])
    for index, title, url in df.itertuples():
        html = fetchUrl(url)
        content = getContent(html)
        md = Html2Markdown(content)
        saveMarkdownFile(title, md)

        # 随机等待时间，避免爬取过于频繁触发反爬机制
        t = randint(0,3)
        print("wait -- ",str(t),"s")
        time.sleep(t)

# 启动爬虫
main()
print("爬取完成！")

上述就是本次爬虫的全部源码了。

0x03 问题解决

1. 如何安装 html2text 库？

虽然我相信这个小问题一定难不倒聪明的大家的，但是这里还是讲一下，给大伙儿节省点时间，哈哈。

安装命令是：

pip install html2text

如果上面那个指令安装时，提示 ConnectTimeoutError 连接超时失败（反正我是连接超时失败了），可以试一下下面这个指令。

pip install html2text -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

参考链接：https://blog.csdn.net/licheetools/article/details/82946342

2. 什么是 Markdown ？如何打开 Markdown 文件？

Markdown 的基本概念我就不说了，自己去网上搜吧。就相当于 Office Word 的精简版，可以让你像写代码一样写文章，用熟练了，写起东西来非常丝滑。

我目前在用的一款 Markdown 编辑器，叫 Typora，界面还是非常干净漂亮的，颜值很高。在这里给大家简单推荐一下，如果大家有什么好用的 Markdown 编辑器，也可以在评论区跟大家分享哦。

下载链接：https://www.typora.io/

0x04 后记

由于是单线程爬取，而且加了相对来说比较长的等待时间（主要也是时间宽裕，也不想给人家网站造成压力）。

一下午时间爬了近2千篇文章，用 Typora 打开，翻阅起来真的是，感觉是真的爽。

如果文章中有哪里没有讲明白，或者讲解有误的地方，欢迎在评论区批评指正，或者扫描下面的二维码，加我微信，大家一起学习交流，共同进步。

你可能感兴趣的:(Python,网络爬虫实战,python,爬虫,html2text,markdown,去哪儿网)

Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
关于uni-app发布手机APP上架各应用商城，隐私政策书写方案说明 Otaku love travel uni-app 应用发布政策说明 uni-app 应用发布隐私政策
uni-app应用隐私政策书写与上架方案说明一、前言随着移动互联网监管日趋严格，隐私政策已成为APP上架应用商城的核心合规文件。隐私政策不仅体现开发者对用户数据的尊重，更是满足《个人信息保护法》《网络安全法》《数据安全法》等法规的法律义务。核心目标：清晰告知用户数据收集与使用规则，建立用户信任。适用对象：所有通过uni-app开发并计划上架主流应用商城（如苹果AppStore、华为应用市场、小米应
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
Spike Neural Network Introduction and Research Directions Debug_Snail SNN Neuralnetwork 人工智能 AIGC
1.SNNs是一类神经网络,其中的神经元通过脉冲(spikes)来传递信息,而不是像传统的人工神经网络中那样使用实数值激活。SNNs更接近生物学上的神经系统,因为生物神经元也是通过电信号脉冲来传递信息的。与传统神经网络相比,SNNs具有以下几个特点:更低的功耗-因为只在发生脉冲时才激活神经元,所以整体功耗会比传统神经网络低很多。这使得SNNs很适合应用在对功耗要求非常严格的场景,如边缘计算。时序编
webpack 码上跑步 webpack 前端 node.js
webpack介绍webpack是一个构建工具,实现了模块化管理项目.他的工作方式是用各种loader将各种资源转化为js文件或者对js文件进行压缩编译亦或对静态资源进行处理.官网:webpack由来模块化存在一些问题1.ESM的兼容性问题2.模块文件过多,网络请求频繁3.前端的所有资源包括html和css都需要模块化构建工具应运而生,需要一个集编译,模块打包,支持不同的资源的模块打包工具.Web
Flutter中使用NetworkImage加载网络图片缓存问题学习实践云水-禅心 flutter 缓存
Flutter中默认的NetworkImage会有缓存机制，如果图片的url不变化，但是url的图片已经发生变化，NetworkImage不会下载新的图片deepseek是这么解决问题的，但是在鸿蒙上禁用缓存无效在Flutter中，NetworkImage默认会使用缓存机制来优化性能。如果你想禁用缓存，可以通过以下几种方式实现：1.使用NetworkImage的headers参数你可以通过设置he
什么是XSS 藤原千花的败北 web漏洞 xss 前端 web安全网络安全
文章目录前言1.前端知识2.什么是XSS3.漏洞挖掘4.参考前言之前对XSS的理解就是停留在弹窗，认为XSS这种漏洞真的是漏洞吗？安全学习了蛮久了，也应该对XSS有更进一步的认识了。1.前端知识现代浏览器是一个高度复杂的软件系统，由多个核心组件协同工作，旨在高效、安全地呈现网页内容并执行交互逻辑。对一般用户来讲，其主要功能就是向服务器发出请求，在窗口中展示用户所选择的网络资源。这里所说的资源一般是
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Linux tcpdump -any抓的包转换成标准的pcap 812503533 linux tcpdump 网络协议 tcp/ip
在Linux中使用tcpdump-any抓包并转换为标准pcap文件时出现额外字段，通常与链路层协议头部的差异以及pcap文件格式的兼容性有关。以下是详细原因和解决方案：一、问题原因分析-any选项的局限性tcpdump-any会自动猜测链路层协议类型（如Ethernet、IEEE802.11、PPP等），但可能因环境复杂导致误判。例如：在混合网络（如同时包含有线和无线流量）中，自动检测可能失败。
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
四种主要的 API 架构风格：RPC、SOAP、REST、GRAPHQL 小马不敲代码系统设计架构 rpc graphql
讨论四种主要的API架构风格，比较它们的优缺点，并重点介绍每种情况下最适合的API架构风格。RPCSOAPRESTGRAPHQL两个单独的应用程序需要中介程序才能相互通信，因此，开发人员经常需要搭建桥梁——也就是应用程序编程接口（API），来允许一个系统访问另一个系统的信息或功能。为了快速、大规模地集成不同的应用程序，API使用协议或规范来定义那些通过网络传输的消息的语义和信息。这些规范构成了AP
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
知识蒸馏论文精选——《Graph-Free Knowledge Distillation for Graph Neural Networks 》宇直不会放弃 GKD-Output layer 人工智能数据挖掘机器学习深度学习神经网络 cnn pytorch
（GFKD）无图知识蒸馏《Graph-FreeKnowledgeDistillationforGraphNeuralNetworks》2021作者是XiangDeng和ZhongfeiZhang，来自纽约州立大学宾汉姆顿分校论文地址见文末摘要知识蒸馏（KnowledgeDistillation,KD）通过强制学生网络模仿在训练数据上预训练老师网络的输出，从而将知识从老师网络转移到学生网络。然而，在
微信小程序将markdown内容转为pdf并下载蓝天星空编程 2025人工智能AI 微信小程序 pdf
要在微信小程序中将Markdown内容转换为PDF并下载，您可以使用以下方法：方法一：使用第三方API服务选择第三方API服务：可以选择像Pandoc、Markdown-PDF或PDFShift这样的服务，将Markdown转换为PDF。例如，PDFShift提供了一个API接口，可以将Markdown内容转换为PDF格式。调用API：在微信小程序中，您可以使用wx.request方法来调用第三方
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
实施疫苗冷链温度监控预警保障疫苗安全 BEOL贝尔科技其他
国家免疫规划工作已经实施多年，接种疫苗是预防疾病最直接、最经济、最有效的手段。新冠疫苗第三针已经开始接种，但是近年来不断发生的疫苗事件，让广大市民对疫苗的质量安全产生了质疑。为了保障疫苗质量安全，小编推荐使用疫苗冷链温湿度监控预警系统。该系统能对储存疫苗的冰箱温度进行实时采集并上传到网络平台，相关人员可通过登陆平台查看设备内温度。一旦冷链设备运行出现异常情况，如发生温度超限或停电，系统会及时报警，
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
从零开始学习黑客技术，看这一篇就够了网络安全-旭师兄学习 web安全 python 密码学网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包黑客，对于很多人来说，是一个神秘的代名词，加之影视作品夸张的艺术表现，使得黑客这个本来只专注于技术的群体，散发出亦正亦邪的神秘色彩。黑客源自英文hacker一词，最初曾指热心于计算机技术、水平高超的电脑高手，尤其是程序设计人员，逐渐区分为白帽、灰帽、黑帽等。其中，白帽黑客被称为道德黑客。他们不会非法入侵用户网络，而是通过一系列测试检查
七个合法学习黑客技术的平台，让你从萌新成为大佬黑客白帽子黑爷学习 php 开发语言 web安全网络
1、HackThisSite提供在线IRC聊天和论坛，让用户交流更加方便。网站涵盖多种主题，包括密码破解、网络侦察、漏洞利用、社会工程学等。非常适用于个人提高网络安全技能2、HackaDay涵盖多个领域，包括黑客技术、科技、工程和DIY等内容，站内提供大量有趣的文章、视频、教程和新闻，帮助用户掌握黑客技术和DIY精神。3、OffensiveSecurity一个专门提供网络安全培训和认证的公司，课程
计算机网络：电路交换，报文交换，分组交换 LG.YDX 计算机网络计算机网络网络
一、电路交换：核心思想在通信前建立一条专用物理路径（电路），整个通信过程中独占该路径，结束后释放资源。特点1.建立连接（尝试占用通信资源）2.通信（一直占用通信资源）3.释放连接（归还通信资源）优点：•实时性强（如语音通话、视频会议）。•数据传输顺序和完整性有保障。缺点：•资源浪费（空闲时链路无法被其他用户使用）。•连接建立/释放时间长（不适合突发性数据传输）。线路分配的灵活性差。节点交换不支持“
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他