ifeixiang

爬虫技术浅析

在WEB2.0时代，动态网页盛行起来。那么爬虫就应该能在页面内爬到这些有javascript生成的链接。当然动态解析页面只是爬虫的一个技术点。下面，我将按照如下顺序分享下面的这些内容的一些个人经验（编程语言为Python）。

1，爬虫架构。

2，页面下载与解析。

3，URL去重方法。

4，URL相似性算法。

5，并发操作。

6，数据存储

7，动态爬虫源码分享。

8，参考文章

0x01 爬虫架构

谈到爬虫架构，不得不提的是Scrapy的爬虫架构。Scrapy，是Python开发的一个快速,高层次的爬虫框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等。

上图是Scrapy的架构图，绿线是数据流向，首先从初始URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，需要保存的数据则会被送到Item Pipeline，那是对数据进行后期处理。另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。因此在开发爬虫的时候，最好也先规划好各种模块。我的做法是单独规划下载模块，爬行模块，调度模块，数据存储模块。

0x02 页面下载与解析

页面下载

页面下载分为静态和动态两种下载方式。

传统爬虫利用的是静态下载方式，静态下载的优势是下载过程快，但是页面只是一个枯燥的html，因此页面链接分析中获取的只是< a >标签的href属性或者高手可以自己分析js，form之类的标签捕获一些链接。在python中可以利用urllib2模块或requests模块实现功能。动态爬虫在web2.0时代则有特殊的优势，由于网页会使用javascript处理，网页内容通过Ajax异步获取。所以，动态爬虫需要分析经过javascript处理和ajax获取内容后的页面。目前简单的解决方法是通过基于webkit的模块直接处理。PYQT4、Splinter和Selenium这三个模块都可以达到目的。对于爬虫而言，浏览器界面是不需要的，因此使用一个headless browser是非常划算的，HtmlUnit和phantomjs都是可以使用的headless browser。

以上这段代码是访问新浪网主站。通过对比静态抓取页面和动态抓取页面的长度和对比静态抓取页面和动态抓取页面内抓取的链接个数。

在静态抓取中，页面的长度是563838，页面内抓取的链接数量只有166个。而在动态抓取中，页面的长度增长到了695991，而链接数达到了1422，有了近10倍的提升。

抓链接表达式

正则：re.compile("href=\"([^\"]*)\"")

Xpath：xpath('//*[@href]')

页面解析

页面解析是实现抓取页面内链接和抓取特定数据的模块，页面解析主要是对字符串的处理，而html是一种特殊的字符串，在Python中re、beautifulsoup、HTMLParser、lxml等模块都可以解决问题。对于链接，主要抓取a标签下的href属性，还有其他一些标签的src属性。

0x03 URL去重

URL去重是爬虫运行中一项关键的步骤，由于运行中的爬虫主要阻塞在网络交互中，因此避免重复的网络交互至关重要。爬虫一般会将待抓取的URL放在一个队列中，从抓取后的网页中提取到新的URL，在他们被放入队列之前，首先要确定这些新的URL没有被抓取过，如果之前已经抓取过了，就不再放入队列了。

Hash表

利用hash表做去重操作一般是最容易想到的方法，因为hash表查询的时间复杂度是O(1)，而且在hash表足够大的情况下，hash冲突的概率就变得很小，因此URL是否重复的判断准确性就非常高。利用hash表去重的这个做法是一个比较简单的解决方法。但是普通hash表也有明显的缺陷，在考虑内存的情况下，使用一张大的hash表是不妥的。Python中可以使用字典这一数据结构。

URL压缩

如果hash表中，当每个节点储存的是一个str形式的具体URL，是非常占用内存的，如果把这个URL进行压缩成一个int型变量，内存占用程度上便有了3倍以上的缩小。因此可以利用Python的hashlib模块来进行URL压缩。思路：把hash表的节点的数据结构设置为集合，集合内储存压缩后的URL。

Bloom Filter

Bloom Filter是通过极少的错误换取了存储空间的极大节省。Bloom Filter 是通过一组k 个定义在n 个输入key 上的Hash Function，将上述n 个key 映射到m 位上的数据容器。

上图很清楚的说明了Bloom Filter的优势，在可控的容器长度内，所有hash函数对同一个元素计算的hash值都为1时，就判断这个元素存在。 Python中hashlib，自带多种hash函数，有MD5，sha1，sha224，sha256，sha384，sha512。代码中还可以进行加盐处理，还是很方便的。 Bloom Filter也会产生冲突的情况，具体内容查看文章结尾的参考文章。

在Python编程过程中，可以使用jaybaird提供的BloomFilter接口，或者自己造轮子。

小细节

有个小细节，在建立hash表的时候选择容器很重要。hash表占用空间太大是个很不爽的问题，因此针对爬虫去重，下列方法可以解决一些问题。

上面这段代码简单验证了生成容器的运行时间。

由上图可以看出，建立一个长度为1亿的容器时，选择list容器程序的运行时间花费了7.2s，而选择字符串作为容器时，才花费了0.2s的运行时间。

接下来看看内存的占用情况。

如果建立1亿的列表占用了794660k内存。

而建立1亿长度的字符串却占用了109720k内存，空间占用大约减少了700000k。

0x04 URL相似性

初级算法

对于URL相似性，我只是实践一个非常简单的方法。

在保证不进行重复爬去的情况下，还需要对类似的URL进行判断。我采用的是sponge和ly5066113提供的思路。具体资料在参考文章里。

下列是一组可以判断为相似的URL组

http://auto.sohu.com/7/0903/70/column213117075.shtml

http://auto.sohu.com/7/0903/95/column212969565.shtml

http://auto.sohu.com/7/0903/96/column212969687.shtml

http://auto.sohu.com/7/1103/61/column216206148.shtml

http://auto.sohu.com/s2007/0155/s254359851/index1.shtml

http://auto.sohu.com/s2007/5730/s249066842/index2.shtml

http://auto.sohu.com/s2007/5730/s249067138/index3.shtml

http://auto.sohu.com/s2007/5730/s249067983/index4.shtml

按照预期，以上URL归并后应该为

http://auto.sohu.com/7/0903/70/column213117075.shtml

http://auto.sohu.com/s2007/0155/s254359851/index1.shtml

思路如下，需要提取如下特征

1，host字符串

2，目录深度（以’/’分割）

3，尾页特征

具体算法

算法本身很菜，各位一看就能懂。

实际效果：

上图显示了把8个不一样的url，算出了2个值。通过实践，在一张千万级的hash表中，冲突的情况是可以接受的。

0x05 并发操作

Python中的并发操作主要涉及的模型有：多线程模型、多进程模型、协程模型。Elias专门写了一篇文章，来比较常用的几种模型并发方案的性能。对于爬虫本身来说，限制爬虫速度主要来自目标服务器的响应速度，因此选择一个控制起来顺手的模块才是对的。

多线程模型

多线程模型，是最容易上手的，Python中自带的threading模块能很好的实现并发需求，配合Queue模块来实现共享数据。

多进程模型

多进程模型和多线程模型类似，multiprocessing模块中也有类似的Queue模块来实现数据共享。在linux中，用户态的进程可以利用多核心的优势，因此在多核背景下，能解决爬虫的并发问题。

协程模型

协程模型，在Elias的文章中，基于greenlet实现的协程程序的性能仅次于Stackless Python，大致比Stackless Python慢一倍，比其他方案快接近一个数量级。因此基于gevent（封装了greenlet）的并发程序会有很好的性能优势。

具体说明下gevent（非阻塞异步IO）。，“Gevent是一种基于协程的Python网络库，它用到Greenlet提供的，封装了libevent事件循环的高层同步API。”

从实际的编程效果来看，协程模型确实表现非常好，运行结果的可控性明显强了不少， gevent库的封装易用性极强。

0x06 数据存储

数据存储本身设计的技术就非常多，作为小菜不敢乱说，但是工作还是有一些小经验是可以分享的。

前提：使用关系数据库，测试中选择的是mysql，其他类似sqlite，SqlServer思路上没有区别。

当我们进行数据存储时，目的就是减少与数据库的交互操作，这样可以提高性能。通常情况下，每当一个URL节点被读取，就进行一次数据存储，对于这样的逻辑进行无限循环。其实这样的性能体验是非常差的，存储速度非常慢。

进阶做法，为了减少与数据库的交互次数，每次与数据库交互从之前传送1个节点变成传送10个节点，到传送100个节点内容，这样效率变有了10倍至100倍的提升，在实际应用中，效果是非常好的。:D

0x07 动态爬虫源码分享

爬虫模型

目前这个爬虫模型如上图，调度模块是核心模块。调度模块分别与下载模块，析取模块，存储模块共享三个队列，下载模块与析取模块共享一个队列。数据传递方向如图示。

爬虫源码

实现了以下功能：

动态下载

gevent处理

BloomFilter过滤

URL相似度过滤

关键字过滤

爬取深度

Github地址：https://github.com/manning23/MSpider

你可能感兴趣的:(爬虫技术浅析)

内存保护学习（一）：tc27x的内存保护MPU设置浅析（个人理解）剑从东方起链接文件及功能安全开发语言 c语言
目录一、背景二、Tc27x相关寄存器1、注意点2、注意几个强相关寄存器1）、数据保护范围寄存器2）、代码保护范围寄存器3）、保护集启用寄存器命名约定4）、PSW（每个核都有一个）5）、SYSCON三、使用方法1、内存方面2、在ECUM里面初始化MPU3、OS回调CBK检查4、机理5、补充点一、背景根据低ASIL等级开发的软件组件可能会错误地访问具有较高ASIL等级的软件组件的内存区域，从而产生干扰
Scanpy源码浅析之pp.normalize_total 何物昂
版本导入Scanpy,其版本为'1.9.1'，如果你看到的源码和下文有差异，其可能是由于版本差异。importscanpyasscsc.__version__#'1.9.1'例子函数pp.normalize_total用于Normalizecountspercell，其源代码在scanpy/preprocessing/_normalization.py我们通过一个简单例子来了解该函数主要功能:将一
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
浅析IM即时通讯开发中TCP协议层KeepAlive保活机制 wecloud1314 tcp/ip 网络服务器
对于IM这种应用而言，应用层的网络保活的最直接办法就是心跳机制，比如主流的IM里有微信、QQ、钉钉、易信等等，可能代码实现细节有所差异，但理论上无一例外都是这样实现。（PS：没错，当初微信跟运营商间的“信令危机”就是跟这个有关）所谓的网络心跳，通常是客户端每隔一小段时间向服务器发送一个数据包（即心跳包），通知服务器自己仍然在线（心跳包中同时可能传输一些必要的数据）。发送心跳包，从通信层面来说就是为
浅析MYSQL的事务和锁胡萝卜、 mysql 数据库 java
1.MySQL的事务和锁1.1事务的介绍：概念：事务指逻辑上的一组操作，组成这个操作的单元，要么全部成功执行，要么全部执行失败个人理解：某个业务执行更新语句，整个业务下得sql语句（单指更新）全部成功执行，或者执行全部失败常见的mysql执行命令：starttransaction开启事务rollback回滚事务commit提交事务showvariableslike'%commit';查询是否为自动
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
浅析‖医疗行业数据安全等保星视界
最近小编接触到了医疗行业，猛然发觉信息化技术当前真的是深入应用到了医院的日常经营发展中，医院整体的管理运营全都面向系统化，让医院的管理效率、质量都纷纷得以提升。这也使得信息安全管理工作占据了更加重要的位置。小编总结了下医院信息安全管理的主要工作大概包括这几点：l信息系统网络安全l备份信息记录安全l计算机设备病毒防治l医院信息管理系统平台安全等想必大家也都有所了解，医疗记录包含大量敏感信息：如病患的
2020-01-28 ab96a7f92f71
中西医对病毒性肺病诊治差别（浅析1）ab96a7f92f71字数289·阅读02020-01-2814:05西医除了追溯疾病症状与体征之外，更多借助于各种化验、检测手段和影像学，尤其是血常规和胸部高清CT影像加以诊断，还必须做咽拭子或下呼吸道分泌物寻找出病原体，例如有针对病毒核酸检测或培养测序和抗体滴度测试等。当然还进行全面身体测试数据发现以往的基础病或体质状态。中医主要运用望闻问切传统手段来辨别
Spring源码浅析の循环依赖西岭千秋雪_ 源码分析 spring java 后端 spring boot
AbstractBeanFactory#doGetBean:尝试获取bean如果bean是单例的：if(mbd.isSingleton()){//尝试获取beansharedInstance=getSingleton(beanName,()->{try{//获取不到就创建returncreateBean(beanName,mbd,args);}catch(BeansExceptionex){//E
从中国小说叙述学的角度浅析《酒国》叙述结构花里胡哨_0ac9
“长篇小说的结构是长篇小说艺术的重要组成部分，是作家丰沛想象力的表现。好的结构，能够凸现故事的意义，也能够改编故事的单一意义。好的结构，可以超越故事，也可以解构故事”一、结构突破的合理性莫言曾提到：“结构就是政治”，证明他在长篇小说的谋篇布局方面下了很大的工夫，这一点在《酒国》里面体现得尤为突出。本文试图运用赵毅衡先生提出的叙述学观点与方法，对《酒国》做一个较浅略的分析。在这个层面上，我们仅对叙述
浅析网页不安装插件播放RTSP/FLV视频的方法点量云实时渲染-小芹云流化像素流云渲染音视频 rtsp无插件网页播放 rtmp flv视频网页播放 webrtc
早期很多摄像头视频流使用的是RTSP、RTMP协议，播放这类协议的视频通常是在网页上安装插件。但现在越来越多的用户，对于网页安装插件比较反感，且随着移动设备的普及，用户更多的希望使用手机、平板等移动设备，直接可以查看这些协议的视频。那是否有什么方案可以直接网页打开RTSP、RTMP协议的视频，直接观看不用安装插件呢？而且对于摄像头的数据，尽可能低延迟的获取实时画面。其实很多摄像头厂家也注意到这个问
浅析大数据Hadoop之YARN架构 haotian1685 python 数据清洗人工智能大数据大数据学习深度学习大数据大数据学习 YARN hadoop
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop官方简介。使用和学习过老Hadoop框架（0.20.0及之前版本）的同仁应该很熟悉如下的原MapReduce框架图：1.2H
B站1.18亿元收购甬易支付，获得支付牌照——浅析支付牌照 d488c517aee9
一、B站1.18亿元收购甬易支付宁波市公共资源交易中心网站消息，11月19日，宁波恒舜拍卖有限公司发布余姚中国塑料城物流有限公司产权交易项目成交公告。公告显示，浙江甬易电子支付有限公司65.5%的国有股权，由B站运营主体上海宽娱数码科技有限公司拍得，成交价为人民币11796.55万元。据了解，甬易支付成立于2011年7月，于2012年6月首次获得《支付业务许可证》，2017年6月成功获得续展，续展
爬虫入门教程：爬虫概述会三十六变的猫爬虫爬虫 python 大数据
在数字化时代，数据已经成为我们生活和工作中不可或缺的一部分。而如何高效、准确地获取这些数据，成为了许多领域面临的共同问题。今天，我们就来一起探讨一下爬虫技术，这个能够自动从互联网上抓取信息的神奇工具。一、什么是爬虫简单来说，爬虫（WebCrawler）是一种按照一定规则，自动抓取互联网信息的程序或者脚本。它通过模拟人类浏览器的行为，向目标网站发送请求，然后解析并提取返回的数据。这些数据可以是网页的
Haskell爬虫：连接管理与HTTP请求性能小白学大数据 python 爬虫 http 网络协议开发语言 python
爬虫技术作为数据抓取的重要手段，其效率和性能直接影响到数据获取的质量与速度。Haskell，作为一种纯函数式编程语言，以其强大的类型系统和并发处理能力，在构建高效爬虫方面展现出独特的优势。本文将探讨在Haskell中如何通过连接管理和HTTP请求优化来提升爬虫的性能。连接管理的重要性在HTTP请求中，连接管理是一个关键因素。有效的连接管理可以减少建立和关闭连接的开销，提高请求的响应速度。在Hask
「浅析系列」《论语》（八佾篇）（1）霜月洞天
文（3.1）与文（3.2）、文（3.6）【联】文（3.10）与文（3.22）提：中心词（概括）为“底线”。底线有不同的种类，譬如人性底线，三观底线，认知底线，行事底线等，而各底线种类又各自分为多种底线实质，也即在某一种种类之下，到底存在怎样的规矩。点：此四节内容都指出了底线当中“僭越身份”的种类以及礼乐（礼节）中的实质。点2：1、文（3.1）：底线→僭越身份（种类：天子与大夫【季孙作为大夫僭越了天
【算法】浅析贪心算法 Ustinian_310 算法贪心算法 python
贪心算法：高效解决问题的策略1.引言在计算机科学和优化领域，贪心算法是一种常用的解决问题的策略。它以当前情况为基础，做出最优选择，从而希望最终结果也是最优的。本文将带你了解贪心算法的原理、使用方法及其在实际应用中的意义，并通过代码示例和图示帮助大家更好地理解。2.贪心算法简介2.1定义贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前状态下最优（即最有利）的选择，从而希望导致
基于Django开发的电商购物平台(完整项目介绍 --＞项目环境 , 项目完整代码 , 项目服务器/虚拟机部署) 攒了一袋星辰 Django项目之电商购物商城 django 服务器 python
1-10_Django项目实战文档本网站是基于Django+uwsgi+nginx+MySQL+redis+linux+requests开发的电商购物系统,以及通过使用爬虫技术批量获取商品数据.实现客户端:注册,登录,浏览记录保存,购物车,订单等功能实现管理端:商品添加,用户管理等功能项目内容较多,该博文只是对整体的大致思路介绍,如有疑问可以私信博主项目的完整代码可见博主主页上传的资源项目git地
使用Vue组件的watch监听-简单计算器编程初学者01 vue.js vue.js 前端 javascript 前端框架
Vue组件的初探一、浅析这里做了一个全局的组件vue.component('mycomp',{})在中写组件，将id=comp1script中直接template:"#copm1"其他的部分就是之前所讲的watch来实现简易计算器差不多组件watch监听-计算(CQNU-ZJW)+=varcom=Vue.component('mycomp',{template:"#comp1",data(){re
2024年高教社杯数学建模国赛赛题浅析——助攻快速选题 BZD数模社数学建模
一图流——一张图读懂国赛总体概述：A题偏几何与运动学模型，适合有几何与物理背景的队伍，数据处理复杂性中等。B题侧重统计和优化，适合有运筹学和经济学背景的队伍，数据处理较为直接但涉及多步骤的决策优化。C题属于优化类问题，涉及复杂的多变量优化与不确定性分析，数据处理难度大。D题涉及概率和优化，特别是几何概率模型的推导，理论难度较高。E题数据量较大，重点在于大规模交通数据的分析与优化，适合擅长交通工程和
在BrowserStack上进行自动化爬虫测试的终极指南亿牛云爬虫专家爬虫代理 python 代理IP 自动化爬虫 python 爬虫代理代理IP BrowserStack 浏览器
一、背景介绍随着互联网的快速发展，数据变得越来越宝贵，爬虫技术已成为从网页中提取信息的重要工具。然而，在不同的环境中测试和运行爬虫脚本可能会带来挑战。尤其是在多浏览器、多平台的环境中确保爬虫的稳定性和兼容性是一个令人头疼的问题。BrowserStack，一个领先的跨浏览器测试平台，为解决这一问题提供了强大的工具和服务。本指南将带你深入了解如何在BrowserStack上进行自动化爬虫测试，并展示如
Java IO异常处理：在Web爬虫开发中的实践小白学大数据 python java 前端爬虫
在当今的互联网时代，Web爬虫技术已经成为数据采集的重要手段之一。它们能够自动地从网页中提取信息，为数据分析、搜索引擎优化、内容聚合等提供了强大的支持。然而，Web爬虫在执行过程中可能会遇到各种输入/输出（IO）异常，如网络错误、文件读写问题等。因此，有效地处理这些异常对于确保爬虫的稳定性和可靠性至关重要。本文将探讨Java中IO异常处理的机制，并展示如何在Web爬虫开发中实践这些机制。JavaI
ur5在gazebo中仿真的官方源码浅析 Ecalpal 机器人其他
一复现好久之前初学ros+gazebo机械臂仿真的时候总有些懵，用的是ur5机械臂，现在回过头来看好像看懂了一些，故重新理清了一下功能包的逻辑，方便查阅。官方源码本文参考ubuntu16.04安装UR3/UR5/UR10机械臂的ROS驱动并实现gazebo下Moveit运动规划仿真以及真实UR3机械臂的运动控制(1)1.1roslaunchur_gazebour5.launch1.1.1找gaze
Objective-C高级特性浅析与实践指南小鹿撞出了脑震荡 objective-c 学习
OC的学习笔记（二）文章目录OC的学习笔记（二）@property访问控制符点语法自定义`init`方法内存管理retain和release@class处理发生异常的方法NSSrting的常用方法类方法对象方法lengthcharacterAtIndexisEuqalStringcompare@autorelease和自动释放池自动释放池Category类别与扩展category的运用NSNumb
socks代理和http代理的区别_浅析socks代理如何使用TCP和UDP协议 weixin_39640414 udp接受
SOCKS是一种网络传输协议，主要用于客户端与外网服务器之间通讯的中间传递。sock5协议没有规定加密，所以是明文传输，当然也可以搭配ssl加密。由于网上的信息传输都是运用tcp或udp进行的，所以使用socks5代理可以办到网上所能办到的一切，因为sock5既支持TCP协议又支持UDP协议。当然，socks5对这两种协议的使用是有区别的，以下分类说明。如何用代理TCP协议：1、向服务器的1080
2024最好的传奇手游打金服推荐传奇手游打金服排行榜大全会飞滴鱼儿
传奇游戏熟悉的背景音乐和爽快的攻击体验，凭借着这些元素，成为许多80后童年时光的最佳伴侣。面对当今市场上丰富的游戏资源，不少人依然留恋这款可以联机、高自由度玩法的传奇游戏。那么，让我们一同回顾一下2024年最值得一玩的传奇手游打金服，并浅析它们的特点以及全网热度情况。传奇手游延续至今，已经接近二十年的历史了，而这些年走过来，被诟病最多的就是其“内部号”的事情，本期小编也给大家整理了一份资料：但是现
C# 爬虫技术：京东视频内容抓取的实战案例分析小白学大数据 python c#爬虫开发语言 python
摘要随着互联网技术的飞速发展，数据的获取和分析变得愈发重要。爬虫技术作为数据获取的重要手段之一，广泛应用于各个领域。本文将重点探讨C#语言在京东视频抓取中的实现过程，分析其技术细节，并提供相应的代码实现。引言京东作为中国领先的电商平台，拥有海量的商品信息和用户数据。通过爬虫技术，我们可以从京东网站抓取视频数据，用于市场分析、用户行为研究等。C#作为一种强大的编程语言，提供了丰富的网络编程接口，非常
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他