爬虫基础|你不动我不动,响应?

大家好,我是杨小爽,我的文章是较为严肃的技术文,今天我们继续来深入了解一下HTTP中的响应内容,本文分为两部分,请慢慢品读。

随着近30年互联网的飞速发展,人们在网络上查找一个信息变得越来越简单,世界的距离不断缩短着,打开电脑的浏览器,或者借用手机上的浏览器,几个按键操作,各种信息就快速地展现在人们的眼前。

今天我们故事的两位主角便是浏览器和喜欢伪装浏览器的爬虫。

一、日常生活中的浏览器

1、浏览器的使用

打开电脑,双击桌面上的浏览器图标执行打开操作,一个浏览器窗口便出现在我们眼前,在网址输入框输入目标网址,几秒钟内你想查找的内容就出现在你的眼前了。

我们输入网址按Enter键后,浏览器后执行一系列操作向网站(服务器,下同)发起一个请求,服务器接收到请求后,先解析请求,并根据请求内容和一定规则向浏览器返回响应内容,浏览器拿到响应内容后,解析出内容并显示在浏览器用户浏览界面上。

这便是浏览器在背后在做的事情。

本文的重点在响应内容上,那么服务器返回的响应内容是什么样的呢?

通常,服务器会返回一个HTML(超文本标记语言)文档,浏览器解析了显示给用户;如果这个HTML文档还引用了其他内容,浏览器会再次向服务器发起相应请求,获取到这些文件后解析并进行使用,所以我们才能看到浏览器显示给我们的如此多姿多彩地内容。

览器与服务器的请求响应过程

2、HTML

HTML,Hyper Text Markup Langguage,超文本标记语言,是一门用于制作网页的语言,浏览器解析了它就可以显示出我们见到的内容。

在浏览器中,通过F12键打开开发者工具后,刷新页面,便可以看到类似下图的内容,红色箭头执行的Type的值为document便代表这个响应的内容是一个HTML文档。

F12打开开发者工具查看HTML文档

那么它是什么样子的呢?点击响应后会出现类似下面的代码:

Hello,HTML!</head><body><div><p>Thisis my first HTML</body></html></p> <p><strong>HTML样例</strong></p> <p>可以看到,开头的是<!DOCTYPE html>,它表示文档使用了哪种HTML规范,这里指html5标准网页声明。</p> <p>紧接着是一对对标签,<html></html>、<head></head>和<body></body>等标签。<html></html>用于告诉浏览器自身是一个HTML文档;<head></head>是HTML文档的头部标签,用于描述文档的各种熟悉和消息;<body></body>是HTML文档的主体标签,通常其包含了HTML文档所以展示出来的内容。</p> <p>HTML的语法短短几字介绍不完,也是编写爬虫程序绕不开的点,请求成功获取到响应后需要对其进行解析,熟悉HTML语法,才能写出更加高效的进行解析。</p> <p><strong>二、模拟浏览器</strong></p> <p><strong>1、模拟浏览器是什么意思?</strong></p> <p>浏览器在发起请求时,请求中会携带一些参数,网站会根据这些参数判断你是不是一个正常的用户在用浏览器进行访问。爬虫通常用于大量地获取网站的信息,爬虫使用者往往并不希望自己的身份曝光,所以需要对自己的身份进行伪装,一般通过代理IP、模拟浏览器发送的参数等方式来伪装。</p> <p>爬虫虽然可以模拟浏览器访问获取到响应内容,但是当前动态网页越来越成为主流,如果不借助一些其他工具或找到数据加载的接口,也没办法通过直接请求获取到目标数据。</p> <p><strong>2、动态网页</strong></p> <p>编写爬虫除了解析静态网页外,更多地是面对动态网页,目标数据并不直接在响应的HTML文档上,而是通过动态加载的方式呈现出来。</p> <p>常见的动态加载有三种方式:Ajax技术、JS加载技术,websocket。</p> <p><strong>(1)Ajax</strong></p> <p>Ajax,即Asynchronous Javascript And XML,异步Javascript和XML,是一种创建动态网页的技术,可以实现网页不刷新的情况下从网站获取数据动态更新部分网页内容。</p> <p>Ajax也是当前流行的动态交互技术。</p> <p></p> <p><strong>新浪微博评论</strong></p> <p></p> <p><strong>评论加载使用了ajax</strong></p> <p>新浪微博的博文评论便是使用了ajax技术,如果直接请求是看不到这些评论的,需要找到ajax的请求接口,根据一定的规则进行请求才可以获取到评论内容。</p> <p></p> <p><strong>F12打开开发者工具查看ajax加载</strong></p> <p></p> <p><strong>查看ajax加载内容</strong></p> <p>通过F12打开开发者工具可以查看Ajax背后的加载过程,可以看到当我们点击评论后浏览器会向网站发起一个请求,网站会响应对应的数据,然后浏览器在不刷新页面的情况下将数据解析并显示出来。</p> <p>所以,选择好目标爬取网站后,可以通过F12打开浏览器开发者工具来查看浏览器与网站如何进行请求响应的,判断目标网页是动态加载的还是静态页面。</p> <p><strong>(2)JS加载</strong></p> <p>除了Ajax技术外,还存在部分网站使用了JS来传输数据,将响应的数据隐藏在JS文件中,或者通过一定的计算后显示出内容或一些图表。JS加载的方式与Ajax类似,实际上,Ajax本身便是基于Javascript的技术,因此可以采用同样的方式查看响应数据。</p> <p><strong>(3)Websocket</strong></p> <p>Websocket是一种在单个TCP连接上进行全双工通信的协议。浏览器一旦和网站建立连接后,便允许网站主打向浏览器推送数据,在某些要求实时数据更新的场景十分高效,如直播弹幕、股票价格更新等等。</p> <p>Websocket是一种与HTTP完全不同的协议,当我们访问采用Websocket协议的网站时,浏览器会先向网站发起一个基于HTTP协议的请求,请求中会携带一个Upgrade字段,其值为websocket,网站接收到这个请求后同时会基于HTTP协议返回一个状态码为101、原因短语为Switching Protocols的响应,表示同意升级为Websocket协议,这也叫握手。完成握手后,浏览器和客户端便可以随意的相互交换数据。</p> <p>下图为采用了Websocket协议进行数据更新的网站火币网:</p> <p></p> <p><strong>火币网</strong></p> <p></p> <p><strong>火币网正在进行数据更新</strong></p> <p><strong>三、结尾语</strong></p> <p>开始写这篇文章的时候颇为担心,觉得思路没有理清楚。但写下来才发现,写爬虫会不可避免与这些东西打交道,而这些东西又是入门级且十分简单的内容,真正复杂的反而是验证码、反编译、JS加密这些内容,因此便硬着头皮一路写下来,把心中的看法都再梳理一遍。</p> <p>都说强迫自己不好,但是你不动一动,怎么知道结果呢。</p> <p>最后,谢谢大家,希望你们喜欢,如有任何疑问或建议,可以关注我的公众号“探索数据之路”,在公众号后台发消息联系我。</p> <p></p> <p>我的公众号</p> </div> </div> </div> </div> </div> <!--PC和WAP自适应版--> <div id="SOHUCS" sid="1188399882143113216"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script> <!-- 文章页-底部 动态广告位 --> <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad"> <!-- 文章页-右侧1 动态广告位 --> <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div> <!-- 文章页-右侧2 动态广告位 --> <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div> <!-- 文章页-右侧3 动态广告位 --> <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(爬虫)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1900712728830472192.htm" title="Python 爬虫实战:艺术品市场趋势分析与交易平台数据抓取" target="_blank">Python 爬虫实战:艺术品市场趋势分析与交易平台数据抓取</a> <span class="text-muted">西攻城狮北</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>一、引言在当今数字化时代,艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展,越来越多的艺术品交易转移到了线上平台,这为我们提供了海量的数据资源。通过Python爬虫技术,我们可以抓取艺术品交易平台上的数据,进而分析艺术品市场的趋势,为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现,再到数据的清洗、分析</div> </li> <li><a href="/article/1900695326671564800.htm" title="简单的网页链接爬虫" target="_blank">简单的网页链接爬虫</a> <span class="text-muted">笑颜218</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%AE%80%E5%8D%95/1.htm">简单</a> <div>fromurllib.requestimporturlopenfromurllib.parseimporturljoinfromhtml.parserimportHTMLParser#自定义HTML解析器classLinkParser(HTMLParser):def__init__(self,base_url):super().__init__()self.base_url=base_url#基础</div> </li> <li><a href="/article/1900641450656329728.htm" title="C#实现动态验证码生成器:安全防护与实际应用场景" target="_blank">C#实现动态验证码生成器:安全防护与实际应用场景</a> <span class="text-muted">WangMing_X</span> <a class="tag" taget="_blank" href="/search/C%23%E5%AE%9E%E7%8E%B0%E5%90%84%E7%A7%8D%E5%8A%9F%E8%83%BD%E5%B7%A5%E5%85%B7%E9%9B%86/1.htm">C#实现各种功能工具集</a><a class="tag" taget="_blank" href="/search/c%23/1.htm">c#</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E9%AA%8C%E8%AF%81%E7%A0%81/1.htm">验证码</a><a class="tag" taget="_blank" href="/search/%E5%9B%BE%E7%89%87/1.htm">图片</a> <div>一、核心应用场景用户登录/注册验证:防止恶意程序批量注册表单提交防护:确保关键操作由真人执行API接口限流:抵御自动化脚本攻击敏感操作验证:如支付、信息修改等关键步骤数据防爬机制:保护网站内容不被爬虫抓取二、技术实现方案1.基础架构设计//验证码服务架构+------------------------+|验证码生成模块|←随机字符|(CaptchaGenerator)|+------------</div> </li> <li><a href="/article/1900635272874356736.htm" title="《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作" target="_blank">《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作</a> <span class="text-muted">带娃的IT创业者</span> <a class="tag" taget="_blank" href="/search/Python%E5%AE%9E%E6%88%98%E8%BF%9B%E9%98%B6/1.htm">Python实战进阶</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E5%8C%96/1.htm">自动化</a> <div>No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”,可模拟人类行为操作网页,适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战,从安装配置到复杂交互,带你掌握Selenium的核心技能,并结合电商网站登录、商品下单等真实场景,解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令:pipinstalls</div> </li> <li><a href="/article/1900598193289228288.htm" title="Python 实现的采集诸葛灵签" target="_blank">Python 实现的采集诸葛灵签</a> <span class="text-muted">老大白菜</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>Python实现的采集诸葛灵签项目介绍这是一个基于Python开发的诸葛灵签数据采集和展示项目。通过爬虫技术获取诸葛神签的签文和解签内容,并提供数据存储和查询功能。项目结构zhuge/├──zhuge_scraper.py#爬虫主程序├──zhuge_pages/#数据存储目录│├──all_signs.json#汇总数据│└──zhuge_sign_*.json#单个签文数据└──zhuge.m</div> </li> <li><a href="/article/1900596931810357248.htm" title="Python爬虫实战:从青铜到王者的数据采集进化论" target="_blank">Python爬虫实战:从青铜到王者的数据采集进化论</a> <span class="text-muted">Loving_enjoy</span> <a class="tag" taget="_blank" href="/search/%E5%AE%9E%E7%94%A8%E6%8A%80%E5%B7%A7/1.htm">实用技巧</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>#开篇:当你打开浏览器时,爬虫程序在暗处露出了姨母笑某日凌晨3点,程序员老张盯着满屏的404错误,突然领悟了爬虫的真谛——这哪里是数据采集,分明是与网站运维人员斗智斗勇的谍战游戏!本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流,全程高能预警,请系好安全带。---###第一章青铜时代:初学者的三板斧####1.1环境搭建:你的第一把手术刀安装Python就像选择武器库:``</div> </li> <li><a href="/article/1900561741394276352.htm" title="SEO 优化" target="_blank">SEO 优化</a> <span class="text-muted">前端岳大宝</span> <a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF%E6%A0%B8%E5%BF%83%E7%9F%A5%E8%AF%86%E6%80%BB%E7%BB%93/1.htm">前端核心知识总结</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/html/1.htm">html</a> <div>以下是SEO(搜索引擎优化)的基础知识点梳理,从前端技术、内容策略到搜索引擎原理,覆盖核心优化方向:一、SEO基础概念定义与目标SEO是通过优化网站结构、内容和技术,提升网站在搜索引擎自然搜索结果中的排名,吸引更多免费流量。核心目标:满足用户搜索意图,同时符合搜索引擎爬虫的抓取规则。搜索引擎工作原理爬取(Crawling):搜索引擎蜘蛛(如Googlebot)抓取网页内容。索引(Indexing)</div> </li> <li><a href="/article/1900537647286251520.htm" title="养生鲜知酒世界语意合™" target="_blank">养生鲜知酒世界语意合™</a> <span class="text-muted">花间流风</span> <a class="tag" taget="_blank" href="/search/%E7%90%B4%E8%AF%AD%E8%A8%80%E5%AD%A6%E4%B9%A0%E7%BC%96%E7%A8%8B%E5%AE%9E%E6%88%98100%E8%AE%B2/1.htm">琴语言学习编程实战100讲</a><a class="tag" taget="_blank" href="/search/%E5%87%A0%E4%BD%95%E5%AD%A6/1.htm">几何学</a><a class="tag" taget="_blank" href="/search/%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90/1.htm">情感分析</a><a class="tag" taget="_blank" href="/search/%E7%9F%A9%E9%98%B5/1.htm">矩阵</a> <div>养生鲜知酒世界语意合™介绍世界语意合™:无极养生鲜知酒™低代码爬虫插件生成平台,一切人文美篇都含共同的特点:鲜醇如酒,回味悠长,水不在深有龙则灵,山不在高有仙则灵,吐纳健身,诵致养生,气质达人,和气生财,平易近人,和悦泛函,慧极必伤,情深不寿,阳明心学,温文如玉,谦谦君子,神童晏殊启智音律宝典。琴生生物机械科技工业研究所国医学院医疗力量中心。云藏山鹰社会科学概论报告天下才气共一斗,云藏山鹰独占八分</div> </li> <li><a href="/article/1900524910644621312.htm" title="Python爬虫教程:如何通过接口批量下载视频封面(FFmpeg技术实现)" target="_blank">Python爬虫教程:如何通过接口批量下载视频封面(FFmpeg技术实现)</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a> <div>引言随着在线视频平台的蓬勃发展,视频封面作为视频内容的预览图,一直以来都是观众对视频的第一印象。在爬取视频资源时,很多开发者和研究者往往只关注视频本身,而忽略了视频封面。实际上,视频封面不仅能提供重要的信息(例如视频标题、主题或情感等),而且它们也能作为数据集中的重要属性,用于视频分类、推荐系统等应用。在这篇博客中,我们将深入探讨如何使用Python通过接口批量下载视频封面,利用FFmpeg等技术</div> </li> <li><a href="/article/1900413305999126528.htm" title="【2025年35期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深A股当天分价成交占比数据获取实例演示及接口API说明文档" target="_blank">【2025年35期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深A股当天分价成交占比数据获取实例演示及接口API说明文档</a> <span class="text-muted">不会写代码的码农农</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8API/1.htm">股票API</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8%E6%95%B0%E6%8D%AE%E6%8E%A5%E5%8F%A3/1.htm">股票数据接口</a><a class="tag" taget="_blank" href="/search/%E8%82%A1%E7%A5%A8%E6%95%B0%E6%8D%AE/1.htm">股票数据</a> <div>在近一至两年期间,股票量化分析逐步成为备受关注的热门议题。对于投身于该领域工作而言,首要步骤便是获取全面且精准的股票数据。无论是实时交易数据、历史交易记录、财务数据,亦或是基本面信息,这些数据均是开展量化分析过程中不可或缺的宝贵资源。我们的核心任务在于从这些数据中提炼出具有价值的信息,从而为投资策略提供坚实有力的指导。在数据探索进程中,我尝试运用了多种方法,涵盖自编网易股票页面爬虫程序、申万行业数</div> </li> <li><a href="/article/1900380375864111104.htm" title="Python 爬虫实战:开放数据集抓取与大数据分析应用" target="_blank">Python 爬虫实战:开放数据集抓取与大数据分析应用</a> <span class="text-muted">西攻城狮北</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a> <div>引言在数据驱动的时代,开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集,我们可以挖掘出有价值的信息,为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集,并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展,越来越多的机构和组织开始开放其数据集,以促进创新和研究。这些开放数据集涵盖了各个领域,如气象、交通、医疗、金融等。通过抓取和分析这</div> </li> <li><a href="/article/1900350378004770816.htm" title="Python爬虫-请求模块urllib3" target="_blank">Python爬虫-请求模块urllib3</a> <span class="text-muted">andyyah晓波</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>Python爬虫-请求模块urllib3urllib3是一个功能强大、条理清晰,用于HTTP客户端的第三方模块,许多Python的原生系统已经开始使用urllib3。urllib3提供了很多Python标准库里所没有的重要特性:线程安全。连接池。客户端SSL/TLS验证。使用multipart编码上传文件。Helpers用于重试请求并处理HTTP重定向。支持gzip和deflate编码。支持HTT</div> </li> <li><a href="/article/1900350377404985344.htm" title="Python爬虫-请求模块Urllib" target="_blank">Python爬虫-请求模块Urllib</a> <span class="text-muted">andyyah晓波</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>Python爬虫-请求模块UrllibPython3中的Urllib模块中包含多个功能的子模块,具体内容如下:urllib.request:用于实现基本HTTP请求的模块。urllib.error:异常处理模块,如果在发送网络请求时出现了错误,可以捕获异常进行异常的有效处理。urllib.parse:用于解析URL的模块。urllib.robotparser:用于解析robots.txt文件,判断</div> </li> <li><a href="/article/1900339913845436416.htm" title="Python 爬虫基础教程" target="_blank">Python 爬虫基础教程</a> <span class="text-muted">盛子涵666</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>爬虫的背景与应用诞生爬虫(WebCrawling)是自动化程序,用于从互联网上获取信息。爬虫的基本任务是自动访问网站,通过抓取网页内容并提取有用数据来构建数据库、索引或者进行进一步的数据分析。爬虫通常会模拟浏览器的行为,以避免被服务器识别为机器人,并且能够在大规模范围内高效地抓取信息。爬虫技术最早由搜索引擎开发者提出,目的是自动收集网页信息并将其索引,便于用户搜索时快速检索相关内容。随着互联网的快</div> </li> <li><a href="/article/1900335372131430400.htm" title="爬虫的精准识别:基于 User-Agent 的正则实现" target="_blank">爬虫的精准识别:基于 User-Agent 的正则实现</a> <span class="text-muted">Small踢倒coffee_氕氘氚</span> <a class="tag" taget="_blank" href="/search/%E7%BB%8F%E9%AA%8C%E5%88%86%E4%BA%AB/1.htm">经验分享</a><a class="tag" taget="_blank" href="/search/%E7%AC%94%E8%AE%B0/1.htm">笔记</a> <div>##摘要随着互联网技术的飞速发展,网络爬虫在数据采集、搜索引擎优化等领域的应用日益广泛。然而,恶意爬虫的存在也给网站安全和数据隐私带来了严重威胁。因此,精准识别爬虫行为成为网络安全领域的重要课题。本文提出了一种基于User-Agent正则表达式的爬虫识别方法,通过分析User-Agent字符串的特征,构建正则表达式规则,实现对爬虫的精准识别。实验结果表明,该方法具有较高的识别准确率和较低的误报率,</div> </li> <li><a href="/article/1900326676189999104.htm" title="【Python爬虫(71)】用Python爬虫解锁教育数据的奥秘" target="_blank">【Python爬虫(71)】用Python爬虫解锁教育数据的奥秘</a> <span class="text-muted">奔跑吧邓邓子</span> <a class="tag" taget="_blank" href="/search/Python%E7%88%AC%E8%99%AB/1.htm">Python爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%95%99%E8%82%B2%E6%95%B0%E6%8D%AE/1.htm">教育数据</a> <div>【Python爬虫】专栏简介:本专栏是Python爬虫领域的集大成之作,共100章节。从Python基础语法、爬虫入门知识讲起,深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑,覆盖网页、图片、音频等各类数据爬取,还涉及数据处理与分析。无论是新手小白还是进阶开发者,都能从中汲取知识,助力掌握爬虫核心技能,开拓技术视野。目录一、引言二、确定目标网站2.1教育机构官网2.2在线学习平台三、爬</div> </li> <li><a href="/article/1900318352153309184.htm" title="Python爬虫实战:抓取电子图书平台图书信息与下载数据" target="_blank">Python爬虫实战:抓取电子图书平台图书信息与下载数据</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/1.htm">网络爬虫</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E5%8F%AF%E8%A7%86%E5%8C%96/1.htm">信息可视化</a> <div>前言电子图书平台汇集了海量的图书资源和丰富的信息,抓取这些数据可用于研究图书销售趋势、阅读偏好分析,甚至为书籍推荐系统提供数据支持。本文将详细介绍如何使用Python爬虫技术抓取电子图书平台的图书信息和下载数据。我们会涵盖从需求分析到代码实现的完整流程,探讨如何应对复杂的反爬机制,并使用最新的技术工具优化抓取过程。目录前言一、需求分析与目标1.1抓取目标1.2难点与挑战二、技术选型与工具2.1使用</div> </li> <li><a href="/article/1900317848253820928.htm" title="Python 爬虫实战:公开专利信息抓取与创新趋势分析系统构建" target="_blank">Python 爬虫实战:公开专利信息抓取与创新趋势分析系统构建</a> <span class="text-muted">西攻城狮北</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>一、引言在当今数字化时代,专利信息已成为企业和科研机构进行技术创新与竞争分析的重要资源。通过获取和分析专利数据,可以了解行业动态、技术发展趋势以及竞争对手的创新方向。本文将详细介绍如何使用Python爬虫技术抓取公开专利信息,并构建一个创新趋势分析系统。二、项目背景与目标2.1项目背景随着全球科技创新的加速,专利数量不断增加。手动查阅专利信息已无法满足高效分析的需求,因此利用Python爬虫自动抓</div> </li> <li><a href="/article/1900298925198340096.htm" title="爬虫中一些有用的用法" target="_blank">爬虫中一些有用的用法</a> <span class="text-muted">才不是小emo的小杨</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/xpath/1.htm">xpath</a> <div>文本和标签在一个级别下如果文本和a标签在一个级别下比如:#获取a标签后的第一个文本节点text_node=a.xpath('following-sibling::text()[1]')[0].strip()将xpath的html代码转换成字符串etree.tostring(root,pretty_print=True,encoding="utf-8")获取所有同级标签的最后一个data_list=</div> </li> <li><a href="/article/1900294509279899648.htm" title="Python全栈开发爬虫+自动化办公+数据分析教程" target="_blank">Python全栈开发爬虫+自动化办公+数据分析教程</a> <span class="text-muted">jijihusong006</span> <a class="tag" taget="_blank" href="/search/%E7%A8%8B%E5%BA%8F/1.htm">程序</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E5%8C%96/1.htm">自动化</a> <div>以下是一份系统化的Python全栈开发综合教程,涵盖Web开发、网络爬虫、自动化办公和数据分析四大核心领域,采用模块化结构进行深度技术解析:Python全栈开发综合实战教程1、Python全栈开发教程、+爬虫+自动化办公+数据分析课程https://pan.quark.cn/s/9bbb9c39e9652、传送资料库查询https://link3.cc/aa99第一部分全栈开发体系1.1技术架构全</div> </li> <li><a href="/article/1900267171817254912.htm" title="2024年最全Python逆向进阶:Web逆向私单_逆向工程能接爬虫私活吗(1)" target="_blank">2024年最全Python逆向进阶:Web逆向私单_逆向工程能接爬虫私活吗(1)</a> <span class="text-muted">2401_84692110</span> <a class="tag" taget="_blank" href="/search/%E7%A8%8B%E5%BA%8F%E5%91%98/1.htm">程序员</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>可见,大家都迫切地想要掌握Python爬虫技术。很多人都表示,高阶的爬虫技术不太好上手,找到合适的练手项目也很不容易,每个人都在期待一套能快速进阶的技术速成方案。想要快速学好爬虫,尤其是可以用于变现的高阶爬虫技术,野路子的啃书自学就大可不必了,辣条推荐大家直接来参加Python爬虫实战特训营。可直接白瓢三天~↓↓↓文末的这个名片直接找我,直接参加即可↓↓↓这是一套专讲爬虫与反爬虫攻防的实战特训,迄</div> </li> <li><a href="/article/1900265912406175744.htm" title="2024年Python逆向进阶:Web逆向私单_逆向工程能接爬虫私活吗(2)" target="_blank">2024年Python逆向进阶:Web逆向私单_逆向工程能接爬虫私活吗(2)</a> <span class="text-muted">2301_82243558</span> <a class="tag" taget="_blank" href="/search/%E7%A8%8B%E5%BA%8F%E5%91%98/1.htm">程序员</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>可见,大家都迫切地想要掌握Python爬虫技术。很多人都表示,高阶的爬虫技术不太好上手,找到合适的练手项目也很不容易,每个人都在期待一套能快速进阶的技术速成方案。想要快速学好爬虫,尤其是可以用于变现的高阶爬虫技术,野路子的啃书自学就大可不必了,辣条推荐大家直接来参加Python爬虫实战特训营。可直接白瓢三天~↓↓↓文末的这个名片直接找我,直接参加即可↓↓↓这是一套专讲爬虫与反爬虫攻防的实战特训,迄</div> </li> <li><a href="/article/1900189897101209600.htm" title="python爬虫网络中断_如何解决Python爬虫中的网络掉线问题?" target="_blank">python爬虫网络中断_如何解决Python爬虫中的网络掉线问题?</a> <span class="text-muted">weixin_39767645</span> <a class="tag" taget="_blank" href="/search/python%E7%88%AC%E8%99%AB%E7%BD%91%E7%BB%9C%E4%B8%AD%E6%96%AD/1.htm">python爬虫网络中断</a> <div>在学校里的时候,除了上课,还有一大幸福的事情,就是用着学校的网线网络。当然玩的时候很开心,就是没事关键词时刻掉链子。时不时地网络掉线让人非常恼火,什么团战在梦游啊,看剧卡住不动了,相信能引起很多小伙伴的共鸣。所以,为了大家的快乐,小编找到了一个解决办法,分享给大家。以山东大学网络为例,别的话不多说,直接上程序__author__='CQC'#-*-coding:utf-8-*-importurll</div> </li> <li><a href="/article/1900183339495649280.htm" title="Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip" target="_blank">Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip</a> <span class="text-muted">苹果Android开发组</span> <a class="tag" taget="_blank" href="/search/%E7%A8%8B%E5%BA%8F%E5%91%98/1.htm">程序员</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a> <div>最后Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习Python门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的Pytho</div> </li> <li><a href="/article/1900176280268107776.htm" title="python爬虫遇到IP被封的情况,怎么办?(2)" target="_blank">python爬虫遇到IP被封的情况,怎么办?(2)</a> <span class="text-muted">2301_82242251</span> <a class="tag" taget="_blank" href="/search/%E7%A8%8B%E5%BA%8F%E5%91%98/1.htm">程序员</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>代理的设置:①urllib的代理设置fromurllib.errorimportURLErrorfromurllib.requestimportProxyHandler,build_opener‘’’更多Python学习资料以及源码教程资料,可以在群1136201545免费获取‘’’proxy=‘127.0.0.1:8888’#需要认证的代理#proxy=‘username:password@12</div> </li> <li><a href="/article/1900175776536391680.htm" title="python爬虫碰到IP被封的情况,如何解决?" target="_blank">python爬虫碰到IP被封的情况,如何解决?</a> <span class="text-muted">xinxinhenmeihao</span> <a class="tag" taget="_blank" href="/search/%E4%BB%A3%E7%90%86IP/1.htm">代理IP</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/tcp%2Fip/1.htm">tcp/ip</a> <div>在数据抓取和爬虫开发的实践中,Python作为一种功能强大且易于上手的编程语言,被广泛应用于网络数据的采集。然而,随着网络环境的日益复杂,爬虫活动也面临着越来越多的挑战,其中IP被封便是常见且棘手的问题。IP被封不仅会导致爬虫任务中断,还可能对目标网站的正常运营造成干扰。因此,了解并掌握解决Python爬虫IP被封的方法,对于爬虫开发者而言至关重要。一、IP被封的原因分析一般来说,IP被封主要源于</div> </li> <li><a href="/article/1900173634794745856.htm" title="6个必备的 Node 网络爬虫库" target="_blank">6个必备的 Node 网络爬虫库</a> <span class="text-muted">zz_jesse</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>作为一名程序员,你是否曾遇到过需要从各大网站提取数据的需求?随着互联网的快速扩展,能够高效地进行网络爬虫已经成为企业、研究人员以及个人的一项重要技能。在这个数据为王的时代,如何利用JavaScript和Node.js来实现高效的数据抓取,是每一个开发者都应该掌握的技巧。网络爬虫,即从网站提取数据的过程,已经成为各行各业的重要工具。而JavaScript和Node.js因其强大的功能和丰富的库,成为</div> </li> <li><a href="/article/1900097100482408448.htm" title="Python 爬虫实战:时尚网站潮流趋势数据抓取与流行趋势预测" target="_blank">Python 爬虫实战:时尚网站潮流趋势数据抓取与流行趋势预测</a> <span class="text-muted">西攻城狮北</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%97%B6%E5%B0%9A%E7%BD%91%E7%AB%99/1.htm">时尚网站</a> <div>作为一名对时尚和编程都充满热情的创作者,我一直在寻找将这两者结合的方式。今天,我将带领大家进行一场独特的Python爬虫实战,通过抓取时尚网站的潮流趋势数据,预测未来的流行趋势。这不仅可以帮助时尚爱好者提前了解潮流走向,还能为时尚从业者提供决策依据。一、项目背景在当今快节奏的社会中,时尚潮流的变化速度越来越快。人们渴望及时了解最新的时尚趋势,以便跟上时代的步伐。时尚网站作为时尚信息的重要传播平台,</div> </li> <li><a href="/article/1900075791018946560.htm" title="Python 爬虫实战:在线论坛用户活跃度分析系统构建" target="_blank">Python 爬虫实战:在线论坛用户活跃度分析系统构建</a> <span class="text-muted">西攻城狮北</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>作为一名对数据分析和社区运营感兴趣的内容创作者,我决定利用Python爬虫技术抓取在线论坛的用户数据,并构建一个用户活跃度分析系统。这对于了解用户行为、提升社区活跃度和优化运营策略具有重要意义。一、项目背景在线论坛是用户交流和分享信息的重要平台。用户的活跃度直接影响论坛的氛围和价值。通过分析用户的发帖、回帖、点赞等行为数据,我们可以评估用户的活跃度,找出活跃用户和沉寂用户,为社区的精细化运营提供数</div> </li> <li><a href="/article/1900056128948072448.htm" title="Python爬虫:从人民网提取视频链接的完整指南" target="_blank">Python爬虫:从人民网提取视频链接的完整指南</a> <span class="text-muted">小白学大数据</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E9%9F%B3%E8%A7%86%E9%A2%91/1.htm">音视频</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a> <div>无论是用于数据分析、内容提取还是资源收集,Python爬虫都因其高效性和易用性而备受开发者青睐。本文将通过一个实际案例——从人民网提取视频链接,详细介绍如何使用Python构建一个完整的爬虫程序。我们将涵盖从基础的网络请求到HTML解析,再到最终提取视频链接的全过程。一、爬虫技术概述网络爬虫(WebCrawler)是一种自动化的程序,用于在互联网上浏览网页并收集信息。它通过模拟浏览器的行为,发送H</div> </li> <li><a href="/article/47.htm" title="jdk tomcat 环境变量配置" target="_blank">jdk tomcat 环境变量配置</a> <span class="text-muted">Array_06</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/jdk/1.htm">jdk</a><a class="tag" taget="_blank" href="/search/tomcat/1.htm">tomcat</a> <div>Win7 下如何配置java环境变量 1。准备jdk包,win7系统,tomcat安装包(均上网下载即可) 2。进行对jdk的安装,尽量为默认路径(但要记住啊!!以防以后配置用。。。) 3。分别配置高级环境变量。   电脑-->右击属性-->高级环境变量-->环境变量。 分别配置 : path    &nbs</div> </li> <li><a href="/article/174.htm" title="Spring调SDK包报java.lang.NoSuchFieldError错误" target="_blank">Spring调SDK包报java.lang.NoSuchFieldError错误</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a> <div>        在工作中调另一个系统的SDK包,出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l</div> </li> <li><a href="/article/301.htm" title="LeetCode[位运算] - #136 数组中的单一数" target="_blank">LeetCode[位运算] - #136 数组中的单一数</a> <span class="text-muted">Cwind</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E9%A2%98%E8%A7%A3/1.htm">题解</a><a class="tag" taget="_blank" href="/search/%E4%BD%8D%E8%BF%90%E7%AE%97/1.htm">位运算</a><a class="tag" taget="_blank" href="/search/LeetCode/1.htm">LeetCode</a><a class="tag" taget="_blank" href="/search/Algorithm/1.htm">Algorithm</a> <div>原题链接:#136 Single Number 要求: 给定一个整型数组,其中除了一个元素之外,每个元素都出现两次。找出这个元素 注意:算法的时间复杂度应为O(n),最好不使用额外的内存空间 难度:中等 分析: 题目限定了线性的时间复杂度,同时不使用额外的空间,即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n,故将数组中的每个元素进</div> </li> <li><a href="/article/428.htm" title="qq登陆界面开发" target="_blank">qq登陆界面开发</a> <span class="text-muted">15700786134</span> <a class="tag" taget="_blank" href="/search/qq/1.htm">qq</a> <div>今天我们来开发一个qq登陆界面,首先写一个界面程序,一个界面首先是一个Frame对象,即是一个窗体。然后在这个窗体上放置其他组件。代码如下: public class First {         public void initul(){        jf=ne</div> </li> <li><a href="/article/555.htm" title="Linux的程序包管理器RPM" target="_blank">Linux的程序包管理器RPM</a> <span class="text-muted">被触发</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a> <div>在早期我们使用源代码的方式来安装软件时,都需要先把源程序代码编译成可执行的二进制安装程序,然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装,这个复杂而艰辛的过程。为简化安装步骤,便于广大用户的安装部署程序,程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包,提供给大家下载,我们只需要根据自己的</div> </li> <li><a href="/article/682.htm" title="socket通信遇到EOFException" target="_blank">socket通信遇到EOFException</a> <span class="text-muted">肆无忌惮_</span> <a class="tag" taget="_blank" href="/search/EOFException/1.htm">EOFException</a> <div>java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:</div> </li> <li><a href="/article/809.htm" title="基于spring的web项目定时操作" target="_blank">基于spring的web项目定时操作</a> <span class="text-muted">知了ing</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/Web/1.htm">Web</a> <div>废话不多说,直接上代码,很简单 配置一下项目启动就行 1,web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h</div> </li> <li><a href="/article/936.htm" title="树形结构的数据库表Schema设计" target="_blank">树形结构的数据库表Schema设计</a> <span class="text-muted">矮蛋蛋</span> <a class="tag" taget="_blank" href="/search/schema/1.htm">schema</a> <div>原文地址: http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488     程序设计过程中,我们常常用树形结构来表征某些数据的关联关系,如企业上下级部门、栏目结构、商品分类等等,通常而言,这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库,都是以二维表的形式记录存储数据信息,</div> </li> <li><a href="/article/1063.htm" title="maven将jar包和源码一起打包到本地仓库" target="_blank">maven将jar包和源码一起打包到本地仓库</a> <span class="text-muted">alleni123</span> <a class="tag" taget="_blank" href="/search/maven/1.htm">maven</a> <div>http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI</div> </li> <li><a href="/article/1190.htm" title="java IO操作 与 File 获取文件或文件夹的大小,可读,等属性!!!" target="_blank">java IO操作 与 File 获取文件或文件夹的大小,可读,等属性!!!</a> <span class="text-muted">百合不是茶</span> <div>类 File File是指文件和目录路径名的抽象表示形式。 1,何为文件: 标准文件(txt doc mp3...) 目录文件(文件夹) 虚拟内存文件   2,File类中有可以创建文件的 createNewFile()方法,在创建新文件的时候需要try{} catch(){}因为可能会抛出异常;也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都</div> </li> <li><a href="/article/1317.htm" title="Spring注入有继承关系的类(2)" target="_blank">Spring注入有继承关系的类(2)</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a> <div>被注入类的父类有相应的属性,Spring可以直接注入相应的属性,如下所例:1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu</div> </li> <li><a href="/article/1444.htm" title="30岁转型期你能否成为成功人士" target="_blank">30岁转型期你能否成为成功人士</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/%E6%88%90%E9%95%BF/1.htm">成长</a><a class="tag" taget="_blank" href="/search/%E5%8A%B1%E5%BF%97/1.htm">励志</a> <div>        很多人由于年轻时走了弯路,到了30岁一事无成,这样的例子大有人在。但同样也有一些人,整个职业生涯都发展得很优秀,到了30岁已经成为职场的精英阶层。由于做猎头的原因,我们接触很多30岁左右的经理人,发现他们在职业发展道路上往往有很多致命的问题。在30岁之前,他们的职业生涯表现很优秀,但从30岁到40岁这一段,很多人</div> </li> <li><a href="/article/1571.htm" title="【Velocity四】Velocity与Java互操作" target="_blank">【Velocity四】Velocity与Java互操作</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/velocity/1.htm">velocity</a> <div>Velocity出现的目的用于简化基于MVC的web应用开发,用于替代JSP标签技术,那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础,      POJO    package com.tom.servlets; public</div> </li> <li><a href="/article/1698.htm" title="【Hive十一】Hive数据倾斜优化" target="_blank">【Hive十一】Hive数据倾斜优化</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/hive/1.htm">hive</a> <div>什么是Hive数据倾斜问题   操作:join,group by,count distinct 现象:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成;查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。 原因:key分布不均匀 倾斜度衡量:平均记录数超过50w且</div> </li> <li><a href="/article/1825.htm" title="在nginx中集成lua脚本:添加自定义Http头,封IP等" target="_blank">在nginx中集成lua脚本:添加自定义Http头,封IP等</a> <span class="text-muted">ronin47</span> <a class="tag" taget="_blank" href="/search/nginx+lua+csrf/1.htm">nginx lua csrf</a> <div>Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言,从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器,但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。 强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站,我们不希望爬虫抓取子域名的页面,降低我们的Page rank。 location /{</div> </li> <li><a href="/article/1952.htm" title="java-3.求子数组的最大和" target="_blank">java-3.求子数组的最大和</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和 题目描述: 输入一个整形数组,数组里有正数也有负数。 数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和。 求所有子数组的和的最大值。要求时间复杂度为O(n)。 例如输入的数组为1, -2, 3, 10, -4,</div> </li> <li><a href="/article/2079.htm" title="Netty源码学习-FileRegion" target="_blank">Netty源码学习-FileRegion</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/netty/1.htm">netty</a> <div>今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象,而不需要相应的encoder: //pipeline(没有诸如“FileRegionEncoder”的handler): public ChannelPipeline ge</div> </li> <li><a href="/article/2206.htm" title="使用ZeroClipboard解决跨浏览器复制到剪贴板的问题" target="_blank">使用ZeroClipboard解决跨浏览器复制到剪贴板的问题</a> <span class="text-muted">cngolon</span> <a class="tag" taget="_blank" href="/search/%E8%B7%A8%E6%B5%8F%E8%A7%88%E5%99%A8/1.htm">跨浏览器</a><a class="tag" taget="_blank" href="/search/%E5%A4%8D%E5%88%B6%E5%88%B0%E7%B2%98%E8%B4%B4%E6%9D%BF/1.htm">复制到粘贴板</a><a class="tag" taget="_blank" href="/search/Zero+Clipboard/1.htm">Zero Clipboard</a> <div>Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上,这样其实点击的不是按钮而是 Flash ,这样将需要的内容传入Flash,再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法 首先需要下载 Zero Clipboard的压缩包,解压后把文件夹中两个文件:ZeroClipboard.js </div> </li> <li><a href="/article/2333.htm" title="单例模式" target="_blank">单例模式</a> <span class="text-muted">cuishikuan</span> <a class="tag" taget="_blank" href="/search/%E5%8D%95%E4%BE%8B%E6%A8%A1%E5%BC%8F/1.htm">单例模式</a> <div>第一种(懒汉,线程不安全): public class Singleton {   2     private static Singleton instance;   3     pri</div> </li> <li><a href="/article/2460.htm" title="spring+websocket的使用" target="_blank">spring+websocket的使用</a> <span class="text-muted">dalan_123</span> <div>一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans"    xmlns:xsi="http://www.w3.or</div> </li> <li><a href="/article/2587.htm" title="细节问题:ZEROFILL的用法范围。" target="_blank">细节问题:ZEROFILL的用法范围。</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a> <div> 1、zerofill把月份中的一位数字比如1,2,3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL,    -> day</div> </li> <li><a href="/article/2714.htm" title="Android开发10——Activity的跳转与传值" target="_blank">Android开发10——Activity的跳转与传值</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/Android%E5%BC%80%E5%8F%91/1.htm">Android开发</a> <div>Activity跳转与传值,主要是通过Intent类,Intent的作用是激活组件和附带数据。   一、Activity跳转 方法一Intent intent = new Intent(A.this, B.class); startActivity(intent)   方法二Intent intent = new Intent();intent.setCla</div> </li> <li><a href="/article/2841.htm" title="jdbc 得到表结构、主键" target="_blank">jdbc 得到表结构、主键</a> <span class="text-muted">eksliang</span> <a class="tag" taget="_blank" href="/search/jdbc+%E5%BE%97%E5%88%B0%E8%A1%A8%E7%BB%93%E6%9E%84%E3%80%81%E4%B8%BB%E9%94%AE/1.htm">jdbc 得到表结构、主键</a> <div>转自博客:http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt</div> </li> <li><a href="/article/2968.htm" title="Android 应用程序开关GPS" target="_blank">Android 应用程序开关GPS</a> <span class="text-muted">gqdy365</span> <a class="tag" taget="_blank" href="/search/android/1.htm">android</a> <div>要在应用程序中操作GPS开关需要权限: <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错,无法再eclipse里面正常编译,怎么办? 1、方法一:将项目放到Android源码中编译; 2、方法二:网上有人说cl</div> </li> <li><a href="/article/3095.htm" title="Windows上调试MapReduce" target="_blank">Windows上调试MapReduce</a> <span class="text-muted">zhiquanliu</span> <a class="tag" taget="_blank" href="/search/mapreduce/1.htm">mapreduce</a> <div>1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b</div> </li> <li><a href="/article/3222.htm" title="如何看待一些知名博客推广软文的行为?" target="_blank">如何看待一些知名博客推广软文的行为?</a> <span class="text-muted">justjavac</span> <a class="tag" taget="_blank" href="/search/%E5%8D%9A%E5%AE%A2/1.htm">博客</a> <div>本文来自我在知乎上的一个回答:http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态: 当初求种像条狗,如今撸完嫌人丑 当初搜贴像条犬,如今读完嫌人软 你为啥感觉不舒服呢? 难道非得要作者把自己的劳动成果免费给你用,你才舒服? 就如同 Google 关闭了 Gooled Reader,那是</div> </li> <li><a href="/article/3349.htm" title="sql优化总结" target="_blank">sql优化总结</a> <span class="text-muted">macroli</span> <a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a> <div>为了是自己对sql优化有更好的原则性,在这里做一下总结,个人原则如有不对请多多指教。谢谢!   要知道一个简单的sql语句执行效率,就要有查看方式,一遍更好的进行优化。   一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id</div> </li> <li><a href="/article/3476.htm" title="Linux Oracle中常遇到的一些问题及命令总结" target="_blank">Linux Oracle中常遇到的一些问题及命令总结</a> <span class="text-muted">超声波</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a> <div>1.linux更改主机名   (1)#hostname oracledb    临时修改主机名 (2) vi /etc/sysconfig/network   修改hostname (3) vi /etc/hosts        修改IP对应的主机名   2.linux重启oracle实例及监听的各种方法 (注意操作的顺序应该是先监听,后数据库实例) &nbs</div> </li> <li><a href="/article/3603.htm" title="hive函数大全及使用示例" target="_blank">hive函数大全及使用示例</a> <span class="text-muted">superlxw1234</span> <a class="tag" taget="_blank" href="/search/hadoop/1.htm">hadoop</a><a class="tag" taget="_blank" href="/search/hive%E5%87%BD%E6%95%B0/1.htm">hive函数</a> <div>  具体说明及示例参 见附件文档。     文档目录:   目录 一、关系运算: 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5</div> </li> <li><a href="/article/3730.htm" title="Spring 4.2新特性-使用@Order调整配置类加载顺序" target="_blank">Spring 4.2新特性-使用@Order调整配置类加载顺序</a> <span class="text-muted">wiselyman</span> <a class="tag" taget="_blank" href="/search/spring+4/1.htm">spring 4</a> <div>4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示 两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类:</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved. <!-- <a href="https://beian.miit.gov.cn/" rel="nofollow" target="_blank">京ICP备09083238号</a><br>--> </div> </div> </footer> <!-- 代码高亮 --> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>