DawnCY_215

Scrapy框架总结(1)

Scrapy框架总结

Scrapy简介
Scrapy架构
Scrapy运作流程
项目文件目录结构
最基本的Scrapy爬虫制作流程
实战

环境安装
1、新建项目
2、明确目标
3、制作爬虫
4、存储内容

Scrapy简介

较为流行的python爬虫框架。
本文着重将记录本人入门Scrapy时的所有精炼总结(除了一些书、官方文档，同时也会借鉴一些比较好的blog的内容，因为书写的太生涩，而官方文档又搞得和过家家一样，乱的不行，根本没法看)。希望能给大家带来帮助，抛砖引玉。
如果爬下来的数据还不会分析，建议先看本人上一篇博文《BeautifulSoup总结及contents内容分析》

Scrapy架构

架构如下图所示：

图中绿色线条代表了数据流向。其他几个则是其组件。
//以下是我个人对这些组件的理解，并非官方文档解释

引擎(Scrapy Engine):负责整个数据流走向
调度器(scheduler):负责将Request入队，并在需要时提供给引擎
下载器(DownLoader): 负责提交Request，并获得对应网站的Response，将其提交给spider下一步处理。(可以根据用户定义的下载中间件中的配置进行自定义下载)
蜘蛛(Spider)：负责处理网站返回的Response，提取Item 或者是需要继续跟进的URL
数据管道(Item pipeline)：去重、过滤、加工和存储Item
下载中间件(Downloader middlewares)：自定义扩展下载功能的组件
Spider 中间件 (Spider middlewares)：自定义扩展Engine和Spider中间通信的功能组件

Scrapy运作流程

1 引擎：Hi！Spider, 你要处理哪一个网站？
2 Spider：老大要我处理xxxx.com。
3 引擎：你把第一个需要处理的URL给我吧。
4 Spider：给你，第一个URL是xxxxxxx.com。
5 引擎：Hi！调度器，我这有request请求你帮我排序入队一下。
6 调度器：好的，正在处理你等一下。
7 引擎：Hi！调度器，把你处理好的request请求给我。
8 调度器：给你，这是我处理好的request
9 引擎：Hi！下载器，你按照老大的下载中间件的设置帮我下载一下这个request请求
10 下载器：好的！给你，这是下载好的东西。（如果失败：sorry，这个request下载失败了。然后引擎告诉调度器，这个request下载失败了，你记录一下，我们待会儿再下载）
11 引擎：Hi！Spider，这是下载好的东西，并且已经按照老大的下载中间件处理过了，你自己处理一下（注意！这儿responses默认是交给def parse()这个函数处理的）
12 Spider：（处理完毕数据之后对于需要跟进的URL），Hi！引擎，我这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。
13 引擎：Hi ！管道 我这儿有个item你帮我处理一下！调度器！这是需要跟进URL你帮我处理下。然后从第四步开始循环，直到获取完老大需要全部信息。
14 管道``调度器：好的，现在就做！
参考: https://segmentfault.com/a/1190000013178839

项目文件目录结构

在命令行中，执行 scrapy startproject <项目名称>即会在所在当前目录下创建项目目录以及相关文件。

项目名
|—— 项目名
|	|—— _init_.py	#包定义
|	|—— items.py	#模型定义
|	|—— middlewares.py	#中间件定义
|	|—— pipelines.py	#管道定义
|	|—— settings.py 	#配置文件。编程方式控制的配置文件
|	|—— spider
|		|—— _init_.py	#默认蜘蛛代码文件
|——— scrapy.cfg	#运行配置文件。该文件存放的目录为根目录。模块名的字段定义了项目的设置

最基本的Scrapy爬虫制作流程

1、新建项目
2、明确目标：主要是编写Item.py
3、制作爬虫：主要是编写spider.py
4、存储内容：主要是编写pipelines.py

实战

环境安装

//建议直接安装，不要用conda创建一个环境再安装。
//因为scrapy命令需要在全局使用，这样才能在任何文件夹轻松调用。
pip install Scrapy
//验证是否安装成功。运行该命令出现图中内容即为成功。
scrapy

1、新建项目

项目介绍：从中新网爬取新闻供稿的标题、链接、内容和日期，并以json形式保存到本地。

// 需要先cd到你想要存放该项目的路径下
scrapy startproject chinanews_crawler

2、明确目标

先查看以下目标网站内容：
中新网：http://www.chinanews.com/rss/
然后用chrome的开发者工具，查看以下我们需要的链接的位置。

我们发现，那些链接是被放在一个</code>元素内，也就是当前展示的其实是两个页面组成的，直接爬取该网站是拿不到链接的。于是，查看<code><ifreame></code>元素，发现<code>src="http://www.chinanews.com/rss/rss_2.html"</code>。于是，打开该网页，找到真正的链接所在。<br> 我们继续F12查看其元素。<br> <a href="http://img.e-com-net.com/image/info8/76d447970962487c9a9af4c65bb1b974.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/76d447970962487c9a9af4c65bb1b974.jpg" alt="Scrapy框架总结(1)_第5张图片" width="650" height="118" style="border:1px solid black;"></a><br> 发现所有的新闻频道链接都在一个<code><a></code>标签中。并且打开这些频道后，就是即时新闻的内容了，也就是到达了我们的目标。如下图：<br> <a href="http://img.e-com-net.com/image/info8/121b7b3a5471452a8c139d4b2c595d0f.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/121b7b3a5471452a8c139d4b2c595d0f.jpg" alt="Scrapy框架总结(1)_第6张图片" width="650" height="133" style="border:1px solid black;"></a><br> 然后，我们要的是title,link,description,pubDate。<br> 最后，我们可以开始编写代码了。</p> <pre><code>文件：items.py from scrapy.item import Item, Field class ChinaNewsItem(Item): title = Field() # 标题 link = Field() # 详情链接 desc = Field() # 新闻综述 pub_date = Field() # 发布日期 </code></pre> <h2>3、制作爬虫</h2> <p>可以直接在spider/文件夹下，编辑那个 init 文件，或者新建一个py文件，再者在命令行中，scrapy genspider 爬虫名目标网站。<br> 无论那种方式，其实都是生成一个爬虫的类。</p> <pre><code>执行：scrapy genspider newsCrawler chinanews.com 打开新生成的spider/newsCrawler.py文件，内容如下： # -*- coding: utf-8 -*- from scrapy.spider import Spider class EasyNewsCrawlerItem(Spider): name = 'newsCrawler' # 爬虫名，启动时需要用到，scrapy crawl newsCrawler，就是启动该爬虫(对照运行流程中第一步中，引擎:Hi,spider,你要处理哪个网站。 allowed_domains = ['chinanews.com'] # 允许爬虫搜索的域名范围 start_urls = ['http://chinanews.com/'] # 起始爬取位置 def parse(self, response): """解析函数。response就是下载器下载好的页面内容，爬虫就在该网站中，提取所需的Item""" pass </code></pre> <p>根据2、明确目标中，Item的内容，我们发现，直接爬取并不能实现。因为，http://www.chinanews.com/rss/rss_2.html 这个页面只有链接，要打开这些链接，才能看到正真的内容。于是，我们需要再写一个解析的函数，处理真正网站的内容。</p> <pre><code>def parse_feed(self, response): """二次解析，本次目标：解析出最后结果，包装成Item""" rss_page = BeautifulSoup(response.body, "lxml") items = rss_page.find_all('item') for item in items: newsItem = EasyNewsCrawlerItem() newsItem['title'] = item.title.text # link是个自闭和标签，不能用item.link.text，原因可以看我上一篇博文 newsItem['link'] = item.contents[2] newsItem['description'] = item.title.text newsItem['pubDate'] = item.pubdate.text yield newsItem </code></pre> <p>最后，我们稍微处理一下第一个解析函数，将二次解析定位转一下就行了。下面给出spider的完整代码。</p> <pre><code># -*- coding: utf-8 -*- from scrapy.spider import Spider from scrapy.http import Request from bs4 import BeautifulSoup from ..items import EasyNewsCrawlerItem class NewscrawlerSpider(Spider): name = 'newsCrawler' # 爬虫名，启动时需要用到，scrapy crawl newsCrawler，就是启动该爬虫(对照运行流程中第一步中，引擎:Hi,spider,你要处理哪个网站。 allowed_domains = ['chinanews.com'] # 允许爬虫搜索的域名范围 start_urls = ['http://www.chinanews.com/rss/rss_2.html'] # 起始爬取位置 def parse(self, response): """解析函数。response就是下载器下载好的页面内容，爬虫就在该网站中，提取所需的Item""" """本次目标：解析出href中的链接，然后留给下一个解析函数继续解析""" # 不熟悉BeautifulSoup的可以看我上一个博文 rss_page = BeautifulSoup(response.body, "lxml") """拿到该网站后，先找到所有<a>标签，然后把其中的href的内容保存起来。""" rss_links = set([item['href'] for item in rss_page.find_all("a")]) # 用set是为了滤掉重复链接 for link in rss_links: yield Request(url=link, callback=self.parse_feed) def parse_feed(self, response): """二次解析，本次目标：解析出最后结果，包装成Item""" rss_page = BeautifulSoup(response.body, "lxml") items = rss_page.find_all('item') for item in items: newsItem = EasyNewsCrawlerItem() newsItem['title'] = item.title.text # link是个自闭和标签，不能用item.link.text，原因可以看我上一篇博文 newsItem['link'] = item.contents[2] newsItem['description'] = item.title.text newsItem['pubDate'] = item.pubdate.text yield newsItem """如果是item.pubDate.text会失败并报错，然后我查了一下文档，发现：""" """ 如果同样的代码在不同环境下结果不同,可能是因为两个环境下使用不同的解析器造成的. 例如这个环境中安装了lxml,而另一个环境中只有html5lib, 解析器之间的区别中说明了原因. 修复方法是在 BeautifulSoup 的构造方法中中指定解析器因为HTML标签是大小写敏感的,所以3种解析器再出来文档时都将tag和属性转换成小写. """ """结论：beautifulSoup会将tag统一变成小写""" </code></pre> <h2>4、存储内容</h2> <p>存储数据的方法有以下几种：</p> <ol> <li>通过pipeline(管道)存储</li> <li>全局性指定。setting.py文件中配置存储选项</li> <li>动态指定。命令行启动时添加-o参数</li> </ol> <p>方法1：管道存储<br> 为了加深对管道的理解，体现其功能，这里写了三个管道，分别对应过滤功能，加工功能，存储功能。每个管道都是一个拥有process_item方法的类。<br> 同时，管道写好了后，要在setting.py文件中将管道配置一下，主要是控制 Item经过管道的顺序，可以取值为0-1000，值越小优先级越高。</p> <pre><code>文件:pipelines.py # -*- coding: utf-8 -*- from scrapy.exceptions import DropItem import time from bs4 import BeautifulSoup import json class PreservationPipeline(object): """过滤性管道。只通过最近一个小时以内的新闻""" def process_item(self, item, spider): # <pubDate>2018-12-06 16:09:03<pubDate> # 先将字符串转为时间戳 newsTime = time.mktime(time.strptime(item['pub_date'], '%Y-%m-%d %H:%M:%S')) # 获取当前时间戳 nowTime = time.time() if (nowTime - newsTime) / (60 * 60) > 1: raise DropItem("%s ,Not Fresh!" % item) # 超过一个小时，丢弃 return item class CleanPipeline(object): """加工性管道。删除掉所有的\r\n符号""" def process_item(self, item, spider): def clear_html(text): html = BeautifulSoup(text) return html.get_text().replace('\n', '') item['desc'] = clear_html(item['desc']) return item class JsonFeedPipeline(object): """存储管道。存储到指定的Json文件中去""" def __init__(self): self.json_file = open('pipResult.json', 'w') self.json_file.write("[\n") def process_item(self, item, spider): line = json.dumps(dict(item)) + ",\n" # BeautifulSoup会统一为Unicode编码，需要重新编码一下 self.json_file.write(line.encode('utf-8').decode("unicode_escape")) return item def close_spider(self, spider): self.json_file.write("\n]") self.json_file.close() </code></pre> <pre><code>文件: setting.py # Configure item pipelines # See https://doc.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { 'chinanews_crawler.pipelines.PreservationPipeline': 300, 'chinanews_crawler.pipelines.CleanPipeline': 301, 'chinanews_crawler.pipelines.JsonFeedPipeline': 302, } </code></pre> <p>这样，整个爬虫系统就写好了，直接在项目根目录下，运行命令 scrapy crawl newsCrawler，即可看到pipResult.json文件。</p> <p>方法2：全局性指定<br> 在setting.py文件中，直接加上以下几项。</p> <pre><code>FEED_URI = "result.json" # 保存文件名 FEED_FORMAT = "json" # 保存文件格式 FEED_EXPORT_ENCODING = 'utf-8' # 保存文件的编码 </code></pre> <p>这样，整个爬虫系统就写好了，直接在项目根目录下，运行命令 scrapy crawl newsCrawler，即可看到result.json文件。</p> <p>方法3：动态指定<br> 在Scrapy命令中加入-o的输出参数即可。(本人觉得还不如方法2，每次命令都得加，然后还不利于后人查看代码。因此此方法本人并未尝试）</p> <blockquote> <p>本项目仅供学习参考，所有步骤与本人遇到的坑，本人给予了解释注释。因此，请不要都测试同一网站，以免引起不必要的麻烦，谢谢。<br> @copyright Dawn<br> 编辑于:2018/12/6</p> </blockquote> </div> </div> </div> </div> </div>  <div id="SOHUCS" sid="1277815387223769088"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(爬虫)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1947595985240780800.htm" title="爬虫_加速乐秒杀" target="_blank">爬虫_加速乐秒杀</a> <span class="text-muted">kisloy</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E9%80%86%E5%90%91/1.htm">逆向</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>加速乐补环境补环境window={navigator:{userAgent:"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/104.0.0.0Safari/537.36"},outerWidth:1920,outerHeight:1050,};location={reload:functi</div> </li> <li><a href="/article/1947595985811206144.htm" title="【爬虫】某某查cookie逆向" target="_blank">【爬虫】某某查cookie逆向</a> <span class="text-muted">kisloy</span> <a class="tag" taget="_blank" href="/search/%E9%80%86%E5%90%91/1.htm">逆向</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>代码仅供技术人员进行学习和研究使用，请勿将其用于非法用途或以任何方式窃取第三方数据。使用该代码产生的所有风险均由用户自行承担，作者不对用户因使用该代码而造成的任何损失或损害承担任何责任。加密参数加密参数主要是cookie，其中只有三个cookie最重要，BAIDUIDBAIDUID_BFESS和一个ab开头的cookiecookie获取BAIDUID和BAIDUID_BFESS在访问百度系的产品时</div> </li> <li><a href="/article/1947594976829435904.htm" title="python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？" target="_blank">python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？</a> <span class="text-muted">weixin_39917437</span> <div>想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭</div> </li> <li><a href="/article/1947592456145006592.htm" title="如何用 Python 绕过 cloudflare（5秒盾）抓取数据：也不是很难嘛！" target="_blank">如何用 Python 绕过 cloudflare（5秒盾）抓取数据：也不是很难嘛！</a> <span class="text-muted">炒青椒不放辣</span> <a class="tag" taget="_blank" href="/search/Web%E7%88%AC%E8%99%AB%E8%BF%9B%E9%98%B6%E5%AE%9E%E6%88%98/1.htm">Web爬虫进阶实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/cloudflare/1.htm">cloudflare</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/5%E7%A7%92%E7%9B%BE/1.htm">5秒盾</a><a class="tag" taget="_blank" href="/search/%E9%80%86%E5%90%91/1.htm">逆向</a> <div>大家好！我是爱摸鱼的小鸿，关注我，收看每期的编程干货。逆向是爬虫工程师进阶必备技能，当我们遇到一个问题时可能会有多种解决途径，而如何做出最高效的抉择又需要经验的积累。本期文章将以实战的方式，带你全面了解cloudflare（5秒盾）以及如何绕过使用cloudflare服务的网站从而抓取数据特别声明：本篇文章仅供学习与研究使用，不用做任何非法用途，相关URL和API等均已做脱敏处理，若有侵权请联系作</div> </li> <li><a href="/article/1947588671213465600.htm" title="python请求有关ja3指纹问题" target="_blank">python请求有关ja3指纹问题</a> <span class="text-muted">王太歌</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>遇见一个网站采集，无论怎样都返回空数据(实际上是有数据的)，但是抓包下来又确实是那样的，请教了一些人推测是指纹验证，拜读了网上其他大佬的博客文章后实验了一下，发现确实是这个问题！第一次知道tcp还有这个东西，让我大受震撼，值此搬运一下。参考链接及来源：Python爬虫进阶必备|JA3指纹在爬虫中的应用与定向突破python爬虫requests、httpx、aiohttp、scrapy突破ja3指纹</div> </li> <li><a href="/article/1947575059015069696.htm" title="豆瓣电影信息爬虫【2024年6月】教程，赋完整代码" target="_blank">豆瓣电影信息爬虫【2024年6月】教程，赋完整代码</a> <span class="text-muted">桃宝护卫队</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>豆瓣电影信息爬虫【2024年6月】教程，赋完整代码在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：完整代码放到最后；完整代码放到最后；完整代码放到最后；重要的事情说三遍。1.技术栈介绍在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：Python:一种广泛使用的高级编程语言，因其简洁的语法和强大的库支持而受到开发者的喜爱。Request</div> </li> <li><a href="/article/1947573543176826880.htm" title="爬虫技术Requests实现模拟登录" target="_blank">爬虫技术Requests实现模拟登录</a> <span class="text-muted">incidite</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>一、模拟登录的目的访问受限内容：获取需要登录才能查看的页面数据个性化数据采集：获取用户账户相关的定制化信息自动化操作：实现自动签到、自动任务等流程数据完整性：采集完整的用户视角数据（如社交网络信息）状态保持：维持会话状态以进行连续操作测试验证：用于网站功能测试和验证二、对Requests模拟登录的认识技术本质：通过PythonRequests库模拟浏览器登录行为实现原理：处理登录表单提交维护会话c</div> </li> <li><a href="/article/1947565477190496256.htm" title="网站藏着的「机器人红绿灯」：5 分钟看懂 Robots 协议" target="_blank">网站藏着的「机器人红绿灯」：5 分钟看懂 Robots 协议</a> <span class="text-muted">incidite</span> <a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E4%BA%BA/1.htm">机器人</a> <div>你有没有想过：当搜索引擎爬取网站时，是谁在指挥它们“该去哪、不该去哪”？答案就藏在一个名叫Robots协议的简单规则里。这个看似神秘的技术，其实就像网站门口的“交通信号灯”，用几句明文代码就能规范爬虫的行为。今天，我们用5分钟揭开它的面纱，新手也能轻松掌握。什么是Robots协议？简单说，Robots协议是网站给搜索引擎爬虫看的“说明书”。它通过一个名为robots.txt的文本文件，告诉爬虫哪些</div> </li> <li><a href="/article/1947532324631539712.htm" title="Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎" target="_blank">Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎</a> <span class="text-muted">程序员_CLUB</span> <a class="tag" taget="_blank" href="/search/Python%E5%85%A5%E9%97%A8%E5%88%B0%E8%BF%9B%E9%98%B6/1.htm">Python入门到进阶</a><a class="tag" taget="_blank" href="/search/kubernetes/1.htm">kubernetes</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小</div> </li> <li><a href="/article/1947532198240382976.htm" title="Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密" target="_blank">Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密</a> <span class="text-muted">程序员_CLUB</span> <a class="tag" taget="_blank" href="/search/Python%E5%85%A5%E9%97%A8%E5%88%B0%E8%BF%9B%E9%98%B6/1.htm">Python入门到进阶</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a> <div>目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技</div> </li> <li><a href="/article/1947507865379991552.htm" title="Python 协程 & 异步编程(asyncio)" target="_blank">Python 协程 & 异步编程(asyncio)</a> <span class="text-muted">GeekAGI</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>文章目录协程&异步编程(asyncio)1.协程的实现1.1greenlet1.2yield1.3asyncio1.4async&awit1.5小结2.协程的意义2.1爬虫案例2.2小结3.异步编程3.1事件循环3.2协程和异步编程3.2.1基本应用3.2.2await3.2.3Task对象3.2.4asyncio.Future对象3.2.5futures.Future对象3.2.6异步迭代器3.</div> </li> <li><a href="/article/1947474319403708416.htm" title="python 爬取preview的信息" target="_blank">python 爬取preview的信息</a> <span class="text-muted">YHFJerry</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>Python,HTTP相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shelPython爬取Preview的信息在当今互联网时代，信息的获取变得异常方便，爬虫技术成为了一种非常重要的手段。Python作为一门强大的编程语言，被广泛用于网络爬虫的开发。本文将介绍如何使用P</div> </li> <li><a href="/article/1947427408684576768.htm" title="Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现" target="_blank">Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%8C%BA%E5%9D%97%E9%93%BE/1.htm">区块链</a><a class="tag" taget="_blank" href="/search/json/1.htm">json</a> <div>一、前言：无限滚动页面的挑战在现代Web开发中，「无限滚动（InfiniteScrolling）」早已取代了传统的分页模式。以微博热搜流、知乎首页、抖音推荐页为例，用户向下滚动时会自动加载更多内容，这种体验虽提升了交互性，却让传统爬虫面临巨大挑战：页面初始只加载一部分内容剩余内容由JavaScript在滚动事件中动态加载requests类爬虫无法感知页面行为为什么传统爬虫抓不到数据？因为页面数据不</div> </li> <li><a href="/article/1947424763613868032.htm" title="Python爬虫实战：研究Korean库相关技术" target="_blank">Python爬虫实战：研究Korean库相关技术</a> <span class="text-muted">ylfhpy</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98/1.htm">爬虫项目实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/easyui/1.htm">easyui</a><a class="tag" taget="_blank" href="/search/korean/1.htm">korean</a> <div>一、引言1.1研究背景与意义随着韩流文化在全球的传播，韩语网页内容急剧增加。韩国在科技、娱乐等领域的信息具有重要研究价值。然而，韩语独特的黏着语特性（如助词体系、词尾变化）给信息处理带来挑战。传统爬虫缺乏对韩语语言特点的针对性处理，本研究旨在开发一套完整的韩语网页内容分析系统，填补这一技术空白。1.2研究目标与方法研究目标：设计高效的韩语网页爬虫框架实现精准的韩语内容识别与处理构建多维度的韩语内容</div> </li> <li><a href="/article/1947424637092687872.htm" title="Python爬虫实战：研究Genius库相关技术" target="_blank">Python爬虫实战：研究Genius库相关技术</a> <span class="text-muted">ylfhpy</span> <a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98/1.htm">爬虫项目实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/genius/1.htm">genius</a> <div>1.引言在当今数字化时代，音乐数据的分析与挖掘成为了音乐学、计算机科学等领域的研究热点。歌词作为音乐的重要组成部分，蕴含着丰富的情感、文化和社会信息。通过对歌词数据的分析，可以揭示音乐风格的演变、流行趋势的变化以及社会情绪的波动等。Genius是一个专注于歌词解析与音乐知识分享的平台，拥有大量的歌词文本以及用户对歌词的注释和解读。Genius提供了API接口，允许开发者获取歌曲、艺术家和歌词等信息</div> </li> <li><a href="/article/1947385428327854080.htm" title="python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦..." target="_blank">python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦...</a> <span class="text-muted">日向夕阳</span> <div>Crack-JSPython3爬虫实战、JS加解密、逆向教程犀牛数据|美团美食|企名片|七麦数据|淘大象|梦幻西游藏宝阁|漫画柜|财联社|中国空气质量在线监测分析平台|66ip代理|零度ip|国家企业信用信息公示系统|中国产品大目录Author咸鱼微信公众号咸鱼学PythonIntroduce数据解密、反爬处理、逆向教程一、代码配套说明目录JS解密案例│├──lingduip//-----零度ip</div> </li> <li><a href="/article/1947332110817751040.htm" title="用Python爬取网易云歌单" target="_blank">用Python爬取网易云歌单</a> <span class="text-muted">Avaricious_Bear</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>最近，博主喜欢上了听歌，但是又苦于找不到好音乐，于是就打算到网易云的歌单中逛逛本着“用技术改变生活”的想法，于是便想着写一个爬虫爬取网易云的歌单，并按播放量自动进行排序这篇文章，我们就来讲讲怎样爬取网易云歌单，并将歌单按播放量进行排序1、用requests爬取网易云歌单打开网易云音乐歌单首页，不难发现这是一个静态网页，而且格式很有规律，爬取起来应该十分简单按照以前的套路，很快就可以写完代码，无非就</div> </li> <li><a href="/article/1947330472258367488.htm" title="基于Python的Twitter Card数据爬取与分析实战：从入门到精通" target="_blank">基于Python的Twitter Card数据爬取与分析实战：从入门到精通</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/twitter/1.htm">twitter</a><a class="tag" taget="_blank" href="/search/dreamweaver/1.htm">dreamweaver</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E5%8C%96/1.htm">自动化</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%AE%BD%E5%BA%A6%E4%BC%98%E5%85%88/1.htm">宽度优先</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实</div> </li> <li><a href="/article/1947330346068537344.htm" title="Python爬虫实战：高效解析OpenGraph协议数据" target="_blank">Python爬虫实战：高效解析OpenGraph协议数据</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%AE%BD%E5%BA%A6%E4%BC%98%E5%85%88/1.htm">宽度优先</a><a class="tag" taget="_blank" href="/search/%E9%9F%B3%E8%A7%86%E9%A2%91/1.htm">音视频</a><a class="tag" taget="_blank" href="/search/json/1.htm">json</a> <div>OpenGraph协议简介OpenGraph协议是由Facebook于2010年推出的一种网页元数据标准，旨在使任何网页都能成为社交图中的丰富对象。通过在网页的部分添加特定的标签，网站所有者可以控制内容在社交媒体上分享时的呈现方式。OpenGraph协议的核心元数据包括：html这些标签不仅被Facebook使用，也被Twitter、LinkedIn、WhatsApp等主流社交平台广泛支持。据统计</div> </li> <li><a href="/article/1947328452386418688.htm" title="使用 Python 爬取网易云音乐歌单数据（完整教程）" target="_blank">使用 Python 爬取网易云音乐歌单数据（完整教程）</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/github/1.htm">github</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析</div> </li> <li><a href="/article/1947309415493332992.htm" title="java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)" target="_blank">java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)</a> <span class="text-muted">程序猿刘</span> <a class="tag" taget="_blank" href="/search/vue/1.htm">vue</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/boot/1.htm">boot</a><a class="tag" taget="_blank" href="/search/%E6%AF%95%E4%B8%9A%E8%AE%BE%E8%AE%A1/1.htm">毕业设计</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AF%BE%E7%A8%8B%E8%AE%BE%E8%AE%A1/1.htm">课程设计</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a> <div>博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+</div> </li> <li><a href="/article/1947307650798645248.htm" title="java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)" target="_blank">java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)</a> <span class="text-muted">项目帮</span> <a class="tag" taget="_blank" href="/search/springboot/1.htm">springboot</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AE%A1%E7%AE%97%E6%9C%BA%E6%AF%95%E8%AE%BE/1.htm">计算机毕设</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AF%BE%E7%A8%8B%E8%AE%BE%E8%AE%A1/1.htm">课程设计</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b</div> </li> <li><a href="/article/1947299204296667136.htm" title="计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等)" target="_blank">计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等)</a> <span class="text-muted">程序猿八哥</span> <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%8F%AF%E8%A7%86%E5%8C%96/1.htm">数据可视化</a><a class="tag" taget="_blank" href="/search/%E8%AE%A1%E7%AE%97%E6%9C%BA%E6%AF%95%E8%AE%BE/1.htm">计算机毕设</a><a class="tag" taget="_blank" href="/search/spark/1.htm">spark</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a><a class="tag" taget="_blank" href="/search/%E8%AF%BE%E7%A8%8B%E8%AE%BE%E8%AE%A1/1.htm">课程设计</a><a class="tag" taget="_blank" href="/search/spark/1.htm">spark</a> <div>博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b</div> </li> <li><a href="/article/1947295428160581632.htm" title="如何使用爬虫简单的爬取一个网页的静态前端代码" target="_blank">如何使用爬虫简单的爬取一个网页的静态前端代码</a> <span class="text-muted"></span> <div>什么是爬虫？Python爬虫是一种使用Python语言编写的程序，用于自动访问网页并提取所需信息。它通常用于网络数据抓取、数据挖掘和信息收集。Python爬虫可以模拟浏览器行为，向服务器发送请求并接收响应数据，然后解析这些数据以获取有用的信息。爬虫的基本原理（流程）发送请求：爬虫向目标网站的服务器发送HTTP请求（通常是GET请求）。获取响应：服务器返回网页的HTML内容。解析内容：爬虫解析HTM</div> </li> <li><a href="/article/1947235919702585344.htm" title="打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析" target="_blank">打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析</a> <span class="text-muted">程序员威哥</span> <a class="tag" taget="_blank" href="/search/%E6%9C%80%E6%96%B0%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">最新爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系</div> </li> <li><a href="/article/1947229237236789248.htm" title="使用Python Scrapy打造个性化爬虫" target="_blank">使用Python Scrapy打造个性化爬虫</a> <span class="text-muted"></span> <div>使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反</div> </li> <li><a href="/article/1947157629516181504.htm" title="养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）" target="_blank">养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）</a> <span class="text-muted"></span> <div>博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机</div> </li> <li><a href="/article/1947137577496670208.htm" title="【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图" target="_blank">【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图</a> <span class="text-muted"></span> <div>大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..</div> </li> <li><a href="/article/1947133291555516416.htm" title="Python 爬虫实战：自动化获取学术会议数据（会议安排、论文提交等）" target="_blank">Python 爬虫实战：自动化获取学术会议数据（会议安排、论文提交等）</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E5%8C%96/1.htm">自动化</a><a class="tag" taget="_blank" href="/search/%E6%99%BA%E8%83%BD%E5%AE%B6%E5%B1%85/1.htm">智能家居</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a> <div>1.引言学术会议是研究人员获取最新科研成果、发表论文、交流思想的重要平台。对于研究者而言，掌握最新的会议安排、论文提交截止日期、会议议程以及演讲嘉宾等信息至关重要。然而，学术会议信息通常分散在不同的官方网站上，人工查找和整理这些数据既费时又容易遗漏。为了提高效率，我们可以使用Python爬虫自动化获取学术会议数据，包括：会议名称、日期、地点论文提交截止日期会议议程及嘉宾信息论文录用结果重要通知及相</div> </li> <li><a href="/article/1947084762682290176.htm" title="爬虫基础理论总结" target="_blank">爬虫基础理论总结</a> <span class="text-muted">qianxun0921</span> <div>一、什么是爬虫爬虫：又称网页蜘蛛,网络机器人，从互联网上自动抓取数据的程序，通俗地讲，就是可以爬取浏览器中看得到的数据二、爬虫的基本流程1、分析网站，得到目标url2、根据url，发起请求，获取页面的HTML源码3、从页面源码中提取数据：a、提取到目标数据，做数据的筛选和持久化存储b、从页面中提取新的url地址，继续执行第二步操作4、爬虫结束：所有的目标url都提取完毕，并且得到数据了，再也没有其</div> </li> <li><a href="/article/121.htm" title="jquery实现的jsonp掉java后台" target="_blank">jquery实现的jsonp掉java后台</a> <span class="text-muted">知了ing</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/jsonp/1.htm">jsonp</a><a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a> <div> 什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、</div> </li> <li><a href="/article/248.htm" title="Struts2学习笔记" target="_blank">Struts2学习笔记</a> <span class="text-muted">caoyong</span> <a class="tag" taget="_blank" href="/search/struts2/1.htm">struts2</a> <div>SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2  =  Struts  + Webwork 2、搭建struts2开发环境    a>、到www.apac</div> </li> <li><a href="/article/375.htm" title="SpringMVC学习之后台往前台传值方法" target="_blank">SpringMVC学习之后台往前台传值方法</a> <span class="text-muted">满城风雨近重阳</span> <a class="tag" taget="_blank" href="/search/springMVC/1.htm">springMVC</a> <div>springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView    通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参：      ModelAndView mv=new ModelAndView();  mv.setViewName="success</div> </li> <li><a href="/article/502.htm" title="WebService存在的必要性？" target="_blank">WebService存在的必要性？</a> <span class="text-muted">一炮送你回车库</span> <a class="tag" taget="_blank" href="/search/webservice/1.htm">webservice</a> <div>做Java的经常在选择Webservice框架上徘徊很久，Axis  Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据</div> </li> <li><a href="/article/629.htm" title="js年份下拉框" target="_blank">js年份下拉框</a> <span class="text-muted">3213213333332132</span> <a class="tag" taget="_blank" href="/search/java+web+ee/1.htm">java web ee</a> <div> <div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload = </div> </li> <li><a href="/article/756.htm" title="简单链式调用的实现技术" target="_blank">简单链式调用的实现技术</a> <span class="text-muted">归来朝歌</span> <a class="tag" taget="_blank" href="/search/%E6%96%B9%E6%B3%95%E8%B0%83%E7%94%A8/1.htm">方法调用</a><a class="tag" taget="_blank" href="/search/%E9%93%BE%E5%BC%8F%E5%8F%8D%E5%BA%94/1.htm">链式反应</a><a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E6%80%9D%E6%83%B3/1.htm">编程思想</a> <div>在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result");   也可能在HQ</div> </li> <li><a href="/article/883.htm" title="JAVA调用.net 发布的webservice 接口" target="_blank">JAVA调用.net 发布的webservice 接口</a> <span class="text-muted">darkranger</span> <a class="tag" taget="_blank" href="/search/webservice/1.htm">webservice</a> <div> /** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException </div> </li> <li><a href="/article/1010.htm" title="Javascript模糊查找 | 第一章循环不能不重视。" target="_blank">Javascript模糊查找 | 第一章循环不能不重视。</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/Way/1.htm">Way</a> <div> 最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my</div> </li> <li><a href="/article/1137.htm" title="狼和羊，该怎么抉择" target="_blank">狼和羊，该怎么抉择</a> <span class="text-muted">atongyeye</span> <a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a> <div>狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说</div> </li> <li><a href="/article/1264.htm" title="读取android系统的联系人拨号" target="_blank">读取android系统的联系人拨号</a> <span class="text-muted">百合不是茶</span> <a class="tag" taget="_blank" href="/search/android/1.htm">android</a><a class="tag" taget="_blank" href="/search/sqlite%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">sqlite数据库</a><a class="tag" taget="_blank" href="/search/%E5%86%85%E5%AE%B9%E6%8F%90%E4%BE%9B%E8%80%85/1.htm">内容提供者</a><a class="tag" taget="_blank" href="/search/%E7%B3%BB%E7%BB%9F%E6%9C%8D%E5%8A%A1%E7%9A%84%E4%BD%BF%E7%94%A8/1.htm">系统服务的使用</a> <div>       联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢   关键代码:     1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini</div> </li> <li><a href="/article/1391.htm" title="ORACLE自定义异常" target="_blank">ORACLE自定义异常</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%AE%9A%E4%B9%89%E5%BC%82%E5%B8%B8/1.htm">自定义异常</a> <div>实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc</div> </li> <li><a href="/article/1518.htm" title="查看端号使用情况" target="_blank">查看端号使用情况</a> <span class="text-muted">征客丶</span> <a class="tag" taget="_blank" href="/search/windows/1.htm">windows</a> <div>一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP     127.0.0.1:80         0.0.0.0:0    &</div> </li> <li><a href="/article/1645.htm" title="【Spark二十】运行Spark Streaming的NetworkWordCount实例" target="_blank">【Spark二十】运行Spark Streaming的NetworkWordCount实例</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/wordcount/1.htm">wordcount</a> <div>Spark Streaming简介   NetworkWordCount代码   /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with </div> </li> <li><a href="/article/1772.htm" title="Struts2 与 SpringMVC的比较" target="_blank">Struts2 与 SpringMVC的比较</a> <span class="text-muted">BlueSkator</span> <a class="tag" taget="_blank" href="/search/struts2/1.htm">struts2</a><a class="tag" taget="_blank" href="/search/spring+mvc/1.htm">spring mvc</a> <div>1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring</div> </li> <li><a href="/article/1899.htm" title="Hibernate在更新时，是可以不用session的update方法的(转帖）" target="_blank">Hibernate在更新时，是可以不用session的update方法的(转帖）</a> <span class="text-muted">BreakingBad</span> <a class="tag" taget="_blank" href="/search/Hibernate/1.htm">Hibernate</a><a class="tag" taget="_blank" href="/search/update/1.htm">update</a> <div>地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran</div> </li> <li><a href="/article/2026.htm" title="读《研磨设计模式》-代码笔记-观察者模式" target="_blank">读《研磨设计模式》-代码笔记-观察者模式</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观</div> </li> <li><a href="/article/2153.htm" title="重置MySQL密码" target="_blank">重置MySQL密码</a> <span class="text-muted">chenhbc</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/%E9%87%8D%E7%BD%AE%E5%AF%86%E7%A0%81/1.htm">重置密码</a><a class="tag" taget="_blank" href="/search/%E5%BF%98%E8%AE%B0%E5%AF%86%E7%A0%81/1.htm">忘记密码</a> <div>如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables  3、新开一个CMD窗口，进入MySQL mysql -uroot &nbsp</div> </li> <li><a href="/article/2280.htm" title="再谈系统论，控制论和信息论" target="_blank">再谈系统论，控制论和信息论</a> <span class="text-muted">comsci</span> <a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a><a class="tag" taget="_blank" href="/search/%E7%94%9F%E7%89%A9/1.htm">生物</a><a class="tag" taget="_blank" href="/search/%E8%83%BD%E6%BA%90/1.htm">能源</a><a class="tag" taget="_blank" href="/search/%E4%BC%81%E4%B8%9A%E5%BA%94%E7%94%A8/1.htm">企业应用</a><a class="tag" taget="_blank" href="/search/%E9%A2%86%E5%9F%9F%E6%A8%A1%E5%9E%8B/1.htm">领域模型</a> <div>                            再谈系统论，控制论和信息论     偶然看</div> </li> <li><a href="/article/2407.htm" title="oracle moving window size与 AWR retention period关系" target="_blank">oracle moving window size与 AWR retention period关系</a> <span class="text-muted">daizj</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a> <div>转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------</div> </li> <li><a href="/article/2534.htm" title="Python版B树" target="_blank">Python版B树</a> <span class="text-muted">dieslrae</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)</div> </li> <li><a href="/article/2661.htm" title="C语言冒泡排序" target="_blank">C语言冒泡排序</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a> <div>代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序 </div> </li> <li><a href="/article/2788.htm" title="自定义导航栏样式" target="_blank">自定义导航栏样式</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%AE%9A%E4%B9%89/1.htm">自定义</a> <div>-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH</div> </li> <li><a href="/article/2915.htm" title="11.性能优化-优化-JVM参数总结" target="_blank">11.性能优化-优化-JVM参数总结</a> <span class="text-muted">frank1234</span> <a class="tag" taget="_blank" href="/search/jvm%E5%8F%82%E6%95%B0/1.htm">jvm参数</a><a class="tag" taget="_blank" href="/search/%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96/1.htm">性能优化</a> <div>1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize  --永久代初始大小 -XX:MaxPermSize  --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用</div> </li> <li><a href="/article/3042.htm" title="nginx日志分割 for linux" target="_blank">nginx日志分割 for linux</a> <span class="text-muted">HarborChung</span> <a class="tag" taget="_blank" href="/search/nginx/1.htm">nginx</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E8%84%9A%E6%9C%AC/1.htm">脚本</a> <div>nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本   使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限   复制代码代码如下: chmo</div> </li> <li><a href="/article/3169.htm" title="Spring4新特性——泛型限定式依赖注入" target="_blank">Spring4新特性——泛型限定式依赖注入</a> <span class="text-muted">jinnianshilongnian</span> <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/spring4/1.htm">spring4</a><a class="tag" taget="_blank" href="/search/%E6%B3%9B%E5%9E%8B%E5%BC%8F%E4%BE%9D%E8%B5%96%E6%B3%A8%E5%85%A5/1.htm">泛型式依赖注入</a> <div>Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC  Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API  Spring4新</div> </li> <li><a href="/article/3296.htm" title="centOS安装GCC和G++" target="_blank">centOS安装GCC和G++</a> <span class="text-muted">liuxihope</span> <a class="tag" taget="_blank" href="/search/centos/1.htm">centos</a><a class="tag" taget="_blank" href="/search/gcc/1.htm">gcc</a> <div>Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该</div> </li> <li><a href="/article/3423.htm" title="第13章 Ajax进阶（上）" target="_blank">第13章 Ajax进阶（上）</a> <span class="text-muted">onestopweb</span> <a class="tag" taget="_blank" href="/search/Ajax/1.htm">Ajax</a> <div>index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/</div> </li> <li><a href="/article/3550.htm" title="How to determine BusinessObjects service pack and fix pack" target="_blank">How to determine BusinessObjects service pack and fix pack</a> <span class="text-muted">blueoxygen</span> <a class="tag" taget="_blank" href="/search/BO/1.htm">BO</a> <div>http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/   The table below is helpful. Reference   BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO</div> </li> <li><a href="/article/3677.htm" title="Oracle里的自增字段设置" target="_blank">Oracle里的自增字段设置</a> <span class="text-muted">tomcat_oracle</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a> <div>　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b</div> </li> <li><a href="/article/3804.htm" title="Spring Security（01）——初体验" target="_blank">Spring Security（01）——初体验</a> <span class="text-muted">yang_winnie</span> <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/Security/1.htm">Security</a> <div>Spring Security（01）——初体验     博客分类： spring Security Spring Security入门安全认证        首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类：</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>