雪碧有白泡泡

Python多线程爬虫——数据分析项目实现详解

前言

「作者主页」：雪碧有白泡泡
「个人网站」：雪碧的个人网站

ChatGPT体验地址

文章目录

前言
爬虫
获取cookie
- 网站爬取与启动
- - CSDN爬虫
  - 爬虫启动
  - 将爬取内容存到文件中
多线程爬虫
- 选择要爬取的用户
线程池

爬虫

爬虫是指一种自动化程序，能够模拟人类用户在互联网上浏览网页、抓取网页内容、提取数据等操作。爬虫通常用于搜索引擎、数据挖掘、网络分析、竞争情报、用户行为分析等领域。

我们以爬取某个用户的博文列表并存储到文件中实现多线程爬虫为例，带大家体验爬虫的魅力

获取cookie

首先我们在爬取网站的时候首先获取cookie

拿我的博客主页为例，用F12打开控制台，点击网络，找到cookie

创建一个cookie文件，复制进去
然后从给定的cookie_path文件中读取cookie信息，并将其存储在一个字典中。函数返回这个字典。
具体如下

def get_headers(cookie_path:str):
cookies = {}
with open(cookie_path, "r", encoding="utf-8") as f:
cookie_list = f.readlines()
for line in cookie_list:
cookie = line.split(":")
cookies[cookie[0]] = str(cookie[1]).strip()
return cookies

网站爬取与启动

CSDN爬虫

class CSDN(object):
def init(self, username, folder_name, cookie_path):
# self.headers = {
# "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"
# }
self.headers = get_headers(cookie_path)
self.s = requests.Session()
self.username = username
self.TaskQueue = TaskQueue()
self.folder_name = folder_name
self.url_num = 1

headers: 这是一个字典，用于存储请求头信息。

s: 这是一个会话对象，用于保持与CSDN网站的连接。

username: 这是一个字符串，表示CSDN用户的用户名。

TaskQueue: 这是一个任务队列对象，用于管理待访问的URL。

folder_name: 这是一个字符串，表示保存爬取结果的文件夹名称。

_name: 这是一个整数，表示当前保存的文件夹编号。

_num: 这是一个整数，表示当前爬取的页面编号。

爬虫启动

def start(self):
	num = 0
	articles = [None]
	while len(articles) > 0:
		num += 1
		url = u'https://blog.csdn.net/' + self.username + '/article/list/' + str(num)
		response = self.s.get(url=url, headers=self.headers)
		html = response.text
		soup = BeautifulSoup(html, "html.parser")
		articles = soup.find_all('div', attrs={"class":"article-item-box csdn-tracking-statistics"})
		for article in articles:
			article_title = article.a.text.strip().replace('        ','：')
			article_href = article.a['href']
			with ensure_memory(sys.getsizeof(self.TaskQueue.UnVisitedList)):
				self.TaskQueue.InsertUnVisitedList([article_title, article_href])

初始化一个变量num，用于表示当前访问的文章页码。

初始化一个列表articles，用于存储待处理的文章信息。

使用一个while循环，当articles列表中的文章数量大于0时，执行循环体。

更新num变量，表示当前访问的文章页码。

构造一个URL，该URL包含当前用户名、文章列表和页码。

使用requests库发送请求，并获取响应。

使用BeautifulSoup库解析HTML内容，并提取相关的文章信息。

遍历提取到的文章列表，提取文章标题和链接。

将文章标题和链接插入到任务队列TaskQueue的未访问列表中。

将爬取内容存到文件中

打印爬取开始的信息。
计算并获取存储博文列表的文件路径。
使用open函数以写入模式打开文件，并设置文件编码为utf-8。
写入文件头，包括用户名和博文列表。
遍历任务队列TaskQueue中的未访问列表，将每篇文章的标题和链接写入文件。
在每篇文章标题和链接之间添加一个空行，以提高可读性。
更新一个变量_num，用于表示当前已写入的文章序号。

代码如下

def write_readme(self):
	print("+"*100)
	print("[++] 开始爬取 {} 的博文 ......".format(self.username))
	print("+"*100)
	reademe_path = result_file(self.username,file_name="README.md",folder_name=self.folder_name)
	with open(reademe_path,'w', encoding='utf-8') as reademe_file:
		readme_head = "# " + self.username + " 的博文\n"
		reademe_file.write(readme_head)
		for [article_title,article_href] in self.TaskQueue.UnVisitedList[::-1]:
				text = str(self.url_num) + '. [' + article_title + ']('+ article_href +')\n'
				reademe_file.write(text)
				self.url_num += 1
	self.url_num = 1

列表文件生成之后，我们要对每一个链接进行处理

def get_all_articles(self):
	try:
		while True:
			[article_title,article_href] = self.TaskQueue.PopUnVisitedList()
			try:
				file_name = re.sub(r'[\/:：*?"<>|]','-', article_title) + ".md"
				artical_path = result_file(folder_username=self.username, file_name=file_name, folder_name=self.folder_name)
				md_head = "# " + article_title + "\n"
				md = md_head + self.get_md(article_href)
				print("[++++] 正在处理URL：{}".format(article_href))
				with open(artical_path, "w", encoding="utf-8") as artical_file:
					artical_file.write(md)
			except Exception:
				print("[----] 处理URL异常：{}".format(article_href))
			self.url_num += 1
	except Exception:
		pass

从任务队列TaskQueue中弹出未访问的文章链接和标题。

尝试获取一个文件名，该文件名由文章标题生成，以避免文件名中的特殊字符。

计算并获取存储文章的文件路径。

创建一个Markdown文件头，包括文章标题。

获取文章内容，并将其添加到Markdown文件头。

将处理后的Markdown内容写入文件。

打印正在处理的URL。

更新一个变量_num，用于表示已处理的文章数量。

多线程爬虫

实现多线程爬虫，以提高爬取速度。在循环中，会不断地创建新的线程来处理任务队列中的任务，直到任务队列为空。这样可以充分利用计算机的多核性能，提高爬取效率。

def muti_spider(self, thread_num):
	while self.TaskQueue.getUnVisitedListLength() > 0:
		thread_list = []
		for i in range(thread_num):
			th = threading.Thread(target=self.get_all_articles)
			thread_list.append(th)
		for th in thread_list:
			th.start()

我们在多线程爬虫的时候，要保证系统有足够的内存空间。通过使用contextlib库的contextmanager装饰器，可以轻松地实现上下文管理，确保内存分配和释放的正确性。

lock = threading.Lock()
total_mem= 1024 * 1024 * 500 #500MB spare memory
@contextlib.contextmanager
def ensure_memory(size):
    global total_mem
    while 1:
        with lock:
            if total_mem > size:
                total_mem-= size
                break
        time.sleep(5)
    yield 
    with lock:
        total_mem += size

在__enter__方法中，使用with lock语句模拟加锁，确保在执行内存分配操作时，不会发生竞争条件。然后判断当前系统的总内存是否大于所需分配的内存空间，如果大于，则减少总内存，并跳出循环。

选择要爬取的用户

def spider_user(username: str, cookie_path:str, thread_num: int = 10, folder_name: str = "articles"):
	if not os.path.exists(folder_name):
		os.makedirs(folder_name)
	csdn = CSDN(username, folder_name, cookie_path)
	csdn.start()
	th1 = threading.Thread(target=csdn.write_readme)
	th1.start()
	th2 = threading.Thread(target=csdn.muti_spider, args=(thread_num,))
	th2.start()

检查文件夹folder_name是否存在，如果不存在，则创建该文件夹。
创建一个CSDN对象csdn，用于模拟用户登录和爬取文章。
创建一个线程th1，目标为_readme。
创建一个线程th2，目标为_spider，并传入参数(thread_num,)，用于指定线程数量。

这个函数的目的是爬取指定用户的CSDN博客文章，并将文章保存到文件夹folder_name中。通过创建线程，可以实现多线程爬虫，提高爬取速度。

线程池

线程池存储爬虫代理 IP 的数据库或集合。在网络爬虫中，由于目标网站可能会针对同一 IP 地址的访问频率进行限制，因此需要使用池来存储多个代理 IP 地址，以实现 IP 地址的轮换和代理。池可以提高爬虫的稳定性和效率，避免因为 IP 地址被封禁而导致的爬虫失效。
爬虫和池是爬虫领域中不可或缺的概念，池能够提高爬虫的稳定性和效率，同时帮助爬虫更好地适应目标的反爬虫策略。

你可能感兴趣的:(粉丝福利活动,python,爬虫,开发语言)

Python 网络爬虫入门全知道安年CJ Python python 爬虫开发语言运维 php 服务器
一、引言在当今数字化时代，网络上的数据量呈爆炸式增长。无论是进行数据分析、市场调研，还是开发智能应用，获取网络数据都变得极为重要。而Python网络爬虫就是一把打开网络数据宝库的利器。它能够自动地从网页中抓取我们需要的信息，为后续的数据处理和分析提供丰富的素材。本博客将带领大家逐步走进Python网络爬虫的精彩世界。二、网络爬虫基础概念（一）什么是网络爬虫网络爬虫，也称为网页蜘蛛，是一种按照一定的
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
基于springboot的在线小说阅读平台设计与实现-计算机毕业设计源码+LW文档 qq_375279829 计算机毕业设计程序源码 java spring boot java 数据库
开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：Maven3.3.9浏览器：谷歌浏览器数据库代码：DROPTABLEIFEXISTS`discussxiaoshuoxinxi`;/*!40101SET@saved_c
【2025年07期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深A股历史分时KDJ数据获取实例演示及接口API说明文档不会写代码的码农农 python java 开发语言大数据
在近一至两年期间，股票量化分析逐步成为备受关注的热门议题。对于投身于该领域工作而言，首要步骤便是获取全面且精准的股票数据。无论是实时交易数据、历史交易记录、财务数据，亦或是基本面信息，这些数据均是开展量化分析过程中不可或缺的宝贵资源。我们的核心任务在于从这些数据中提炼出具有价值的信息，从而为投资策略提供坚实有力的指导。在数据探索进程中，我尝试运用了多种方法，涵盖自编网易股票页面爬虫程序、申万行业数
2025届毕业设计选题参考，包含网站管理系统开发，微信小程序开发，APP开发，大数据分析，人工智能平姐设计计算机毕业设计选题清单微信小程序开发语言人工智能数据分析
网站开发选题：1、基于Java的企业食堂管理系统的设计与实现2、基于web的办公平台3、综合学工服务系统4、超市管理系统5、基于springboot的云笔记共享系统6、毕业生实习管理系统7、驾校预约管理系统8、基于Java的航空订票系统9、企业资源规划系统10、洗衣房预约管理系统的设计与实现11、桌面端有声小说12、基于Python的毕业生就业率分析管理系统的设计与实现13、基于VUE的富平县农产
oauth身份验证方式_使用OAuth和Passport管理身份验证 cuxiong8996 java jwt acl 软件测试安全
oauth身份验证方式用户组列表和信息（UGLI）应用程序开始很好地成形。现在，您可以通过在“具有响应式Web设计的MEAN和UGLICRUD”中设置的CRUD屏幕显示您创建的本地内容。您还可以使用在“MEAN遇见Meetup.com和微数据”中开发的服务来合并来自外部站点的内容。与公众共享会议信息是该项目的重要组成部分。但是，作为用户组组长，我也希望将某些活动限制为该组的注册成员。例如，通过关闭
Python网络安全脚本网络安全Ash python web安全开发语言
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快前言睡不着，那就起来学习其实base64模块很早之前用过今天做爬虫的时候有个URL需要用它来编码一下所以百度又学了一下遇到最大的问题就是python3和python2区别问题python3的这个不支持直接上字符串纠结了好久。base64编码Base64是网络上最常见的用于传输8Bit字节代码的编码方式之一，大家可以查看RFC2045~RF
【小白必看！Python 从 0 到 1 数据处理与图形绘制应用全流程案例】生活De°咸鱼 python 开发语言
1.环境准备首先，你需要安装必要的Python库，这里主要用到pandas进行数据处理，matplotlib和seaborn进行图形绘制。可以使用以下命令进行安装：pipinstallpandasmatplotlibseaborn2.数据准备假设我们有一个包含电商销售信息的CSV文件sales_data.csv，文件内容可能如下：date,product,category,sales2024-01
超硬核！DeepSeek 全面赋能 FPGA 工程师，实操干货大放送 AI_DL_CODE fpga开发 DeepSeek 人工智能深度学习 AI 大语言模型
摘要：本文聚焦DeepSeek大语言模型在FPGA开发中的实操应用。通过搭建Python通信环境，实现与模型交互，助力FPGA工程师多方面工作。涵盖代码编写与优化，如生成代码框架、获取优化建议；技术文档理解与撰写，像解读复杂文档、辅助撰写报告；问题排查与解决，提供故障诊断思路和解决方案；以及学习与知识拓展，定制学习路径、追踪前沿技术。虽存在挑战，但实操展示了其巨大潜力，为FPGA工程师提供高效工作
android studio调用python_Android-Python混合开发 1 （java和python互相调用） weixin_39630095 android studio调用python
众所周知，python的语法简洁，并且拥有丰富强大的开源库，如果能把python移植到Android系统，能够用Android和python混合开发一款app,那就太酷了。要想移植python，得需要下载源码并且交叉编译才行。这个过程太复杂。在这里，介绍一款第三方，复杂的过程交给它处理，我们只需要处理逻辑相关的python代码即可。Chaquopy0x01集成1)打开项目根目录下的build.gr
华为OD机试真题：异常的打卡记录（E卷、C++）什码情况华为od c++开发语言面试机试算法
华为OD机试（E卷+D卷+C卷）最新题库【超值优惠】Java/Python/C++合集题目描述考勤记录是分析和考核职工工作时间利用情况的原始依据，也是计算职工工资的原始依据，为了正确地计算职工工资和监督工资基金使用情况，公司决定对员工的手机打卡记录进行异常排查。如果出现以下两种情况，则认为打卡异常:1、实际设备号与注册设备号不一样；2、或者，同一个员工的两个打卡记录的时间小于60分钟并且打卡距离超
[Android] 在AndroidStudio中使用Python Microsoda android python 开发语言
这篇文章不包含Python的安装教程，请确保你已经安装好Python解释器。安装Chaquopy在/build.gradle中添加如下语句：plugins{id'com.chaquo.python'version'14.0.2'applyfalse}在/app/src/build.gradle中添加如下语句：plugins{id'com.android.application'id'com.cha
Python socket编程可爱的蜗牛牛 python 服务器 linux
服务端#服务端importsocket#引入socket模块#importcommands#执行系统命令模块#HOST='0.0.0.0'#指定服务端地址HOST=''#ip地址PORT=50007#指定端口号s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)#定义socket类型，网络通信，TCPs.bind((HOST,PORT))#绑定IP与
Python 学习之旅：持续学习和扩展（一）单元测试（unittest 模块）喜-喜 Python学习 python 学习单元测试
在Python学习的高级阶段，持续提升代码质量和可靠性是关键。单元测试作为软件开发过程中的重要一环，能够帮助我们发现代码中的潜在问题，确保程序的正确性。Python的unittest模块提供了一套丰富的工具，让我们可以轻松地编写和执行单元测试。接下来，让我们深入了解unittest模块，看看如何通过它来提升代码的质量。一、单元测试的重要性你可以把单元测试想象成建筑中的质量检测环节。在建造高
【FL0091】基于SSM和微信小程序的社区二手物品交易小程序猿毕设小程序微信小程序 spring boot python 后端 java
‍博主介绍‍全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。精彩专栏推荐订阅计算机毕业设计精品项目案例（持续更新）文末获取源码+数据库+文档感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和学长沟
使用Android Studio编写Python代码海上的风浪 android studio python android Android
使用AndroidStudio编写Python代码随着移动应用的快速发展，AndroidStudio成为了开发者们首选的集成开发环境。虽然AndroidStudio主要用于开发Android应用程序，但是我们也可以在其中编写和运行Python代码。在本文中，我将详细介绍如何在AndroidStudio中编写Python代码，并附上相应的源代码。首先，确保你已经安装了AndroidStudio并且环
11个案例讲透 Python 函数参数！洪峰科技大数据
大家好，我是洪峰今天给大家分享一下明哥整理的一篇Python参数的内容，内容非常的干，全文通过案例的形式来理解知识点，自认为比网上80%的文章讲的都要明白，如果你是入门不久的python新手，相信本篇文章应该对你会有不小的帮助。接下来是正文。1.参数分类函数，在定义的时候，可以有参数的，也可以没有参数。从函数定义的角度来看，参数可以分为两种：必选参数：调用函数时必须要指定的参数，在定义时没有等号可
《日程管理技巧与工具推荐：如何让日程管理更有趣？》
日历应用现在手机和电脑上都有日历应用，像Google日历、苹果日历，这些都挺好用的。你可以把重要的日期、会议、活动都添加进去，还能设置提醒，到时间了就会通知你，绝对不会错过任何重要的事儿。而且这些日历应用还能同步到多个设备上，不管你用手机还是电脑，随时随地都能查看自己的日程。[]()任务管理工具任务管理工具就更厉害了，它能帮你把任务分解成具体的步骤，设置优先级、截止日期，还能实时更新任务状态。比如
**挑战自我，以笔为马——CSDN大学生写作创作挑战赛等你来！** 爱编程的Loren 活动文章活动文章
####活动启事亲爱的大学生博主们，你们好！如果你热爱写作，渴望展现自己的创作才华，那么这个活动就是为你量身定制的。这是一个为期14天的创作挑战赛，我们诚挚地邀请你一同发掘写作的魅力，书写出属于我们自己的故事。无论你是想分享技术见解，还是希望与读者进行深度的交流和互动，这个活动都是你的舞台。 **一、活动内容** **1.创作主题**： *计算机领域相关内容，VIP、付费专栏文章
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
Selenium按文本查找元素全解析 test猿 selenium 测试工具
以下方法基于Python语言实现，适用于最新版Selenium4.15+，建议收藏备用！‌方法一：XPath文本定位‌pythonCopyCode#精确匹配文本（全字符匹配）element=driver.find_element(By.XPATH,'//*[text()="完整文本内容"]')#部分匹配文本（包含指定字符串）element=driver.find_element(By.XPATH,
deepseek+python实现对话中上传文件守着黎明看日出 python 开发语言
部署本地api：https://blog.csdn.net/qq_35809258/article/details/145481113实现持续对话：https://blog.csdn.net/qq_35809258/article/details/145490986通过以上两个链接基本对话环境齐备，直接进行下一步上传的文件类型可能有多种，需要安装所用到的python库pipinstallpytho
Python在实际工作中的运用-通用格式CSV文件自动转换XLSX 老胖闲聊 Python python excel
继续上篇《Python在实际工作中的运用-CSV无损转XLSX的几个方法》我们虽然对特定格式的CSV实现了快速转换XLSX的目标，但是在运行Py脚本前，还是需要编辑表格创建脚本和数据插入脚本，自动化程度很低，实用性不强，为减少人工提高效率，实现输入CSV文件路径即可自动适配完成转换。现将改进后的脚本发出来，供大家共同交流学习。脚本说明：1、本脚本适合字段之间用空格分隔或者用逗号分隔的CSV文本2、
在Anaconda的虚拟环境中安装R，并在vscode中使用 smx6666668 r语言 vscode 开发语言
在Anaconda的虚拟环境中使用R，并且希望在VSCode中同时使用Python和R，确实需要同时安装Python和R。这是因为VSCode的Jupyter插件和内核管理依赖于Python，而R则作为Jupyter的另一个内核运行。以下是具体的操作步骤和逻辑：1.为什么需要同时安装Python和RVSCode的Jupyter插件：VSCode的Jupyter扩展是基于Python的，安装后需要P
通过Python编程语言实现“机器学习”小项目教程案例指尖下的技术 DeepSeek python 机器学习开发语言
以下为你提供一个使用Python实现简单机器学习项目的教程案例，此案例将使用鸢尾花数据集进行分类任务，运用经典的支持向量机（SVM）算法。步骤1：环境准备首先，你要确保已经安装了必要的Python库，像scikit-learn、pandas、matplotlib和seaborn。可以使用以下命令进行安装：pipinstallscikit-learnpandasmatplotlibseaborn步骤
conda创建环境/安装包报错网络问题胖胖大王叫我来巡山 conda python
1.报错(base)xx@xxxdeMacBook-Proanaconda3%condacreate-nworkpython=3.7.11Collectingpackagemetadata(current_repodata.json):failedCondaHTTPError:HTTP000CONNECTIONFAILEDforurlElapsed:-AnHTTPerroroccurredwhen
python多版本与虚拟环境克金森沐沐 python 学习基础入门 python
这篇纯python技术文章，平时也会用到，在此记录一下。用macOS和Ubutntu的同学都知道系统默认安装的Python2.7.x，然后，我们平时python开发用的python3，所以，需要额外安装一个Python3.x的版本。之前，是使用robotframework-ride但它只支持python3.7，于是，安装python3.7。（注：现在已经支持3.8了）前几天，想学习一下tinygr
自编大模型系列之 01 使用 Python 从头构建 LLaMA 3 编写您自己的十亿参数LLM（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 python llama 开发语言
LLaMA3是继Mistral之后最有前途的开源模型之一，可以解决各种任务。我之前在Medium上写过一篇博客，介绍如何使用LLaMA架构从头开始创建一个具有超过230万个参数的LLM。现在LLaMA-3已经发布，我们将以更简单的方式重新创建它。我们不会在本博客中使用GPU，但您至少需要17GB的RAM，因为我们将加载一些大小超过15GB的文件。如果这对您来说是个问题，您可以使用Kaggle作为解
Python多环境管理 JoyceLiu_Ronghua python 开发语言
这里介绍两种常用的环境管理。第一种，利用python内置的venv创建。创建环境：Linux：python3-mvenv/path/to/new/virtual/environmentwindow：python-mvenvD:\py\my_env激活环境：my_venv\Scripts\activate激活后，前面会显示环境名称(my_env)D:\py\my_env\Scripts\>pipin
2025年CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他