weixin_30371469

Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)

1. 多进程爬虫

　　对于数据量较大的爬虫，对数据的处理要求较高时，可以采用python多进程或多线程的机制完成，多进程是指分配多个CPU处理程序，同一时刻只有一个CPU在工作，多线程是指进程内部有多个类似"子进程"同时在协同工作。python中有多种多个模块可完成多进程和多线程的工作，此处此用multiprocessing模块完成多线程爬虫，测试过程中发现，由于站点具有反爬虫机制，当url地址和进程数目较多时，爬虫会报错。

2. 代码内容

#!/usr/bin/python
#_*_ coding:utf _*_

import re
import time 
import requests
from multiprocessing import Pool

duanzi_list = []

def get_web_html(url):
	'''
	@params:获取url地址web站点的html数据
	'''
	headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}
	try:
		req = requests.get(url,headers=headers)
		if req.status_code == 200:
			response = req.text.encode('utf8')
	except Exception as e:
		print e
	return response

def scrap_qiushi_info(url):
	'''
	@params:url,获取段子数据信息
	'''
	html = get_web_html(url)
	usernames = re.findall(r'(.*?)',html,re.S|re.M)
	levels = re.findall('(\d+)',html,re.S|re.M)
	laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)
	comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)
	contents = re.findall('.*?(.*?)',html,re.S|re.M)
	for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):
		information = {
			"username": username.strip(),
			"level": level.strip(),
			"laugh_count": laugh_count.strip(),
			"comment_count": comment_count.strip(),
			"content": content.strip()
		}
		duanzi_list.append(information)
	time.sleep(1)
	return duanzi_list
			
def normal_scapper(url_lists):
	'''
	定义调用函数，使用普通的爬虫函数爬取数据
	'''
	begin_time = time.time()
	for url in url_lists:
		scrap_qiushi_info(url)
	end_time = time.time()
	print "普通爬虫一共耗费时长:%f" % (end_time - begin_time)

def muti_process_scapper(url_lists,process_num=2):
	'''
	定义多进程爬虫调用函数，使用mutiprocessing模块爬取web数据
	'''
	begin_time = time.time()
	pool = Pool(processes=process_num)
	pool.map(scrap_qiushi_info,url_lists)
	end_time = time.time()
	print "%d个进程爬虫爬取所耗费时长为:%s" % (process_num,(end_time - begin_time))

def main():
	'''
	定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数
	'''
	url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]
	normal_scapper(url_lists)
	muti_process_scapper(url_lists,process_num=2)


if __name__ == "__main__":
	main()

3. 爬取的数据存入到MongoDB数据库

#!/usr/bin/python
#_*_ coding:utf _*_

import re
import time 
import json
import requests
import pymongo
from multiprocessing import Pool

duanzi_list = []

def get_web_html(url):
	'''
	@params:获取url地址web站点的html数据
	'''
	headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}
	try:
		req = requests.get(url,headers=headers)
		if req.status_code == 200:
			response = req.text.encode('utf8')
	except Exception as e:
		print e
	return response

def scrap_qiushi_info(url):
	'''
	@params:url,获取段子数据信息
	'''
	html = get_web_html(url)
	usernames = re.findall(r'(.*?)',html,re.S|re.M)
	levels = re.findall('(\d+)',html,re.S|re.M)
	laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)
	comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)
	contents = re.findall('.*?(.*?)',html,re.S|re.M)
	for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):
		information = {
			"username": username.strip(),
			"level": level.strip(),
			"laugh_count": laugh_count.strip(),
			"comment_count": comment_count.strip(),
			"content": content.strip()
		}
		duanzi_list.append(information)
	return duanzi_list

def write_into_mongo(datas):
	'''
	@datas: 需要插入到mongoDB的数据，封装为字典,通过遍历的方式将数据插入到mongoDB中，insert_one()表示一次插入一条数据
	'''
	client = pymongo.MongoClient('localhost',27017)
	duanzi = client['duanzi_db']
	duanzi_info = duanzi['duanzi_info']
	for data in datas:
		duanzi_info.insert_one(data)

def query_data_from_mongo():
	'''
	查询mongoDB中的数据
	'''
	client = pymongo.MongoClient('localhost',27017)['duanzi_db']['duanzi_info']
	for data in client.find():
		print data	
	print "一共查询到%d条数据" % (client.find().count())
	
			
def main():
	'''
	定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数
	'''
	url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]
	for url in url_lists:
		scrap_qiushi_info(url)	
		time.sleep(1)
	write_into_mongo(duanzi_list)

if __name__ == "__main__":
	main()
	#query_data_from_mongo()

4. 插入至MySQL数据库

　　将爬虫获取的数据插入到关系性数据库MySQL数据库中作为永久数据存储，首先需要在MySQL数据库中创建库和表，如下：

1. 创建库
MariaDB [(none)]> create database qiushi;
Query OK, 1 row affected (0.00 sec)

2. 使用库
MariaDB [(none)]> use qiushi;
Database changed

3. 创建表格
MariaDB [qiushi]> create table qiushi_info(id int(32) unsigned primary key auto_increment,username varchar(64) not null,level int default 0,laugh_count int default 0,comment_count int default 0,content text default '')engine=InnoDB charset='UTF8';
Query OK, 0 rows affected, 1 warning (0.06 sec)

MariaDB [qiushi]> show create table qiushi_info;
+-------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Table       | Create Table                                                                                                                                                                                                                                                                                            |
+-------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| qiushi_info | CREATE TABLE `qiushi_info` (
  `id` int(32) unsigned NOT NULL AUTO_INCREMENT,
  `username` varchar(64) NOT NULL,
  `level` int(11) DEFAULT '0',
  `laugh_count` int(11) DEFAULT '0',
  `comment_count` int(11) DEFAULT '0',
  `content` text,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 |
+-------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

写入到MySQL数据库中的代码如下：

#!/usr/bin/python
#_*_ coding:utf _*_
#blog:http://www.cnblogs.com/cloudlab/

import re
import time 
import pymysql
import requests

duanzi_list = []

def get_web_html(url):
	'''
	@params:获取url地址web站点的html数据
	'''
	headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}
	try:
		req = requests.get(url,headers=headers)
		if req.status_code == 200:
			response = req.text.encode('utf8')
	except Exception as e:
		print e
	return response

def scrap_qiushi_info(url):
	'''
	@params:url,获取段子数据信息
	'''
	html = get_web_html(url)
	usernames = re.findall(r'(.*?)',html,re.S|re.M)
	levels = re.findall('(\d+)',html,re.S|re.M)
	laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)
	comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)
	contents = re.findall('.*?(.*?)',html,re.S|re.M)
	for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):
		information = {
			"username": username.strip(),
			"level": level.strip(),
			"laugh_count": laugh_count.strip(),
			"comment_count": comment_count.strip(),
			"content": content.strip()
		}
		duanzi_list.append(information)
	return duanzi_list

def write_into_mysql(datas):
	'''
	@params: datas，将爬虫获取的数据写入到MySQL数据库中
	'''
	try:
		conn = pymysql.connect(host='localhost',port=3306,user='root',password='',db='qiushi',charset='utf8')
		cursor = conn.cursor(pymysql.cursors.DictCursor)
		for data in datas:
			data_list = (data['username'],int(data['level']),int(data['laugh_count']),int(data['comment_count']),data['content'])
			sql = "INSERT INTO qiushi_info(username,level,laugh_count,comment_count,content) VALUES('%s',%s,%s,%s,'%s')" %(data_list)
			cursor.execute(sql)
			conn.commit()
	except Exception as e:
		print e
	cursor.close()
	conn.close()
	
			
def main():
	'''
	定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数
	'''
	url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]
	for url in url_lists:
		scrap_qiushi_info(url)	
		time.sleep(1)
	write_into_mysql(duanzi_list)

if __name__ == "__main__":
	main()

5. 将爬虫数据写入到CSV文件

　　CSV文件是以逗号,形式分割的文本读写方式，能够通过纯文本或者Excel方式读取，是一种常见的数据存储方式，此处将爬取的数据存入到CSV文件内。

将数据存入到CSV文件代码内容如下：

#!/usr/bin/python
#_*_ coding:utf _*_
#blog:http://www.cnblogs.com/cloudlab/

import re
import csv
import time 
import requests

duanzi_list = []

def get_web_html(url):
	'''
	@params:获取url地址web站点的html数据
	'''
	headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}
	try:
		req = requests.get(url,headers=headers)
		if req.status_code == 200:
			response = req.text.encode('utf8')
	except Exception as e:
		print e
	return response

def scrap_qiushi_info(url):
	'''
	@params:url,获取段子数据信息
	'''
	html = get_web_html(url)
	usernames = re.findall(r'(.*?)',html,re.S|re.M)
	levels = re.findall('(\d+)',html,re.S|re.M)
	laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)
	comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)
	contents = re.findall('.*?(.*?)',html,re.S|re.M)
	for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):
		information = {
			"username": username.strip(),
			"level": level.strip(),
			"laugh_count": laugh_count.strip(),
			"comment_count": comment_count.strip(),
			"content": content.strip()
		}
		duanzi_list.append(information)
	return duanzi_list

def write_into_csv(datas,filename):
	'''
	@datas: 需要写入csv文件的数据内容，是一个列表
	@params:filename,需要写入到目标文件的csv文件名
	'''
	with file(filename,'w+') as f:
		writer = csv.writer(f)
		writer.writerow(('username','level','laugh_count','comment_count','content'))
		for data in datas:
			writer.writerow((data['username'],data['level'],data['laugh_count'],data['comment_count'],data['content']))

def main():
	'''
	定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数
	'''
	url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]
	for url in url_lists:
		scrap_qiushi_info(url)	
		time.sleep(1)
	write_into_csv(duanzi_list,'/root/duanzi_info.csv')

if __name__ == "__main__":
	main()

6. 将爬取数据写入到文本文件中

#!/usr/bin/python
#_*_ coding:utf _*_
#blog:http://www.cnblogs.com/cloudlab/

import re
import csv
import time 
import requests

duanzi_list = []

def get_web_html(url):
	'''
	@params:获取url地址web站点的html数据
	'''
	headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}
	try:
		req = requests.get(url,headers=headers)
		if req.status_code == 200:
			response = req.text.encode('utf8')
	except Exception as e:
		print e
	return response

def scrap_qiushi_info(url):
	'''
	@params:url,获取段子数据信息
	'''
	html = get_web_html(url)
	usernames = re.findall(r'(.*?)',html,re.S|re.M)
	levels = re.findall('(\d+)',html,re.S|re.M)
	laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)
	comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)
	contents = re.findall('.*?(.*?)',html,re.S|re.M)
	for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):
		information = {
			"username": username.strip(),
			"level": level.strip(),
			"laugh_count": laugh_count.strip(),
			"comment_count": comment_count.strip(),
			"content": content.strip()
		}
		duanzi_list.append(information)
	return duanzi_list

def write_into_files(datas,filename):
	'''
	定义数据存入写文件的函数
	@params:datas需要写入的数据
	@filename:将数据写入到指定的文件名
	'''
	print "开始写入文件.."
	with file(filename,'w+') as f:
		f.write("用户名" + "\t" + "用户等级" + "\t" + "笑话数" + "\t" + "评论数" + "\t" + "段子内容" + "\n")
		for data in datas:
			f.write(data['username'] + "\t" + \
				data['level'] + "\t" + \
				data['laugh_count'] + "\t" + \
				data['comment_count'] + "\t" + \
				data['content'] + "\n" + "\n"
			)

def main():
	'''
	定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数
	'''
	url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]
	for url in url_lists:
		scrap_qiushi_info(url)	
		time.sleep(1)
	write_into_files(duanzi_list,'/root/duanzi.txt')

if __name__ == "__main__":
	main()

转载于:https://www.cnblogs.com/cloudlab/p/8458881.html

你可能感兴趣的:(Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2))

有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
PHP的架构设计 weixin_34294649 php
首先，大概陈述一下架构的关联，如下所述：首先会先设计标准DALclass(STDAL)，放置getData,delete,update等标准常见的功能函数在来设计程式会用到的各种DAL，基本上每一个Table都需要有一个DAL来实现，后面根据table应用、画面呈现等需求，也可以一个table有多个DAL，这各观念类似View的概念。根据商业逻辑的操作，制作对应的BLL，像是insert、upda
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
ES6之解构 Hopebearer_ ES6 es6 前端 javascript 开发语言 ecmascript
文章目录ES6之解构一、数组解构1.基本解构2.部分解构3.默认值4.剩余参数5.嵌套解构6.交换变量二、对象解构1.基本解构2.重命名3.默认值4.剩余参数三、函数参数结构1.数组参数解构2.对象参数解构3.默认值四、注意事项1.解构顺序2.undefined情况3.剩余元素4.对象的方法解构ES6之解构解构是JavaScript（ES6及以后版本）中一种非常强大的语法特性，它允许我们按照一定模
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
Java的定时器Timer和TimerTask使用全解析程序员总部 java java python 开发语言
在Java编程中，定时任务是一个常见的需求。无论是定期执行某些操作，还是在特定时间点执行任务，Java提供的Timer和TimerTask类就可以帮助我们轻松实现这些功能。今天将详细介绍如何使用这两个类，包括任务的执行和暂停。理解Timer和TimerTaskTimer是一个可以安排任务在指定的时间或周期性地执行的类。TimerTask是一个抽象类，表示要被定时执行的任务。使用Timer时，我们需
OpenGL疑惑阳光开朗_大男孩儿 OpenGL 算法 c++qt OpenGL
本篇文章基于完整例子和调用关系qtOpenGL-CSDN博客进行的疑惑补充，建议先观看例子，在看此篇。1.为什么glBindVertexArray解绑和绑定是一样的？glBindVertexArray是用来绑定和解绑顶点数组对象（VAO）的。绑定VAO的目的是告诉OpenGL在当前上下文中使用哪个VAO，它会保存和管理与该VAO相关的顶点缓冲区对象（VBO）和其他状态。绑定VAO（glBindVe
拷贝构造函数和移动构造函数阳光开朗_大男孩儿 c++笔记开发语言
目录1.拷贝构造函数和移动构造函数概念2.拷贝构造函数和移动构造函数调用时机2.1移动构造函数通常在以下情况被使用：2.2拷贝构造函数通常在以下情况被使用：2.3如果没有移动构造函数呢右值调用拷贝构造吗？2.4移动构造默认生成的条件？2.5拷贝构造默认生成的条件3.为什么有移动构造函数？4.拷贝构造函数为什么使用const？5.非临时对象可以调用移动构造函数吗？6.返回局部对象和拷贝构造返回局部对
Ant design vue中的a-select在动态给option赋值之后，placeholder失效丑小鸭变黑天鹅 Vue日常总结 vue.js javascript ecmascript
Antdesignvue中的a-select在动态给option赋值之后，placeholder失效一、问题描述二、解决办法1、方法一（不推荐）2、方法二一、问题描述最近做一个项目，用到了a-select，placeholder出现了问题先看一下不起作用的代码<a-select-optionv-for="iteminallCollege":key
【UDS诊断（ClearDiagnosticInformation_0x84服务）测试用例CAPL代码全解析⑦】车端域控测试工程师测试用例汽车经验分享 CANoe 学习
ISO14229-1:2023UDS诊断【ClearDiagnosticInformation_0x84服务】_TestCase07作者：车端域控测试工程师更新日期：2025年03月11日关键词：UDS诊断协议、清除诊断信息服务、ClearDiagnosticInformation_0x84服务、ISO14229-1:2023TC84-007测试用例用例ID测试场景验证要点参考条款预期结果TC84
关于uni-app发布手机APP上架各应用商城，隐私政策书写方案说明 Otaku love travel uni-app 应用发布政策说明 uni-app 应用发布隐私政策
uni-app应用隐私政策书写与上架方案说明一、前言随着移动互联网监管日趋严格，隐私政策已成为APP上架应用商城的核心合规文件。隐私政策不仅体现开发者对用户数据的尊重，更是满足《个人信息保护法》《网络安全法》《数据安全法》等法规的法律义务。核心目标：清晰告知用户数据收集与使用规则，建立用户信任。适用对象：所有通过uni-app开发并计划上架主流应用商城（如苹果AppStore、华为应用市场、小米应
页面跳转隐藏url参数 Otaku love travel html html 前端
在某些特定的情况下，直接请求会在url显示参数传值等，基于简单的安全性考虑，可以去掉参数，但是传参问题有出现了，以下提供了一个简单的解决方案1、a标签直接url跳转改为点击事件2、调用以下方法httpPostLocationUrl/***页面跳转*@paramurl请求地址xxx\xxx?xxx=xx&xx=xx*@paramparams可选参数json对象数据{‘a’:1}*/functionh
如果，你想找 AI大模型相关的工作，这三个建议你一定要看！我爱学大模型人工智能 chatgpt AI大模型 AI 大模型入门转行程序员
01各种大厂小厂创业团队和AI擦边的面试难度，由难到简单，依次是：大模型算法（⭐⭐⭐⭐⭐）模型部署加速（⭐⭐⭐⭐）RAG等相关技术（⭐⭐⭐）纯应用（⭐⭐）Prompt工程师等其他自媒体（⭐）会简单应用就行02这结果方向，B站找几个视频看看，这里推荐用Qwen7B，开源的模型，一个3060都能跑。例如这个，如何微调Qwen开源模型。https://www.bilibili.com/video/BV1
HIBERNATE - 符合Java习惯的关系数据库持久化 popkiler Atleap代码读解 hibernate 数据库 java session class payment
HIBERNATE-符合Java习惯的关系数据库持久化Hibernate2参考文档2.1.1TableofContents前言1.在Tomcat中快速上手1.1.开始Hibernate之旅1.2.第一个可持久化类1.3.映射cat1.4.与猫同乐1.5.结语2.体系结构2.1.总览2.2.持久化对象标识（PersistentObjectIdentity）2.3.JMX集成2.4.JCA支持3.Se
你了解TikTok的矩阵玩法吗？这一策略能帮助你实现精准引流！ m0_74891046 矩阵
TikTok已经不再是一个单纯的娱乐平台，它逐渐成为了很多人商业变现的利器。今天，咱们来聊聊TikTok矩阵玩法，看看如何利用多个账号协同作战，实现精准的引流和推广。什么是TikTok矩阵玩法？矩阵玩法是一种通过多个TikTok账号配合运营，进行内容推广和流量引导的策略。通过精细化分工和协同作战，每个账号都有不同的目标和任务，从而实现更高效的流量转化和用户增长。矩阵玩法的优势：精准引流每个账号针对
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
Monorepo与pnpm：前端项目管理的完美搭档秋の本名前端 pnpm 前端框架 mojo
一、什么是pnpmpnpm又称performantnpm，翻译过来就是高性能的npm。1.节省磁盘空间提高安装效率pnpm通过使用硬链接和符号链接（又称软链接）的方式来避免重复安装以及提高安装效率。硬链接：和原文件共用一个磁盘地址，相当于别名的作用，如果更改其中一个内容，另一个也会跟着改变符号链接（软链接）：是一个新的文件，指向原文件路径地址，类似于快捷方式官网原话：当使用npm时，如果你有100
ES6语法详解八月五前端前端 es6
ES的全称是ECMAScript,它是由ECMA国际标准化组织,制定的一项脚本语言的标准化规范。ES6实际上是一个泛指，泛指ES2015及后续的版本。目录1.let关键字和const关键字let关键字const关键字2.解构赋值数组解构赋值对象解构赋值解构赋值用于传参3.字符串新增特性模板字符串字符串实例新增方法4.数值新增特性新增二进制和八进制表示方法Number构造函数本身新增方法和属性安全整
CentOS停更；阿里发布全新操作系统（Anolis OS）萌褚 Linux 运维
镜像下载、域名解析、时间同步请点击阿里云开源镜像站Linux系统对于Java程序员来说，就好比“乞丐手里的碗”，任何业务都离不开他的身影，因为服务端的广泛使用，也因此衍生出了各种不同的发行版，其中我个人用的最多、且最喜欢的就是CentOS；不幸的是，2021年底CentOS8宣布停止了维护；不过，喜欢CentOS的朋友们不用为此而难过；21年的云栖大会上，阿里云发布全新操作系统“龙蜥”（Anoli
公务员行测之速算分数记忆检验-无答案版本 Lemon爱吃苹果公务员公务员计算机
前言为了提高速算速度，有一些分数是必须要记忆的，这个博客是为了检验自己记忆效果的，答案在下一篇博客上面，自己查看哟！！！速算之分数记忆检验12=%\frac{1}{2}=\%21=%13=%\frac{1}{3}=\%31=%14=%\frac{1}{4}=\%41=%15=%\frac{1}{5}=\%51=%16=%\frac{1}{6}=\%61=%17=%\frac{1}{7}=\%71=
Halcon 3月License 持续更新 lkasi haclon 计算机视觉 c++
大家新年快乐啊！3月License:仅仅支持以下版本24.05和24.1111月:呜呜呜呜，才装的23，又要装24了12月:yeah!我是24.05！！！1月:新的一年，24还是可以用大家春节快乐呀2月:新的一年，24依然可以用3月:24.0524.11依然可以用！！！链接:https://pan.baidu.com/s/1GmymNfYVFlokESK2r1HnmA?pwd=agey提取码:ag
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
ES6解构赋值详解漫天转悠 ES6 es6 前端 ecmascript
ES6解构赋值详解ES6解构赋值是JavaScript语言的一项强大特性，它允许从数组或对象中提取数据，并将其赋值给变量。这一特性不仅简化了代码，提高了可读性，还增强了代码的灵活性。本文将详细介绍ES6解构赋值的基本概念、语法、应用场景以及一些高级用法。1.基本概念解构赋值是对赋值运算符的扩展。它允许按照一定的模式，从数组或对象中提取值，并赋值给变量。这种语法使得从复杂数据结构中提取数据变得更加简
【PX4】Ubuntu20.04安装PX4教程 davidson1471 PX4 git 无人机 linux ubuntu
*建议早上安装*1.下载以往版本从github上clone源码gitclonehttps://github.com/PX4/PX4-Autopilot.git进入PX4-Autopilot文件夹cdPX4-Autopilot查看当前分支，位于origin/maingitstatus查看所有远程分支，带release的gitbranch-r|grep"release"切换到发行分支v1.12gitc
Go 语言使用Protobuf 进行序列化详解尘鹄 Go 语言学习之路 golang 开发语言后端 rpc go
文章目录Go语言使用Protobuf进行序列化详解1.Protobuf是什么?2.安装Protobuf及Go依赖3.编写.proto文件4.实现序列化和反序列化Go语言使用Protobuf进行序列化详解1.Protobuf是什么?以下是Protobuf官方中文文档的概述:Protobuf(ProtocolBuffers)是一种语言中立、平台中立的可扩展机制，用于序列化结构化数据。它类似于JSON，
Qt 串口类QSerialPort 使用笔记一对一答疑的编程作家朱文伟 qt qt 笔记开发语言
Qt串口类QSerialPort使用笔记虽然现在大多数的家用PC机上已经不提供RS232接口了。但是由于RS232串口操作简单、通讯可靠，在工业领域中仍然有大量的应用。Qt以前的版本中，没有提供官方的对RS232串口的支持，编写串口程序很不方便。现在好了，在Qt5.1中提供了QtSerialPort模块，方便编程人员快速的开发应用串口的应用程序。本文就简单的讲讲QtSerialPort模块的使用。
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他