whiterbear

python爬虫Pragmatic系列IV

python爬虫Pragmatic系列IV

By 白熊花田(http://blog.csdn.net/whiterbear)

说明：

在上一篇博客中，我们已经做到了从赶集网上单个首页中抓取所有的链接，并下载下来，分析后存入Excel中。

本次目标：

在本节中，我们将使用python多线程技术从赶集网上抓取链接并分析，注意，我们这次能够抓获的链接数目可以远远大于上一篇博客中抓获的。

分析：

用爬虫统计信息那自然数据越多越好，为了获取更多的数据，我们先研究下如何打开上千个赶集网上公司链接。

打开首页(http://bj.ganji.com/danbaobaoxian/o1/)，在页面底部能够看到一排分页，如下图：

简单分析可以发现其分页链接请求是由A+B形式组成的，A为(http://bj.ganji.com/danbaobaoxian/)，而B为(oi)，其中i为数字。经过验证后发现，i的范围为：[1,300+)。由此，我们就可以利用以上的链接去访问各个首页并获得各个首页中包含的公司页面链接。但是问题来了，一个首页上公司共有九十多家，假设我们抓取十个主页面上公司的链接，每个公司从下载到分析到写入Excel假设需要0.2s，那么共需要180s(=0.2*10*90)。而且当网速差的时候，所需要的时间会更长。由此，我们需要多线程来处理该问题。

学习python多线程可以看这里：w3cshoolPython多线程。

为了满足这次爬虫的需要，我在原来代码的基础上做了以下几个改动。

多线程

使用多线程，每个线程处理每个界面上的公司链接的下载和信息的提取写入，这样并发的处理能够使程序的效率更高而且能够抓取更多的信息。

爬虫类

在之前的博客中，我们都是单独的使用下载类和分析类分别进行操作，需要先运行下载类，然后在运行分析类。我们发现其实这两个操作其实都可以抽象成赶集网上抓取信息的子功能，并且，我们也希望这两者能够通过一个程序运行，这样也减少了操作的复杂性。

于是，我们构建一个赶集网爬虫类，将下载和分析功能聚合在一起，并且，为了适应多线程，我们让该类继承threading.Thread类，重写重写__init__()和__run__()函数，使其能够满足我们并发下载的需要。

代码的复用

在设计爬虫类时，我们发现原先代码中很多函数并不适合直接拿过来粘贴使用，其复用性较差，于是我们需要重构几个函数。

对于下载而言，我们之前的使用方法是先调用getPages()来打开url，并将打开的网页存储到电脑缓存中，使用的的是urlretrieve()函数，接着使用savePages()将刚刚保存的网页保存到指定的硬盘位置。我们发现，利用urlretrieve()函数可以直接将下载的网页下载到给定的硬盘位置，所以可以使用download_pages()直接搞定了。

代码：

#-*- coding:utf-8 -*-
#注：这里，我把赶集网首页称为主界面，首页里的公司链接及其页面称为子界面
import os
import re
import sys
import xlwt
import xlrd
import threading
from bs4 import BeautifulSoup
from time import sleep, ctime
from urllib import urlopen, urlretrieve

reload(sys)
sys.setdefaultencoding('utf-8')

class GanjiwangCrawler(threading.Thread):
	#url表示下载的主界面，mark标识是哪个进程下载的
	#location表明下载文件存储的文件夹，exname表明最后保存的Excel名
	#wb是创建的Excel对象，ws是对应的sheet对象
	def __init__(self, url, mark, location, exname, ws, wb):
		threading.Thread.__init__(self)
		self.url = url
		self.mark = mark
		self.location = location
		self.suburls = []
		self.exname = exname
		self.wb = wb
		self.ws = ws

	def run(self):
		#先下载主界面
		self.download_pages(self.url, 'main%s.txt'%str(self.mark), self.location)
		#分析主界面并返回主界面中包含的公司url
		self.suburls = self.analysis_main_pages('main%s.txt'%str(self.mark), self.location)
		#第一行依据suburls下载子界面 #第二行分析子界面并写入Excel中
		for i,su in enumerate(self.suburls):
			self.download_pages(su,r'file%s%s.txt'%(str(self.mark),str(i)), self.location)
			self.analysis_sub_pages(r'file%s%s.txt'%(str(self.mark),str(i)), self.location)

	def analysis_main_pages(self, fname, location):
		suburls = []
		filepath = location + fname
		if os.path.exists(filepath):
			fobj = open(filepath, 'r')
			lines = fobj.readlines()
			fobj.close()

			soup = BeautifulSoup(''.join(lines))
			leftBox = soup.find(attrs={'class':'leftBox'})
			list_ = leftBox.find(attrs={'class':'list'})
			li = list_.find_all('li')
			href_regex = r'href="(.*?)"'
			for l in li:
				suburls.append('http://bj.ganji.com' + re.search(href_regex,str(l)).group(1))
		else:
			print('The file is missing')
		#由于抓取的界面太多，导致赶集网会拒绝掉页面请求，这里我们修改下要抓取的公司数目（取十个）
		return suburls if len(suburls) < 10 else suburls[0:10]

	def download_pages(self, url, fname, location):
		try:
			urlretrieve(url, location + fname)
		except Exception, e:
			print 'Download page error:', url

	def write_to_excel(self, record, row):
		'该函数将给定的record字典中所有值存储到Excel相应的row行中'
		#写入公司名称
		companyName = record['companyName']
		self.ws.write(row,0,companyName)
		#写入服务特色
		serviceFeature = record['serviceFeature']
		self.ws.write(row,1,serviceFeature)
		#写入服务范围
		serviceScope = ','.join(record['serviceScope'])
		self.ws.write(row,2,serviceScope)
		#写入联系人
		contacts = record['contacts']
		self.ws.write(row,3,contacts.decode("utf-8"))
		#写入商家地址
		address = record['address']
		self.ws.write(row,4,address.decode("utf-8"))
		#写入聊天QQ
		qqNum = record['qqNum']
		self.ws.write(row,5,qqNum)
		#写入联系电话
		phoneNum = record['phoneNum']
		phoneNum = str(phoneNum).encode("utf-8")
		self.ws.write(row,6,phoneNum.decode("utf-8"))
		#写入网址
		companySite = record['companySite']
		self.ws.write(row,7,companySite)
		self.wb.save(self.exname)

	def analysis_sub_pages(self, subfname, location):
		filepath = location + subfname
		f = open(filepath, 'r')
		lines = f.readlines()
		f.close()
		#建立一个BeautifulSoup解析树，并提取出联系店主模块的信息(li)
		try:
			soup = BeautifulSoup(''.join(lines))
			body = soup.body
			wrapper = soup.find(id="wrapper")
			clearfix = wrapper.find_all(attrs={'class':'d-left-box'})[0]
			dzcontactus = clearfix.find(id="dzcontactus")
			con = dzcontactus.find(attrs={'class':'con'})
			ul = con.find('ul')
			li = ul.find_all('li')
		except Exception, e:#如果出错，即该网页不符合我们的通用模式，就忽略掉
			return None
		#如果该网页不符合我们的通用模式，我们就取消掉这次的分析
		if len(li) != 10:
			return None
		#记录一家公司的所有信息，用字典存储，可以依靠键值对存取，也可以换成列表存储
		record = {}
		#公司名称
		companyName = li[1].find('h1').contents[0]
		record['companyName'] = companyName
		#服务特色
		serviceFeature = li[2].find('p').contents[0]
		record['serviceFeature'] = serviceFeature
		#服务提供
		serviceProvider = []
		serviceProviderResultSet = li[3].find_all('a')
		for service in serviceProviderResultSet:
			serviceProvider.append(service.contents[0])
		record['serviceProvider'] = serviceProvider
		#服务范围
		serviceScope = []
		serviceScopeResultSet = li[4].find_all('a')
		for scope in serviceScopeResultSet:
			serviceScope.append(scope.contents[0])
		record['serviceScope'] = serviceScope
		#联系人
		contacts = li[5].find('p').contents[0]
		contacts = str(contacts).strip().encode("utf-8")
		record['contacts'] = contacts
		#商家地址
		addressResultSet = li[6].find('p')
		re_h=re.compile('</?\w+[^>]*>')#HTML标签
		address = re_h.sub('', str(addressResultSet))
		record['address'] = address.encode("utf-8")
		restli = ''
		for l in range(8,len(li) - 1):
			restli += str(li[l])
		#商家QQ
		qqNumResultSet = restli
		qq_regex = '(\d{5,10})'
		qqNum = re.search(qq_regex,qqNumResultSet).group()
		record['qqNum'] = qqNum
		#联系电话
		phone_regex= '1[3|5|7|8|][0-9]{9}'
		phoneNum = re.search(phone_regex,restli).group()
		record['phoneNum'] = phoneNum
		#公司网址
		companySite = li[len(li) - 1].find('a').contents[0]
		record['companySite'] = companySite
		#将该公司记录存入Excel中
		openExcel = xlrd.open_workbook(self.exname)
		table = openExcel.sheet_by_name(r'CompanyInfoSheet')

		self.write_to_excel(record, table.nrows)

def init_excel(exname):
	'我们初试化一个表格，并给表格一个头部，所以我们给头部不一样的字体'
	wb = xlwt.Workbook()
	ws = wb.add_sheet(r'CompanyInfoSheet')
	#初始化样式
	style = xlwt.XFStyle()
	#为样式创建字体
	font = xlwt.Font()
	font.name = 'Times New Roman'
	font.bold = True
	#为样式设置字体
	style.font = font
	# 使用样式
	#写入公司名称
	ws.write(0,0,u'公司名称', style)
	#写入服务特色
	ws.write(0,1,u'服务特色', style)
	#写入服务范围
	ws.write(0,2,u'服务范围', style)
	#写入联系人
	ws.write(0,3,u'联系人', style)
	#写入商家地址
	ws.write(0,4,u'商家地址', style)
	#写入聊天QQ
	ws.write(0,5,u'QQ', style)
	#写入联系电话
	ws.write(0,6,u'联系电话', style)
	#写入网址
	ws.write(0,7,u'公司网址', style)
	wb.save(exname)
	return [ws, wb]

def main():
	'启动爬虫线程进行下载啦'
	exname = r'info.xls'
	print 'start crawler'
	excels = init_excel(exname)
	#初始化url
	urls = []
	#下载赶集网页面的个数，最多可以设为三百多，同时代表本次的线程数
	pages = 2
	nloops = xrange(pages)
	for i in nloops:
		url = 'http://bj.ganji.com/danbaobaoxian/o%s/' % str(i + 1)
		urls.append(url)

	threads = []
	for i in nloops:
		t = GanjiwangCrawler(urls[i], mark=i,location=r'pagestroage\\',exname=exname, ws=excels[0], wb=excels[1])
		threads.append(t)

	for i in nloops:
		threads[i].start()

	for i in nloops:
		threads[i].join()

	print 'OK, everything is done'
if __name__ == '__main__':
	main()

运行结果：

pagestroage文件夹下下载了两个main0.txt和main1.txt文件，对应两个线程。同时还下载了file0i.txt和file1j.txt文件，其中i从0到9，j也从0到9。也就是说两个线程最后从main文件中解析了url后各自下载了十个(我设定的)公司界面。info.xls中包含15条公司的记录。

我的文件目录：

插曲：

在自己开启多线程下载后发现，自己的程序经常一运行就直接退出，后来发现程序发起的url请求被赶集网给拒绝了，回复的都是机器人界面，如下图：

上图可见赶集网对抓取强度是有一定限制的，我们可以在程序中使用sleep语句来降低页面下载的速度。

后感：

考完研回校后做的第一个程序，终于认识到也有机会好好编程了。程序开发过程中总是遇到各种诡异的问题，什么编码问题，tab和空格混用问题。所幸后来都一一解决了。

未完待续。

你可能感兴趣的:(多线程,爬虫,regex,python爬虫)

C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
C# 开发教程-入门基础天马3798 教程系列整理 c#开发语言
1.C#简介、环境，程序结构2.C#基本语法，变量，控制局域，数据类型，类型转换3.C#数组、循环，Linq4.C#类，封装，方法5.C#枚举、字符串6.C#面相对象，继承，封装，多态7.C#特性、属性、反射、索引器8.C#委托，事件，集合，泛型9.C#匿名方法10.C#多线程更多：JQuery开发教程入门基础Vue开发基础入门教程Vue开发高级学习教程
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
[面试高频问题]关于多线程的单例模式朱玥玥要每天学习 java 单例模式开发语言
单例模式什么是设计模式?设计模式可以看做为框架或者是围棋中的”棋谱”,红方当头炮,黑方马来跳.根据一些固定的套路下,能保证局势不会吃亏.在日常的程序设计中,往往有许多业务场景,根据这些场景,大佬们总结出了一些固定的套路.按照这个套路来实现代码,也不会吃亏.什么是单例模式,保证某类在程序中只有一个实例,而不会创建多份实例.单例模式具体的实现方式:可分为”懒汉模式”,”饿汉模式”.饿汉模式类加载的同时
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
基于flask做大模型SSE输出 Mark_Aussie nlp flask python 后端
默认情况下，Fask以多线程模式运行，每个请求都落在一个新线程上。SSE：基于HTTP的协议，用于实现服务器向客户端推送实时数据。使用长轮询机制，客户端通过HTTP连接向服务器发送请求，并保持该连接打开，服务器可以随时向客户端推送新的数据。SSE协议使用简单的文本格式，数据通过纯文本的消息流进行传输，每个消息以"data:"开头，以两个换行符"\n\n"结尾，如果传递的数据中有字典要使用变量传递。
为什么Node.js不适合CPU密集型应用？ weixin_54503231 node.js
Node.js不适合CPU密集型应用的原因主要基于其设计理念和核心特性，具体可以归纳为以下几点：单线程模型Node.js采用单线程模型来处理用户请求和异步I/O操作。虽然这种模型在处理高并发I/O密集型任务时非常高效，因为它避免了传统多线程模型中的线程上下文切换开销，但这也意味着它不能充分利用现代多核CPU的计算能力。对于需要大量计算资源的CPU密集型应用，单线程模型会成为瓶颈，导致应用性能受限。
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
拼多多商家电话采集工具爬虫教程分享小电商达人爬虫
以下是使用Python编写的拼多多商家电话采集爬虫教程：一、前期准备安装Python：从Python官方网站下载并安装最新版本的Python，安装过程中注意勾选将Python添加到系统路径选项。安装相关库：在命令提示符中运行以下命令来安装所需的库。pipinstallrequests：用于发送HTTP请求获取网页内容。pipinstallbeautifulsoup4：用于解析HTML页面。二、分析
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他