dengji5327

用python爬虫抓站的一些技巧总结(转)

学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。

这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。

1.最基本的抓站

import urllib2 content = urllib2.urlopen('http://XXXX').read()

2.使用代理服务器

这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。

import urllib2 proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'}) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_opener(opener) content = urllib2.urlopen('http://XXXX').read()

3.需要登录的情况

登录的情况比较麻烦我把问题拆分一下：

3.1 cookie的处理

import urllib2, cookielib cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar()) opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler) urllib2.install_opener(opener) content = urllib2.urlopen('http://XXXX').read()

是的没错，如果想同时用代理和cookie，那就加入proxy_support然后operner改为

opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)

3.2 表单的处理

登录必要填表，表单怎么填？首先利用工具截取所要填表的内容。

比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包

这个我就举个例子好了，以verycd为例，先找到自己发的POST请求，以及POST表单项：

可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项，其中fk是随机生成的（其实不太随机，看上去像是把epoch时间经过简单的编码生成的），需要从网页获取，也就是说得先访问一次网页，用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写，login_submit是固定的，这从源码可以看出。还有username，password那就很显然了。

好的，有了要填写的数据，我们就要生成postdata

import urllib postdata=urllib.urlencode({     'username':'XXXXX',     'password':'XXXXX',     'continueURI':'http://www.verycd.com/',     'fk':fk,     'login_submit':'登录' })

然后生成http请求，再发送请求：

req = urllib2.Request(     url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',     data = postdata ) result = urllib2.urlopen(req).read()

3.3 伪装成浏览器访问

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现：

headers = {     'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } req = urllib2.Request(     url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',     data = postdata,     headers = headers )

3.4 反”反盗链”

某些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像3.3一样，把headers的referer改成该网站即可，以黑幕著称地cnbeta为例：

headers = {     'Referer':'http://www.cnbeta.com/articles' }

headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。例如，有些自作聪明的网站总喜欢窥人隐私，别人通过代理访问，他偏偏要读取header中的X-Forwarded-For来看看人家的真实IP，没话说，那就直接把X-Forwarde-For改了吧，可以改成随便什么好玩的东东来欺负欺负他，呵呵。

3.5 终极绝招

有时候即使做了3.1-3.4，访问还是会被据，那么没办法，老老实实把httpfox中看到的headers全都写上，那一般也就行了。再不行，那就只能用终极绝招了，selenium直接控制浏览器来进行访问，只要浏览器可以做到的，那么它也可以做到。类似的还有pamie，watir，等等等等。

4.多线程并发抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发地。

from threading import Thread from Queue import Queue from time import sleep #q是任务队列 #NUM是并发线程总数 #JOBS是有多少任务 q = Queue() NUM = 2 JOBS = 10 #具体的处理函数，负责处理单个任务 def do_somthing_using(arguments):     print arguments #这个是工作进程，负责不断从队列取数据并处理 def working():     while True:         arguments = q.get()         do_somthing_using(arguments)         sleep(1)         q.task_done() #fork NUM个线程等待队列 for i in range(NUM):     t = Thread(target=working)     t.setDaemon(True)     t.start() #把JOBS排入队列 for i in range(JOBS):     q.put(i) #等待所有JOBS完成 q.join()

5.验证码的处理

碰到验证码咋办？这里分两种情况处理：

google那种验证码，凉拌
简单的验证码：字符个数有限，只使用了简单的平移或旋转加噪音而没有扭曲的，这种还是有可能可以处理的，一般思路是旋转的转回来，噪音去掉，然后划分单个字符，划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库，然后把验证码和特征库进行比较。这个比较复杂，一篇博文是说不完的，这里就不展开了，具体做法请弄本相关教科书好好研究一下。
事实上有些验证码还是很弱的，这里就不点名了，反正我通过2的方法提取过准确度非常高的验证码，所以2事实上是可行的。

6 gzip/deflate支持

现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩，要返回压缩格式，必须在request的header里面写明’accept-encoding’，然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码，很繁琐琐碎。如何让urllib2自动支持gzip, defalte呢？

其实可以继承BaseHanlder类，然后build_opener的方式来处理：

import urllib2 from gzip import GzipFile from StringIO import StringIO class ContentEncodingProcessor(urllib2.BaseHandler):   """A handler to add gzip capabilities to urllib2 requests """     # add headers to requests   def http_request(self, req):     req.add_header("Accept-Encoding", "gzip, deflate")     return req     # decode   def http_response(self, req, resp):     old_resp = resp     # gzip     if resp.headers.get("content-encoding") == "gzip":         gz = GzipFile(                     fileobj=StringIO(resp.read()),                     mode="r"                   )         resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code)         resp.msg = old_resp.msg     # deflate     if resp.headers.get("content-encoding") == "deflate":         gz = StringIO( deflate(resp.read()) )         resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code)  # 'class to add info() and         resp.msg = old_resp.msg     return resp   # deflate support import zlib def deflate(data):   # zlib only provides the zlib compress format, not the deflate format;   try:               # so on top of all there's this workaround:     return zlib.decompress(data, -zlib.MAX_WBITS)   except zlib.error:     return zlib.decompress(data)

然后就简单了，

encoding_support = ContentEncodingProcessor opener = urllib2.build_opener( encoding_support, urllib2.HTTPHandler )   #直接用opener打开网页，如果服务器支持gzip/defalte则自动解压缩 content = opener.open(url).read()

7. 更方便地多线程

总结一文的确提及了一个简单的多线程模板，但是那个东东真正应用到程序里面去只会让程序变得支离破碎，不堪入目。在怎么更方便地进行多线程方面我也动了一番脑筋。先想想怎么进行多线程调用最方便呢？

1、用twisted进行异步I/O抓取

事实上更高效的抓取并非一定要用多线程，也可以使用异步I/O法：直接用twisted的getPage方法，然后分别加上异步I/O结束时的callback和errback方法即可。例如可以这么干：

from twisted.web.client import getPage from twisted.internet import reactor   links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]   def parse_page(data,url):     print len(data),url   def fetch_error(error,url):     print error.getErrorMessage(),url   # 批量抓取链接 for url in links:     getPage(url,timeout=5) \         .addCallback(parse_page,url) \ #成功则调用parse_page方法         .addErrback(fetch_error,url)     #失败则调用fetch_error方法   reactor.callLater(5, reactor.stop) #5秒钟后通知reactor结束程序 reactor.run()

twisted人如其名，写的代码实在是太扭曲了，非正常人所能接受，虽然这个简单的例子看上去还好；每次写twisted的程序整个人都扭曲了，累得不得了，文档等于没有，必须得看源码才知道怎么整，唉不提了。

如果要支持gzip/deflate，甚至做一些登陆的扩展，就得为twisted写个新的HTTPClientFactory类诸如此类，我这眉头真是大皱，遂放弃。有毅力者请自行尝试。

这篇讲怎么用twisted来进行批量网址处理的文章不错，由浅入深，深入浅出，可以一看。

2、设计一个简单的多线程抓取类

还是觉得在urllib之类python“本土”的东东里面折腾起来更舒服。试想一下，如果有个Fetcher类，你可以这么调用

f = Fetcher(threads=10) #设定下载线程数为10 for url in urls:     f.push(url)  #把所有url推入下载队列 while f.taskleft(): #若还有未完成下载的线程     content = f.pop()  #从下载完成队列中取出结果     do_with(content) # 处理content内容

这么个多线程调用简单明了，那么就这么设计吧，首先要有两个队列，用Queue搞定，多线程的基本架构也和“技巧总结”一文类似，push方法和pop方法都比较好处理，都是直接用Queue的方法，taskleft则是如果有“正在运行的任务”或者”队列中的任务”则为是，也好办，于是代码如下：

import urllib2 from threading import Thread,Lock from Queue import Queue import time   class Fetcher:     def __init__(self,threads):         self.opener = urllib2.build_opener(urllib2.HTTPHandler)         self.lock = Lock() #线程锁         self.q_req = Queue() #任务队列         self.q_ans = Queue() #完成队列         self.threads = threads         for i in range(threads):             t = Thread(target=self.threadget)             t.setDaemon(True)             t.start()         self.running = 0       def __del__(self): #解构时需等待两个队列完成         time.sleep(0.5)         self.q_req.join()         self.q_ans.join()       def taskleft(self):         return self.q_req.qsize()+self.q_ans.qsize()+self.running       def push(self,req):         self.q_req.put(req)       def pop(self):         return self.q_ans.get()       def threadget(self):         while True:             req = self.q_req.get()             with self.lock: #要保证该操作的原子性，进入critical area                 self.running += 1             try:                 ans = self.opener.open(req).read()             except Exception, what:                 ans = ''                 print what             self.q_ans.put((req,ans))             with self.lock:                 self.running -= 1             self.q_req.task_done()             time.sleep(0.1) # don't spam   if __name__ == "__main__":     links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]     f = Fetcher(threads=10)     for url in links:         f.push(url)     while f.taskleft():         url,content = f.pop()         print url,len(content)

8. 一些琐碎的经验

1、连接池：

opener.open和urllib2.urlopen一样，都会新建一个http请求。通常情况下这不是什么问题，因为线性环境下，一秒钟可能也就新生成一个请求；然而在多线程环境下，每秒钟可以是几十上百个请求，这么干只要几分钟，正常的有理智的服务器一定会封禁你的。

然而在正常的html请求时，保持同时和服务器几十个连接又是很正常的一件事，所以完全可以手动维护一个HttpConnection的池，然后每次抓取时从连接池里面选连接进行连接即可。

这里有一个取巧的方法，就是利用squid做代理服务器来进行抓取，则squid会自动为你维护连接池，还附带数据缓存功能，而且squid本来就是我每个服务器上面必装的东东，何必再自找麻烦写连接池呢。

2、设定线程的栈大小

栈大小的设定将非常显著地影响python的内存占用，python多线程不设置这个值会导致程序占用大量内存，这对openvz的vps来说非常致命。stack_size必须大于32768，实际上应该总要32768*2以上

from threading import stack_size stack_size(32768*16)

3、设置失败后自动重试

    def get(self,req,retries=3):         try:             response = self.opener.open(req)             data = response.read()         except Exception , what:             print what,req             if retries>0:                 return self.get(req,retries-1)             else:                 print 'GET Failed',req                 return ''         return data

4、设置超时

    import socket     socket.setdefaulttimeout(10) #设置10秒后连接超时

5、登陆

登陆更加简化了，首先build_opener中要加入cookie支持，参考“总结”一文；如要登陆VeryCD，给Fetcher新增一个空方法login，并在init()中调用，然后继承Fetcher类并override login方法：

def login(self,username,password):     import urllib     data=urllib.urlencode({'username':username,                            'password':password,                            'continue':'http://www.verycd.com/',                            'login_submit':u'登录'.encode('utf-8'),                            'save_cookie':1,})     url = 'http://www.verycd.com/signin'     self.opener.open(url,data).read()

于是在Fetcher初始化时便会自动登录VeryCD网站。

9. 总结

如此，把上述所有小技巧都糅合起来就和我目前的私藏最终版的Fetcher类相差不远了，它支持多线程，gzip/deflate压缩，超时设置，自动重试，设置栈大小，自动登录等功能；代码简单，使用方便，性能也不俗，可谓居家旅行，杀人放火，咳咳，之必备工具。

之所以说和最终版差得不远，是因为最终版还有一个保留功能“马甲术”：多代理自动选择。看起来好像仅仅是一个random.choice的区别，其实包含了代理获取，代理验证，代理测速等诸多环节，这就是另一个故事了。

参考

http://obmem.info/?p=476
http://obmem.info/?p=753

转载于:https://www.cnblogs.com/vingi/articles/2653511.html

FFmpeg 元数据 yerennuo ffmpeg ffmpeg
文章目录元数据代码实例，查看元数据元数据在处理音视频文件时，了解其元数据信息是非常重要的。元数据是描述文件内容和属性的数据，包括了诸如标题、作者、时长、分辨率等信息。使用ACDictonaryAPI，可以查看元数据或者将元数据写入到AVFormatContext,AVStream,AVChapter和AVProgram结构体中，元数据保存在它们Metadata字段中。元数据是由一个键值对组成的。与
深入浅出：Go语言中的`bufio`包及其数据类型详解少林码僧 go开发工作经验汇总 golang 开发语言后端
深入浅出：Go语言中的bufio包及其数据类型详解Go语言以其简洁、高效和强大的库支持而闻名，其中bufio包作为标准库的一部分，为开发者提供了便捷的缓冲输入输出功能。本文将深入探讨bufio包中的数据类型及其使用方法，帮助读者更好地理解和应用这一工具。一、什么是bufio包？bufio包是Go语言标准库中用于处理缓冲输入输出的一个重要模块。它通过提供一系列的缓冲器（如Reader、Writer等
Spring Boot 分层解耦相关知识需要重新演唱 web spring boot 后端 java
SpringBoot分层解耦相关知识详解目录SpringBoot分层解耦相关知识详解1.概述2.控制反转（IOC）2.1概念解释2.2在SpringBoot中的实现3.依赖注入（DI）3.1概念解释3.2在SpringBoot中的实现3.2.1构造器注入3.2.2Setter注入3.2.3字段注入4.分层解耦的实践4.1分层架构4.2示例代码5.总结1.概述在现代软件开发中，分层解耦是一个核心概念
opencv依赖的lib名称苏三福 opencv
#依赖的lib名称OPENCV_LIB=-lopencv_dnn-lopencv_flann-lopencv_videoio-lopencv_videostab-lopencv_superres-lopencv_video-lopencv_ml-lopencv_photo-lopencv_shape-lopencv_stitching-lopencv_calib3d-lopencv_feature
被动扫描和主动扫描的区别 Zero2One. github java 前端网络安全系统安全
在网络安全和漏洞检测中，被动扫描和主动扫描是两种常见的技术，它们在工作方式和应用场景上有显著的区别。被动扫描被动扫描是一种在目标无法察觉的情况下进行的信息收集方法。它通过监听网络流量、代理等方式获取数据，而不主动与目标系统进行交互。被动扫描的主要特点是隐蔽性强，不会对目标系统造成干扰1。优点隐蔽性强：由于不主动发送请求，目标系统难以察觉到扫描行为。减少干扰：不会对目标系统的正常运行造成影响。缺点信
HNU OJ题库 1002C数字排序问题梦里通天塔湖大 OJ题库 HNU OJ 题库
问题C:数字排序问题时间限制:1Sec内存限制:256MB提交:1148解决:789[提交][状态][讨论版]题目描述给定n个整数，请统计出每个整数出现的次数，按出现次数从多到少的顺序输出。输入输入的第一行包含一个整数n，表示给定数字的个数。第二行包含n个整数，相邻的整数之间用一个空格分隔，表示所给定的整数。输出输出多行，每行包含两个整数，分别表示一个给定的整数和它出现的次数。按出现次数递减的顺序
使用Python开发SolidWorks API SolidWorksAPI SolidWorks 二次开发 Solidworks API python
使用Python开发SolidWorksAPI介绍本文介绍了如何使用Python与SolidWorksAPI进行交互，创建零件草图、特征及插入文本。我们将通过一个简单的示例，展示如何在SolidWorks中进行自动化操作，利用Python脚本创建一个带有矩形特征的零件，并向草图中插入文本。前提条件安装了SolidWorks和Python。配置了pywin32库来与SolidWorks进行交互。可以
Xshell常用指令（已经连接到华为鲲鹏服务器）风染yeye 服务器华为 linux
我的使用主要是通过Xshell连接到华为鲲鹏服务器，实现远程登录和管理。通过Xshell，可以直接在本机windows系统下使用华为鲲鹏服务器。此篇适用于入门阶段，只展示了如何在xshell上运行代码文件。常用指令1.help：显示命令的帮助信息。示例：输入help命令可以获取所有Xshell命令的帮助信息。2.pwd：显示当前工作目录的路径。示例：-pwd：显示当前工作目录的路径。3.cd：改变
突然打不开Visual Studio的解决方案风染yeye visual studio c++
打不开VS2020的解决方案：问题背景：之前都能正常使用VS,用着用着其他软件，再打开VS失败，弹出对话框显示让我重置环境变量。下面是我成功的解决方案：1.发现C盘已满后，清理C盘存储2.以管理员权限打开命令提示符，输入：%ProgramFiles(x86)%\MicrosoftVisualStudio\Installer\vs_installer.exe"--repair这将启动VS的安装程序提
你不知道的javascript-13(var的接替者let与const) 我爱学习_zwj 你不知道的javascript javascript 前端开发语言面试
1.let与const的基本使用在ES5中我们声明变量都是使用的var(variable)关键字，从ES6开始新增了两个关键字可以声明变量：let、constlet、const在其他编程语言中都是有的，所以也并不是新鲜的关键字但是let、const确确实实给JavaScript带来一些不一样的东西从使用角度来说，只是在原有基础上换一个名字而已，使用的位置和方式是一样的varname='zs'let
【事件触发扩散卡尔曼滤波器】基于UWB实测数据的基于事件触发的扩散卡尔曼滤波器的定位【DEKF、EKF】（Matlab代码实现） wlz249 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述2运行结果3参考文献4Matlab代码、数据、文章下载⛳️赠与读者‍做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。建议读者按目录次序逐一浏览，免得骤然跌
Pinterest联盟营销综合指南好运来__ 大数据网络人工智能服务器 ip
Pinterest不仅是社交媒体平台，还是一个优质的视觉搜索引擎，独特的交互方式和平台生态使得Pinterest依然很受欢迎，因此它也成为最适合进行联盟营销的平台之一。一、为什么要使用Pinterest联盟营销1.活跃用户多Pinterest活跃用户数超过5亿，庞大的用户基础在一定程度上意味着更高的购买潜力。2.用户质量高根据PAConsulting和Pinterest的数据，奢侈品牌最关注的消费
RV1126+FFMPEG推流项目(9)AI和AENC模块绑定，并且开启线程采集学习嵌入式的小羊~ ffmpeg 音视频
前面两篇已经交代AI和AENC模块的配置，这篇就让这两个模块绑定起来，绑定的原因是，Aenc从Ai模块拿到采集的原始数据进行编码。使用RK_MPI_SYS_Bind把AI节点和AENC进行绑定，其中enModId是模块ID号选择的是RK_ID_AI、s32ChnId是通道号，通道号则从容器AENC容器获取。开启AENC线程采集每一帧视频编码数据并存储到音频队列。绑定的函数是有rv1126通过的，R
RV1126+FFMPEG推流项目(1)总体框架讲解学习嵌入式的小羊~ ffmpeg 音视频
音视频推流项目的讲解项目介绍本项目通过RV1126采集摄像头和麦克风数据，采用H.264/H.265视频编码技术和AAC音频编码技术进行压缩和合成复合流，然后推送到流媒体服务器。项目框图下图展示了整个项目的总体流程图，核心部分包括：暂时无法在飞书文档外展示此内容2.1视频采集与编码使用RV1126的API对CMOS摄像头进行采集，并进行H.264/H.265编码。编码后的视频数据存放到视频编码队列
QtDelegate委托的使用 Mr.攻城狮 QT
概念：不同于模型-视图-控制器模式，模型/视图设计不包括用于管理与用户交互的一个完全独立的组件。一般情况，视图负责将模型数据呈现给用户以及处理用户输入。为了输入更加具有灵活性，则由委托来执行交互。这些组件提供输入功能，且在一些视图中还负责渲染个别项目。控制委托的标准接口在QAbstractItemDelegate类中定义。简单基础部件的委托可以继承QItemDelegate，并使用这些函数的默认实
06FFMPEG的AVCodecContext结构体分析 Mango酱 FFMPEG ffmpeg 视频处理
06FFMPEG的AVCodecContext结构体分析概述：该结构体位于libavcodec库中的avcodec.h中。1AVCodecContext编解码上下文结构体位于libavcodec库里。AVFormatContext，AVInputFormat，AVOutputFormat，AVStream均位于libavformat库里。最长的结构体，将近两千行。但是新版本avformat58.d
库存python whl文件免费下载（2）科技小游侠 python python
库存pythonwhl文件免费下载（1）库存pythonwhl文件免费下载（2）库存pythonwhl文件免费下载（3）库存pythonwhl文件免费下载（4）库存pythonwhl文件免费下载（5）最近发现收藏的whl下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/已经走丢了，网上检索了下，还可以下载到历史的whl文件，为了防止下载链接再次失效，索性
wandb 网络连接问题解决指南星之所望 wandb
背景我们都知道wandb是非常好用的可视化工具，但是国内这个环境，网络不通畅，使用时常常会无法同步数据，在使用校园网的情况下尤为明显。这里提供了一种解决思路。环境windows10pycharm校园网wifi报错内容运行训练代码时出现以下错误wandb:Networkerror(TransientError),enteringretryloop.解决办法需要挂代理，这里用的是clashforwin
什么是多任务，单线程，多线程，超线程 weixin_34378969 操作系统
单任务操作系统：就是一次只能运行一个程序，不能同时运行多个程序，比如DOS系统；多任务系统则可以同时运行多个程序，比如我们现在常用的WindowsXP、Win7等系统。举例子：在运行一个软件时，想要玩另一个软件就必须把上面运行的软件关掉才能运行新的软件，你玩×××游戏时，还想再开个cs游戏，就得关掉×××游戏！想再开个uc浏览器，就的把cs关掉，你不关，在开新程序时系统会替你关的！多任务系统嘛，如
Python处理Excel数据王肇朋 excel Excel EXCEL office python Python
Python处理Excel数据2012-08-0210:07:32我来说两句收藏我要投稿前段时间做了个小项目，帮个海洋系的教授做了个数据处理的软件。基本的功能很简单，就是对Excel里面的一些数据进行过滤，统计，对多个表的内容进行合并等。之前没有处理Excel数据的经验，甚至于自己都很少用到Excel。记得《Python核心编程》的最后一章里有讲到用Win32COM操作office，看了一下讲的不
gradle linux配置环境变量配置,Mac OS环境变量配置（Android Studio之Gradle） MatrixMage gradle linux配置环境变量配置
以gradle环境变量配置为例：AndroidStudio自带的gradle路径为：/Applications/Android\Studio.app/Contents/gradle/gradle-2.8/bin1.打开终端2.输入：vim~/.bash_profile3.进入编辑模式4.在文本末尾添加如下信息exportGRADLE_HOME=/Applications/Android\Studi
linux二进制包安装svn,linux 安装svn（subversion二进制tar包）小丑逼 linux二进制包安装svn
#下载subversion安装包，地址：http://subversion.apache.org/download.cgi，我这里是subversion-1.9.7.tar.gz#cd进入你想安装的目录，rz命令上传至服务器tar-xzvfsubversion-1.9.7.tar.gzcdsubversion-1.9.7./configure--prefix=/usr/local/subversi
177.累加和校验 Reigrow xdoj
问题描述数据传输中一种常见的校验方式是累加和校验。其实现方式是在一次通讯数据包的最后加入一个字节的校验数据。这个校验字节内容为前面数据包中所有数据按字节累加所得结果的最后一个字节。例如：要传输的信息为：TEST（ASCII码为0x54,0x45,0x53,0x54）四个字节的累加和为：0x54+0x45+0x53+0x54=0x140校验和为累加和的最后一个字节，即0x40，也就是十进制的64现在
你喜欢用什么编辑器? dami_king 随笔编辑器
电脑工作者和程序员所使用的文本编辑器通常需要具备高效率、易用性以及对代码友好等特点，包括语法高亮、自动完成、多文件同时编辑、查找替换、版本控制集成等功能。以下是几个广受开发者欢迎且实用性较强的文本编辑器：VisualStudioCode（VSCode）：开源、免费，由微软开发，拥有强大的扩展生态系统，支持多种编程语言和框架，内建Git集成，实时错误检查和调试工具，非常适合现代Web和云端开发。Su
麒麟系统下载依赖到本地乙龙 linux kylin
在麒麟系统中下载依赖到本地，主要有以下几种方法：使用apt命令只下载不安装：在连接互联网的电脑上，使用sudoapt-get-dinstall命令，可以只下载软件包及其依赖到/var/cache/apt/archives目录下，而不进行安装。例如，要下载minicom及其依赖，可分别执行sudoapt-get-dinstallminicom*和sudoapt-get-dinstalllibtinf
python正则表达式re关于数字、字母、特殊字符、汉字的匹配方式乙龙 python 开发语言
在Python中，正则表达式是通过re模块来实现的。正则表达式是一种强大的文本处理工具，用于匹配、搜索、替换或分割字符串。以下是一些基本的正则表达式模式，用于筛选不同类型的字符：数字(\d):匹配任意数字（0-9）。示例：\d可以匹配“123”中的每个‘1’,‘2’,‘3’。字母([a-zA-Z]):匹配任意大小写的英文字母。示例：[a-zA-Z]可以匹配“HelloWorld”中的每个‘H’,‘
TimeUnit源码走读及基本使用 amcomputer Java基础后端 JavaWeb TimeUnit源码走读 TimeUnit基本使用
1背景介绍笔者遇到一个场景，用户输入的时间和数据库里面时间做对比，由于数据库里面是timestamp类型，（如2021-08-2308:28:41），而用户输入一般为小时，分钟，或者毫秒。代码规约规定不能使用java.sql.Time,java.sql.Date,和java.sql.timestamp,因为在jdk8中，这3个类有缺陷。现在假设用户输入是毫秒(longstartTime=Syste
国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
企业如何打造高效智能问答系统？一文详解架构与实现！功城师大语言模型自然语言处理 LLM 人工智能智能问答 RAG Agent
随着人工智能技术的不断发展，智能问答系统成为越来越多企业提升客户服务、知识管理与内部沟通的关键工具。今天我们将深入解析一套智能问答系统的设计思路与技术架构，帮助大家更好地理解如何利用这一系统在实际场景中高效运作。一、智能问答系统的整体架构这套智能问答系统分为前台、AI服务和后台三个核心部分，每个部分承担着不同的职责，分别负责用户交互、问题处理与数据支持。通过这种模块化的设计，整个系统的工作流程得以
四大.NET ORM框架深度对比：EF Core、SqlSugar、FreeSql与Dapper的性能、功能与适用场景 m0_74823983 .net
在对比EntityFrameworkCore（EFCore）、SqlSugar、FreeSql和Dapper这四种常用的.NETORM框架时，我们可以从多个维度进行详细的梳理和总结。以下是对这些框架的对比，包括应用场景、优势、劣势，并尝试通过表格形式展示关键数据（尽管ORM框架的对比通常难以直接量化到具体的数据点，但我会尽量通过描述性信息来呈现）。ORM框架对比总结框架名称应用场景优势劣势EFCo
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一