云胡实验室

【转载】py爬虫的一些技巧总结~

1.最基本的抓站

2.使用代理服务器

3.需要登录的情况

3.1 cookie的处理

3.2 表单的处理

3.4 反”反盗链”

3.5 终极绝招

4.多线程并发抓取

5.验证码的处理

6.gzip/deflate支持

7. 更方便地多线程

8. 一些琐碎的经验

【一万个声明：】这个不是博主写的，转载的，稍作了一些排版，因为找不到原有网址了，如有侵权或者原作需要，联系附上源址或侵删。同时如果对您有帮助，请给博文一个赞，这些都属于原作者。感恩好东西，拿出来分享。

累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。

1.最基本的抓站

import urllib2 

content = urllib2.urlopen('http://XXXX').read()

2.使用代理服务器

这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。

import urllib2 

proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'}) 

opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) 

urllib2.install_opener(opener) 

content = urllib2.urlopen('http://XXXX').read()

3.需要登录的情况

登录的情况比较麻烦我把问题拆分一下：

3.1 cookie的处理

import urllib2, cookielib 

cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar()) 

opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler) 

urllib2.install_opener(opener) 

content = urllib2.urlopen('http://XXXX').read()

是的没错，如果想同时用代理和cookie，那就加入proxy_support然后operner改为

opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)

3.2 表单的处理

登录必要填表，表单怎么填？首先利用工具截取所要填表的内容。

比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包

这个我就举个例子好了，以verycd为例，先找到自己发的POST请求，以及POST表单项：

转存失败重新上传取消

可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项，其中fk是随机生成的（其实不太随机，看上去像是把epoch时间经过简单的编码生成的），需要从网页获取，也就是说得先访问一次网页，用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写，login_submit是固定的，这从源码可以看出。还有username，password那就很显然了。

好的，有了要填写的数据，我们就要生成postdata

import urllib 

postdata=urllib.urlencode({ 

    'username':'XXXXX', 

    'password':'XXXXX', 

    'continueURI':'http://www.verycd.com/', 

    'fk':fk, 

    'login_submit':'登录' 

})

然后生成http请求，再发送请求：

req = urllib2.Request( 
    url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/', 

    data = postdata 
) 
result = urllib2.urlopen(req).read()

3.3 伪装成浏览器访问

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现：

headers = { 

    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' 

} 

req = urllib2.Request( 

    url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/', 

    data = postdata, 

    headers = headers 

)

3.4 反”反盗链”

某些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像3.3一样，把headers的referer改成该网站即可，以黑幕著称地cnbeta为例：

headers = { 

    'Referer':'http://www.cnbeta.com/articles' 

}

headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。例如，有些自作聪明的网站总喜欢窥人隐私，别人通过代理访问，他偏偏要读取header中的X-Forwarded-For来看看人家的真实IP，没话说，那就直接把X-Forwarde-For改了吧，可以改成随便什么好玩的东东来欺负欺负他，呵呵。

3.5 终极绝招

有时候即使做了3.1-3.4，访问还是会被据，那么没办法，老老实实把httpfox中看到的headers全都写上，那一般也就行了。再不行，那就只能用终极绝招了，selenium直接控制浏览器来进行访问，只要浏览器可以做到的，那么它也可以做到。类似的还有pamie，watir，等等等等。

4.多线程并发抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发地。

from threading import Thread 

from Queue import Queue 

from time import sleep 

#q是任务队列 

#NUM是并发线程总数 

#JOBS是有多少任务 

q = Queue() 

NUM = 2 

JOBS = 10 

#具体的处理函数，负责处理单个任务 

def do_somthing_using(arguments): 

    print arguments 

#这个是工作进程，负责不断从队列取数据并处理 

def working(): 

    while True: 

        arguments = q.get() 

        do_somthing_using(arguments) 

        sleep(1) 

        q.task_done() 

#fork NUM个线程等待队列 

for i in range(NUM): 

    t = Thread(target=working) 

    t.setDaemon(True) 

    t.start() 

#把JOBS排入队列 

for i in range(JOBS): 

    q.put(i) 

#等待所有JOBS完成 

q.join()

5.验证码的处理

碰到验证码咋办？这里分两种情况处理：

google那种验证码，凉拌
简单的验证码：字符个数有限，只使用了简单的平移或旋转加噪音而没有扭曲的，这种还是有可能可以处理的，一般思路是旋转的转回来，噪音去掉，然后划分单个字符，划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库，然后把验证码和特征库进行比较。这个比较复杂，一篇博文是说不完的，这里就不展开了，具体做法请弄本相关教科书好好研究一下。
事实上有些验证码还是很弱的，这里就不点名了，反正我通过2的方法提取过准确度非常高的验证码，所以2事实上是可行的。

6.gzip/deflate支持

现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩，要返回压缩格式，必须在request的header里面写明’accept-encoding’，然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码，很繁琐琐碎。如何让urllib2自动支持gzip, defalte呢？

其实可以继承BaseHanlder类，然后build_opener的方式来处理：

import urllib2 

from gzip import GzipFile 

from StringIO import StringIO 

class ContentEncodingProcessor(urllib2.BaseHandler): 

  """A handler to add gzip capabilities to urllib2 requests """ 

  

  # add headers to requests 

  def http_request(self, req): 

    req.add_header("Accept-Encoding", "gzip, deflate") 

    return req 

  

  # decode 

  def http_response(self, req, resp): 

    old_resp = resp 

    # gzip 

    if resp.headers.get("content-encoding") == "gzip": 

        gz = GzipFile( 

                    fileobj=StringIO(resp.read()), 

                    mode="r" 

                  ) 

        resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code) 

        resp.msg = old_resp.msg 

    # deflate 

    if resp.headers.get("content-encoding") == "deflate": 

        gz = StringIO( deflate(resp.read()) ) 

        resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code)  # 'class to add info() and 

        resp.msg = old_resp.msg 

    return resp 

  

# deflate support 

import zlib 

def deflate(data):   # zlib only provides the zlib compress format, not the deflate format; 

  try:               # so on top of all there's this workaround: 

    return zlib.decompress(data, -zlib.MAX_WBITS) 

  except zlib.error: 

    return zlib.decompress(data) 
然后就简单了，

encoding_support = ContentEncodingProcessor 

opener = urllib2.build_opener( encoding_support, urllib2.HTTPHandler ) 

  

#直接用opener打开网页，如果服务器支持gzip/defalte则自动解压缩 

content = opener.open(url).read()

7. 更方便地多线程

总结一文的确提及了一个简单的多线程模板，但是那个东东真正应用到程序里面去只会让程序变得支离破碎，不堪入目。在怎么更方便地进行多线程方面我也动了一番脑筋。先想想怎么进行多线程调用最方便呢？

1、用twisted进行异步I/O抓取

事实上更高效的抓取并非一定要用多线程，也可以使用异步I/O法：直接用twisted的getPage方法，然后分别加上异步I/O结束时的callback和errback方法即可。例如可以这么干：

from twisted.web.client import getPage 

from twisted.internet import reactor  

links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]  

def parse_page(data,url): 

    print len(data),url  

def fetch_error(error,url): 

    print error.getErrorMessage(),url  

# 批量抓取链接 

for url in links: 

    getPage(url,timeout=5) \ 

        .addCallback(parse_page,url) \ #成功则调用parse_page方法 

        .addErrback(fetch_error,url)     #失败则调用fetch_error方法 

  

reactor.callLater(5, reactor.stop) #5秒钟后通知reactor结束程序 

reactor.run()

twisted人如其名，写的代码实在是太扭曲了，非正常人所能接受，虽然这个简单的例子看上去还好；每次写twisted的程序整个人都扭曲了，累得不得了，文档等于没有，必须得看源码才知道怎么整，唉不提了。

如果要支持gzip/deflate，甚至做一些登陆的扩展，就得为twisted写个新的HTTPClientFactory类诸如此类，我这眉头真是大皱，遂放弃。有毅力者请自行尝试。

这篇讲怎么用twisted来进行批量网址处理的文章不错，由浅入深，深入浅出，可以一看。

2、设计一个简单的多线程抓取类

还是觉得在urllib之类python“本土”的东东里面折腾起来更舒服。试想一下，如果有个Fetcher类，你可以这么调用

f = Fetcher(threads=10) #设定下载线程数为10 

for url in urls: 

    f.push(url)  #把所有url推入下载队列 

while f.taskleft(): #若还有未完成下载的线程 

    content = f.pop()  #从下载完成队列中取出结果 

    do_with(content) # 处理content内容

这么个多线程调用简单明了，那么就这么设计吧，首先要有两个队列，用Queue搞定，多线程的基本架构也和“技巧总结”一文类似，push方法和pop方法都比较好处理，都是直接用Queue的方法，taskleft则是如果有“正在运行的任务”或者”队列中的任务”则为是，也好办，于是代码如下：

import urllib2 

from threading import Thread,Lock 

from Queue import Queue 

import time 

  

class Fetcher: 

    def __init__(self,threads): 

        self.opener = urllib2.build_opener(urllib2.HTTPHandler) 

        self.lock = Lock() #线程锁 

        self.q_req = Queue() #任务队列 

        self.q_ans = Queue() #完成队列 

        self.threads = threads 

        for i in range(threads): 

            t = Thread(target=self.threadget) 

            t.setDaemon(True) 

            t.start() 

        self.running = 0 

  

    def __del__(self): #解构时需等待两个队列完成 

        time.sleep(0.5) 

        self.q_req.join() 

        self.q_ans.join() 

  

    def taskleft(self): 

        return self.q_req.qsize()+self.q_ans.qsize()+self.running 

  

    def push(self,req): 

        self.q_req.put(req) 

  

    def pop(self): 

        return self.q_ans.get() 

  

    def threadget(self): 

        while True: 

            req = self.q_req.get() 

            with self.lock: #要保证该操作的原子性，进入critical area 

                self.running += 1 

            try: 

                ans = self.opener.open(req).read() 

            except Exception, what: 

                ans = '' 

                print what 

            self.q_ans.put((req,ans)) 

            with self.lock: 

                self.running -= 1 

            self.q_req.task_done() 

            time.sleep(0.1) # don't spam 

  

if __name__ == "__main__": 

    links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ] 

    f = Fetcher(threads=10) 

    for url in links: 

        f.push(url) 

    while f.taskleft(): 

        url,content = f.pop() 

        print url,len(content)

8. 一些琐碎的经验

1、连接池：

opener.open和urllib2.urlopen一样，都会新建一个http请求。通常情况下这不是什么问题，因为线性环境下，一秒钟可能也就新生成一个请求；然而在多线程环境下，每秒钟可以是几十上百个请求，这么干只要几分钟，正常的有理智的服务器一定会封禁你的。

然而在正常的html请求时，保持同时和服务器几十个连接又是很正常的一件事，所以完全可以手动维护一个HttpConnection的池，然后每次抓取时从连接池里面选连接进行连接即可。

这里有一个取巧的方法，就是利用squid做代理服务器来进行抓取，则squid会自动为你维护连接池，还附带数据缓存功能，而且squid本来就是我每个服务器上面必装的东东，何必再自找麻烦写连接池呢。

2、设定线程的栈大小

栈大小的设定将非常显著地影响python的内存占用，python多线程不设置这个值会导致程序占用大量内存，这对openvz的vps来说非常致命。stack_size必须大于32768，实际上应该总要32768*2以上

from threading import stack_size 

stack_size(32768*16)

3、设置失败后自动重试

def get(self,req,retries=3): 

        try: 

            response = self.opener.open(req) 

            data = response.read() 

        except Exception , what: 

            print what,req 

            if retries>0: 

                return self.get(req,retries-1) 

            else: 

                print 'GET Failed',req 

                return '' 

        return data

4、设置超时

import socket 

    socket.setdefaulttimeout(10) #设置10秒后连接超时

5、登陆

登陆更加简化了，首先build_opener中要加入cookie支持，参考“总结”一文；如要登陆VeryCD，给Fetcher新增一个空方法login，并在init()中调用，然后继承Fetcher类并override login方法：

def login(self,username,password): 

    import urllib 

    data=urllib.urlencode({'username':username, 

                           'password':password, 

                           'continue':'http://www.verycd.com/', 

                           'login_submit':u'登录'.encode('utf-8'), 

                           'save_cookie':1,}) 

    url = 'http://www.verycd.com/signin' 

    self.opener.open(url,data).read()

于是在Fetcher初始化时便会自动登录VeryCD网站。

高并发导购系统设计：从单体到Service Mesh架构的渐进式迁移策略微赚淘客系统@聚娃科技 service_mesh 架构云原生
高并发导购系统设计：从单体到ServiceMesh架构的渐进式迁移策略大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在高并发导购系统中，随着业务量的增长和用户需求的多样化，单体架构逐渐暴露出诸多问题，如扩展性差、服务间耦合度高、部署复杂等。为了应对这些挑战，我们决定将系统从单体架构迁移到ServiceMesh架构。ServiceMesh通过
盟接之桥EDI软件助力制造企业提质增效的五大关键举措
在当今竞争激烈的制造业环境中，企业面临着前所未有的挑战。如何在降低成本的同时提高效率，成为制造企业生存与发展的关键。盟接之桥EDI（电子数据交换）软件正是为应对这一挑战而生，通过五个核心优势帮助企业实现降本增效的目标。1.简化部署与集成，实现无缝对接传统上，企业在尝试整合新的软件系统时，往往面临复杂的部署过程和高昂的时间成本。然而，盟接之桥EDI软件以其简洁的部署流程脱颖而出。它能够迅速地与现有的
MyISAM 与 InnoDB 有什么区别？如何选择？ tsxchen 数据库 mysql
MyISAM不支持事务和外键，适合读多写少的场景；InnoDB支持事务、外键和行级锁定，适合高并发写操作。选择时根据应用需求决定：需要事务和高并发写入时选InnoDB，读多写少时可选MyISAM。一、核心区别对比特性InnoDBMyISAM事务支持✅完整ACID事务（原子性、一致性等）❌不支持事务锁机制行级锁（高并发写入性能优）表级锁（写操作阻塞全表）外键约束✅支持外键，保障数据完整性❌不支持外键
SprutCAM 入门级铝板案例仿真 SprutCAMX 数控编程 CAM 数控机床编程数控机床加工动态仿真
四重风险拦截：动态碰撞检测实时标红刀具干涉深度，过切保护识别，奇异点规避映射关节突变，可达性验证预报警超行程区域，综合拦截率>95%；简单的铝板案例仿真
打造公平透明的绩效体系： HR 的秘密武器花海如潮淹人工智能
打造公平透明的绩效体系：HR的秘密武器绩效之痛：不只是数字，是流失的信任与燃烧的精力想象一下这些真实的场景，是否在你的公司上演？场景一：目标迷雾，努力付诸东流产品部的小王，年初领到一个模糊的目标：“提升用户体验”。他埋头苦干，优化了产品界面。年底评估时，经理却说他“方向错了”，因为经理心中的“用户体验”核心是“降低客服投诉率”。小王的努力不被认可，满心委屈：“为什么不早说清楚？我的努力算什么？”痛
力扣网C语言编程题：快慢指针来解决 “寻找重复数” 魏劭 C语言逻辑编程题算法 c语言 leetcode
一.简介上一篇文章解决力扣网上"查找重复数"的题目，提供了两种思路：哈希表和二分法。文章如下：力扣网C语言编程题：寻找重复数-CSDN博客本文提供另外两种解决思路：快慢指针和位运算。二.力扣网C语言编程题：快慢指针来解决“寻找重复数”解题思路三：（快慢指针）什么是快慢指针？快慢指针（FastandSlowPointers）是一种在链表或数组中高效检测环、查找中点或特定位置的算法技巧。其核心思想是使
如何打造高效的团队（三） - 领导力 xiaozhi239 团队管理项目管理企业架构
文章目录综述管理和领导的区分影响力的来源合适的团队领导力因地制宜因人而异1.情景领导模式2.需求三角3.ProjectOxygen适合自己常见最佳实践相关博客综述如何打造高效的团队（一）-团队架构如何打造高效的团队（二）-Android平台团队架构实例如何打造高效的团队（三）-领导力前面两篇博客通过分享TeamTopologies这本书及我对书中内容的理解，以及一个例子，讨论了如何从团队架构的角度
pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
findindex 用法满楼、前端 javascript
letidx=list.findIndex((itm)=>itm==id)//idx=-1列表中不存在查询的值,查询到的返回索引letidx=list.findIndex((itm)=>{returnitm==id})//两种写法加{}就得加return返回
笔记本安装linux系统_“老笔记本”操作系统的安装彭英韬笔记本安装linux系统
现在科技发展电脑更新速度很很，有很多人已经换了几台电脑了。一是工作需要电脑满足不了需求；二是经济条件好经常更换满足心里需求；三是只会使用电脑不会维修，修不好就换等情况。现在电脑出现问题比较多的操作系统，由于经常上网有一些软件自动就安装了，使用一段时间电脑速度就慢了，有时自己清理电脑就出现进不了系统。还有时候安装自己需要系统时，由于不匹配等因素，导致电脑死机或出现蓝屏现象。虽然上网关系系统安装的软件
Vmware-RabbitMQ安装菜逼の世界 VMware Vmware RabbitMQ
RabbitMQ操作系统：CentOS7.9更新系统更新你的系统包列表和已安装的包。yumupdate安装EPEL仓库（若需要）RabbitMQ的某些依赖包可能不在默认的CentOS/RHELYUM仓库中，因此你可能需要安装EPEL(ExtraPackagesforEnterpriseLinux)仓库。[root@test-2~]#yuminstallepel-release已加载插件：faste
Prompt 精通之路（四）- AI 赋能：10 个超实用的 Prompt 模板，覆盖写作、编程、学习和办公程序员阿超的博客 Prompt 精通之路：从零基础到 AI 高效玩家人工智能 prompt 学习 Prompt模板 AI工作流 ChatGPT应用生产力工具
Prompt精通之路：系列文章导航第一篇：[本文]AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个超实用的Prompt模板，覆盖写作、编程、学习和办公第五篇：构建你的“AI指令系统”：超越简单提问的CRISPE
关于YII2使用mssql/SqlServer的问题 aisicongg yii SqlServer
场景：配置了多个db连接，包含mysql和mssql等多个。本人在配置使用mssql的的过程中发现表名和字段名自动转义成`分隔符。例如SELECT`id`,`username`FROM`user`该语句在mssql是无法执行的，因为mssql不支持`分隔符，这个时候你需要在yii2调用的时候指定对应的配置db，比如我的申请了SqlServer是db2，那么我的写法如下：$query->create
MAC 多应用切换技巧，单应用切换技巧
在Mac上，有几种快捷键可以帮助你快速切换应用程序窗口：1.Command(⌘)+Tab-这是最常用的快捷键，用于在打开的应用程序之间进行循环切换。按住Command键不放，然后反复按下Tab键可以选择下一个应用程序。当你松开Command键时，会激活选中的应用程序。-如果你在切换过程中改变了主意，可以在保持Command键按下的同时，使用Shift键反向选择。2.Command(⌘)+`（反引号
用于 Yii 2 的 AuthClient 扩展--安装 topofgods Yii
https://github.com/yiisoft/yii2-authclient/blob/master/docs/guide-zh-CN/installation.md安装安装扩展要安装该扩展，请使用Composer。运行composerrequire--prefer-distyiisoft/yii2-authclient"~2.1.0"或在你的composer.json文件的“requir
轻量级FTP服务器应用——开箱即用 antzou 办公软件效率工具 FTP eclipse rcp
文章目录背景目标实现下载背景快速搭建测试环境程序员在开发文件上传/下载、FTP集成等功能时，需要快速验证代码逻辑，但连接生产环境或公共测试服务器存在风险且效率低下。环境隔离与安全性在本地或内网启动专属FTP服务，避免污染公共环境，同时防止敏感测试数据外泄。低成本资源占用无需部署完整的FTP服务软件（如vsftpd、FileZillaServer），通过轻量级嵌入式方案节省系统资源。自定义配置灵活性
API，异常 qq_42822008
API:应用程序编程接口，即jdk文档手册，里面以类的形式提供了很多常用的功能。常用的包与类：java.lang包：因为常用，所以不需要导包字符串，线程java.util包:数组工具类，日期，集合等java.net包:网络相关的类型java.io包:输入输出类型java.math包：数学应用的相关类型打包工具:javadoc(1)使用命令提示符界面：类信息中没有声明包，即使用默认包javadoc-
YII2配置SQLSERVER 大智001
php5.3以后，没有对sqlserver的支持的动态链接文件了，要php支持sqlserver。记住下面两个链接：https://github.com/Microsoft/msphpsql1.根据要求下载SRV32.EXE文件。（Php5.5以上的可以安装SQL）https://www.microsoft.com/en-us/download/details.aspx?id=20098将其安装到
mysql：破解数据库的密码！！！ qq_41051690 mysql 燕十八运维
如何破解数据库的密码？步骤如下：（1）通过任务管理器或着服务器管理，关掉mysqld进程；（2）通过命令行+特殊参数开启mysqld；（3）此时，mysqld服务进程已经打开，并且不需要权限检查；（4）mysql-uroot无密码登陆服务器；（5）修改权限表A：usemysql;B:updateusersetPassword=password(‘111111’)whereUser=’root’;C
Yii2 连接SqlServer（windows） aaa阿阿qiu~~ php环境 windows sqlserver php
最开始的问题：连接mysql没问题，连接sqlserver一直不行，但是在客户端可以连接，说明肯定程序或者是扩展哪里没弄对，就一直报couldnotfinddriver这个错误1、php扩展，可以使用phpinfo()来查看是否成功加载了pdo_sqlsrv模块，没问题扩展下载链接地址：https://docs.microsoft.com/zh-cn/sql/connect/php/release
java面试题47你工作过程用过哪些设计模式？说出“代理模式”的原理？码农颜 java 设计模式代理模式
在工作中，我虽然没有直接的“开发经历”，但处理用户请求和设计响应时，设计模式是解决问题的核心逻辑。我高频使用的模式包括：策略模式（动态切换算法/行为）观察者模式（事件通知/状态更新）责任链模式（分步处理请求）工厂模式（封装对象创建）代理模式（控制对象访问）深入解析：代理模式（ProxyPattern）核心思想：用一个代理对象作为真实对象的替身，从而控制对真实对象的访问。本质：在客户端和目标对象之间
多租户多会话隔离存储架构的完整实现方案敲键盘的小夜猫大语言模型 python langchain python 人工智能
导读：在构建企业级AI应用的道路上，多租户隔离和会话管理往往成为架构师们面临的核心难题。当系统需要同时服务数百乃至数千个用户时，如何确保用户数据的完全隔离？如何让每个用户的多个对话会话保持独立运行而互不干扰？这篇文章通过深入剖析LangChain框架中的history_factory_config机制，为你展示了一套完整的多租户多会话隔离存储方案。文章不仅详细解析了ConfigurableFiel
构建 Android，编译Android 源码
请按照本页中的说明构建Android。设置构建环境在您的工作目录中，获取envsetup.sh脚本的源代码以设置构建环境：sourcebuild/envsetup.sh此脚本会导入若干命令（包括本页中使用的命令），让您能够使用Android源代码。如需查看脚本的源代码，请参阅platform/build/envsetup.sh。如需查看内置帮助，请输入hmm。选择目标在构建Android之前，您必
Ubuntu/Linux运行安卓全攻略海洋月亮 ubuntu linux android docker scrapy
Ubuntu中使用scrcpy进行Android投屏，当我们手头没开发板没有屏幕的时候，就可以借助ADB和scrcpy进行投屏，很方便:A.这里展示如何在Ubuntu中使用scrcpy+adb+docker方案运行手机Android系统B.使用的模拟器方案基于redroid,能够非常简单方便地在任何Linux上运行Android模拟器C.测试环境:Ubuntu24.04D.需要用到的工具:scrc
DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑 m0_74825409 面试学习路线阿里巴巴人工智能架构
文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程（三）RL推理中的关键技术（四）RL推理的代码实现示例四、MoE架构与RL推理的结合：效率提升的奥秘（一）计算效率的提升（二）推理能力的增强（三）整体性能的飞跃五、结论与展望《DeepSee
Linux 系统运行 Android 应用的几种方案云水木石 linux android 运维服务器
这几年，国产操作系统替代正在有条不紊地进行中。但生态是绕不过去的一道坎，指望应用厂商一下子完成国产系统适配也不现实。之前介绍过使用Wine运行Windows应用的方案，减少了国产系统应用偏少的难题。比如我在办公室使用最多的企业微信，一直没有开发Linux版本，就是通过Wine运行的。除了Windows应用，还有新的目标，那就是手机应用。这些年移动互联网蓬勃发展，手机app从数量上已经远远超过桌面应
【vue组件库搭建07】Vitest单元测试 Eric⠀ 从零搭建组件库 vue.js 单元测试前端
vitest官网vue-test-utils我们的测试框架选择的是Vitest和vue-test-utils。两者的关系为：Vitest提供测试方法：断言、Mock、SpyOn等方法。vue-test-utils:挂载和渲染组件：VueTestUtils允许您在隔离中挂载组件，这意味着您可以测试单个组件而不必担心其子组件或需要完整的Vue应用环境。它还支持浅层挂载，其中子组件被存根，使测试更快并且
基于改进扩散模型与注意力机制的影像到转基因数据预测系统
基于改进扩散模型与注意力机制的影像到转基因数据预测系统1.项目概述本系统利用改进的扩散模型结合注意力机制，从医学影像中预测转基因数据。系统采用PyTorch框架实现，包含数据预处理、模型架构、训练流程和评估指标等完整模块。importtorchimporttorch.nnasnnimporttorch.nn.functionalasFimporttorch.optimasoptimfromtorc
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
Nodejs源码解析之module leoleocs Javascript nodejs
module管理是Nodejs中比较有特色的部分，官方有详细的文档https://nodejs.org/api/modules.html哪里介绍了一些基本的使用规则，主要的内容如下，文件和模块之间是一一对应关系：使用方法就是require，后续源码解析中会详细介绍什么是require，以及如何实现的。文件的名字就是一个id，也就是标志符。如何访问和被确认为主模块：简单的说就是被nodejs启动的模
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

【转载】py爬虫的一些技巧总结~

1.最基本的抓站

2.使用代理服务器

3.需要登录的情况

3.1 cookie的处理

3.2 表单的处理

3.4 反”反盗链”

3.5 终极绝招

4.多线程并发抓取

5.验证码的处理

6.gzip/deflate支持

7. 更方便地多线程

8. 一些琐碎的经验

你可能感兴趣的:(学东西不问原因【杂学汇总】,转的,别问,不是我写的,代码拿来用)