zhangtian6691844

Python多线程、异步＋多进程爬虫实现代码

安装Tornado
省事点可以直接用grequests库，下面用的是tornado的异步client。异步用到了tornado，根据官方文档的例子修改得到一个简单的异步爬虫类。可以参考下最新的文档学习下。
pip install tornado

异步爬虫

 
      ? 
     
           #!/usr/bin/env python 
          
           # -*- coding:utf-8 -*- 
          
           import 
            time 
          
           from 
            datetime  
           import 
           timedelta 
          
           from 
            tornado  
           import 
           httpclient, gen, ioloop, queues 
          
           import 
            traceback 
          
           class 
            AsySpider( 
           object 
           ): 
          
           """A simple class of asynchronous spider.""" 
          
           def 
           __init__( 
           self 
           , urls, concurrency 
           = 
           10 
           ,  
           * 
           * 
           kwargs): 
          
           urls.reverse() 
          
           self 
           .urls  
           = 
           urls 
          
           self 
           .concurrency  
           = 
           concurrency 
          
           self 
           ._q  
           = 
           queues.Queue() 
          
           self 
           ._fetching  
           = 
           set 
           () 
          
           self 
           ._fetched  
           = 
           set 
           () 
          
           def 
           fetch( 
           self 
           , url,  
           * 
           * 
           kwargs): 
          
           fetch  
           = 
           getattr 
           (httpclient.AsyncHTTPClient(),  
           'fetch' 
           ) 
          
           return 
           fetch(url,  
           * 
           * 
           kwargs) 
          
           def 
           handle_html( 
           self 
           , url, html): 
          
           """handle html page""" 
          
           print 
           (url) 
          
           def 
           handle_response( 
           self 
           , url, response): 
          
           """inherit and rewrite this method""" 
          
           if 
           response.code  
           = 
           = 
           200 
           : 
          
           self 
           .handle_html(url, response.body) 
          
           elif 
           response.code  
           = 
           = 
           599 
           :   
           # retry 
          
           self 
           ._fetching.remove(url) 
          
           self 
           ._q.put(url) 
          
           @gen 
           .coroutine 
          
           def 
           get_page( 
           self 
           , url): 
          
           try 
           : 
          
           response  
           = 
           yield 
            self 
           .fetch(url) 
          
           print 
           ( 
           '######fetched %s' 
           % 
           url) 
          
           except 
           Exception as e: 
          
           print 
           ( 
           'Exception: %s %s' 
           % 
           (e, url)) 
          
           raise 
           gen.Return(e) 
          
           raise 
           gen.Return(response) 
          
           @gen 
           .coroutine 
          
           def 
           _run( 
           self 
           ): 
          
           @gen 
           .coroutine 
          
           def 
           fetch_url(): 
          
           current_url  
           = 
           yield 
            self 
           ._q.get() 
          
           try 
           : 
          
           if 
           current_url  
           in 
            self 
           ._fetching: 
          
           return 
          
           print 
           ( 
           'fetching****** %s' 
           % 
           current_url) 
          
           self 
           ._fetching.add(current_url) 
          
           response  
           = 
           yield 
            self 
           .get_page(current_url) 
          
           self 
           .handle_response(current_url, response)   
           # handle reponse 
          
           self 
           ._fetched.add(current_url) 
          
           for 
           i  
           in 
            range 
           ( 
           self 
           .concurrency): 
          
           if 
           self 
           .urls: 
          
           yield 
           self 
           ._q.put( 
           self 
           .urls.pop()) 
          
           finally 
           : 
          
           self 
           ._q.task_done() 
          
           @gen 
           .coroutine 
          
           def 
           worker(): 
          
           while 
           True 
           : 
          
           yield 
           fetch_url() 
          
           self 
           ._q.put( 
           self 
           .urls.pop())   
           # add first url 
          
           # Start workers, then wait for the work queue to be empty. 
          
           for 
           _  
           in 
            range 
           ( 
           self 
           .concurrency): 
          
           worker() 
          
           yield 
           self 
           ._q.join(timeout 
           = 
           timedelta(seconds 
           = 
           300000 
           )) 
          
           assert 
           self 
           ._fetching  
           = 
           = 
           self 
           ._fetched 
          
           def 
           run( 
           self 
           ): 
          
           io_loop  
           = 
           ioloop.IOLoop.current() 
          
           io_loop.run_sync( 
           self 
           ._run) 
          
           class 
            MySpider(AsySpider): 
          
           def 
           fetch( 
           self 
           , url,  
           * 
           * 
           kwargs): 
          
           """重写父类fetch方法可以添加cookies，headers，timeout等信息""" 
          
           cookies_str  
           = 
           "PHPSESSID=j1tt66a829idnms56ppb70jri4; pspt=%7B%22id%22%3A%2233153%22%2C%22pswd%22%3A%228835d2c1351d221b4ab016fbf9e8253f%22%2C%22_code%22%3A%22f779dcd011f4e2581c716d1e1b945861%22%7D; key=%E9%87%8D%E5%BA%86%E5%95%84%E6%9C%A8%E9%B8%9F%E7%BD%91%E7%BB%9C%E7%A7%91%E6%8A%80%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8; think_language=zh-cn; SERVERID=a66d7d08fa1c8b2e37dbdc6ffff82d9e|1444973193|1444967835; CNZZDATA1254842228=1433864393-1442810831-%7C1444972138"  
           # 从浏览器拷贝cookie字符串 
          
           headers  
           = 
           { 
          
           'User-Agent' 
           :  
           'mozilla/5.0 (compatible; baiduspider/2.0; +http://www.baidu.com/search/spider.html)' 
           , 
          
           'cookie' 
           : cookies_str 
          
           } 
          
           return 
           super 
           (MySpider,  
           self 
           ).fetch(   
           # 参数参考tornado文档 
          
           url, headers 
           = 
           headers, request_timeout 
           = 
           1 
          
           ) 
          
           def 
           handle_html( 
           self 
           , url, html): 
          
           print 
           (url, html) 
          
           def 
            main(): 
          
           urls  
           = 
           [] 
          
           for 
           page  
           in 
            range 
           ( 
           1 
           ,  
           100 
           ): 
          
           urls.append( 
           'http://www.baidu.com?page=%s' 
           % 
           page) 
          
           s  
           = 
           MySpider(urls) 
          
           s.run() 
          
           if 
            __name__  
           = 
           = 
           '__main__' 
           : 
          
           main()

可以继承这个类，塞一些url进去，然后重写handle_page处理得到的页面。

异步＋多进程爬虫
还可以再变态点，加个进程池，使用了multiprocessing模块。效率飕飕的,

 
      ? 
     
           #!/usr/bin/env python 
          
           # -*- coding:utf-8 -*- 
          
           import 
            time 
          
           from 
            multiprocessing  
           import 
            Pool 
          
           from 
            datetime  
           import 
           timedelta 
          
           from 
            tornado  
           import 
           httpclient, gen, ioloop, queues 
          
           class 
            AsySpider( 
           object 
           ): 
          
           """A simple class of asynchronous spider.""" 
          
           def 
           __init__( 
           self 
           , urls, concurrency): 
          
           urls.reverse() 
          
           self 
           .urls  
           = 
           urls 
          
           self 
           .concurrency  
           = 
           concurrency 
          
           self 
           ._q  
           = 
           queues.Queue() 
          
           self 
           ._fetching  
           = 
           set 
           () 
          
           self 
           ._fetched  
           = 
           set 
           () 
          
           def 
           handle_page( 
           self 
           , url, html): 
          
           filename  
           = 
           url.rsplit( 
           '/' 
           ,  
           1 
           )[ 
           1 
           ] 
          
           with  
           open 
           (filename,  
           'w+' 
           ) as f: 
          
           f.write(html) 
          
           @gen 
           .coroutine 
          
           def 
           get_page( 
           self 
           , url): 
          
           try 
           : 
          
           response  
           = 
           yield 
            httpclient.AsyncHTTPClient().fetch(url) 
          
           print 
           ( 
           '######fetched %s' 
           % 
           url) 
          
           except 
           Exception as e: 
          
           print 
           ( 
           'Exception: %s %s' 
           % 
           (e, url)) 
          
           raise 
           gen.Return('') 
          
           raise 
           gen.Return(response.body) 
          
           @gen 
           .coroutine 
          
           def 
           _run( 
           self 
           ): 
          
           @gen 
           .coroutine 
          
           def 
           fetch_url(): 
          
           current_url  
           = 
           yield 
            self 
           ._q.get() 
          
           try 
           : 
          
           if 
           current_url  
           in 
            self 
           ._fetching: 
          
           return 
          
           print 
           ( 
           'fetching****** %s' 
           % 
           current_url) 
          
           self 
           ._fetching.add(current_url) 
          
           html  
           = 
           yield 
            self 
           .get_page(current_url) 
          
           self 
           ._fetched.add(current_url) 
          
           self 
           .handle_page(current_url, html) 
          
           for 
           i  
           in 
            range 
           ( 
           self 
           .concurrency): 
          
           if 
           self 
           .urls: 
          
           yield 
           self 
           ._q.put( 
           self 
           .urls.pop()) 
          
           finally 
           : 
          
           self 
           ._q.task_done() 
          
           @gen 
           .coroutine 
          
           def 
           worker(): 
          
           while 
           True 
           : 
          
           yield 
           fetch_url() 
          
           self 
           ._q.put( 
           self 
           .urls.pop()) 
          
           # Start workers, then wait for the work queue to be empty. 
          
           for 
           _  
           in 
            range 
           ( 
           self 
           .concurrency): 
          
           worker() 
          
           yield 
           self 
           ._q.join(timeout 
           = 
           timedelta(seconds 
           = 
           300000 
           )) 
          
           assert 
           self 
           ._fetching  
           = 
           = 
           self 
           ._fetched 
          
           def 
           run( 
           self 
           ): 
          
           io_loop  
           = 
           ioloop.IOLoop.current() 
          
           io_loop.run_sync( 
           self 
           ._run) 
          
           def 
            run_spider(beg, end): 
          
           urls  
           = 
           [] 
          
           for 
           page  
           in 
            range 
           (beg, end): 
          
           urls.append( 
           'http://127.0.0.1/%s.htm' 
           % 
           page) 
          
           s  
           = 
           AsySpider(urls,  
           10 
           ) 
          
           s.run() 
          
           def 
            main(): 
          
           _st  
           = 
           time.time() 
          
           p  
           = 
           Pool() 
          
           all_num  
           = 
           73000 
          
           num  
           = 
           4  
            # number of cpu cores 
          
           per_num, left  
           = 
           divmod 
           (all_num, num) 
          
           s  
           = 
           range 
           ( 
           0 
           , all_num, per_num) 
          
           res  
           = 
           [] 
          
           for 
           i  
           in 
            range 
           ( 
           len 
           (s) 
           - 
           1 
           ): 
          
           res.append((s[i], s[i 
           + 
           1 
           ])) 
          
           res.append((s[ 
           len 
           (s) 
           - 
           1 
           ], all_num)) 
          
           print 
           res 
          
           for 
           i  
           in 
            res: 
          
           p.apply_async(run_spider, args 
           = 
           (i[ 
           0 
           ], i[ 
           1 
           ],)) 
          
           p.close() 
          
           p.join() 
          
           print 
           time.time() 
           - 
           _st 
          
           if 
            __name__  
           = 
           = 
           '__main__' 
           : 
          
           main()

多线程爬虫
线程池实现.

 
      ? 
     
           #!/usr/bin/env python 
          
           # -*- coding:utf-8 -*- 
          
           import 
            Queue 
          
           import 
            sys 
          
           import 
            requests 
          
           import 
            os 
          
           import 
            threading 
          
           import 
            time 
          
           class 
            Worker(threading.Thread):   
           # 处理工作请求 
          
           def 
           __init__( 
           self 
           , workQueue, resultQueue,  
           * 
           * 
           kwds): 
          
           threading.Thread.__init__( 
           self 
           ,  
           * 
           * 
           kwds) 
          
           self 
           .setDaemon( 
           True 
           ) 
          
           self 
           .workQueue  
           = 
           workQueue 
          
           self 
           .resultQueue  
           = 
           resultQueue 
          
           def 
           run( 
           self 
           ): 
          
           while 
           1 
           : 
          
           try 
           : 
          
           callable 
           , args, kwds  
           = 
           self 
           .workQueue.get( 
           False 
           )   
           # get task 
          
           res  
           = 
           callable 
           ( 
           * 
           args,  
           * 
           * 
           kwds) 
          
           self 
           .resultQueue.put(res)   
           # put result 
          
           except 
           Queue.Empty: 
          
           break 
          
           class 
            WorkManager:   
           # 线程池管理,创建 
          
           def 
           __init__( 
           self 
           , num_of_workers 
           = 
           10 
           ): 
          
           self 
           .workQueue  
           = 
           Queue.Queue()   
           # 请求队列 
          
           self 
           .resultQueue  
           = 
           Queue.Queue()   
           # 输出结果的队列 
          
           self 
           .workers  
           = 
           [] 
          
           self 
           ._recruitThreads(num_of_workers) 
          
           def 
           _recruitThreads( 
           self 
           , num_of_workers): 
          
           for 
           i  
           in 
            range 
           (num_of_workers): 
          
           worker  
           = 
           Worker( 
           self 
           .workQueue,  
           self 
           .resultQueue)   
           # 创建工作线程 
          
           self 
           .workers.append(worker)   
           # 加入到线程队列 
          
           def 
           start( 
           self 
           ): 
          
           for 
           w  
           in 
            self 
           .workers: 
          
           w.start() 
          
           def 
           wait_for_complete( 
           self 
           ): 
          
           while 
           len 
           ( 
           self 
           .workers): 
          
           worker  
           = 
           self 
           .workers.pop()   
           # 从池中取出一个线程处理请求 
          
           worker.join() 
          
           if 
           worker.isAlive()  
           and 
           not 
           self 
           .workQueue.empty(): 
          
           self 
           .workers.append(worker)   
           # 重新加入线程池中 
          
           print 
           'All jobs were complete.' 
          
           def 
           add_job( 
           self 
           ,  
           callable 
           ,  
           * 
           args,  
           * 
           * 
           kwds): 
          
           self 
           .workQueue.put(( 
           callable 
           , args, kwds))   
           # 向工作队列中加入请求 
          
           def 
           get_result( 
           self 
           ,  
           * 
           args,  
           * 
           * 
           kwds): 
          
           return 
           self 
           .resultQueue.get( 
           * 
           args,  
           * 
           * 
           kwds) 
          
           def 
            download_file(url): 
          
           #print 'beg download', url 
          
           requests.get(url).text 
          
           def 
            main(): 
          
           try 
           : 
          
           num_of_threads  
           = 
           int 
           (sys.argv[ 
           1 
           ]) 
          
           except 
           : 
          
           num_of_threads  
           = 
           10 
          
           _st  
           = 
           time.time() 
          
           wm  
           = 
           WorkManager(num_of_threads) 
          
           print 
           num_of_threads 
          
           urls  
           = 
           [ 
           'http://www.baidu.com' 
           ]  
           * 
           1000 
          
           for 
           i  
           in 
            urls: 
          
           wm.add_job(download_file, i) 
          
           wm.start() 
          
           wm.wait_for_complete() 
          
           print 
           time.time()  
           - 
            _st 
          
           if 
            __name__  
           = 
           = 
           '__main__' 
           : 
          
           main()

这三种随便一种都有很高的效率，但是这么跑会给网站服务器不小的压力，尤其是小站点，还是有点节操为好。

你可能感兴趣的:(算法,移动开发,机器学习,数据挖掘)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后