a544250670

【初码干货】记一次分布式B站爬虫任务系统的完整设计和实施

【初码文章推荐】

程序员的自我修养
Azure系列文章
阿里云系列文章
爬虫系列文章

【初码产品推荐】

AlphaMS开发模式
闪送达城市中央厨房

今天带来一个有意思的东西-分布式B站爬虫任务系统

这个小玩意源于上周在研究Azure的时候，发现云服务厂商都在推荐轻量级的存储队列服务，用来取代原有的比较重的消息队列服务，具体来说，比如阿里云就推荐使用消息服务替代消息队列，在Azure中，就有一个轻量级的存储队列（Storage Queue）可以替代服务总线（Service Bus），简单试用了一下Azure的Storage Queue后，发现这玩意很好用，于是决定全面的深入研究一下，再将公司电商系统内的相关任务处理均重构成使用存储队列服务，而深入研究得找个案例呀，于是就想到了做个分布式爬虫，此类应用会出现大量的任务场景，而正好前段时间下载B站视频时，找到一个网站，叫唧唧下载（搞二次元的都是色情狂吗？），但又不太好用，于是决定就做个比较全面的B站视频爬虫。一方面可以方便的下载视频，另一方面还可以当做公司开发人员的教学案例

老规矩，还是先看下最终的使用效果，应用入口：https://www.alphams.cn/LT，（为了防止滥用下载以及记录下载，所以还麻烦注册一下啦）

输入视频番号，点击下载，就进入任务界面

任务界面可以看到视频信息，实时下载信息，和错误信息

任务处理完成后，点击立即下载，从一个CDN加速的地址得到了视频

那么下面就把本次的开发和实施流水账记录一下

1、首先是准备工作和可行性调研

想要对B站进行爬虫，首先要准备好技术手段和相关工具，对B站的网站结构和数据流向进行一些分析，进行可行性的调研

首先打开B站任意一个视频，可以看到地址都是这样的格式

于是我们把AV后面的号码叫做番号（此番号非老司机番号）

而有些视频不止一段，如果是第二段视频，则是这个地址：

而如果把Index后面的2换成1，也可以达到和第一个地址一样的效果

然后用Fidder工具，分析一下网页，可以看到有如下一些资源

剔除基本的JS文件、CSS文件、图像文件后，剩下来的就是一些有用的信息了，而在有用的信息中最终筛选出如下几个信息

1、AID是视频的番号，也就是网址URL后面的那串唯一数字

2、CID是弹幕的番号，每个视频AID会对应一个CID

3、弹幕的信息存储在了这样的URL中：http://comment.bilibili.com/15075110.xml

4、视频的信息存储在了这样的URL中：https://interface.bilibili.com/playurl?cid=15075110&appkey=84956560bc028eb7&otype=json&type=&quality=3&sign=c070bfd93a84cab542e7c874add6839e

因为本次主要是下载视频，所以就着重看一下视频存储的信息，打开上面的URL后发现了最终视频的地址

太好了，一下子就给了视频尺寸和视频最终的下载地址，那么我们用浏览器打开一下这个URL看一下，可以成功下载！

注：以上相关分析实际上是经过了1-2个小时的反复尝试和模拟得出的，有2个细节补充一下，1、B站的服务器会根据HTTP头信息的不同返回FLV格式或者MP4格式，2、B站的视频可能用了不同厂商的CDN服务，有些视频地址无法直接下载，会判断refer信息和浏览器信息）

接下来继续分析，注意看这个URL可以发现，尾部有一个sign，说明做了客户端和服务端的签名验证，并不是很傻瓜的有直接通过AID或者CID关联的下载地址，分析进入到这一步后，我很快的就打了自己的脸，我曾在文章《关于.NET玩爬虫这些事》中说过，一切网站行为都可以分析出HTTP+Javascript来，只要分析得当，根本不需要用浏览器来进行爬虫模拟，但这尼玛B站鬼的Web结构（忍不住想骂人，典型的垃圾Python、PHP向的开发人员做出来的鬼东西，代码逻辑混乱、随便一看就是到处修补修改的痕迹，生成出来的HTML、JS的逻辑和层次毫无美感），看了2个小时，眼睛都看疼了，楞是没分析出签名方法，也许再看看会有结果，但是我等不及了，所以这时候祭出爬虫神器-无头浏览器

这里我选择了PhantomJS这个无头浏览器，具体的使用过程就不详述了，有兴趣可以到官网了解一下，写了如下分析代码

通过代码我们可以很清楚的看到，主要是两个目的，输出包含interface.bilibili.com的URL以及本次视频的标题

测试一下，确实可以得到URL和标题，这里有个要注意的是，B站默认是GB2312编码，所以PhantomJS要加一个参数，就是输出编码改为GB2312

到此为止，可以说完成了整个爬虫部分的调研，至少是有完整的可行性了。

2、然后进行业务功能的设计

有了可行性后，就可以天马行空的进行业务功能的设计了，既然上面说到那个鸡鸡网站特别不好用，那么我们就来重新设计一下这个爬虫的功能

一、用户端功能

1、用户可以输入视频番号和序号提交视频下载（注：干净清爽的提交界面）

最终界面如下：

2、用户可以在提交视频下载后，可以看到实时的处理进度，并且能够看到自己以前提交的任务（注：需要设计任务机制，做好状态控制，这里采用Azure的存储队列）

最终界面如下

3、用户最终的下载速度特别快（注：使用CDN和网络存储技术，这里采用阿里云的CDN和OSS）

最终效果如下：

4、下载进度能够通过邮件进行视频信息的推送（注：使用邮件模板技术，详见：《使用阿里云邮件推送服务架设自己邮件验证与推送体系》，这里采用SendCloud云服务）

最终效果如下：

二、服务端功能

1、考虑到B站CDN可能会限制IP地址使用，需要使用分布式的爬虫设计（注：这里使用Windows Console Application程序）

2、增加下载效率，使用多线程技术（注：因为使用.NET做爬虫，多线程控制还算比较稳定和齐全）

3、对无头浏览器进行精准的控制（注：这里是Windows环境，考虑使用.NET里面的Process类进行控制）

有了业务功能做指导，下面就可以进行完整的系统设计了

3、系统设计与技术细节

老规矩，先放出整体设计图

其中具体的技术细节和代码如下：

一、分布式架构的核心

1、分布式Win32控制台程序需要有账号体系，这样可以进行节点的实施状态管理和记录

2、任务的新增、获取、核销等，需要精准的控制，不能出现并发冲突，所以这里使用了消息队列，也就是上面所说的Azure存储队列服务

任务的新增和分配主要代码如下：

3、丰富的日志和错误处理机制

因为会一直执行，分布式节点的稳定性非常重要，Windows Console Application程序本身是非常稳定，因此在具体的代码里面，内存控制与对象释放、死循环的避免、多线程优化、异常的捕捉和处理等都非常重要，这里不一一洗漱，都是开发的基本功，做类似的应用的话，大家也需要多注意。另外因为无头浏览器的执行，是放在分布式的客户端里面进行的，因此也需要对无头浏览器进行精准控制，下面会详细说到

二、爬虫任务的数据结构

本案例中由于只对单一URL进行分析和爬虫，业务逻辑并不复杂，考虑到需要支持进度查询、状态控制等，数据结构设计如下，就2个表

1、爬虫任务表（记录爬虫任务，控制状态、记录过程参数等）

2、视频存储表

任务完成后，就把CDN加速好的视频信息存储下来，一方面进行冗余查询，另一方面也用于其他用户下载可以秒下

三、无头浏览器的精准控制

1、.NET里面的Process类

上面提到了，无头浏览器毕竟有一个浏览器内核的执行，而在任务处理的高峰，可能会不断的调用、销毁这个浏览器，而Web行为又是非常不稳定的，所以想要分布式的稳定，就一定要进行无头浏览器的精准控制。这里用到了.NET里面Process来控制无头浏览器的执行，主要的技术点有：

不显示命令窗口，重定向输入输出

监听数据接收

这里可以看到，我们之前在PhantomJS里面写的JS代码，主要就输出了两点，一个是包含下载地址JSON数据的URL地址，另一个是视频的标题，这里都做了记录

差错处理以及任务的关闭和结束

2、重试的机制

实测中发现，无头浏览器的失败率和出错率还是挺高的，因此在数据结构设计的时候，就预留了重试机制，当分布式客户端处理视频失败时，服务端重新提交消息队列，超过一定的次数再宣告任务失败

三、CDN的加速处理

1、之前在这篇文章《使用阿里云对Web开发中的资源文件进行CDN加速的深入研究和实践》中，提出了一种非常好的资源管理和加速方式，核心思路包括三点

文件资源的信息管理和目录结构在本地数据表中，GUID化
文件的数据存储在阿里云OSS中，无目录结构的扁平化记录
对OSS绑定域名，对CDN服务也绑定域名
反馈给客户端的文件信息，直接使用CDN地址，从而回源到OSS中或者直接命中缓存

2、同样的，在本次案例中，也使用了这样的处理方式，最终给用户的下载地址是CDN下载地址，具体的处理流程可以看上面的设计图，应该能一目了然

3、关于对上传到OSS的处理

在最初的设计方案中，分布式客户端完全下载到视频文件的内容后，是上传到服务端，由服务端统一进行上传，后来评估这样的方式，对服务端的压力和带宽占用都明显提升了，既然是分布式系统，应当充分利用分布式客户端的资源，所以改为分布式客户端直接上传文件到阿里云OSS中，这样做唯一的弊端是分布式客户端会获取明文的阿里云管理密钥，于是又加入了阿里云RAM权限管理，加入了OSS子权限的控制，问题就迎刃而解了。

四、邮件推送的处理

在上面的功能设计中，加入了邮件推送的功能，详细的设计思路参见这篇文章《使用阿里云邮件推送服务架设自己邮件验证与推送体系》，邮件模板就是HTML代码，这里就不多说了，但有一个小插曲，就是阿里云的邮件推送服务，实在是太烂了，特别是QQ邮箱的到达率奇差无比，因此最终的实施部分换成了搜狐的SendCloud解决方案。

好啦，整个实施到这里基本上就差不多了，老规矩，还是要总结和思考一下：

1、技术改进。因为整个程序就做了2天不到，很多技术细节点并未很到位，还有大量可以改进的地方：

比如对于PhantomJS更多细节参数的研究，是不是可以提升效率，是不是可以减少出错率

又比如任务表的设计，耦合的地方还是很多，应该还可以优化设计

又比如在用户界面上，没有做太多H5的美工，应该还可以加强一下

又比如分布式客户端Windows Console Application是不是可以强化为Windows Service，并且加入监控和守护进程

又比如经过研究发现，B站用了大厂商（蓝汛）的CDN服务，非常智能，在快速的加载30%以后就进行限速，那么对于这样的瓶颈的处理是不是还可以更细致一些

这些工作在后续我会慢慢完善

2、功能改进。今天只是为了测试存储队列的这个服务，所以简单的进行了B站视频的爬虫，事实上还有很多后续功能可以拓展

比如加入微信扫码就可以在微信上下载视频、观看视频

比如可以绑定微信公众号，在微信公众号上也可以视频番号发起下载，并通过微信模板消息推送处理结果

比如可以加入对弹幕的处理

比如可以加入一些经营性的功能，例如广告、收费高速下载、加入存储广告站的下载地址等等

3、其他思考

还是老生常谈的话题，坚决的反对前端向开发人员进行大型系统的架构，做出来除了垃圾就是垃圾

目前个人信息的保护是非常严格的，如果下载并存储电影和综艺节目，一定是非法的甚至触犯刑法，而这种个人发布的视频的爬虫下载，不知道上传时有没有和B站签署版权协议或者电子协议，如果是直接下载地址给到用户还好，但在本案例中，加入了中转存储，那么这样的行为，是不是涉嫌违法呢？我认为暂时法律风险不大，但从长远看，不太合适！

作者：张柔，发布于博客园与张柔的博客

转载请注明出处，欢迎邮件交流：[email protected]，或者加QQ群：11444444

转载于:https://www.cnblogs.com/chuma/p/6944343.html

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

【初码干货】记一次分布式B站爬虫任务系统的完整设计和实施

你可能感兴趣的:(【初码干货】记一次分布式B站爬虫任务系统的完整设计和实施)