wliufu

Heritrix源码分析之URI调度详解

一. 简述

URI调度，简单的来说就是提供一个分配URI和加入URI的方法，抓取线程通过分配URI获取待抓取URI，抓取分析完成后需要把希望继续抓取的URI加入到调度器内，等待调度。Heritrix的CrawlController是通过定义一个

 private transient Frontier frontier

来实现调度器的管理的，Heritrix提供了若干个调度器的实现，当然也可以根据自己的实际需要改写或完全重新定义自己的调度器，可以通过order.xml定义frontier为自定义的实现类。默认的实现类是BdbFrontier，一个基于BDB持久化的调度器实现，以下是其配置例子

<newObject name="frontier" class="org.archive.crawler.frontier.BdbFrontier"><!-- Frontier 调度器-->
      <float name="delay-factor">4.0</float><!-- 从同一个服务器(host)获取需要等待的间隔时间,可以预防无节制的抓取一个网站.通常是用该值去乘以上一个url的抓取时间来表示为下一个url需要等待的时间 -->
      <integer name="max-delay-ms">20000</integer><!-- 最大的等待时间,单位毫秒 -->
      <integer name="min-delay-ms">2000</integer><!--  最小等待时间,单位毫秒-->
      <integer name="respect-crawl-delay-up-to-secs">300</integer><!--当读取robots.txt时推迟抓取的时间，单位毫秒 -->
      <integer name="max-retries">30</integer><!-- 已经尝试失败的URI的重新尝试次数,很多人在跑Heritrix的时候，发现只跑了30个URL就停止了,其实是一个URL都没成功，它这里重试了30次 -->
      <long name="retry-delay-seconds">900</long><!--默认多长时间我们重新去抓取一个检索失败的URI -->
      <integer name="preference-embed-hops">1</integer><!--嵌入或者重定向URI调度等级，例如，该值为1(默认也为1)，调度时将比普通的link等级高.如果设置为0，则和link一样 -->
      <integer name="total-bandwidth-usage-KB-sec">0</integer><!--爬虫所允许的最大宽带平均数，实际的读取速度是不受此影响的，当爬虫使用的宽带接近极限时，它会阻碍新的URI去处理，0表示没有限制 -->
      <integer name="max-per-host-bandwidth-usage-KB-sec">0</integer><!--爬虫允许的每个域名所使用的最大宽带数，实际的读取速度不会受此影响，当爬虫使用的宽带接近极限时，它会阻碍新的URI去处理，0表示没有限制 -->
      <string name="queue-assignment-policy">org.archive.crawler.frontier.HostnameQueueAssignmentPolicy</string><!--定义如何去分配URI到各个队列,这个类是相同的host的url就属于同一个队列 -->
      <string name="force-queue-assignment"></string><!--强制URI的队列名字， -->
      <boolean name="pause-at-start">false</boolean><!-- 在URI被尝试前，当爬虫启动后是否暂停？这个操作可以在爬虫工作前核实或调整爬虫。默认为false -->
      <boolean name="pause-at-finish">false</boolean><!-- 当爬虫结束时是否暂停，而不是立刻停止工作.这个操作可以在爬虫状态还是可用时，有机会去显示爬虫结果,并有可能去增加URI和调整setting，默认为false-->
      <boolean name="source-tag-seeds">false</boolean><!-- 是否去标记通过种子抓取的uri作为种子的遗传，用source值代替.-->
      <boolean name="recovery-log-enabled">true</boolean><!--设置为false表示禁用恢复日志写操作，为true时候表示你用checkpoint去恢复crawl销毁的数据 -->
      <boolean name="hold-queues">true</boolean><!--当队列数量未达到时，是否不让其运行，达到了才运行。是否要去持久化一个创建的每个域名一个的URI工作队列直到他们需要一直繁忙(开始工作)。如果为false(默认值)，队列会在任何时间提供URI去抓取。如果为true，则队列一开始(还有收集的url)会处于不在活动中的状态,只有在Frontier需要另外一个队列使得所有线程繁忙的时候才会让一个新的队列出于活动状态. -->
      <integer name="balance-replenish-amount">3000</integer><!--补充一定的数量去使得队列平衡，更大的数目则意味着更多的URI将在它们处于等待队列停用之前将被尝试 -->
      <integer name="error-penalty-amount">100</integer><!-- 当队列中的一个URI处理失败时,需要另外处罚的数量.加速失活或问题队列，反应迟钝的网站完全退休。，默认为100-->
      <long name="queue-total-budget">-1</long><!--单个队列所允许的活动的开支，队列超出部分将被重试或者不再抓取，默认为-1，则表示没有这个限制 -->
      <string name="cost-policy">org.archive.crawler.frontier.ZeroCostAssignmentPolicy</string><!-- 用于计算每个URI成本，默认为UnitCostAssignmentPolicy则认为每个URI的成本为1-->
      <long name="snooze-deactivate-ms">300000</long><!--任何snooze延迟都会影响队列不活动，允许其他队列有机会进入活动状态，通常设置为比在成功获取时暂停时间长，比连接失败短，默认为5分钟 -->
      <integer name="target-ready-backlog">50</integer><!--准备积压队列的目标大小，这里多个队列将会进入准备状态即使线程不再等待.只有hold-queues为true才有效，默认为50 -->
      <string name="uri-included-structure">org.archive.crawler.util.BdbUriUniqFilter</string><!-- -->
      <boolean name="dump-pending-at-close">false</boolean><!-- -->
    </newObject>

这些配置属性在稍后的代码分析中可以看到是怎样使用的。

二. 接口定义

这里先解释一下主要的几个方法：

initialize ：调度器初始化入口

next ：由抓取线程调用该方法以获取待抓取uri

schedule ：由抓取线程调用该方法以将指定需要抓取的uri加入调度器

finished ：由抓取线程调用该方法以处理uri抓取结果

loadSeeds ：加载种子

start ：开始工作

三. 主要的成员变量分析(BdbFrontier)

1. protected transient UriUniqFilter alreadyIncluded

protected transient UriUniqFilter alreadyIncluded;
由WorkQueueFrontier定义：
protected abstract UriUniqFilter createAlreadyIncluded() throws IOException
BdbFrontier实现：

    /**
     * Create a UriUniqFilter that will serve as record 
     * of already seen URIs.
     *
     * @return A UURISet that will serve as a record of already seen URIs
     * @throws IOException
     */
    protected UriUniqFilter createAlreadyIncluded() throws IOException {
        UriUniqFilter uuf;
        String c = null;
        try {
            c = (String)getAttribute(null, ATTR_INCLUDED);
        } catch (AttributeNotFoundException e) {
            // Do default action if attribute not in order.
        }
        // TODO: avoid all this special-casing; enable some common
        // constructor interface usable for all alt implemenations
        if (c != null && c.equals(BloomUriUniqFilter.class.getName())) {
            uuf = this.controller.isCheckpointRecover()?
                    deserializeAlreadySeen(BloomUriUniqFilter.class,
                        this.controller.getCheckpointRecover().getDirectory()):
                    new BloomUriUniqFilter();
        } else if (c!=null && c.equals(MemFPMergeUriUniqFilter.class.getName())) {
            // TODO: add checkpointing for MemFPMergeUriUniqFilter
            uuf = new MemFPMergeUriUniqFilter();
        } else if (c!=null && c.equals(DiskFPMergeUriUniqFilter.class.getName())) {
            // TODO: add checkpointing for DiskFPMergeUriUniqFilter
            uuf = new DiskFPMergeUriUniqFilter(controller.getScratchDisk());
        } else {
            // Assume its BdbUriUniqFilter.
            uuf = this.controller.isCheckpointRecover()?
                deserializeAlreadySeen(BdbUriUniqFilter.class,
                    this.controller.getCheckpointRecover().getDirectory()):
                new BdbUriUniqFilter(this.controller.getBdbEnvironment());
            if (this.controller.isCheckpointRecover()) {
                // If recover, need to call reopen of the db.
                try {
                    ((BdbUriUniqFilter)uuf).
                        reopen(this.controller.getBdbEnvironment());
                } catch (DatabaseException e) {
                    throw new IOException(e.getMessage());
                }
            }   
        }
        uuf.setDestination(this);
        return uuf;
    }

默认使用BdbUriUniqFilter实例化

BdbUriUniqFilter使用bdb数据库进行url去重，key为url的指纹，比较简单，就不惜将了。

2. protected transient ObjectIdentityCache<String,WorkQueue> allQueues

该成员保持所有的workQueue，默认情况使用ObjectIdentityBdbCache实现，一个使用BDB持久化的大容量对象缓存实现，类似于Map，个人觉得这个类是比较经典的单节点对象缓存实现类，代码写的也比较有意思，其中使用了Java的四种引用。大家有兴趣可以自己看看。

该实例的key由public String getClassKey(CandidateURI cauri)方法生成，每个url对应着一个class key，一般有hostname，ip的hashcode等，具体由QueueAssignmentPolicy抽象类定义，如果想要实现自己的队列分配策略，可以继承该类实现。

    /**
     * @param cauri CrawlURI we're to get a key for.
     * @return a String token representing a queue
     */
    public String getClassKey(CandidateURI cauri) {
        String queueKey = (String)getUncheckedAttribute(cauri,
            ATTR_FORCE_QUEUE);
        if ("".equals(queueKey)) {
            // no forced override
            QueueAssignmentPolicy queueAssignmentPolicy = 
                getQueueAssignmentPolicy(cauri);
            queueKey =
                queueAssignmentPolicy.getClassKey(this.controller, cauri);
        }
        return queueKey;
    }
    protected QueueAssignmentPolicy getQueueAssignmentPolicy(CandidateURI cauri) {
        String clsName = (String)getUncheckedAttribute(cauri,
                ATTR_QUEUE_ASSIGNMENT_POLICY);
        try {
            return (QueueAssignmentPolicy) Class.forName(clsName).newInstance();
        } catch (Exception e) {
            throw new RuntimeException(e);
        }
    }
配置：
<string name="queue-assignment-policy">org.archive.crawler.frontier.HostnameQueueAssignmentPolicy</string><!--定义如何去分配URI到各个队列,这个类是相同的host的url就属于同一个队列 -->

3. protected BlockingQueue<String> readyClassQueues

存放队列的第一项准备好了等待分配出去的队列的class key，在toethread调用next()方法的时候，会尝试从该队列取出第一个class key，然后再到allQueues取出对应的WorkQueue，然后把WorkQueue的第一项CrawlURI返回给toethread进行抓取。

4. protected int targetSizeForReadyQueues;

Target (minimum) size to keep readyClassQueues

5. protected transient Semaphore readyFiller = new Semaphore(1)

单线程信号量，在next()方法尝试把不活跃的队列加入到readyClassQueues时用到

6. protected Queue<String> inactiveQueues

类似readyClassQueues，这里存放的是不活跃的工作队列的class key

7. protected Queue<String> retiredQueues

需要重试的工作队列的class key。

'retired' queues, no longer considered for activation

8. protected Bag inProcessQueues = BagUtils.synchronizedBag(new HashBag());

已经被分配了但是还未完成的工作队列的class key，可以看成一个HashSet

9. protected SortedSet<WorkQueue> snoozedClassQueues;

All per-class queues held in snoozed state, sorted by wake time，可以理解成处于休眠状态的工作队列，等待唤醒时间排序，即多久后唤醒某一队列

四. 主要方法及其流程分析

调度时序图：

schedule流程图：

next流程图

finished(CrawlURI curi) 流程图

参考：

http://guoyunsky.iteye.com/blog/613412

vue 判断mp3是否加载成功 xuelong-ming 前端 vue.js javascript 前端
一、需求vueMP3加载时，有可能遇到后端没有MP3，但是返回有链接。要求获取MP3失败提示用户，MP3获取失败。二、代码canPlayAudio(url){//判断录音是否加载constaudio=newAudio(url)returnnewPromise((resolve,reject)=>{audio.oncanplay=()=>{resolve(true)audio.remove()}au
java web 项目中封装的下拉列表小组件：实现下拉列表使用者前后端0行代码 ... weixin_34383618 java 前端后端 ViewUI
导读：主要从4个方面来阐述，1：背景；2：思路；3：代码实现；4：使用一：封装背景像easyui之类的纯前端组件，也有下拉列表组件，但是使用的时候，每个下拉列表，要配一个URL,以及设置URL反回来的值和select的text，和value的对应关系，这有2个问题：一使用者必须知道URL，二，如果页面有10个下拉表表，要请求后台10次，肯定影响性能，而我想要的是使用者只要申明用哪个数据字典就行了，
Linux常见的性能优化策略这多冒昧啊 linux 服务器运维
目录1.CPU性能优化：调整进程优先级2.内存优化：禁用透明大页3.磁盘I/O优化：切换I/O调度器4.网络优化：TCP缓冲区调优5.文件句柄优化：高并发API服务器策略总结：1.CPU性能优化：调整进程优先级场景描述：某跨境电商平台在“黑色星期五”大促期间，订单处理系统（Java服务）出现响应延迟。运维团队通过pidstat-u1发现名为log_aggregator的Python日志收集进程（P
如何全面了解一个系统 bigzhangbig 思想总结
如果一个系统包括了前台（面向C端用户），一个后台（面向B端用户），而且也有一些平台化的运营使用模块（比如ERP，CRM等），还有一些后台调度系统（JOB等）。那么这么全面的系统怎么能够了解全面呢？那就是去做与这些系统相关的需求，或者修改这些项目相关的bug，或者是跟（一步一步调试地跟踪）这些项目相关的代码。总之，要亲身经历，然后多问，多做，多使用（操作这些系统）。时间到了，你就懂了。不要以为靠听别
【一文读懂】浏览器跨域访问问题及其解决方案 Bl_a_ck 通讯协议网络协议信息与通信前端网络安全 http tcp/ip
简介浏览器的跨域访问问题（Cross-OriginResourceSharing，CORS）是指在一个网页中，来自不同协议、域名或端口的请求会被浏览器视为跨域请求。浏览器的同源策略（Same-OriginPolicy）出于安全性考虑，默认会阻止网页向不同源的资源发送请求。同源策略（Same-OriginPolicy）同源策略是指：如果两个URL的协议、域名和端口完全相同，它们就被认为是“同源”。浏
对于简单的HTML、CSS、JavaScript前端，我们可以通过几种方式连接后端昨今前端 html css
1.使用FetchAPI发送HTTP请求（最简单的方式）：//home.html//示例：提交表单数据到后端constsubmitForm=async(formData)=>{try{constresponse=awaitfetch('http://your-backend-url/api/submit',{method:'POST',headers:{'Content-Type':'applic
全面了解HTTP（一） qq_40055200 http
全面了解HTTP（二）-CSDN博客web及网络基础使用HTTP协议访问web：HTTP:网络基础TCP/IP与HTTP关系密切的协议：IP,TCP,DNS负责域名解析的DNS服务各种协议与HTTP协议的关系URI和URL简单的HTTP协议HTTP协议用于客户端和服务端之间的通信通过请求和响应的交换达成通信HTTP是不保存状态的协议请求URI的定位资源告知服务器意图的HTTP方法持久连接节省流量使
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【贪心】2024E-用户调度问题【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #贪心 java c++c语言 leetcode 华为od javascript python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例输入输出说明解题思路代码pythonjavacppCNodejavaScriptGo时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024E+D卷最全真题【完全原创题解|详细考点分类|不断更新
Etcd教程 — 第二章 Etcd集群静态发现_etcd 双节点集群 2401_87361150 etcd 数据库
监听用于和节点之间通信的url，可监听多个，集群内部将通过这些url进行数据交互(如选举，数据同步等)–initial-advertise-peer-urls建议用于和节点之间通信的url，节点间将以该值进行通信。–listen-client-urls监听的用于和客户端通信的url,同样可以监听多个。–advertise-client-urls建议使用的和客户端通信url,该值用于etcd代理或e
FFMpeg源码分析-io_open_default() 坚持不懈z ffmpeg
主要函数调用关系如下图所示/**s:传进去的AVFormatContext结构体pb：函数调用成功之后创建的AVIOContext结构体。url：输入输出协议的地址（文件也是一种“广义”的协议，对于文件来说就是文件的路径）。flags：打开地址的方式。可以选择只读，只写，或者读写。取值如下。AVIO_FLAG_READ：只读。AVIO_FLAG_WRITE：只写。AVIO_FLAG_READ_WR
ffmpeg源码分析：avio_open2() 风雨兼程8023 ffmpeg ffmpeg
目录一、ffurl_open_whitelist1.1ffurl_alloc()1.2ffurl_connect二、ffio_fdopen2.1avio_alloc_context()libavformat\Avio.h/***CreateandinitializeaAVIOContextforaccessingthe*resourceindicatedbyurl.*@noteWhentheres
vps搭建x-ui面板知道的越多越难受 linux ubuntu 运维
提升权限sudo-i输入密码，可能不显示，输入后回车更新及安装组件aptupdate-y#Debian/Ubuntu命令aptinstall-ycurl#Debian/Ubuntu命令aptinstall-ysocat#Debian/Ubuntu命令yumupdate-y#CentOS命令yuminstall-ycurl#CentOS命令yuminstall-ysocat#CentOS命令防火墙相
FFmpeg源码分析：avformat_open_input chaisy971124568 WebRTC 音视频 FFmpeg ffmpeg
一、函数功能介绍当前支持的媒体解封装协议在libavformat/demuxer_list.c文件的demuxer_list变量中定义当前支持的音视频采集格式在libavdevice/indev_list.c文件的indev_list变量中定义用户可以自行查看av_find_input_format函数的具体逻辑，得知最新版本的ffmpeg支持情况。注意：若进行音视频采集之前，则必须执行avdev
Springboot正常启动但打开页面遇到404错误 m0_74823827 领取Java全套学习资料 vip1024p spring boot 后端 java
开发基于SpringBoot的应用程序过程中，springboot正常启动但打开页面遇到404错误。原因分析与解决方案原因一：控制器未被Spring容器扫描到症状描述：启动应用时无明显错误提示，但尝试访问特定URL时收到404错误。原理：声明bean的四大注解，要想生效，还需要被组件扫描注解@ComponentScan扫描·@ComponentScan注解虽然没有显式配置，但是实际上已经包含在了启
【动态路由】系统Web URL资源整合系列（后端技术实现）【apisix实现】飞火流星02027 URL整合 apisix反向代理 apisix网关 apisix实现web资源整合系统URL资源整合 apisix基于请求参数的路由 apisix基于请求头的路由 APISIXDashboard
需求说明软件功能需求：反向代理功能（描述：apollo、eureka控、apisix、sentinel、普米、kibana、timetask、grafana、hbase、skywalking-ui、pinpoint、cmak界面、kafka-map、nacos、gateway、elasticsearch、oa-portal业务应用等多个web资源等只能通过有限个代理地址访问），不考虑SSO。软件质
kkfilwview私有化接入方式（k8s） qq_41369135 kubernetes 容器云原生
dev--环境//要预览文件的访问地址(灵活用工举例)varurl='http://xxx.cn/flex-employ-static-dev/enterprise/avatar/1858353535553372160/xxx.png';window.open('http://xxx.com/api/wiat-online-preview/onlinePreview?url='+encodeURI
转：javascript获取上一访问页面 dianai7709 javascript 移动开发 ViewUI
原文链接：移动端返回上一页，刚需！document.referrer详解全文如下：返回上一页，在PC端我们可以使用：history.go(-1)或者history.back()，可以正常返回第一层。这样，我们不需要上一页的url具体是什么，只要使用history一般都没啥问题。但是在移动端，如果想要返回上一页。比如从A页面跳到B页面，如果B页面想返回A页面，为了防止不会跳错，必须要有一个返回那如果
Python 爬虫验证码识别 acheding python python 爬虫 ocr
在我们进行爬虫的过程中，经常会碰到有些网站会时不时弹出来验证码识别。我们该如何解决呢？这里分享2种我尝试过的方法。0.验证码示例1.OpenCV+pytesseract使用Python中的OpenCV库进行图像预处理（边缘保留滤波、灰度化、二值化、形态学操作和逻辑运算），然后结合pytesseract进行文字识别。pytesseract需要配合安装在本地的tesseract-ocr.exe文件一起
Python爬取小说保存为Excel 不知所云975 python
本代码以实际案例介绍，爬取‘笔趣阁最新小说‘列表保存为表格文件。类封装以及网络爬虫以及openpyxl模块可以参考学习。#更新小说目录importrequestsfromlxmlimportetreeimportopenpyxlfromopenpyxl.stylesimportFont,Alignment,Side,Border,PatternFill#定义下载表格的类classDown_exce
python 爬取图片并保存到excel_python制作爬虫并将抓取结果保存到excel中 weixin_39778582 python 爬取图片并保存到excel
学习Python也有一段时间了，各种理论知识大体上也算略知一二了，今天就进入实战演练：通过Python来编写一个拉勾网薪资调查的小爬虫。第一步：分析网站的请求过程我们在查看拉勾网上的招聘信息的时候，搜索Python，或者是PHP等等的岗位信息，其实是向服务器发出相应请求，由服务器动态的响应请求，将我们所需要的内容通过浏览器解析，呈现在我们的面前。可以看到我们发出的请求当中，FormData中的kd
来看看爬虫合不合法度假的小鱼 Python基础爬虫搜索引擎 python
活动地址：CSDN21天学习挑战赛文章目录一、爬虫合不合法二、什么是爬虫三、爬虫的分类四、为什么学网络爬虫一、爬虫合不合法随着Python在最近几年的流行，Python中的爬虫也逐渐进入到大家的视野中，但是很多小伙伴，还是在担心爬虫的合法性。今天就来和大家一起讨论一下爬虫的合法性。大家可能在网上看到很多有关程序员写爬虫被抓这样的新闻只因写了一段爬虫，公司200多人被抓！爬虫的本身是合法的，但是如何
[008] [RT-Thread学习笔记] 求结构体首地址rt_list_entry函数与字节对齐RT_ALIGN宏柯西的彷徨 RT-Thread list 数据结构 rtos
RT-Thread学习笔记rt_list_entry函数源码分析应用示例RT_ALIGN宏源码分析应用示例RT-Thread版本：4.0.5MCU型号：STM32F103RCT6（ARMCortex-M3内核）1rt_list_entry函数rt_list_entry函数的作用是根据已知成员的地址，算出其结构体的首地址。函数定义如下（在rtservice.h中）：1.1源码分析#definert_
最新京东E卡滑块分析 2766958292 java go python 京东 E卡京东E卡京东滑块
声明:本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！逆向分析response=session.post(url,headers=headers,params=params)sid=response.json()['data']cp=execjs.compile(open('jd.j
《爬虫写得好，铁窗关到老，做了5年Python code高级开源 2024年程序员学习爬虫 python 开发语言
**我的使命与愿景：**持续稳定输出，赋能中国技术社区蓬勃发展！最近的IT公司违法案件越来越多，看了很多因为爬虫，数字货币，博彩网站外包等被抓的事情，给大家提个醒，打工注意不能违法，写代码背后也有法律风险。一、什么是爬虫？通过爬虫代码，下载互联网上的数据到本地，并且提取出我们需要的信息的过程。二、典型违法案例典型案例（一）：构成非法获取计算机信息系统数据罪张某等非法获取计算机信息系统数据案（上海市
python M3U8转换为MP4 会飞的鱼— python
importosimportasyncioimportrandomimportshutilimportaiohttpimportffmpegfromconcurrent.futuresimportThreadPoolExecutor#M3U8文件的URL#m3u8_url='********************.m3u8'#临时存储TS文件的文件夹ts_folder='ts_files'os.
腾讯云通过API怎样调用deepseek ZhangJiQun&MXP 2024大模型以及算力教学智能合约语言模型人工智能自然语言处理深度学习
腾讯云通过API怎样调用deepseek目录腾讯云通过API怎样调用deepseekhtml方式curl方式重点说明：不需要SK，仅仅使用ip和端口号html方式<metacharset=
社交媒体文章内容与评论抓取：Python 爬虫实战教程 Python爬虫项目 2025年爬虫实战项目媒体 python 爬虫
社交媒体平台是全球信息交流的重要渠道，成千上万的文章、评论和动态每天都在各大平台上发布。这些数据包含了丰富的用户行为、意见和情感分析的潜力，因此抓取社交媒体平台上的文章内容与评论已成为数据分析、市场研究和情感分析等领域的重要任务。本篇教程将为大家详细介绍如何使用Python编写爬虫，抓取社交媒体平台（如微博、Twitter、Facebook等）的文章内容和评论。我们将涵盖如何使用现代爬虫技术，包括
关于tomcat升级9.0后URL访问报404的解决办法不甘于平凡的溃败 tomcat
目录1前言32出现问题33解决办法及思路44总结5前言在现场环境使用tomat7.0，用户反馈版本较低，存在一定的安全隐患，故升级到tomcat9.0。2出现问题
快手，得物，蓝月亮，蓝禾，奇安信，三七互娱，顺丰，康冠科技，金证科技24春招内推 weixin_53585422 春招 24春招内推 c++动画 java python r语言 c语言算法
快手，得物，蓝月亮，蓝禾，奇安信，三七互娱，顺丰，康冠科技，金证科技24春招内推①得物【岗位】技术，设计，供应链，风控，产品，运营，商品研究等【内推码】:RTHEA59【一键内推】:https://poizon.jobs.feishu.cn/s/iFk9mrY5②蓝月亮【招聘岗位】技术，研发，lT，供应链，市场，职能等【网申链接】https://sourl.cn/NsVxG6【内推码】在网申页面“
HTML5(十二)——一文读懂 WebSocket 原理 m0_70646989 Web前端经验分享前端前端框架
二、WebSocket通信过程================WebSocket协议可分为两部分：握手阶段和数据通信阶段。WebSocket为应用层协议，定义在TCP/IP协议栈之上，连接服务器的url是以ws或wss开头的。ws开头的默认TCP端口为80，wss开头的默认端口为443。ws（websocket）是不安全的，容易被窃听，只要别人知道你的ip和端口号，任何人都可以去连接通讯。wss（
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出