Arxiv论文下载

项目场景:

提示:这里简述项目相关背景:

Arxiv论文下载困难、速度慢


问题描述

提示:这里描述项目中遇到的问题:

不知道最近什么原因,Arxiv上论文pdf下载不仅慢,而且很多情况下直接打不开


解决方案:

提示:这里填写该问题的具体解决方案:

  1. 插件法:

(1)chrome 插件 tampermonkey(油猴插件) 是一款功能强大的脚本插件,可以通过脚本对浏览器上网页进行修改编辑等,更多介绍可以参考 https://zhuanlan.zhihu.com/p/28869740
因此,这里我们使用该插件对网页中的arxiv 链接进行重定向到 cn.arxiv.org

(2)安装chrome 浏览器。推荐使用google chrome官方下载地址 ;如果无法访问,使用百度下载也可以。安装tempermonkey插件,推荐使用 chrome webstore 官方网址;如果无法下载,在 crx4chrome 网站搜索并下载也可以,这里给出crx4chrome网站上tampermonkey插件的下载链接。添加 arxiv 重定向脚本。
代码需要全部复制粘贴,部分看似注释的代码也有用处,代码如下

// ==UserScript==
// @name        Redirect arxiv.org to CN.arxiv.org/pdf
// @namespace   uso2usom
// @description On any web page it will check if the clicked links goes to arxiv.org. If so, the link will be rewritten to point to cn.arxiv.org
// @include     http://*.*
// @include     https://*.*
// @version     1.2
// @grant       none
// ==/UserScript==

// This is a slightly brute force solution, but there is no other way to do it using only a userscript.

// Release Notes

// version 1.2
// Focus on pdf link only!
// Add '.pdf' link  automatically. Convenient for saving as pdf.

// version 1.1
// Redirect arxiv.org to CN.arxiv.org

document.body.addEventListener('mousedown', function(e){
    var targ = e.target || e.srcElement;
    if ( targ && targ.href && targ.href.match(/https?:\/\/arxiv.org\/pdf/) ) {
        targ.href = targ.href.replace(/https?:\/\/arxiv\.org/, 'http://cn.arxiv.org');
    }
    if ( targ && targ.href && targ.href.match(/http?:\/\/arxiv.org\/pdf/) ) {
        targ.href = targ.href.replace(/http?:\/\/arxiv\.org/, 'http://cn.arxiv.org');
    }
    if ( targ && targ.href && targ.href.match(/https?:\/\/arxiv.org\/abs/) ) {
        targ.href = targ.href.replace(/https?:\/\/arxiv\.org\/abs/, 'http://cn.arxiv.org/pdf');
    }
    if ( targ && targ.href && targ.href.match(/http?:\/\/arxiv.org\/abs/) ) {
        targ.href = targ.href.replace(/http?:\/\/arxiv\.org\/abs/, 'http://cn.arxiv.org/pdf');
    }
    if (targ && targ.href && targ.href.match(/http?:\/\/cn.arxiv.org\/pdf/) && !targ.href.match(/\.pdf/) )
    {
       targ.href = targ.href + '.pdf';
    }
});

(3)测试配置是否成功,下面是arxiv上的一篇文章作为示例,点击看网址前面是否已经加上“cn.”前缀,点击pdf测试速度。该文章共57页,之后可以手动去掉“cn.”前缀对比速度。
NIPS 2016 Tutorial: Generative Adversarial Networks
说明
(4)由于 http://cn.arxiv.org 并不是主站点,是 arxiv 在中国区的镜像,因此更新有大约半天的延迟,对于当天提交的文章,可能更新不及时。对于当天文章可以手动删除“cn.”前缀解决。
如果出现 pdf 正在自动从源文件生成等提示,为正常现象,稍后即可获取pdf论文。

转载自:作者:德谟赛斯 链接:https://www.jianshu.com/p/184799230f20

  1. 地址修改法

(1)如果要打开某篇论文的下载网页,例如:
https://arxiv.org/abs/2004.01888 把前面的https://arxiv.org/abs/ 替换为http://xxx.itp.ac.cn/abs/ 即可秒开网页。
(2)如果要直接下载某篇论文,例如
https://arxiv.org/pdf/2004.01888v4.pdf把前面的https://arxiv.org/pdf/替换为http://xxx.itp.ac.cn/pdf/即可秒下载

原文链接:https://blog.csdn.net/weixin_42065945/article/details/106599360

  1. Colab法

最近需要频繁地从Arxiv上下载一些文章,但是即便挂了国外结点,速度实在是无语。之前有些方法倒是可以大大提高论文的下载速度,比如把Arxiv访问的文章地址的前缀替换为中科院的镜像:http://xxx.itp.ac.cn/。这个方法虽然好用,但是很多最新的文章在镜像站上面是没有的,所以只能去主站上面下载。无奈,各种尝试,终于找到了一个相对较快且稳定的方法。(前提:能访问 Google Driver)

转载自:彻底解决Arxiv论文下载速度问题 - 180天后再改名的文章 - 知乎 https://zhuanlan.zhihu.com/p/522075300

Colab需要具有写入谷歌云盘的权限才能保存文件(注意)
如果该处有问题,可以改成本地运行,与Jupyter Notebook连接。

附图:
Arxiv论文下载_第1张图片

你可能感兴趣的:(学习小结,人工智能,机器学习,经验分享)