forlong401

oschina openapi 应用：博客搬家

http://my.oschina.net/oscfox/blog/194507

本文介绍基于osc openapi 以及 webmagic爬虫开发的oschina博客搬家应用。本应用作为oschina openAPI的一个实用demo，向各位OSCer 展示OSC openAPI 如何使用，以及可以实现什么功能。

oschina openapi 博客搬家 webmagic git

一、功能说明：本程序支持将csdn ，cnblogs, 51cto, iteye个人博客列表下载所有博文，选择导入到该用户的oschina博客。

二、使用说明：

1.进入博客搬家页面：http://move.oschina.net

2.点击左上角使用oschina账号登陆，

3.输入csdn或cnblogs或51cto或iteye个人博客列表url或者某篇博客url，

4.点击抓取，

5.点击导入。

三、如何实现：

本程序不用数据库，只用一个Map存储用户爬取的博客信息。爬虫用git.oschina上的开源垂直爬虫：webmagic 感谢黄亿华。登陆用oschina的openAPI认证功能。

1.存储

博客链接：

 
      ? 
     
           /** 
          
           * 爬虫获取的博客列表 
          
           * @author oscfox 
          
           * 
          
           */ 
          
           public  
           class  
           LinksList { 
          
           //用户名，对应一个用户列表，如果用户为新用户则put新的列表 
          
           private  
           static  
           Map> linkMap =  
           new  
           ConcurrentHashMap >(); 
          
           public  
           static  
           void  
           addLinks(String user, List links) { 
          
           ConcurrentHashMap linkList; 
          
           if 
           (linkMap.containsKey(user)){ 
          
           linkList= linkMap.get(user); 
          
           }  
           else 
           { 
          
           linkList =  
           new  
           ConcurrentHashMap(); 
          
           } 
          
           //put links 去重复 
          
           for 
           ( 
           int  
           i= 
           0 
           ; i 
          
           String key = links.get(i).getLink(); 
          
           if 
           (linkList.containsKey(key)){   
           //重复，不提交 
          
           continue 
           ; 
          
           } 
          
           linkList.put(key, links.get(i)); 
          
           } 
          
           linkMap.put(user, linkList); 
          
           } 
          
           public  
           static  
           void  
           clearLinkList(String user) { 
          
           linkMap.remove(user); 
          
           } 
          
           public  
           static  
           List getLinkList(String user) { 
          
           ConcurrentHashMap hash; 
          
           if 
           (linkMap.containsKey(user)){ 
          
           hash = linkMap.get(user); 
          
           return  
           new  
           ArrayList(hash.values());   
           //hash to list 
          
           } 
          
           return  
           null 
           ; 
          
           } 
          
           }

博客列表：

 
      ? 
     
           /** 
          
           * 爬虫获取的博客列表 
          
           * @author oscfox 
          
           * 
          
           */ 
          
           public  
           class  
           BlogList { 
          
           //用户名，对应一个用户列表，如果用户为新用户则put新的列表 
          
           private  
           static  
           Map blogMap =  
           new  
           ConcurrentHashMap (); 
          
           public  
           static  
           void  
           addBlog(Blog blog) { 
          
           if 
           (blogMap.containsKey(blog.getLink())){ 
          
           //已存在博客，有异常，没处理 
          
           blogMap.put(blog.getLink(), blog); 
          
           }  
           else 
           { 
          
           blogMap.put(blog.getLink(), blog); 
          
           } 
          
           } 
          
           public  
           static  
           Blog getBlog(String link) { 
          
           if 
           (blogMap.containsKey(link)){ 
          
           return  
           blogMap.remove(link); 
          
           } 
          
           return  
           null 
           ; 
          
           } 
          
           }

2.爬虫

webmagic用起来很方便,我只继承了pageProcessor 接口作为不同博客的抓取逻辑以及Pipeline接口作抓取后续处理。然后以下一行代码就可以开始抓取

 
           Spider.create(pageProcessor).addUrl(url).addPipeline( 
           new  
           BlogPipeline(user)).run();

继承的pageProcessor主要是重写process 方法，根据不同博客网站标签逻辑抓取内容。然后对博客里有代码的部分（主要是pre标签里的）转换为osc博客的代码类型。方法很简单，只是简单替换一下标签属性而已。

 
           /** 
          
           * 博客爬虫逻辑 
          
           * @author oscfox 
          
           * @date 20140120 
          
           */ 
          
           public  
           class  
           BlogPageProcessor  
           implements  
           PageProcessor{ 
          
           protected  
           Site site =  
           new  
           Site(); 
          
           protected  
           String url; 
          
           protected  
           String blogFlag;             
           //博客url的内容标志域 
          
           protected  
           String name;                 
           //博客原url 的名字域 
          
           protected  
           List codeBeginRex =  
           new  
           ArrayList();         
           //代码过滤正则表达式 
          
           protected  
           List codeEndRex =  
           new  
           ArrayList();       
           //代码过滤正则表达式 
          
           protected  
           String linksRex;             
           //链接列表过滤表达式 
          
           protected  
           String titlesRex;            
           //title列表过滤表达式 
          
           protected  
           String PagelinksRex;         
           //类别页列表过滤表达式 
          
           protected  
           String contentRex;       
           //内容过滤表达式 
          
           protected  
           String titleRex;             
           //title过滤表达式 
          
           protected  
           String tagsRex;          
           //tags过滤表达式 
          
           protected  
           Hashtable hashtable;  
           //代码class映射关系 
          
           /** 
          
           * 抓取博客内容等，并将博客内容中有代码的部分转换为oschina博客代码格式 
          
           */ 
          
           @Override 
          
           public  
           void  
           process(Page page) { 
          
           if 
           (url.contains(blogFlag)){ 
          
           getPage(page); 
          
           page.putField( 
           "getlinks" 
           ,  
           false 
           ); 
          
           }  
           else  
           { 
          
           getLinks(page); 
          
           page.putField( 
           "getlinks" 
           ,  
           true 
           ); 
          
           } 
          
           } 
          
           /** 
          
           * 抓取链接列表 
          
           * @param page 
          
           */ 
          
           private  
           void  
           getLinks(Page page) { 
          
           List links = page.getHtml().xpath(linksRex).all(); 
          
           List titles = page.getHtml().xpath(titlesRex).all(); 
          
           page.putField( 
           "titles" 
           , titles); 
          
           page.putField( 
           "links" 
           , links); 
          
           List Pagelinks = page.getHtml().links().regex(PagelinksRex).all(); 
          
           page.addTargetRequests(Pagelinks); 
          
           } 
          
           /** 
          
           * 抓取博客内容 
          
           * @param page 
          
           */ 
          
           private  
           void  
           getPage(Page page){ 
          
           String title = page.getHtml().xpath(titleRex).toString(); 
          
           String content = page.getHtml().$(contentRex).toString(); 
          
           String tags = page.getHtml().xpath(tagsRex).all().toString(); 
          
           if 
           (StringUtils.isBlank(content) || StringUtils.isBlank(title)){ 
          
           return 
           ; 
          
           } 
          
           if 
           (!StringUtils.isBlank(tags)){ 
          
           tags = tags.substring(tags.indexOf( 
           "[" 
           )+ 
           1 
           ,tags.indexOf( 
           "]" 
           )); 
          
           } 
          
           OscBlogReplacer oscReplacer=  
           new  
           OscBlogReplacer(hashtable);  
           //设置工具类映射关系 
          
           String oscContent = oscReplacer.replace(codeBeginRex, codeEndRex, content);         
           //处理代码格式 
          
           page.putField( 
           "content" 
           , oscContent); 
          
           page.putField( 
           "title" 
           , title); 
          
           page.putField( 
           "tags" 
           , tags); 
          
           }

例如csdn博客抓取只需要继承BlogPageProcessor

 
      ? 
     
           /** 
          
           * csdn博客爬虫逻辑 
          
           * @author oscfox 
          
           * @date 20140114 
          
           */ 
          
           public  
           class  
           CsdnBlogPageProcesser  
           extends  
           BlogPageProcessor{ 
          
           public  
           CsdnBlogPageProcesser(String url) { 
          
           site = Site.me().setDomain( 
           "blog.csdn.net" 
           ); 
          
           site.setSleepTime( 
           1 
           ); 
          
           blogFlag= 
           "/article/details/" 
           ;                                                                    
           //博客原url 的名字域 
          
           codeBeginRex.add( 
           "" 
           );                                               
           //代码过滤正则表达式 
          
           // 
          
           codeBeginRex.add( 
           ""  
           ); 
          
           codeEndRex.add( 
           "" 
           );         
           // 
          
           linksRex= 
           "//div[@class='list_item article_item']/div[@class='article_title']/h3/span/a/@href" 
           ; //链接列表过滤表达式 
          
           titlesRex= 
           "//div[@class='list_item article_item']/div[@class='article_title']/h3/span/a/text()" 
           ;//title列表过滤表达式 
          
           contentRex= 
           "div.article_content" 
           ;                                                                
           //内容过滤表达式 
          
           titleRex= 
           "//div[@class='details']/div[@class='article_title']/h3/span/a/text()" 
           ;                //title过滤表达式 
          
           tagsRex= 
           "//div[@class='tag2box']/a/text()" 
           ;                                                     //tags过滤表达式 
          
           this 
           .url=url; 
          
           if 
           (!url.contains(blogFlag)){ 
          
           name = url.split( 
           "/" 
           )[url.split( 
           "/" 
           ).length -  
           1 
           ]; 
          
           } 
          
           //http://blog.csdn.net/cxhzqhzq/article/list/2 
          
           PagelinksRex= 
           "http://blog\\.csdn\\.net/" 
           +name+ 
           "/article/list/\\d+" 
           ;                             //类别页列表过滤表达式 
          
           initMap();       
          
           } 
          
           @Override 
          
           public  
           void  
           process(Page page) { 
          
           super 
           .process(page); 
          
           } 
          
           @Override 
          
           public  
           Site getSite() { 
          
           return  
           super 
           .getSite(); 
          
           } 
          
           /** 
          
           * 初始化映射关系，只初始化代码类型同样而class属性不一样的。 
          
           * 分别为:csdn， osc 
          
           */ 
          
           private  
           void  
           initMap() { 
          
           hashtable =  
           new  
           Hashtable();     
           //代码class映射关系 
          
           hashtable.put( 
           "csharp" 
           ,  
           "c#" 
           ); 
          
           hashtable.put( 
           "javascript" 
           ,  
           "js" 
           ); 
          
           hashtable.put( 
           "objc" 
           ,  
           "cpp" 
           ); 
          
           }

Pipeline只是简单的生成blog bean 然后增加至blogList

 
           /** 
          
           * 成功blog并保存至BlogList 
          
           * @author oscfox 
          
           * @date  
          
           */ 
          
           public  
           class  
           BlogPipeline  
           implements  
           Pipeline{ 
          
           private  
           Map fields =  
           new  
           HashMap(); 
          
           private  
           String user; 
          
           public  
           BlogPipeline(String user){ 
          
           this 
           .user = user; 
          
           } 
          
           @SuppressWarnings 
           ( 
           "unchecked" 
           ) 
          
           @Override 
          
           public  
           void  
           process(ResultItems resultItems, Task task) { 
          
           fields = resultItems.getAll(); 
          
           if 
           (( 
           boolean 
           )fields.get( 
           "getlinks" 
           )){ 
          
           List titles = (ArrayList)fields.get( 
           "titles" 
           ); 
          
           List links = (ArrayList)fields.get( 
           "links" 
           ); 
          
           if 
           ( 
           null  
           == titles ||  
           null  
           == links){ 
          
           return 
           ; 
          
           } 
          
           List linklist =  
           new  
           ArrayList(); 
          
           for 
           ( 
           int  
           i= 
           0 
           ; i 
          
           BlogLink blogLink =  
           new  
           BlogLink(); 
          
           blogLink.setTitle(titles.get(i)); 
          
           blogLink.setLink(links.get(i)); 
          
           linklist.add(blogLink); 
          
           } 
          
           LinksList.addLinks(user, linklist); 
          
           }  
           else 
           { 
          
           Blog oscBlog =  
           null 
           ; 
          
           try  
           { 
          
           oscBlog =  
           new  
           Blog(fields); 
          
           oscBlog.setLink(resultItems.getRequest().getUrl()); 
          
           }  
           catch  
           (Exception e) { 
          
           //e.printStackTrace(); 
          
           return  
           ; 
          
           } 
          
           BlogList.addBlog(oscBlog); 
          
           List links= 
           new  
           ArrayList(); 
          
           BlogLink blogLink =  
           new  
           BlogLink(); 
          
           blogLink.setLink(oscBlog.getLink()); 
          
           blogLink.setTitle(oscBlog.getTitle()); 
          
           links.add(blogLink); 
          
           LinksList.addLinks(user, links); 
          
           } 
          
           } 
          
           }

所以如果需要抓取更多的博客网站，只需要继承pageProcessor重写process方法就行了。当然，spider选择哪个pageProcessor还得判断一下。

 
           /** 
          
           * //根据url选择博客类型 
          
           * @param url 
          
           * @return 
          
           */ 
          
           public  
           static  
           PageProcessor getBlogSitePageProcessor(String url){

你可能感兴趣的:(Java)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本