MikeCheers

《C# 爬虫破境之道》：第二境爬虫应用 — 第四节：小说网站采集

之前的章节，我们陆续的介绍了使用C#制作爬虫的基础知识，而且现在也应该比较了解如何制作一只简单的Web爬虫了。

本节，我们来做一个完整的爬虫系统，将之前的零散的东西串联起来，可以作为一个爬虫项目运作流程的初探，但实际项目中，还需要解决其他一些问题，我们后续章节也将继续深耕：）

先来看一下解决方案的整体结构：

我们也希望我们的爬虫框架能够被应用到跨平台的项目中，所以，本项目采用了.Net Core Framework作为基础。

根据上图所示，项目结构还是很简单的。爬虫框架部分，与之前章节的内容并没有太大变动。本节主要是看一下在应用中，如何将一只小蚂蚁扩展到一群小蚂蚁。

本示例项目以采集某在线小说网站为例，特此对该小说网站说一声：如有得罪，敬请谅解、如有引流，敬请打赏：P

好了，步入正体，现来看看应用程序的入口（MikeWare.Crawler.EBooks）项目，是如何做的吧。

 1 namespace MikeWare.Crawlers.EBooks
 2 {
 3     using MikeWare.Crawlers.EBooks.Bizs;
 4     using MikeWare.Crawlers.EBooks.Entities;
 5     using System;
 6 
 7     class Program
 8     {
 9         static void Main(string[] args)
10         {
11             var lastUpdateTime = DateTime.MinValue;
12 
13             BooksList.Start(1, lastUpdateTime);
14 
15             Console.Read();
16         }
17     }
18 }

入口项目-Program类

这个项目很简单，就是用了项目初始的Program类，在Main方法中，构造了一个DateTime lastUpdateTime变量，然后就开始采集任务了。

关于lastUpdateTime变量，我们可以这么理解，就是在采集过程中，我们可能需要一遍又一遍的对数据源进行采集，以获取更新数据。在实际情境中，可能数据源的更新，并不是所有数据都在发生变化的，比如我们本例中的小说，小说的作者昨天写了一些章节，那么这些章节，在今天甚至这辈子都不会再发生变化了，所以，我们也没有必要每一次采集都将所有小说的章节都采集一遍，也就是我们只对有更新的小说感兴趣，那么如何区分新的数据与老的数据，这个要看数据源为我们提供了什么样的特征，从中寻找到一个或多个合适的特征来作为我们的标志位，本例呢，就是采用了小说的更新时间，这就是lastUpdateTime的由来，可以根据具体的情况，来自定义符合实际情况的标记位来达到采集增量的目的。

那么对于首次采集来讲，我们可能希望是将整个站点的所有小说都采集一遍，那么，这个时候，lastUpdateTime的初始值，就可以设定DateTime.MinValue，这样，即使再古老的小说，它的更新时间也不会早于这个标记位了，也就达到了采集全部小说的目的；那么对于再次采集，我们可以先统计上一次采集结果中，最近的更新时间，作为本次采集的lastUpdateTime。所以对于无论是首次采集还是再次采集来讲，逻辑可以合并为“获取上一次采集的最近更新时间”，而这个逻辑内部去判断，如果之前有采集记录，就返回最近的更新时间，如果没有，就返回DateTime.MinValue，这样就都统一起来了。

同时，本项目其实只是提供了一个采集任务的启动的触发点。我尽量将它作得很轻，这样可以方便移植，或许一个WinForm项目中的Button_Click事件或者一个WebApplication项目的Page_Load事件才是它的入口点，Anyway，Main方法中的内容，拷贝过去就好：）View部分暂不多说了。

接下来，我们简单介绍一下（MikeWare.Crawlers.EBooks.Entities）项目

 1 namespace MikeWare.Crawlers.EBooks.Entities
 2 {
 3     using System;
 4     using System.Collections.Generic;
 5 
 6     public class Book
 7     {
 8         public int Id { get; set; }
 9         public string Name { get; set; }
10         public string PhotoUrl { get; set; }
11         public Dictionary<int, string> Sections { get; set; }
12         public Dictionary<int, string> SectionContents { get; set; }
13 
14         public string Author { get; set; }
15         public DateTime LastUpdateTime { get; set; }
16     }
17 }

实体类 - Book

这个项目也很简单，只提供了一个类（Book），这个类中，定义了一本书的ID、名字、封面图片的URL、作者、最近更新时间、章节内容等属性。用来描述一本书的基本特征。不过，我并没有采集一本书的评论及评分内容，一、数据源没有提供评论数据；二、我更希望实现我自己的评分评价系统，而不依赖于数据源的评分；这里只是想说明，实体的定义，是为了业务服务的，可以根据需要，去自定义；当然，如果希望数据完整，我们应该把评分等数据都采集过来做持久化，万一以后哪天又突然想用这部分数据了呢，再去重新采集一遍？呵呵……拍脑袋的事情总是防不胜防。

好了，接下来，开始介绍（MikeWare.Crawlers.EBooks.Bizs）项目

  1 namespace MikeWare.Crawlers.EBooks.Bizs
  2 {
  3     using MikeWare.Core.Components.CrawlerFramework;
  4     using System;
  5     using System.Net;
  6     using System.Text;
  7     using System.Text.RegularExpressions;
  8     using System.Threading;
  9     using System.Threading.Tasks;
 10 
 11     public class BooksList
 12     {
 13         private static Encoding encoding = new UTF8Encoding(false);
 14         private static int total_page = -1;
 15         private static Regex regex_list = new Regex(@"[^<]+\d+?-\d+?-\d+?)[^\d].+?\d+?)\.html.+?", RegexOptions.Singleline);
 16         private static Regex regex_page = new Regex(@".+?尾页.+?", RegexOptions.Singleline);
 17 
 18         public static void Start(int pageIndex, DateTime lastUpdateTime)
 19         {
 20             new WorkerAnt()
 21             {
 22                 AntId = (uint)Math.Abs(DateTime.Now.ToString("yyyyMMddHHmmssfff").GetHashCode()),
 23                 OnJobStatusChanged = (sender, args) =>
 24                 {
 25                     Console.WriteLine($"{args.EventAnt.AntId} said: {args.Context.JobName} entered status '{args.Context.JobStatus}'.");
 26                     switch (args.Context.JobStatus)
 27                     {
 28                         case TaskStatus.Created:
 29                             if (string.IsNullOrEmpty(args.Context.JobName))
 30                             {
 31                                 Console.WriteLine($"Can not execute a job with no name.");
 32                                 args.Cancel = true;
 33                             }
 34                             else
 35                                 Console.WriteLine($"{args.EventAnt.AntId} said: job {args.Context.JobName} created.");
 36                             break;
 37                         case TaskStatus.Running:
 38                             if (null != args.Context.Memory)
 39                                 Console.WriteLine($"{args.EventAnt.AntId} said: {args.Context.JobName} already downloaded {args.Context.Memory.Length} bytes.");
 40                             break;
 41                         case TaskStatus.RanToCompletion:
 42                             if (null != args.Context.Buffer && 0 < args.Context.Buffer.Length)
 43                                 Analize(args.Context.Buffer, pageIndex, lastUpdateTime);
 44                             if (null != args.Context.Watch)
 45                                 Console.WriteLine("/* ********************** using {0}ms / request  ******************** */"
 46                                     + Environment.NewLine + Environment.NewLine, (args.Context.Watch.Elapsed.TotalMilliseconds / 100).ToString("000.00"));
 47                             break;
 48                         case TaskStatus.Faulted:
 49                             Console.WriteLine($"{args.EventAnt.AntId} said: job {args.Context.JobName} faulted because {args.Message}.");
 50                             break;
 51                         case TaskStatus.WaitingToRun:
 52                         case TaskStatus.WaitingForChildrenToComplete:
 53                         case TaskStatus.Canceled:
 54                         case TaskStatus.WaitingForActivation:
 55                         default:/* Do nothing on this even. */
 56                             break;
 57                     }
 58                 },
 59             }.Work(new JobContext
 60             {
 61                 JobName = "奇书网-最新电子书-列表",
 62                 Uri = $"http://www.xqishuta.com/s/new/index_{pageIndex}.html",
 63                 Method = WebRequestMethods.Http.Get,
 64             });
 65         }
 66 
 67         private static void Analize(byte[] data, int pageIndex, DateTime lastUpdateTime)
 68         {
 69             if (null == data || 0 == data.Length)
 70                 return;
 71 
 72             var context = encoding.GetString(data);
 73             var matches = regex_list.Matches(context);
 74             if (null != matches && 0 < matches.Count)
 75             {
 76                 var update_time = DateTime.MinValue;
 77                 var id = 0;
 78                 foreach (Match match in matches)
 79                 {
 80                     if (!DateTime.TryParse(match.Groups["updateTime"].Value, out update_time)
 81                         || !int.TryParse(match.Groups["id"].Value, out id)) continue;
 82 
 83                     if (update_time > lastUpdateTime)
 84                     {
 85                         Thread.Sleep(5);
 86                         BookSectionsList.Start(id);
 87                     }
 88                     else
 89                         return;
 90                 }
 91             }
 92 
 93             if (-1 == total_page)
 94             {
 95                 var match = regex_page.Match(context);
 96                 if (null != match && match.Success && int.TryParse(match.Groups["totalPage"].Value, out total_page)) ;
 97 
 98             }
 99 
100             if (pageIndex < total_page)
101             {
102                 Thread.Sleep(5);
103                 pageIndex++;
104                 Start(pageIndex, lastUpdateTime);
105             }
106         }
107     }
108 }

最新更新小说列表页采集及处理类 - BooksList

这个逻辑处理类，实际上是整个采集任务的入口点，提供了几个私有变量和两个方法，我们挨个介绍一下：

// 提供了页面解析的编码设定；
private static Encoding encoding = new UTF8Encoding(false);

// 这个页面是一个可以翻页的列表页面，所以，我们有必要知道这个列表，一共有多少页；
private static int total_page = -1;

// 一个正则表达式，获取列表的每一项的数据；
private static Regex regex_list = new Regex(@"……");

// 一个正则表达式，获取翻页中最后一页的页码的数据；
private static Regex regex_page = new Regex(@"……");

这些变量被定义为私有静态变量，首先的考虑是当这个处理类被重复调用时，尽量避免不必要的内存分配。当然，像encoding这样的变量，可能整个站点都是统一的，没有必要在每个处理类中都单独声明一个，这里只是为了能够使每一个类尽量完整，免得大家在阅读的时候还要跳转到别的类去查看encoding的定义；

关于正则表达式，这里不做过多说明，不是本书的重点；

接下来，是本类中的Start方法，这个方法需要两个参数，一个是前面说过的lastUpdateTime，另一个就是Url中需要的页码：pageIndex；这个方法在View层被触发，开始启动了整个采集任务，View层传递过来的pageIndex为1；

case TaskStatus.RanToCompletion:
    if (null != args.Context.Buffer && 0 < args.Context.Buffer.Length)
        Analize(args.Context.Buffer, pageIndex, lastUpdateTime);
    if (null != args.Context.Watch)
        Console.WriteLine("/* ********************** using {0}ms / request  ******************** */"
            + Environment.NewLine + Environment.NewLine, (args.Context.Watch.Elapsed.TotalMilliseconds / 100).ToString("000.00"));
    break;

上面代码段指示了，当任务完成时，调用了Analize(xxx,yyy,zzz)方法。

接下来，本类的另一个方法（Analize），它的声明如下：

private static void Analize(byte[] data, int pageIndex, DateTime lastUpdateTime)

这里需要说明的是第一个参数data，它是一个字节数组，我们为什么没有在采集完成时，直接将数据转化为文本然后传递给Analize方法？这里，我们需要分开两部分来看待，Start方法，我们可以看作是一个采集器，而Analize方法可以看作是一个分析器，采集器呢，本身不知道也不需要知道它采集的是个什么东西，它只管采集，数据尽管交给分析器去处理，这样任务单一；分析器呢，是针对某一个任务而定制的，比如这个列表页，我们的分析工作，就是针对列表页的特性进行分析，数据怎么抽取，流程怎么流转，这，可以说都是预知的，隐含的条件，就是它要分析的内容是文本，也是提前就已知的；那么，我们切换到另一个场景，如果我们采集的是一个图片或者压缩包文件，采集器硬要把它转换为文本，这种做法是错误的，而分析器，它是已经知道了它的目的，在分析处理的过程中，它的逻辑就是如何处理这样的文件，所以接收一个字节数组来做后续的处理，也是没有问题的。

这也是为什么要拆分为Start和Analize两个方法，两个方法合并到一起，都写在Start里行不行呢，肯定行啊，可是行是行，但是不好。因为我在这里，只是提出了采集器和分析器的概念，当面向更为复杂的业务时，还会有诸如存储器、调度器等等实际需要的组件。那么，都写在Start里？显然，不是一个很好的决策。

好了，我们继续来分析Analize方法的内部实现，逻辑也不算复杂，主要有两个分支：

当我们获取到小说列表了以后，就遍历列表，如果这部小说的最近更新时间符合我们的lastUpdateTime限制，则得到这部小说的Id，并调用BookSectionsList.Start(id)，继而进行下一步的采集，否则，就返回了，不再继续采集后续小说及列表页面；
当列表页的页码仍小于总页码的时候，递增pageIndex，调用Start方法，进行翻页采集；

这就是BookList类的工作了，基本完成。

另外的两个类，工作原理与BookList的一致，由采集器与分析器组成：

BookSectionsList：采集一部小说的章节列表；
BookSection：采集具体到某一章节的内容；

OK，这样，我们就完成了一个简单的爬虫应用，预览一下效果总是迫不及待的。

声明：本示例仅做为示例项目发布，并不赞成直接使用。

另：本示例还是有许多不足之处，比如，运行1分钟之后，会出现很多错误，比如，超时、目标主机积极拒绝、没有做异常处理等；这里就涉及到了爬虫框架的后续内容：反爬策略及应对，敬请期待后续章节；

喜欢本系列丛书的朋友,可以点击链接加入QQ交流群(994761602)【C# 破境之道】
方便各位在有疑问的时候可以及时给我个反馈。同时，也算是给各位志同道合的朋友提供一个交流的平台。
需要源码的童鞋，也可以在群文件中获取最新源代码。

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

《C# 爬虫 破境之道》：第二境 爬虫应用 — 第四节：小说网站采集

你可能感兴趣的:(《C# 爬虫 破境之道》：第二境 爬虫应用 — 第四节：小说网站采集)

《C# 爬虫破境之道》：第二境爬虫应用 — 第四节：小说网站采集

你可能感兴趣的:(《C# 爬虫破境之道》：第二境爬虫应用 — 第四节：小说网站采集)