小老虎Marvin

开发自己的web搜索引擎——MyGoGo

开发自己的web搜索引擎——MyGoGo

马文虎

（南京大学工程管理学院信息管理工程）

1 简介（Introduction）

1.1 提出问题 (Background)

互联网上的信息数以亿计，如何在这浩如烟海的世界中找到自己想要的信息已经成为互联网技术的一个非常重要的研究课题。搜索引擎的问世，为我们快速、准确、有效地获取网络信息资源提供了极大的帮助。目前现有的搜索引擎主要分为两类：一类是通用搜索引擎，如Google、Yahoo、Baidu等；一类是主题（垂直）搜索引擎，如社会搜索Aardvark、移动搜索ChaCha、电子邮件收件箱搜索Gist、房地产搜索Zillow等（福布斯杂志评选出来的2008年最值得关注、最被看好的专业搜索引擎）。

通用搜索引擎的性质，决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。随着Internet信息急剧膨胀以及信息多元化的发展，Google等通用搜索引擎采集索引查询内容不断扩大。这不但使搜索引擎面临巨大的困难，而且越来越不能满足主题用户快速、准确找到有用信息的需求。

主题搜索引擎具备有效的信息采集策略，索引更新周期大大缩短，通常能在较短的时间内提供更新的网上专业领域信息查询。主题搜索引擎的其特点就是“专、精、深”，且具有行业色彩，相比较通用搜索引擎的海量信息无序化，主题搜索引擎则显得更加专注、具体和深入。

目前已有的主题搜索涵盖了购物、旅游、汽车、工作、房产、交友等行业，但如果说未来主题搜索引擎代替通用搜索引擎是一种趋势的话，那么目前要解决的问题就是找到一种通用的建立主题搜索引擎的方法，能够帮助人们大规模地构建主题搜索引擎而不受领域的限制。本文以“能够找到一种通用的构建主题搜索引擎的方法”为假设条件，对构建主题搜索引擎展开研究工作。

1.2 解决的办法

由于技术和商业原因，现有的主题搜索引擎大多基于以下两种开发方法：

1）控制信息采集更新的网站范围，将索引和检索信息限制在特定的几个主题网站之内。例卓越网店的搜索只是局限于自身网站的物品和交易信息，某些行业搜索只是抓取几个行业内主要网站的信息提供检索等。

2）在通用搜索引擎采集信息的基础上进行文本分类或过滤，提取主题信息进行索引和检索。例如通用搜索引擎Google，百度等在自身通用搜索采集网页库的基础上提供的资讯，生活等主题搜索服务。

这里，我们需要对以上两种方法进行改进，实现通过主题Crawler来控制信息的采集，仅仅采集、索引网络上与主题相关的信息（例如“汽车”搜索就大都是通过网页信息筛选，单独抓取包含“汽车”主题的网页）。只有种方法才是保持信息采集精度，缩短采集时间、减少存储、加快检索，节约网络资源，实现高性能主题搜索引擎的根本解决之道。

2 MyGoGo的设计与实现策略

2.1 系统的架构

本项目主要由三个部分组成。即：信息抓取部分（Crawler）、信息预处理部分（Indexer）、查询服务部分（Searcher）。

如图1所示，信息抓取部分对internet进行爬取，将internet上的Web页抓取到本地进行存储；信息预处理部分对本地存储的原始Web页进行预处理（分析、建立索引等），再将处理的结果保存到文件系统中；查询服务接受查询用户的查询，到本地存储的文件中进行查询，最后处理结果返回给查询用户。

图1 系统总体架构

2.2 模块设计

1）信息采集

信息采集部分由抓取管理模块、抓取程序、解析模块、页面信息数据库等部分组成。如图2所示。抓取管理模块负责向抓取程序提供抓取策略以及需要抓取的URL队列；抓取程序负责访问、采集网页；解析模块负责对所采集到的网页进行语法解析、剔除语法标记获取链接信息，将网页的页面信息送至页面信息数据库保存，同时判断所采集的网页是否是新增或更新的网页，若是则将其文档内容提交给页面处理模块处理。

图2 信息采集模块工作模式图

现有的基于Client/Server模型上的针对文本的主题搜索策略主要有人工预选策略、先采集后过滤策略以及最佳搜索策略三种。

由于技术的原因，这里采用人工预选策略。对于主题搜索引擎，某些站点的主题可能在其范围之内，对这类站点的访问频率应该比其他站点高些。首先人工预先浏览各个站点，从中选出与主题相关的网站，然后派发出一个或几个爬虫专门负责对这类站点进行持续的访问，再用其他的爬虫去遍历整个网络。或者只在选出的与主题相关的网站范围内采集页面，而认为其他网站与主题无关，不予考虑。人工预选站点时还可以先提供一组特征值集作为权威的主题关键词，用这组特征集到原搜索引擎中检索出对应的网页作为采集信息的范围。

2）信息预处理

信息预处理部分负责完成对搜集的网页进行相关的分析处理，提取出网页内容的关键词建立倒排索引。如图3所示。其主要任务：主题词典处理、信息消重、文档建模、文档分析和过滤以及建立倒排索引。

图3 信息预处理模块工作模式图

主题词典处理：通过对一般词典进行处理，从中提取出能够代表某一特定主题领域的词汇集，它是对网页文档进行文本分析和对用户查询进行处理的关键依据。

信息消重：过滤掉网页集合中的转载网页或镜像网页，尽量保证页面信息在系统中的唯一性。

文档建模：对已经搜集到的存储在原始网页库中的网页信息建立满足处理和查询需要的文档模型。基本思路是提取文档中的关键词，作为文档内容的近似表示，建立结构化的文档模型。

文档分析及过滤：借助主题词表和噪音词表，将网页库里面的结构化文档进一步分析，剔除掉无意义的词，如虚词、借词、代词、数字、标点等，同时找出文档中符合主题的关键词。

建立倒排索引：对关键词和文档之间建立索引，供检索模块快速准确查询。

3）查询服务

查询服务部分提供查询用户进行查询的功能。如图4所示。用户首先向WEB服务模块（查询网页）提供查询词。WEB服务模块调用分析模块，将用户查询词进行分析，去掉非法字符以及噪音词，并从中提取出主要的关键词。检索模块根据分析的结果（关键词），从索引库、网页库中读出数据，生成检索结果。最后WEB服务模块将检索结果返回给查询用户。

图4 查询服务模块工作模式图

2.3 系统整体运作流程

图5 系统运作流程

系统运作流程如图所示，详细过程如下：

1）系统首先从原始URL列表将原始URL注入WEBDB；原始的URL主要通过人工预选的策略来给出；

2）系统从WEBDB生成FetchList，即抓取列表，其中包含系统本轮需要抓取的URL；

3）Fetchers调用FetchList，对其中每一个URL进行抓取，抓取得到的数据通过Parser进行解析，去掉网页标签、剔除语法标记获取链接信息；

4）解析得到的数据送入主题过滤器，如果主题过滤器判断某一个页面与主题无关，系统将会丢弃它；

5）主题过滤器处理后的数据分成两个部分，一部分是页面中提取出的URL送入Updates提交到WEBDB中，准备进行下一轮抓取，另一部分是页面信息送入Content进行存储。

6）Content中存储的数据送入索引器进行索引，索引结果将被保存；

7）用户可以通过Web Server对索引过的数据进行检索。

其中1到6是提供查询用户服务前的工作。系统反复进行2到6可以通过一轮一轮的抓取，不断扩展系统中的数据量。索引的工作也是在用户提交查询请求之前，一般是在完成定期的网页抓取之后。

2.4 MyGoGo的界面设计

图6 检索界面

3 实验/系统执行（Experiment）

3.1实验的目标

MyGoGo搜索引擎要能够正常运行，必须经历信息采集、索引和检索三个阶段的工作。通过本次实验，将验证笔者设计设计思路的可行性以及MyGoGo的实用性。

3.2运行环境

硬件环境：

CPU: Intel(R) Core(TM)2 CPU T5200, 1.6 Ghz

RAM: 2 GB Memory

Disk: 160 GB

操作系统：windows xp professional service pack3

软件环境：

Java Version: 1.6.0_13

Java VM: JDK

服务器：tomcat5.5

开发工具：eclipse3.2

虚拟unix：cygwin

3.3 实验步骤

1）准备工作

①由于MyGoGo是在nutch-1.0基础上进行设计的，其自带的脚本命令需要unix的环境，所以必须首先安装Cygwin来模拟这种环境安装cygwin。

②设置环境变量：在windows的环境变量path中添加一个值，即cygwin的安装目录：D:/cygwin/bin。

2）抓取网页与 建立索引

①确定所要抓取的主题，本次实验抓取的主题是：大学（universtry）

②在MyGoGo的工作空间下建立一个名为urls的文件夹，并在其中建立一个url.txt的文本文件，文件中写入要抓取网站的顶级网址：http://www.clas.ufl.edu/au/，即要抓取的起始页。由于网络带宽的限制，此处我们仅写入一个初始URL作为根URL，若根URL有多个，我们需在url.txt中一行写入一个打算搜索网站的URL，系统将从urls.txt中取站点的URL：http://www.clas.ufl.edu/au/

③编辑MyGoGo目录下conf/crawl-urlfilter.txt文件，修改MY.DOMAIN.NAME部分:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*/.)*.edu

这里没有需要过滤的网站，所有的http网站只要是关于教育的都可以从中抓取信息。

④设定主题词表，如图7：

图7 主题词表

主题词表中囊括了美国几乎所有大学名称的关键字，按照此表建立索引能够提高效率。

⑤设定噪音词表，如图8：

图8 噪音词表

这样在对抓取的网页索引时便不会对表中的噪音词建立索引了，可以节省存储空间和提高索引效率。

⑥在eclipse中运行MyGoGo抓取程序crawl，设定变量的参数如下：

图9 设定参数

在上述命令的参数中，dir指定抓取内容所存放的目录crawl，depth指定以要抓取网站顶级网址为起点的爬行深度为3，threads指定并发的线程数10，运行效果如图10：

图10 信息采集

抓取程序运行结束，在MyGoGo根目录下被创建了一个名为crawl的文件夹，同时还生成一个名为hadoop.log的日志文件。利用这一日志文件，我们可以分析可能遇到的任何错误。下面使用LUKE工具查看刚建立完成的索引，如图11、12.

图11 索引词

图12 索引数据库表

3）搜索测试

①将MyGoGo部署到tomcat/webapps下；

②更改MyGoGo/WEB-INF/classes下nutch-site.xml中的索引存放路径。

searcher.dir

E:/MyGoGo/crawl

③启动Tomcat，打开浏览器在地址栏中输入：http://localhost:8080/MyGoGo/，在搜索框中输入“University of Chicago”，点击“搜索”，部分结果如下图：

图13 部分检索结果

从图13中可以看到，本次实验共检索出1059条记录。然而在google中搜索出了55,300,000条记录，可想而知，用户得花更多的时间和精力才能找到想要的信息！

点击“cached”查看网页快照，如图14.

图14 网页快照

点击“explan”查看网页排序的打分细则，如图15.

图15 部分评分细则

4 总结

4.1 实验结论

本次实验以搜索“University of Chicago”为例，证明了MyGoGo的可行性，与通用的搜索引擎相比MyGoGo的特点可以概括为以下几个方面：

1）只要搜集某一特定学科领域或特定专题的Internet信息资源即可。

2）能够方便地进行搜集主题和学科的自定义配置。

3）采集的学科领域小，信息量相对较少，从而容易建立高质量、专业信息收录全、能够及时更新的索引数据库。

4）只涉及某一个或几个领域，词汇和用语的一词多义的可能性降低，而且利用专业词表进行规范和控制，从而大大提高查全率和查准率。

5）信息采集量小，网络传输量小，有利于网络带宽的有效利用。

6）索引数据库的规模小，有利于缩短查询响应时间，还可以采用复杂的查询语法，提高用户的准确查询精度。

7）数据规模的降低，可以节省搜索引擎的投资成本，用普通的硬件投资即可建立高质、高效的主题搜索引擎。

4.2 展望

本文信息采集的对象是所有网络上满足特定主题的html网页。在抓取的工程中，如何判断该网页是否符合所需要的主题是一个难点，本文虽然提出了相应的解决办法，但由于技术和时间有限，仅仅采用了人工设定URL的方法，这种方法显然不满足人们对主题搜索引擎精而全的要求。

另外，本文提出的开发主题搜索引擎采用的是基于关键词的全文检索技术，尽管主题搜索引擎在一定程度上消除了词语的歧义，但对不同背景的用户而言，如何通过用户输入的关键词来修正他的查询表达式，更好地表达用户的需求将是未来研究的一个重要突破口。笔者认为可以通过XML检索技术、本体和相关反馈技术加以综合来实现。

觉察日记174：转悦尘ceeport
1.【今日情绪觉察】：今日主要情绪议题及指标：早上出站后，到公司期间，收到了150多条验证短信，手机闪个不停，一直推未读短信，我还以为中病毒了，然后同事告诉我还是那个同事被诈骗的搞出来的事情，把自己的通讯录曝光，所以我们都会逐一被骚扰，打开她的朋友圈，连着几条都是在公开道歉。我看到了信息的不安全。01探究自己为什么内心会起情绪（本来昨天知道这件事觉得就是信息被泄露，没想到后果来的这么快，这种被莫名
依附自我觉察日记本
为了确保自己不被离弃，我们做出很大的牺牲。我们牺牲了自己。我相信依附的情形早在三岁就开始了，并一直延续到青春期，所以我们可以轻易地了解，这对我们怎么看自己会有很大的影响。想象一下，一个小女孩可能放弃自己的积极和坚决的态度来取悦父亲；放弃自己的性欲以免让父亲感到威胁；放弃自己的智慧，好让自己看起来柔顺没有伤害性，而且必须有比她聪明的人让她依靠；忽视自己的艺术天分，好让父亲知道她很注重实际；改掉自己外
Redis事务+Lua脚本一枚老菜鸟～啦啦中间件 #Redis lua redis java
Redis的事务使用multi开启事务，但是redis的事务只是对语法的检查，它的事务是非常弱的事务，无法解决运行时的错误，因此实际使用中不要使用redis的事务（也可以根据自己的实际业务场景选择是否使用事务，当然并不建议使用multi的事务方式）Transactionmulti=jedis.multi();multi.set(RS_TRANS_NS+"test1","a1");multi.set
web前端进阶之Javascript设计模式面向对象篇 jia林
前言：在此说明Javascript设计模式所讲内容和知识点来自双越老师（wangEditor富文本开源作者）的视频，内容通俗易懂，受益匪浅，结合自己的学习心得整理成笔记，与大家分享，愿在前端的道路上越走越远.....从“写好代码”到“设计代码”的过程，不仅是技术的提升，更是编程思维的提升，而这其中最关键的就是设计模式，是否理解并掌握设计模式，也是衡量程序员能力的标准之一。学习前提使用过jquery
搜索技巧_野猫学习笔记野猫行天下
自从进入互联网时代，学霸们就越来越霸不了了，因为现在学富五车的人根本干不过会找车的人，你再怎么学富五车，也干不过人家会网络搜索。因此，为了让大家能继续保持学霸的地位，我今天就来跟大家聊聊怎样找车——如何才能利用网络快、准、狠地解决自己的所有问题。01使用专业化、高效的网站什么叫专业化、高效的网站，以了解兰陵王为例，你可以在以下3个网站上搜索，很快就能全方位地了解他（学识力、颜值力、防御力、摧毁力，
秋园（五，田四送人，仁受离世）博学的毛婆婆
昨天讲了，秋园一家到了要靠讨米过日子，但讨米终究不是长久办法，仁受、秋园一家接下来怎么填饱这么多肚子呢？仁受还在关押，一家人除了吃饭整天就在大路上看路的尽头，盼望仁受能早日回来。而在这期间第5个孩子田四出生。第7天上仁受回来了，秋园看着沧桑憔悴的仁受忍不住哭了。转眼间，冬天到了5口之家，仅有一场破棉絮，仁受提议有一外甥欠自己的钱就没还过，可以去他家里看看能否救济一下。秋园带着之骅去了，一进门没提还
岁月流淌的洋峪河（五）关中文苑
王东海五箩圈腿的哥哥嘿嘿嘿一笑，‘这有啥呢！说就说嘛。’他一拍自己的胸脯再一拍身边的弟弟继续说道，‘我叫吴连喜，我弟弟叫吴连福，我俩是双胞胎，我比他只大了半天；我的家在商州东城青石桥街，是当地有名的猎户，十六岁那年冬天，我跟爷爷出猎五峰山时，突然的一场暴风雪耽搁了行程，歇在黑风崖一户周姓人家，认识了比我大两岁的彩凤姑娘，我俩一见倾心，彼此爱慕，她的父母更是欢心满意，放开让我们谈心相处，几天下来我们
沟通中，你被贴了什么标签 HAO好说
图片发自App1我们每个人都有不同的人生经历和教育背景，所以每个人的世界观和价值观各不相同，人都是站在自己的立场上去评判周围的人和事，对和错，好和坏，这些评判使用的贬义词，往往会使价值评价上升到道德层面，给被评价者贴上道德标签，比如“坏人”“缺德”“不孝”等等，一旦如此,人与人之间的感情就会对立，矛盾会升级，沟通的成本就会增加。无论是在职场还是在家庭，我们都会遇到大大小小的沟通场景，比如“是否应该
人世间的百媚千红#42冷淡齐kun儿_8b9d
人世间的百媚千红#42冷淡人世间的百媚千红#42冷淡这间店面不是很大，主打儿童鞋，少量成人居家鞋。货品种类蛮多的，可商品在柜台昏暗的灯光下，没有焕发出它们本应的光彩和吸引力。也不知道是生意清淡使老板娘冷淡，还是老板娘性格冷淡使生意清淡的。整日，老板娘坐在门口的椅子上，翘个二郎腿，扣个手机。没有强烈需求的人很少被这间昏暗店面和冷淡无聊的老板娘激起购买欲望的。老板娘也许不知道，自己的形象和性格也是在为
python里class转换_python实现class对象转换成json/字典的方法八决子 python里class转换
python实现class对象转换成json/字典的方法发布于2016-03-2808:05:44|153次阅读|评论:0|来源:网友投递Python编程语言Python是一种面向对象、解释型计算机程序设计语言，由GuidovanRossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块
刮刮乐的中奖概率茗茗鎏
彩票产生之后，让人们看到了一夜暴富的可能，只需要2元钱，就有机会获得500万，这巨大的差距让人们为之着迷。不论是有钱人还是贫民，只要对自己的运气有信心，都乐于花费2元钱去买一张彩票，中了，生活上好几节台阶，不中，只是少了2元钱，不会影响生活。刮刮乐是彩票的一个变种，彩票买好之后，还要等到开奖日才能知道自己是否中奖，而刮刮乐，只需要几秒钟，刮一下，就能看到自己是否中奖，是一个更快捷直观的彩票产品。有
Lamada表达式的一些使用范例 singlezero
最近一直在看Lamada表达式,在开发中使用后现在真的越看越顺眼,这种函数式编程思维只要初窥门径,简直就停不下来,然后花了点时间做了一个使用总结范例,有不全面或是不对的请给位大佬指出,咱们一起探讨.importcom.google.common.collect.Lists;importcom.google.common.collect.Maps;importorg.junit.Before;imp
探讨应用层网络协议栈设计-基础篇（一）橙子味虾片网络协议网络系统架构
本篇想从这几个方向聊：整套系统它的受众业务，为何要探讨和学习网络协议栈开发基础知识，各模块角色的定位，为什么要设计这几个模块如何进行设计框架、工作线程模式、各模块如何高效协作本篇探讨和可学习的知识点：基础模块定位线程竞争处理负载均衡设计工作模式设计快慢的分离为什么开启本篇文章：应用层网络协议栈的开发，它是一套通用的解决网络需求的系统，网络需求指的是对网络数据的监控、审计、研判、提取、防护、可视等；
Android Gson复杂数据结构（如Map、List）的序列化逻辑原理剖析
一、复杂数据结构序列化概述1.1复杂数据结构处理的重要性在Android开发中，JSON数据往往包含复杂数据结构，如Map、List等。Gson作为常用的JSON处理库，其对复杂数据结构的序列化能力至关重要。准确处理这些结构能确保数据在网络传输、本地存储等场景下保持完整的语义和结构，避免数据丢失或格式错乱。1.2核心处理流程Gson对复杂数据结构的序列化主要包含以下步骤：类型识别：确定待序列化对象
深入理解 UniApp：跨平台开发的终极解决方案
深入理解UniApp：跨平台开发的终极解决方案一、UniApp概述：重新定义跨平台开发（一）UniApp的诞生背景在移动互联网高速发展的今天，多端适配成为开发者面临的主要挑战。传统开发模式下，针对iOS、Android、微信小程序、H5等不同平台需要编写多套代码，开发成本高且维护困难。DCloud公司于2019年推出的UniApp，正是为了解决这一行业痛点而生。它基于Vue.js语法规范，实现了"
如何防止重复提交订单？天天摸鱼的java工程师 java
如何防止重复提交订单？作者：Java后端开发工程师一、背景介绍：为什么会产生重复提交？在电商平台中，用户提交订单是一个非常敏感的动作。这通常涉及：库存扣减优惠券核销支付下单消息发送但用户总喜欢：点两次“提交订单”按钮网络卡顿时刷新页面使用浏览器回退再次提交结果就是：重复提交订单，造成资源浪费，甚至业务损失！二、问题分析：重复提交的常见场景场景示例用户行为多次点击按钮、浏览器刷新接口幂等性差接口无幂
如何将电商单体应用拆分为微服务？拆分粒度如何权衡？天天摸鱼的java工程师微服务 java
如何将电商单体应用拆分为微服务？拆分粒度如何权衡？引言：在电商行业高速发展的今天，系统扩展性和交付速度成为核心竞争力。许多企业初期采用单体架构快速上线，但随着业务规模扩大，单体应用逐渐成为制约发展的瓶颈。你是否也面临这样的挑战：代码库臃肿不堪、发布周期越来越长、局部故障导致全局瘫痪、技术栈升级举步维艰？作为一名有8年开发经验的Java工程师，我曾主导多个大型电商系统的微服务拆分。今天我将分享从业务
uni-app跨平台开发知识点总结
uni-app简介uni-app概述：uni-app是一个使用Vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、Web（响应式）、以及各种小程序（微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/淘宝）、快应用等多个平台。uni-app由来：是为了解决跨平台开发的问题。在移动应用开发中，不同平台（如iOS、Android）有不同的开发语言和技术栈，这导致开发者
一生之计在于勤：读《大江大河》时的自我反思米兰文萃
跟着孩子们一起背诵小古文，今天背诵到第30课《惜时》，来自于《增广贤文》：一年之计在于春，一日之计在于寅。一家之计在于和，一生之计在于勤。因为才几岁的小孩子，还不知道时间的宝贵，只有奔四的我们，才知道时间的紧迫。对他们来说，只是背诵而已。背诵，也是无形中的一种潜移默化。所以我用后面的注释，给她又翻译了一遍，让她能知道什么意思，往往这样她会更容易背一些，兴许，也能用到她自己的文章中去。背诵完毕，发完
时序数据库IoTDB好不好？时序数据说时序数据库数据库 iotdb 物联网开源
时序数据库IoTDB（InternetofThingsDatabase）是专为物联网场景设计的一款开源时序数据库系统，由清华大学团队开发并贡献给Apache基金会。经过多年发展，IoTDB已经在工业物联网、车联网、能源电力等多个领域得到广泛应用。那么IoTDB究竟好不好？下面我将从几个核心优势来分析。一、专为物联网优化的存储架构分层存储设计：IoTDB采用"内存缓冲区+磁盘文件+分布式存储"的分层
如何设计一个社交平台的关注/粉丝系统？一位8年Java开发者的架构心路天天摸鱼的java工程师 java 架构开发语言
如何设计一个社交平台的关注/粉丝系统？——一位8年Java开发者的架构心路当你的社交平台面临百万用户实时互动，如何确保关注操作毫秒级响应？如何保证粉丝列表的实时性和一致性？这个看似基础的功能背后，隐藏着读写扩散、数据一致性、热点用户等架构难题。本文将带你从业务模型到代码落地，构建一个支撑千万级关系的社交系统。一、业务场景与核心挑战典型关注业务流程：未关注已关注用户A关注用户B关系检查写入关注关系更
深入理解 SemaphoreSlim 在.NET Core API 开发中的应用爱吃香蕉的阿豪 .net core SemaphoreSlim 线程并发控制
目录什么是SemaphoreSlimSemaphoreSlim的核心方法构造函数等待方法释放方法基本使用模式同步使用模式异步使用模式（推荐在API中使用）在Web开发中的常见用途1.限制API接口的并发请求数2.保护共享资源的并发访问3.控制外部服务的调用频率4.实现分布式锁的本地补充注意事项与最佳实践1.确保正确释放信号量2.合理设置信号量的生命周期3.避免过度限制并发4.注意异步操作中的取消机
阿里云服务器2核8G/4核16G/8核32G配置选择经济型、通用算力型、通用型哪个好？阿里云最新优惠和活动汇总
2核8G/4核16G/8核32G配置的阿里云服务器在阿里云活动中目前有经济型e、通用算力型u1、通用型c7和通用型g8y四种实例可选，虽然配置相同，但是这些实例规格之间的价格差别是很大的，以2核8G配置为例，活动价格最便宜的经济型e实例2核8G配置只要697.39元/1年，而活动价格最高的通用型g7则要2262.85元/1年，相差了3倍多，因此，我们有必要弄清楚他们之间的差别，这样才能根据自己的需
云平台健康检查全攻略：从入门到精通 AI云原生与云计算技术学院 AI云原生与云计算 ai
云平台健康检查全攻略：从入门到精通关键词：云平台、健康检查、监控指标、自动化运维、高可用性、故障诊断、性能优化摘要：本文全面解析云平台健康检查的核心技术与实践方法。从基础概念到高级应用，详细讲解健康检查的原理、实现方式和最佳实践。内容包括监控指标体系设计、自动化检查工具开发、常见故障诊断方法以及性能优化策略。通过实际案例和代码演示，帮助读者掌握构建健壮云平台的关键技术，提升系统可靠性和运维效率。1
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
junit mockito_如何学习Java中的单元测试：JUnit和Mockito课程 dfsgwe1231 单元测试编程语言 python 人工智能 java
junitmockito大家好，今天我将讨论JUnit和单元测试，这是任何软件开发人员的关键技能之一。您可能已经知道JUnit和Mockito是Java应用程序中最受欢迎的两个测试库，并且几乎在每个Java应用程序类路径中都可以找到它们。我经常与Java开发人员见面并一起工作，这些Java开发人员非常了解Java但还没有编写单个单元测试。当我问他们为什么不编写单元测试时，他们提出了许多借口，例如他
.net core session 存储到redis缓存数据库
1.Startup.cs文件ConfigureServices方法加入以下代码#region使用Redis保存SessionvarredisConn=Configuration["WebConfig:Redis:Connection"];varredisInstanceName=Configuration["WebConfig:Redis:InstanceName"];//Session过期时长分
9分钟了解彦祖文化app不能出金黑幕曝光！真相让人震惊！最新曝光36
希望看到这篇文章的人可以及时止损；请及时联系为你提供解决方案，要想讨回损害资产务必阅读以下内容。1.彦祖文化APP在平台不能提现怎么办？2.彦祖文化APP这个软件靠谱可信吗？3.彦祖文化APP在软件做任务被骗？4.彦祖文化APP软件app无法登录?5.彦祖文化APP平台是真的吗？6.彦祖文化APP被骗无法提现，操作失误！7.彦祖文化APP平台是騙局吗？8.彦祖文化APP被骗无法出金如何维护自己的合
这是一篇不要脸的自采访子不等于我
你日更的目的是为了什么？为了提高自己的逻辑思维和传递信息的能力。写作是把脑中非线性思考转变成线性的表达。高强度的输出会逼迫自己不断加大输入，从而提高知识的转化率，有效地提高学习效率。写作是个系统，从获取到筛选，从存储到提取，再把知识转化成技能一直到变现，每一步都不能偷懒，高质量写作是件有挑战的体力活，喜欢挑战的我不可能会错过。日更会不会降低写作的质量？刚开始时为了完成日更，质量不高很正常，这时需要
python进行geeMap环境安装箭梭_ python
近期需要利用geemap搭建一个界面，试了一下相应环境的配置，踏了挺多坑，下面我给大家具体介绍一下geemap的环境搭建：（1）geemap是基于googleearthengine的接口进行开发的，在安装geemap之前，需要先进行earthengie包的安装，参考链接如下：https://zhuanlan.zhihu.com/p/29186942#comment-549701602?notifi
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st