weixin_30446613

网络爬虫的实现

作者：Gupta, P. ; Johari, K. ; Linagay's Univ., India
文章发表在: Emerging Trends in Engineering and Technology (ICETET), 2009 2nd International Conference on pages 838~844

摘要-万维网是一个通过HTML格式使数十亿的文件产生联系的集合，然后如此规模庞大的数据已经成为信息检索的障碍，用户为了查找自己想要的资料可能要翻转数页。网络爬虫是搜索引擎的核心部分，网页爬虫持续不断的在互联网上爬行来寻找任何新的增加到网络中的页面和已经从网上删除页面。由于网页的持续的增长和动态性，遍历网络中所有的网址并处理已成为一种挑战。一个集中性的爬虫就是一个爬取特定话题，访问并收集相关网页的代理。这篇论文中会讲到我做过的一些网络爬虫的设计来检索版权侵权的工作。我们将用一个种子URL作为输入并搜索一个关键字，根据这个关键字进行检索，并且获取发现该关键字的网页。焦点在于查找包含用户检索的关键字的网页的爬行方式，我们使用广度优先的方式进行检索。现在，当我们检索的网页时，会用到文本上的模式识别。我们选择一个文件作为输入并用模式识别算法进行检索。这里，匹配只针对文本并检查网页上有多少文本可用。我用的匹配查找的算法有Knutt-Morri-Pratt, Boyer-Moore，有限自动机。

关键字：搜索引擎，聚焦爬虫，模式识别，版权侵犯

1 简介

万维网提供了一个很庞大的信息来源，几乎所有类型。然而，这些通常分部在许多Web服务器和主机上，并且使用了很多不同的格式。我们都希望，我们应该用更少的时间检索到最想要的结果。在本文中，我们介绍了聚焦网络爬虫的工作，通过合并找到版权侵权的过程，
对于任何网络爬虫都要考虑到两点，首先，爬虫需要有计划能力，比如可以决定下一次拉取哪个页面；其次，它需要有一个高度优化和强大的系统架构，以达到每秒可以拉取大量的页面，并且防止系统崩溃，有效的管理拉拉取的页面，合适的资源和Web服务器。最近的一些学术话题很多关注第一个问题的，包括决定哪些重要的网页应首先抓取。与此相反，关注第二个问题的越来越少了。显然，所有的大搜索引擎都有高度优化的检索系统，虽然该系统的细节文档通常在他们的所有者那里，一般是保密的。目前已知的有详细文献记载的系统是在DECCompaq的Heydon和Najork开发的Mercator系统，该系统被Alta Vista采用。建立一个短时间拉取很少的网页的运行缓慢的爬虫很简单。但是，构造一个高性能系统在系统设计、I/O和网络性能、健壮性和可操纵性方面是一个很大的挑战。

每一个搜索引擎都分为很多不同的模块，这些模块中的爬虫模块是搜索引擎中最重要的，因为它有助于为搜索引擎提供最好的可能结果。爬虫是搜索引擎中‘浏览’网页的一个小程序，类似与用户通过点击来访问不同的页面，程序给了一些从网上检索的用于启动的种子URL。爬虫提取检索到的网页中的URL，并将这些信息提供给爬虫控制模块。该模块对之后访问哪些页面做判定，再把这些页面链接提供给爬虫。爬虫还会拉取检索到的页面并添加到页面库。这样持续不断的爬行网页，直到本地资源耗尽，比如存储设备。

本文的其余部分的结构如下。下一节调查爬虫相关工作，第3节介绍我们使用的聚焦爬虫的原理，第4节介绍模式识别算法，第5节介绍爬虫的实现，第6节总结并对未来需要做的工作进行说明。

2 相关工作

网络爬虫，也被称为机器人，蜘蛛，蠕虫，网页追逐者，和流浪者，几乎和网络本身一样古老。第一个网络爬虫的开发者是Matthew Gray’s Wandered，写在1993年的春天，大约正好是NCSA Mosaic浏览器的第一个版本发布的时间。

在本论文中，我们集中关注聚焦爬虫，它会根据我们给定的关键字索引相关页面。爬虫在指定的页面查找我们输入的特定关键词，首先会在种子网址中查找，然后再转向该网址的页面和该页面中其他的包含我们指定的关键字的链接中查找，一直这样爬行页面直到我们达到了我们设置的极限，但它可能找不到我们之前设置的页面数量，表明该页面没有其他的链接包含这个特定关键字。爬虫提取页面的时候也应该确保只拉取特定的链接，以保证不会总是一遍又一遍的访问同一个页面。我们拉取完这些链接之后，会以一个txt文本作为输入并运行KMP(Knutt-Morris-Pratt)，BMM(Boyer-Moore) 和有限自动机这三种模式识别算法。

3 聚焦爬虫的原理

图 1 聚焦爬虫原理

爬虫的运行的过程如上图所示，DNS 进程负责移除种子URL中的一个URL并试图通过IP协议连接该URL主机。

首先，DNS进程查看DNS数据库，检查该主机是否已经被解析，如果已经解析了，则直接获取该IP，如果没有解析，DNS进程通过DNS服务器获得主机IP；之后read进程负责获取解析的IP地址，并试图打开一个HTTP socket连接来请求页面。

下载页面之后，爬虫会检查页面内容防止重复拉取，然后，提取并标准化拉取的页面中所包含的URl，核实网络机器人是否可以爬取这些页面，检查爬虫之前是否拉取过这些URL

显然我们不能让服务器一直处于忙状态来检查这些信息，所以我们必须设置一些时间戳，等检查信息的时间戳耗尽了即使还没有检查完爬虫也会继续爬取页面，如果时间戳用完了还没有找到可用链接会提示找不到字符串，如果找到了爬虫会去拉取页面并在某些表里面记录下来存储在文件里面，这里，我们只拉取html页面。

4 模式识别

这里的模式识别的对象只针对文本，模式识别用来做句法分析。

当我们去比较模式识别和普通的表达式匹配时会发现模式匹配更加强大，但是识别的过程中会慢一点

一个模式匹配就是一个字符串，所有的关键字都可以被写成大写或者小写，一个模式匹配表达式由一元的和二元的操作符组成，空格和制表符可以用于分隔关键词，文本在发现知识的过程中有重要作用，可以用于从未结构化的或者半结构化的数据中提取隐藏的信息，这部分是之后工作的基础，由于大多网页中内嵌HTML代码，这些网页信息都是半结构化的，还有很多网页都是被链接的，也有很多冗余页面，网页文本帮助我们获取并综合有用的数据，信息和知识

这篇论文中，模式识别这样应用在爬虫程序中，当我们启动爬虫程序，它会提供给我和关键字相关的链接，之后会读取这些链接的页面，并且只读取这些页面的内容。这里的内容是指仅仅是网页中可以获取的文本信息，不包含图片，标签，还有按钮。拉取的内容会被存储在一些文件中，但是不会包含任何的HTML标签

我们提取文本的算法：

l KNUTT-MORRIS-PRATT (KMP)

l 有限自动机

l BOYER MOORE (BMM)

4.1 KNUTT-MORRIS-PRATT 算法伪码

Knutt-Morris-Pratt algorithm的工作原理很像有限自动机算法，匹配字符串和文本从左到右进行比较，如果匹配成功，该算法会查找开始匹配位置到目前匹配位置最大的下标，从而决定匹配的位置可以向右最多移动多远，并且避免丢失可能的匹配。

我们下一步需要移动的位置的数据存储在一个辅助的“next”表里面，这个表是通过自己对自己匹配的预处理得到的，这里面包含了字符串在匹配失败时下一次要匹配的位置信息，这个“next”表是一个高级的助手。

这是一段我们对计算“next”表的简短描述：我们用一个游标去查找字符串P中最大的前缀，下标为P[1…j]，通过这个字符串自己可以计算出每个位置可能移动的距离，当字符匹配时，P和next的指针都会递增，当一个匹配发生了不止一次，我们会把next[j]置为j-1，如果这个匹配已经在起始位置匹配过则next[j]置为0，i递增，通过匹配自己来检查下一次移动的位置。

输入：包含m字符的字符串 P（匹配文件）和目标网页文件

输出：匹配的数量和算法在查找匹配过程中所耗费的时间

算法主要的实现大约像下面这样：

while(I
     if(pattern.charAt(j)==text.charAt(i)){

         if(j==m-1)

              return I-m+1; //match

         j++;

     }

     else if(j>0){

         j=fail[j-1];

     }

     else{

         i++;

     }

     return –1; // no match

}

只要我们没有到达文本的最末端，匹配字符串和文本就会不断的进行比较，当匹配字符串和文本匹配时，i和j都自加，当全部匹配的时候，算法会返回有效的偏移位置，对于没有匹配的情形，有一点不同：如果匹配发生在初始位置，匹配的字符串向右移动一位继续匹配，如果不是初始位置，则程序会调用辅助函数来决定下一次要移动的位置，如果到文本的末尾也没有找到匹配的字符串，程序会返回-1。

4.2 有限自动机算法伪码

这种方法使用有限自动机来扫描进行文本的模式匹配，一个有限自动机是一个五元组（S,s0,A,Σ,δ），其中：

- S是状态的有限集合

- S0为初始状态

- A⊆S是一个接受状态集合

- Σ*是有限的输入字母表

- δ是一个从S×Σ*到S的函数，被称为自动机的转移函数。

为了使用有限自动机解决字符串匹配问题，必须根据模式P建立有限自动机，建立的状态机会有m+1种状态，并且最后一个状态是唯一的一个接收状态，我们用状态转移的步骤构建自动机“骨架“，他们会在匹配的情况下被执行，然后对于不匹配的情况我们添加有向边，为了计算转移函数，我们利用这个公式，它确定了“错误开始“的最长后缀，这也是模式P的前缀， (I,a)= max{k<=I⏐P[1…k] is suffix of P[1…I]a} ， (I,a)=0表示未找到后缀。

4.3 BOYER-MOORE ALGORITHM算法伪码

在BOYER-MOORE]算法中，模式是从右至左扫描的文本的，该算法用两种不同的预处理策略，以确定尽可能小的移动，每次匹配失败时，两种算法进行计算，然后选择最大可能移动，从而对于每个个别情况都会运用最有效的策略。

第一个策略是“坏字符“启发式。这一策略集中在“坏字符“上面，这将导致不匹配。如果它根本就不包含所有在P中，该模式可移过它，如果它是在模式的某处，然后搜索最右边的“坏字符”并匹配的文本。

“坏字符”启发式的辅助函数：

public static int[] buildLastFunction(String pattern){

     int[] last = new int[128]; // assume ASCII character set

     for(int i=0;i<128;i++){

         last[i]= -1; //initialize array

     }

     for(int i=0;i
         last[pattern.charAt]=i; // implicit cast to integer

         ASCII code

     }

     return last;

}

每个字母字符，我们确定模式在其最右边发生并将结果写出到一个数组里。然后，每次匹配失败时，我们查找“最后“成为坏字符的位置的值，找出模式可以向右移多远。

只使用“坏字符”启发式的简单算法：

int[] last=buildLastFunction(pattern);

int n=text.length();

int m=pattern.length();

int i=m-1;

if(i>n-1)

return –; // no match if pattern is longer than text

int j = m-1;

do{

     if(pattern.charAt(j)==text.charAt(i))

         if(j==0){

              return; // match

         } else{ // left-to –right scan

              i--;

              j--;

         }

}

else

     i=i+m-Math.min(j,1+last[text.charAt(i)]);

     j=m-1;

}

while(i<=n-1)

return –; // no match

}

首先检查模式的长度是否比文本长，设置模式和文本的指针指向起始位置，即模式最右面的字符然后进行比较，当j等于m-1时，说明发现了全部匹配，然后我们返回有效偏移的位置，如果不等，j和i递减，继续进行比较。

万一模式字符串和文本不匹配，辅助函数会被调用我们确定了在模式的最右边发生的坏字符并相应的修改J和i，如果我们有检查所有有效的移动并且已经发现不匹配，我们知道模式没有出现在文本中会返回- 1。第二个策略是“好后缀“启发式。我们尝试找到“错误起点”的最大后缀，也是模式的前缀。

5 实现

这篇论文中，我们展现了网络爬虫的设计和实现，前面，kmp，有限自动机和Boyer Moore算法都已经展示了，这里，运行爬虫程序我们会给你一个种子URL，关键字和作为输入的文本文件的路径，当我们点击搜索按钮之后，会到互联网上搜索匹配指定关键词的网页，如果我们点击停止按钮，程序会终止搜索。

图 2程序的外观

正像我们看到的，他会返回一个提取了匹配关键词页面的列表，当我们点击查找按钮的时候，他会弹出论述窗口

图 3输出结果

这里我们会看到生成了一个拉取到的网页的列表，在模式文字输入框我们会给定我们的文本文件作为输入，最后我们会点击运行按钮然后3中算法会启动，然后会获得输出结果，输出的内容为匹配的数量和算法计算匹配所耗用的时间，这里时间是纳秒级的。

后面我们看到它为网页创建了txt文件，并且所有算法的计算结果也都存储在txt文件中。

模式文件

KMP输出结果

有限自动机的输出结果

BMM的输出结果

6 总结和未来需要做的工作

爬虫是一个下载和存储网页的程序，一般是为网络搜索引擎提供数据，快速增长的互联网为寻找最合适链接带来的较大挑战。聚焦爬虫只从互联网上提取与感兴趣的主题相关的网页。截至目前，Allan Heydon 和 Marc Najork在“Mercator：可扩展的网络爬虫”对其进行描述，Mercators的主要支持可扩展定制的蚂蚁，还介绍了Mercator中用到的特别的组件。在本文中，我们使用了Mercator中在爬虫方面定义的一些组件的功能，所设计的网络爬虫程序的能够处理输入文本文件与网络连接的比较功能，该爬虫用模式识别的算法计算并获得输入文本在连接中出现的次数。

这个爬虫用了三种算法分别对文本进行模式识别并输出每一种算法计算的结果，透过这样的信息我们可以看到模式匹配算法的影响，这个爬虫只用到了一种文本查找方法，这里是模式识别，网络爬虫还可以用到其他的文字处理技术，因此可以开发一个更加智能更好用的网络爬虫来查找版权侵犯。

参考文献：

[1] Allen Heydon and Mark Najork, “Mercator: A Scalable,Extensible Web Crawler”, Compaq Systems Research Center,130 Lytton Ave, Palo Alto, CA 94301, 2001.

[2] Francis Crimmins, “Web Crawler Review”,Journal of Information Science, Sep.2001.

[3] Robert C. Miller and Krishna Bharat, “SPHINX: aframework for creating personal,site-specificWeb-crawlers”, in Proc. of the Seventh International World WideWeb Conference (WWW7), Brisbane, Australia, April 1998.Printed in Computer Network and ISDN Systems v.30,pp.119-130, 1998. Brisbane, Australia, April 1998,

[4] Berners-Lee and Daniel Connolly, “Hypertext Markup Language.Internetworking draft”, Published on the WW W athttp://www.w3.org/hypertext, l, 13 Jul 1993.

[5] Sergey Brin and Lawrence Page, “The anatomy of largescale hyper textual web search engine”, Proc. of 7^th International World Wide Web Conference, volume 30,Computer Networks and ISDN Systems, pg. 107-117, April 1998.

[6] Alexandros Ntoulas, Junghoo Cho, Christopher Olston "What's New on the Web? The Evolution of the Web from a Search Engine Perspective." In Proc. of the World-wide-Web Conference (WWW), May 2004.

[7] Arvind Arasu,Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke. Sriram Raghavan . Computer Science Department, Stanford University.”Searching The Web”, .

[8] Thomas H. Cormen, Charles E.Leiserson, Ronald L. Rivest, “ INTODUCTION TO ALGORITHM”, seventh edition,published by Prentice-Hall of India Private Limited.

[9] Ute Abe, Prof. Brandenburg. “ String Matching”, Sommersemester 2001, pg 1 –9.

[10] Shi Zhou, Ingemar Cox, Vaclav Petricek,“Characterising Web Site Link Structure”, Dept. of Computer Science, University College London, UK, IEEE 2007.

[11] M. Najork, J. Wiener, “Breadth-first crawling yields high quality pages”, Compaq Systems Research Center, 130 Lytton Avenue, Palo Alto, CA 94301, USA, WWW 2001, pg. 114- 118.

PS：第一次翻译论文，好几个地方翻译的不太通顺，不当之处，望指正；另外翻译之前没有好好选择论文，翻译完了感觉这篇文章很一般。

转载于:https://www.cnblogs.com/shapherd/archive/2011/03/06/1971670.html

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不