基于主题的Web信息采集技术研究（七）

第八章页面分析

在本信息采集的URL和页面的过滤判定过程中，主要处理HTML页面。因此，在页面分析中我们所做的工作主要包括对HTML页面进行语法分析，提取出正文、链接、链接的扩展元数据及其它相关内容；再把这些内容进行简单的加工和一致性处理；最后将处理结果保存在中间信息记录库中以供URL过滤处理和页面过滤处理。

8.1 HTML语法分析

因为采集到页面的语法分析基于HTML（Hypertext Markup Language）协议[RFC 1866]。整个语法分析过程可以看作两个层次，即SGML（标记文法）层和HTML标记层。文法层将页面分解成正文、标记、注释等不同的语法成分，再调用标记层处理正文和标记。同时标记层维护着当前正文的各种状态，包括字体、字型等，这些状态由特定标记产生或改变。

在系统中使用的标记文法分析器的基本原理是：由标记文法构造状态转换表，根据输入流中的当前字符（无需向前看）切换状态，当到达特定状态时执行相应语义操作。这里先介绍几个概念，然后分别讨论对主要语法成分的处理：

l 文本。文本是页面的初始状态，此状态下的所有字符（除了导致切换到其它状态的）都构成页面正文的一部分交由标记层根据当前正文状态处理和保存。

l 标记。标记是出现在正文中以字符“<”开始，字符“>”结尾的一个字符串。语法分析器在遇到“<”后就创建一个标记结构，并将后续的标记名称、标记中的参数等一一填入该结构中，其中参数由多个参数名/值对组成。当遇到“>”表示标记结束，将分析出的标记结构传递给标记层。标记层在根据标记名和参数做相应动作，包括修改正文状态等。若在“<”后紧跟着字符“/”，则表明此标记是个结束标记，分析器区分开始和结束标记，但两者的配对由标记层实现。对标记的处理在后面讨论标记层时会进一步论述。

l 注释。分析器判断“<!”打头的标记并统计模式“--”的个数从而识别页面中的注释，注释直接被忽略而不作任何处理。

l 转义字符。文本中出现的形如“&#nnn”或“&xxx”（末尾可能有附加的字符“;”）的，分析器将其作为转义字符处理，查找相应对照表后将对应字符添加入正文中。

8.2 页面中正文的提取

尽管URL已经被预测为和主题相关，但此URL所指向的实际页面却可能与预测结果相差甚远，这就导致了采集到的页面有相当大一部份与主题无关，因此，我们需要对页面进行主题相关性判断，通过判断结果过滤掉无关页面，从而提高整个数据集中页面与主题的平均相似度值，或者说提高基于主题的Web信息采集的准确率。

为此，我们需要在页面分析时提取出页面中的正文。页面的正文提取方法较简单。正文和标记都作为独立的语法成分传递给标记层，标记层根据标记区分出页面标题和内容，并根据系统需要合并出页面的正文。目前还未考虑不同字体或字型的正文的差别。也就是说，在读取页面时，找到标记<body>和</body>，将这两个标记中间的内容去除其中的所有标记即可。

8.3 页面中链接的提取

对抓取到的页面需要分析其中的链接，并对链接中的URL进行必要的转换。首先判别页面类型，显然只有类型为“text/html”的页面才有必要分析链接。页面的类型可由应答头分析得出，有些WWW站点返回的应答信息格式不完整，此时须通过分析页面URL中的文件扩展名来判别页面类型。遇到带有链接的标记如<A>、<AREA>、<FRAME>等，就从标记结构的属性中找出目标URL，并从成对的该标记之间抽取出正文作为该链接的说明文字(扩展元数据)。这两个数据就代表了该链接。

对一个页面中的链接提取工作流程如下：

1) 从页面文件队列中取出一个页面文件，如果应答头中未说明文件类型，根据URL中的文件扩展名补充完整。如果页面文件队列为空，跳转到7)。

2) 判断页面是否为text/html/htm/shtml文件，如果不是，抛弃此文件，转入1)，否则转入3)。

3) 从文件头按顺序读取文件，遇到如下标记<a href=……> <area href=……> <base href=……> <frame src=……> <img src=……> <body background=……> <applet code=……>等，记录其中的URL连接。如果遇到文件结束符，则跳转到7)

4) 将提取出来的URL链接按照预先定义的统一的格式补充完整。(页面链接中给出的URL可以是多种格式的，可能是完整的、包括协议、站点和路径的，也可能是省略了部分内容的，或者是一个相对路径)

5) 记录下<a href=……> <area href=……> <base href=……> <frame src=……> <img src=……> <body background=……> <applet code=……>等后面对此链接的说明信息。在URL与主题的相关性判定那一章中，我们要用到此信息，并把它定义为扩展元数据。

6) 存储此URL及其扩展元数据，跳转到2)。

7) 页面URL提取完毕。

此算法中，不但提取了已采集页面中的URL，并且同时提取了每个URL的扩展元数据信息，在下一章，我们将看到对扩展元数据的应用。

8.4 页面中标题的提取

如图8.1所示，页面中标题的提取分为三步：1).判断正文开始的位置，从文章开头开始，逐段扫描，直到某一段长度不小于设定的正文最小长度，就假定这段为正文中的一段。2). 由正文位置向前搜索可能是标题的一段，根据字体大小、是否居中、颜色变化等特征找出最符合的一段文字作为标题。3). 由所给参数调整标题所在的段，使标题提取更准确。句法、语义、统计分析标题段stTitlePara的前后几段，以准确确定标题段的真实位置；向前或向后调整几段，追加前一段或后一段。

判断正文开始的位置

由正文位置向前搜索可能是标题的一段

由所给参数调整标题所在的段，使标题提取更准确

标题

图8.1页面中标题的提取

第九章 URL、页面与主题的相关性判定

在基于主题的Web信息采集系统中，最核心的问题就是对从页面分析中得到的URL和这些页面进行主题相关性判定。

从已经采集到的页面中得到的URL很多，其中有相当一部分并不相关于待采集的主题。为了能够在采集的同时能够有效地剪枝，我们需要对已有信息进行分析，预测出URL所指向页面的主题相关度，并对不相关的URL进行剔除。因此，我们也把URL与主题的相关性判定叫做URL过滤或URL预测。根据主题页面在Web上的分布特征Sibling/Linkage Locality，直观的想法是用已采集到页面的主题去预测此页面中链接所指向的页面主题。也就是说，如果本页面与主题相关，则页面中的链接(不包括噪音链接)都被预测为与主题相关，这显然存在着相当大的误预测。进一步的研究发现，每个链接附近的说明文字(例如 anchor信息)对此链接所指向的页面主题有着相当高的预测能力，对预测为相关的链接有很高的准确性。但问题是由于说明文字的信息有限，往往会漏报许多主题相关的链接，或者说在提高了URL预测的准确率的同时，降低了URL预测的召回率(资源发现率)。为了缓解这一问题，我们在预测算法中又加入了由链接关系所决定的链接重要程度这一概念，通过发现重要的链接，在降低相关性判定阈值的同时，选进一些相关度不高但重要性高的链接作为预测，以此来提高召回率，同时又较少的降低了准确率(重要URL往往能够带来更高的召回率)。为此，我们在扩展元数据判定和链接分析判定的基础上，提出了自己判定算法IPageRank方法。

为了进一步提高采集页面的准确率，我们对采集到的页面进行了主题相关性判定，并通过计算此页面与主题的相关度值是否小于判定为相关的阈值来对页面进行剪裁。我们也把页面与主题的相关性判定叫做页面过滤。基于主题的Web信息采集的一个目标就是找到采集的准确率和召回率的最佳结合点。但采集的准确率和召回率(或资源发现率)却是一对矛盾问题，也就是说，在提高准确率的同时，就会降低召回率；反之，提高了召回率，就会降低准确率。一个解决这对矛盾的有效办法就是：先提高采集页面的召回率，也就是降低URL过滤时的阈值(增加无关误判，减小相关误判)，使较多的URL进入采集队列被采集；然后在采集到后进行页面与主题的相似度比较，去除无关页面。这样就获得了较高的最终采集准确率和采集召回率。最终，我们选择了经典的向量空间模型对页面与主题之间的相关度进行计算。

下边，我们分别具体论述我们系统中采用的URL与主题的相关性判定算法和页面内容与主题的相关性判定算法。

91 URL与主题的相关性判定 ——IPageRank算法

我们在权衡了性能和效率后，选在了利用扩展元数据加权的IPageRank算法来进行URL与主题的相关性判定。

9.1.1 IPageRank算法的目标

通过观察我们发现：尽管PageRank方法对发现重要页面有很强的能力，但是它发现的重要页面是针对广泛主题的，而不是基于一个具体的主题。因此，一个被大量无关于主题的页面群指向的页面的PageRank值就比一个由少量相关于主题的页面群指向的页面的PageRank值高，这个现象对基于主题的采集来说是不合理的。但是，对于一个被大量相关于主题的页面群指向的页面的PageRank值高于一个由少量相关于主题的页面群指向的页面的PageRank值这个现象来说，我们却要加以利用。为此，我们对PageRank方法进行了改进：在链接关系的基础上，加入一定的语义信息权重，以使得所产生的重要页面是针对某一个主题的，这就形成了IPageRank算法。

9.1.2 IPageRank算法的产生过程

改进的方法主要有两个方面。第一，是对算法中的公式进行改进；第二，是对PageRank算法的启发式步骤进行改进。

9.1.2.1对PageRank公式的改进

首先让我们再看一下PageRank算法的公式：

公式9.1

其中A为给定的一个网页，假设指向它的网页有T1，T2，…，Tn。令C(A)为从A出发指向其它网页的链接数目(当把Web看作一个有向图时，C(A)就是指节点A的出度)，PR(A)为A的PageRank值，d为衰减因子(通常设成0.85)。

然后再让我们回顾一下RW算法公式9.2和RWB算法公式9.3：

公式9.2

在公式9.2中，M(url)指与此URL相关的所有扩展元数据集合，是指扩展元数据中的一个词与主题的相关度。c为用户设定的相关性阈值。

公式9.3

在公式9.3，中T(url)表示包含这个URL的文本，t指文本中的每个词，c与前面一样，为用户设定的相关性阈值，d为用户设定的提升阈值。P₁，P₂为随机变量，它们在0和1之间变化。

我们发现公式9.1中每一个指向页面A的页面T_i，它的重要度平权地传给了此页面中每一个链接指向的页面，也就是说只有1/C(T_i)的页面重要度传递给了页面A。我们认为，对基于主题的重要性来说，这是不合理的。页面的重要性值IPageRank，在通过链接传递时不应该是平权的，而应该是跟链接连接到的页面主题相关度高低成比例的。因此，我们这样修改公式9.1：

公式9.4

其中，A为给定的一个网页，假设指向它的网页有T1，T2，…，Tn。url_T1，url_T2，…，url_Tn分别是网页T1，T2，…，Tn指向A的链接， k1，k2，…，kn分别是网页T1，T2，…，Tn中所含的链接数。IPR(A)为A的IPageRank值，d为衰减因子(也设成0.85)。

通过实验发现，基于扩展元数据的RW算法，尽管判断为相关性页面的准确性很高，但是漏判的相关性页面数量也很高。这样的结果使得判断为相关的页面过少，参加评判IPageRank值的页面数较低，从而会较大的影响IPageRank值的准确性；同时，也会导致相关主题页面的召回率(或者说资源发现率)过低。而基于扩展元数据RWB算法则增加了主题页面的召回率，同时由于提取出的URL较多而增加了IPageRank值的准确性。为此，我们在下面的公式中用基于扩展元数据的RWB算法代替RW算法。

公式9.5

为了区别这两种方法，我们分别称它们为IPageRank-RW算法和IPageRank-RWB 算法。在不加区别时，我们把它们都称为IPageRank算法。

9.1.2.2对PageRank算法的启发式步骤进行改进

在公式9.1中计算每个页面的PageRank值时，启发式步骤中初始化每个页面的PageRank值都相同(为1)，这是因为PageRank方法反映的完全是一种链接关系，它不带有任何语义方面的含义，每个页面只能看作是平权的，初始条件下没有某页面比另一页面更好、某个主题比另外一个主题更优的说法。而对于基于主题的IPageRank算法来说，初始条件下是能够根据与主题的相关性区别每一页面的，这种区别好于不区别。另外，这些初始页面都已经被采集了，它们与主题的相关性可以通过向量空间模型VSM或者扩展元数据算法来计算。因此，我们初始化每个页面的IPageRank值为此页面与主题的相关度。

9.1.3 IPageRank算法的使用方法及对URL预测的可实施性

PageRank算法主要是通过叠代计算一个封闭集中每个页面PageRank值的大小，对搜索引擎检索出来的结果页面重新排序，PageRank值的作用是将重要的页面排在前面。而IPageRank的使用则有所不同，首先IPageRank值的计算也是在一个封闭集合中进行，这个封闭集就是已经采集了的相关主题页面集；算法也是叠代5次左右就停止；并且为了更加准确地得到IPageRank值，一般每增加100页重新计算一遍IPageRank值。，但是，IPageRank值用来预测这个已采集页面集中提取出来的URL的主题相关性，预测方法就是直接通过公式9.4或者公式9.5。

这种使用方式的不同给PageRank和IPageRank带来两点不同：第一，各页面PageRank值一般在叠代5次以内即可收敛(已有人证明)，而IPageRank的叠代值由于对公式的改变并不能证明将这一收敛特性继承过来，所以是否收敛目前还不能完全确定的，尽管直觉上感觉是收敛的。显然，这是一个严重的问题，如果不收敛，则IPageRank值并不能准确地反映页面的重要性，从而使得它对URL的预测没有太大意义。第二，PageRank的计算环境是封闭的，应用环境也是封闭的。而IPageRank方法是用已有的页面IPageRank值去计算新的URL的IPageRank值，这种环境不是完全封闭的。问题在于这种不是完全封闭性会不会也导致不能反映URL的重要性而失去方法存在的意义。

我们做如下解释以说明IPageRank算法仍然有效。对于第一个问题，就算IPageRank不能收敛，我们认为叠代五次后的值也非常接近真实值，这样就能起到对待采集页面的预测作用；对于第二个问题，尽管IPageRank的计算环境不是完全封闭的，但相对有较多的已采集页面来说，这种环境的变化是可以忽略的，是与PageRank的环境非常相似的。因此，我们认为IPageRank算法是可行的，可以用来预测待采集的URL队列。

9.1.4 IPageRank算法的直观解释

假设Web上有一个主题浏览者，IPageRank(即函数IPR(A))是它访问到页面A的概率。它从初始页面集出发，按照页面链接前进，从不执行“back”操作。在每一个页面，浏览者对此页面中的每个链接感兴趣的概率是和此链接与主题的相关性成比例的。当然浏览者也有可能不再对本页面的链接感兴趣，从而随机选择一个新的页面开始新的浏览。这个离开的可能性设为d。

从直观上看，如果有很多页面指向一个页面，那么这个页面的PageRank就会比较高，但IPageRank值不一定很高，除非这很多的页面中大部分都为与主题相关的页面；如果有IPageRank很高的页面指向它，这个页面的IPageRank也会很高。这样，从“基于主题的浏览者”模型出发的IPageRank函数就在直观上同WEB上的实际情形相对应了。如果有很多主题页面指向一个页面的话，那么说明这个页面值得观看；如果一个重要的主题资源中心引用了一个页面的话，这个页面也是比较重要的，值得观看。

实际上，IPageRank算法不光能使用与基于主题的信息采集，我们认为，在领域搜索引擎中，它对基于关键词的检索的排序也有很好的效果。

9.2 页面与主题的相关性判定——向量空间模型算法

我们采用了检索领域非常常用的向量空间模型作为我们系统页面与主题之间的相关性判定方法。实际上，向量空间模型的处理能力较强而且处理方法也较简便。

我们的算法如下：

0).预处理：在采集之前，我们先将描述主题的多个页面进行关键词的提取和加权，学习到属于该主题的特征向量及向量的权重。

1).我们对页面的正文进行分词，除去停用词，留下关键词。并按照关键词在文章中出现的频率，对关键词加权。

2).将此页面的标题分词，并将得到的关键词与文章中的关键词合并，并加重权于这个关键词上。

3).根据主题中的特征向量对页面中的关键词进行修剪和扩充。

4).根据公式9.3计算出页面与主题的相似度其中D₁为主题，D₂为待比较的页面。

公式9.6

5).根据Sim(D₁,D₂)值的大小和阈值d进行比较，如果Sim(D₁,D₂)大于等于d，则页面与主题相关，保留到主题页面库中；否则不相关，删除此页。

2023-selenium 实现知乎自动登录（第三方登录/使用cookie自动登录）+指定用户的信息相关搜集（2023.3） irontys selenium python chrome
目录零、写在前面一、自动登录：数据采集前，个人账号应通过程序自动登录，若遇到验证码可在程序中手动输入并继续登录二、指定用户基本属性信息采集三、社交关系信息四、动态信息（一）本文在多线程加速方面做了许多尝试：1.所有的信息处理按顺序执行缺点：2.将所有的信息处理统统并行(X)（1）缺点3.提问信息和其他信息搜集两个线程并行五、监控信息变化六、可视化：以Web形式较美观的展示采集到的数据附录（一）使用
基于单片机的光照强度及温湿度采集系统电气_空空毕业设计单片机单片机嵌入式硬件毕设 51单片机
摘要：针对自然田间作物生长环境监测需求，设计实现了基于单片机的采集环境光照强度及温湿度的信息采集系统。系统采用光敏传感器、温度、湿度传感器分别对光照强度、温度、湿度采集，使用液晶屏显示数据，并通过蓝牙实时传输数据到手机进行监测。测试表明，系统可采集光照、温湿度三种数据，通过单片机设置和手机控制两种方式均可实现单片机调整温湿度上、下限阈值，实现了数据的实时监测。关键词：单片机；光照强度；温湿度；蓝牙
个战课程新一轮的结业雪儿_27
历经一个多月，又陪学员走过了个人战略课程～这一个月里，我们一起讨论，一起前进，都收获了不一样的惊喜，祝贺我们结业啦！谢谢你们的支持和鼓励，我们取得了不错的成绩，你们好棒！谢谢你们，致B18跃起动力组的小可爱们：谢谢你们的陪伴和支持，我们取得了很棒的成绩。符老师，这一个月以来，辛苦啦！感谢您一直以来的认真负责，为小组付出了很多，不管是作为组长、组织委员、信息采集员，你的每个角色都做的非常完美。能够感
A股晚间重要利好、利空公告汇总：上市公司成拆迁户获过亿补偿款股海先驱者
个股利好龙津药业：收到与收益相关的政府补助资金共4,968,000.00元，占公司最近一个会计年度经审计的归属于上市公司股东净利润的35.82%。中标&协议利好中国建筑：近期获得249.8亿元人民币重大项目，占18年营收2.1%。三星医疗：公司晚间公告，近日，公司及全资子公司三星智能在“国家电网公司2019年第二次电能表及用电信息采集设备”及“国家电网公司2019年第三次充电设备物资”的招标活动中
【旧文更新】【优秀毕设】人脸识别打卡/签到/考勤管理系统（OpenCV+最简基本库开发、可移植树莓派扩展网络图像推流控制验证码及Excel邮件发送等功能）网易独家音乐人Mike Zhou opencv 嵌入式 iot 物联网人工智能计算机视觉树莓派
【旧文更新】【优秀毕设】人脸识别打卡/签到/考勤管理系统（OpenCV+最简基本库开发、可移植树莓派扩展网络图像推流控制验证码及Excel邮件发送等功能）文章目录关于旧文新发毕设结构主页面验证码识别效果管理页面人脸信息采集管理实时数据更新签到结果邮件发送网络前端效果实时图像推流附录：列表的赋值类型和py打包列表赋值BUG复现代码改进优化总结py打包附录：关于旧文新发关于旧文新发为何要进行旧文新发？
STM32电源管理实现低功耗物联网攻城狮 stm32开发 stm32 嵌入式硬件单片机
STM32电源管理简介电源对电子设备的重要性不言而喻，它是保证系统稳定运行的基础，而保证系统能稳定运行后，又有低功耗的要求。在很多应用场合中都对电子设备的功耗要求非常苛刻，如某些传感器信息采集设备，仅靠小型的电池提供电源，要求工作长达数年之久，且期间不需要任何维护；由于智慧穿戴设备的小型化要求，电池体积不能太大导致容量也比较小，所以也很有必要从控制功耗入手，提高设备的续行时间。STM32有专门的电
电商控价电商产品价格监控价格信息采集商品数据收集API接口懂电商API接口的Jennifer 淘宝API接口 1688 API 接口电商API知识分享数据挖掘数据库爬虫大数据人工智能
电商行业发展至今带来了许多机遇，但同时也伴随着一些挑战。品牌电商在运营过程中，面临着诸如乱价、低价、窜货和假货等问题，这些问题不仅损害了品牌的形象和价值，也破坏了市场秩序，侵害了消费者的权益。电商控价是解决这些问题的有效手段之一。通过控价，品牌方可以规范市场价格体系，防止乱价和低价销售，确保产品的定价策略得到贯彻执行。这不仅能够维护品牌的形象和价值，还能够保障消费者的利益，提高消费者对品牌的信任度
基于单片机的造纸纸浆液位控制系统结构设计电气_空空毕业设计单片机嵌入式硬件
摘要:为适应无人化与高效化制浆造纸生产体系，造纸企业趋于以嵌入式技术优化造纸过程中的纸浆液位控制系统，以单片机与传感器相互耦合实现纸浆液位控制。本文基于单片机设计了造纸纸浆液位控制系统，其结构由控制模块、信息采集模块、物联网模块、执行模块构成，且融合了单片机程序，渗透了物联网技术。结果发现，此系统基于人机交互不仅可直观呈现纸浆液位信息于可视化页面，还可通过手机端远程控制纸浆液位高度;此系统可确保纸
毕业生信息采集｜感恩日记D237 Amy宝宝
文/Amy图片发自App2019.9.22237/338感恩已有，真爱自己。1.感恩自己创造的不可思议的今天。今天最棒的一件事就是程序结果出来了。太赞了~感觉最近一段时间被程序折磨崩溃，觉得好久好久…今天做本周复盘，才发现也没多久，刚刚一周的时间，自己就感觉像经历了很久很久~所以说感觉会骗人，痛苦会被放大。深处痛苦中的时候，就试着让自己逃离，本周阅读时间特别多…赞。为自己今天出成果点赞，上午时候还
2024年第九届计算机与通信系统国际会议（ICCCS2024） ,邀您相约西安！爱科会易计算与通信技术大数据软件工程计算机网络
会议官网:ICCCS2024|Xi'anChina时间:2024年4月19-22日地点:中国西安会议简介：近年来，信息通信在不断发展，为计算机网络的进步与发展提供了先进可靠的技术支持。随着计算机网络与通信技术的深入发展，计算机通信技术、数据库技术广泛应用于信息服务领域，计算机技术在信息时代发挥着至关重要的作用，并有利于信息采集、信息处理、信息存贮和信息的传输与利用等方面的自然信息功能综合起来，从而
智慧工地可视化综合管理云平台 PC+APP 源码技术栈智慧工地云平台源码 java 智慧工地智慧工地信息平台 APP 微服务架构
目录一、智慧工地可视化数据大屏功能一览1.首页2.视频监控3.机械设备4.环境监测5.安全管理6.质量管理7.劳务分析8.进度管理9.报警统计二、项目人员管理1.信息管理2.信息采集3.证件管理危大工程管理一、智慧工地可视化数据大屏功能一览包括：首页、视频监控、机械设备、环境监测、安全管理、质量管理、劳务分析、进度管理、报警统计。1.首页劳务信息、实时报警列表、工程进度、PM浓度、隐患、竣工时间、
基于PLC远程网关的智慧农业远程监控系统解决方案蓝蜂物联网物联网云平台物联网 plc
基于PLC远程网关的智慧农业远程监控系统解决方案一、现代农业发展趋势随着乡村振兴战略的实施和农业现代化进程加快，智慧农业的发展势头强劲。政府大力推动农业科技创新，并通过政策扶持和社会资本投入促进智能农机设备、农业大数据平台、无人农场等新型模式广泛应用。东北粮食主产区的智能化育种、无人驾驶农机以及农田信息采集系统的应用，显著提升了粮食产量和品质，减轻了农民劳动强度，优化了生产条件。一方面，智能农机具
抓防控，配合社区全检测心平气和断舍离
领导每天和社区对接，目前社区检减准备工作己铺开，办事处正组织对帮扶单位信息录入培训，建北社区明天正式开始核检。应对这种大型公共卫生检测活动我们是第一次，我们在社区组织走流程，熟悉程序。我们的任务是信息登记采集录入及现场维持秩序，检测的目的是有病毒早发现，预防感染。参战同志们也清楚，信息采集录入要认真负责，维护好一米线距离，防止扎堆聚集，做好群众工作，防止产生矛盾。天气很冷，采集现场沒暖气，只有告诉
「线上分享」基于AMD MPSoC的AV over IP创新解决方案 LiveVideoStack_ tcp/ip 网络协议网络
ProAV系统是利用视音频进行信息采集、传输、处理、呈现，以及人机交互等的信息技术，是处理和呈现信息提供帮助的一种信息系统的统称。ProAV系统应用较为广泛，在会议交流、监控指挥、文化演艺、军事培训等领域得到应用，成为提升信息传输质量、提升工作效率的有效手段。随着行业的不断发展，更多的挑战随之出现。不同的设备有不同的接口和不同的协议。反复讨论对比后，伟乐科技选择了AMDMPSoC器件来构建基于IP
《触不可及》观后感李夏科_2020强化班
劳动节的早上拍了毕业生信息采集的照片，这是在大学的最后一年了，我感觉我自己还是个新生，心情很复杂。晚上和室友们一起看了一部法国电影《触不可及》。《触不可及》这部电影是根据一个真实故事改编的，电影悲中带喜，让人感觉不那么压抑。这个电影的主题是每个人都应该有自己的生活方式，即使是一个残疾人，他也有自己的权利和自尊，应该被所有人平等的看待。在这部电影里面，没有太多的勾心斗角，更没有什么苦情恋，最真实的展
2022-06-17 落叶随风352
中考招生管理助手中考招生工作是义务教育的最后一个环节，关系到广大考生的切身利益，无疑是一项重要工作。随着信息技术的应用与迅速发展，为中考招生工作带来了新的挑战。从考生信息采集到考生录取是一个复杂长期的过程，其中考生信息的分布与异构、考生数据的处理与共享、网上信息发布、实时数据统计、历史数据处理等，都是招生工作重要问题，因此，开发一个行之有效的招生管理系统是十分必要且重要的。在中考招生管理中，各类文
基于Python 网络爬虫和可视化的房源信息的设计与实现叫我：松哥 python 爬虫人工智能
摘要一般来说，在房地产行业，房源信息采集，对企业来说至关重要，通过人工采集数据的方式进行数据收集，既耗时又费力，影响工作效率，还导致信息时效性变差，可靠性偏低，不利于数据分析和决策，而且不好去准确统计目前房地产的存量，往大的说，不利于国家进行房地产宏观调控，往小了说不利于企业和业主快速完成房源交易，降低了交易的频次。而快速获取一个好的房源信息要比找到一个客户更重要，因为一个好的房源信息背后隐藏很多
C51 单片机学习（一）：基础外设 Robot_Yue C51单片机学习 51单片机 LED 独立按键数码管矩阵键盘 LCD1602 STC89C52
参考51单片机入门教程1.单片机简介1.1定义单片机（MicroControllerUnit，简称MCU）内部集成了CPU、RAM、ROM、定时器、中断系统、通讯接口等一系列电脑的常用硬件功能单片机的任务是信息采集（依靠传感器）、处理（依靠CPU）和硬件设备（例如电机，LED等）的控制单片机跟计算机相比，单片机算是一个袖珍版计算机，一个芯片就能构成完整的计算机系统。但在性能上，与计算机相差甚远，但
网格日志倾听你的心事
从2019年1月份开始，观海卫镇的各大街道上，出现了身穿蓝马甲的“蓝精灵”，他们是谁？是干什么的？他们是观海卫镇的网格员，他们对常住人口及外来人口进行信息采集工作，排查商事主体的安全隐患等。今天让我们走进网格员，看看他们是怎么工作的。早上8点，网格员蒋逸像往常一样，在上横街村签到后，就到自己的网格里巡查。第一站到达小企业里，进行安全生产大排摸，主要排摸，有无涉“化”。到了一家小企业，发现有氧气瓶，
12-28记录这打仗的一天相逢在夏天
躲得过2020年新冠大爆发，逃得了2021年上海几次疫情起伏，也避开了主业出差酒店核酸需求。。。终究在2021年年末，要面对它了，体验核酸检测的酸爽。前一晚老板发通知说今夜注定无眠，我在他说无眠前十分钟关机睡觉了，没看到保持手机畅通的消息，所以漏填了信息采集表，被几个电话梦里追。早上5点闹钟响，被子里填表回复消息。挣扎了1分钟，起床准备晨练。心里明明白白的知道接下来等待我的是疾风暴雨。像是“罪人”
北斗卫星为测绘行业的带来的应用突破 QXWZ_IA 大数据
北斗卫星为测绘行业带来的应用突破北斗卫星是中国自主研发的卫星导航系统，是我国在全球定位领域取得的重大突破之一。北斗卫星系统经过多年的发展，已成为世界上最大的卫星导航系统之一。其在测绘行业的应用，为地理信息科学的发展带来了巨大的影响。北斗卫星系统采用了多星多频技术，不仅具备全球覆盖的能力，还能提供高精度、高可用性的定位服务。在测绘领域，北斗卫星系统为地图绘制、地理信息采集和空间数据处理等环节提供了强
Java+Spring Cloud +Vue+UniApp微服务智慧工地云平台源码源码技术栈智慧工地云平台源码 uni-app 微服务架构智慧工地智慧工地管理智慧工地平台源码
目录智慧工地云平台功能【劳务工种】所属工种有哪些？1.管理人员2.信息采集3.证件管理4.考勤管理5.考勤明细6.工资管理7.现场统计8.WIFI教育9.课程库管理10.工种管理11.分包商管理12.班组管理13.项目管理智慧工地管理平台是以物联网、移动互联网技术为基础，充分应用大数据、人工智能、移动通讯、云计算等信息技术，利用前端信息采通过人机交互、感知、决策、执行和反馈等，实现对工程项目內人员
科技赋能防疫——社区疫情防控平台简述 TWaver数字孪生可视化软件可视化大数据
时至2月底，大家也陆陆续续地复工了，不过疫情还远未结束，大家外出还是要做好防护。个人防护之外，我们今天来说一说跟每个人都息息相关的社区防疫。社区防疫在这场没有硝烟的战争中起到了巨大的作用，各地小区的封闭管理、进出控制、测温消毒等措施有力地控制了疫情的扩散和蔓延。但是，在这背后，面临的是社区人手、物资缺乏、管理措施贯彻困难、人员信息采集缺漏等问题。为了解决这些问题，依托云平台、三维可视化、移动端应用
爬虫数据采集的需求大吗？python爬虫数据采集的重大意义 duomi6666 爬虫 python 开发语言
爬虫数据采集的需求大吗？python爬虫数据采集的重大意义爬虫数据采集的需求大吗？随着信息化时代的飞速发展，互联网科技在人们的生活，学习和工作的发展中起着越来越重要的作用和影响。随着互联网的广泛使用，越来越多的用户数量随之增加，过去许多技术已经不能满足现代人的个性化需求。当大众需要大量的数据作为参考和依据时S113399Y，网站信息采集技术在网络爬虫中的实际应用，为网站信息采集技术的应用效果提供了
linux 农业分析,基于嵌入式Linux的农业信息采集系统设计与研究专注课程教学 linux 农业分析
摘要：精准农业是现代化农业发展的方向,将嵌入式数据采集技术应用到农业生产过程中,既可以节省人力物力成本,还可以提高农作物产量和质量,减少农药污染和提高生产效率.在精准农业生产过程中,需要采集和监测农作物生长过程中的数据进行决策.为了实现农业生产过程中的信息采集,本文主要研究农业生产信息的采集,传输和控制,并设计了一套基于嵌入式Linux系统的农业信息采集系统.针对农作物生长过程中的关键数据信息采集
农田环境信息采集与远程监测系统 YYtianhe17 物联网
TH-NQ14随着科技的不断进步，农业也正在经历一场革命。农田环境信息采集与远程监测系统作为这场革命的核心技术，正在改变我们对农业生产的认知和实践。农田环境信息采集与远程监测系统通过集成了传感器技术、无线通信和数据分析等技术，实现了对农田环境的实时监测和数据采集。这一系统能够连续不断地收集农田的温度、湿度、光照、土壤养分等环境信息，并将这些数据传输到远程的监控中心。通过这些数据，农民可以更好地了解
成长日记2022年8月27日易如人生
早晨不到八点下楼做核酸，但是信息采集系统不知道怎么回事不是崩溃就是特别慢，折腾了好长时间才恢复，十一点来钟开车去姥爷家，待了一个多小时送闺女去延吉道的一个烤肉店和王胤晨汇合，下午去比亚迪店里看了看车，回到家打算睡一觉，烁烁这小子说什么也不睡，五点半邢大爷接我们去找小郑吃饭
VulnHub-Lord Of The Root_1.0.1-靶机渗透学习嗯嗯呐 linux mysql 运维 base64 ubuntu
靶机地址：https://www.vulnhub.com/entry/lord-of-the-root-101,129/靶机难度：中等（CTF）靶机描述：这是KoocSec为黑客练习准备的另一个Boot2Root挑战。他通过OSCP考试的启发准备了这一过程。它基于伟大的小说改制电影《指环王》的概念。目标：得到root权限&找到flag.txt作者：嗯嗯呐一、信息采集nmap扫描确定靶机IP地址扫描
（赠源码）java+springboot+mysql 行业信息采集管理系统22528-计算机毕业设计项目选题推荐 bysjlw985 java spring boot mysql node.js python flask php
目录摘要第1章绪论1.1研究背景1.2研究意义1.3论文结构与章节安排第2章相关技术.......2.1开发技术2.2Java简介2.3MVVM模式2.4B/S结构2.5MySQL数据库2.6SpringBoot框架介绍第3章系统分析63.1可行性分析63.2系统流程分析63.3系统功能分析83.4系统用例分析103.5本章小结11第4章系统设计124.1系统架构设计124.2系统功能模块设计13
2022.7.16 蒋易唐
为自己的演讲疯狂模拟期间到物业录了人脸识别，只能专注做一件事的我，觉得这十分钟的信息采集对我都是一个精力分散
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key