叶赫那拉赫敏

如何从代码层提高产品质量

本文的主题是如何从代码层提高产品质量，目前基本的方法是通过静态代码扫描和二进制文件扫描，获取产品代码的漏洞，本文在此基础上，对获取的产品代码漏洞进行了深挖探索。

本文主要从4个方面说明

1.产品代码漏洞检查的背景和方法

2.代码漏洞的搜索深挖技术

3.提高产品质量的方法

4.总结与展望

产品代码漏洞检查的背景和方法

why-为什么要检查产品代码的漏洞

一般情况下，产品质量的问题多数与程序代码相关。比如银行软件出现漏洞，导致十几个客户信用卡被盗刷。2003年阿丽亚娜5型火箭升空爆炸造成5亿美元的损失。由于电控系统的软件问题导致大面积停电事故，给交通，通信，居民生活造成严重影响等等，都是和产品代码相关。代码的漏洞检查与分析可以帮助用户从根源上减少70%-80%的产品崩溃和安全性问题。只有代码中的崩溃和安全缺陷得以及时消除，最终形成的产品才能具备较高的质量，有效降低整个产品风险。

when-什么时候检查产品代码的漏洞

在产品开发测试发布过程中，流程越往后，漏洞造成的影响越大。漏洞发现的越早，修复成本越低。

如下图中红色的曲线，横坐标是产品发布流程，纵坐标是修复缺陷成本，可以看出，在测试阶段，修复成本比较低，在产品发布之后，修复成本是成指数增长的。

所以在产品测试阶段，最好把产品代码中的漏洞都检查出来。那怎么对产品代码的漏洞进行检查。

how-检查产品代码漏洞的方法

现阶段一般有2种方法，而且这2种方法我们团队已经实现了。

一种是源代码的漏洞扫描与检查，主要方法是对编码规范的检查，常见的编码规范有4类，分别是错误类，安全类，禁用类和建议类，具体内容详见下图。自定义代码规范的制定与实时更新，根据具体业务场景的代码规范的制定等等方法都能很好的检查出产品代码的漏洞。

1000×546 46.3 KB

另外一种是对二进制文件的漏洞扫描与检查，比如google提供的veridex工具，可以扫描非法API调用，该工具将非法API分了3类。

971×612 34.6 KB

深度挖掘产品代码漏洞的方法

通过上面介绍的2种方法，只能对特定代码或二进制进行检查，但是对产品，乃至整个公司的代码仓库，隐藏的bug却是惊人的。

此外，经过调研发现，国外也有类似的研究，NASA，microsoft等机构已经利用代码搜索技术，发现了多个0日漏洞。

代码漏洞的搜索深挖技术

1. 代码搜索的问题和挑战

主要是6个困难点，如下图所示。代码特征的确定，搜索速度慢，代码信息量太少，不好定位漏洞。代码入库非常缓慢，过滤条件不好兼容，数据量大，搜索数据量高达千万级代码文件。

1080×635 107 KB

针对这些问题我们做了一序列的优化和改进。

2.代码搜索的技术架构

主要是5部分，如下图所示。python后台部分用于增量更新数据源信息和实时更新索引。正排数据源，主要采用mysql数据库，包括表结构的设计，索引和分表设计等。Sphinx实时分布式索引，用于提供索引创建服务和搜索索引服务等。Php+nginx服务端部分，为前端提供接口服务。前端部分，用于展示搜索结果和后台管理等。

808×637 39.2 KB

3.代码搜索的服务端

代码搜索的服务端为前端或其他系统提供API接口，一共有6大模块，包括搜索模型，登录模型，校验模型，用户模块，日志模块，代码review模块。数据库为上述6大模块提供数据支持。

4.代码搜索的后台

大致分为3层，最下面一层数据来源层，支持svn和git的代码仓库，来源包括qbuild系统和授权系统，获取代码日志，增量下载文件，最后存储在数据库中。

索引层主要是从数据源中获取文档信息，然后经过分词模型，倒排索引算法，将索引存储在文件系统中。服务层主要是sphinx索引工具提供的索引服务，通过排序，获取索引文档信息后，从正排数据库中拿到文档全部信息，返回结果数据。

5.数据源增量入库方案

代码搜索的困难点之一的是数据源入库非常慢，针对这个问题，我们有如下的优化方案，数据源的增量入库方案。

1080×180 50.8 KB

主要是8个步骤，分别是从qbuild或授权系统获取代码地址，获取当前代码地址的提交日期，根据提交日期获取代码提交日志，通过解析日志，获取增量文件列表。然后每个文件进行下面的处理，先进行去重判断，然后下载该文件，再进行去重判断，存储在数据源中，经过分词工具，最终实时存储索引。

这个过程比较长，但是分解到每一步，却比较容易实现，比如获取代码提交日志和代码文件下载，svn对应的命令可以参考如下。

svn log -r {0} --xml -v "{1}" --username "{2}" --password "{3}" --non-interactive --no-auth-cache --trust-server-cert> {4}
svn export -r {0} "{1}" "{2}" --force --username {3} --password "{4}" --non-interactive --no-auth-cache --trust-server-cert

在数据源增量入库方案中，有一个很大的问题需要解决，就是重复的问题。可以看一下，对于svn有路径包含重复的问题，下面那个路径是包含上面那个路径的，上面那个路径将会被入库2次。

http://svn.example.com/svn/testxxx/111/222/333
http://svn.example.com/svn/testxxx/111

Git也有相似的问题，分支重复，不同分支代码会有大量重复提交的记录。

http://git.example.com/root/11 分支：master
http://git.example.com/root/11 分支：v1.1

我们的去重方法是，针对svn，利用模块id+revision的方式，对于svn，同一个模块id下的revison是递增的，不会有重复问题。相应的，git是通过仓库id+提交sha1值去重的，对于同一个仓库，提交的sha1值是唯一的。

6.实时分布式索引技术

代码搜索系统遇到的另外一个困难是搜索太慢，为此我们引入了sphinx索引工具，为什么选择sphinx索引工具呢。该工具支持高达数十亿个文档，数TB的数据和每秒数千个查询。支持各种数据源，包括xml,sql,python等。支持结果的各种过滤聚合功能，快速高效的索引，应用场合广泛，比如维基百科，优酷土豆，github等。下图是今年的索引工具的排行榜，可以看到sphinx排在第5，受众范围广。

946×644 31.1 KB

① sphinx工具使用

Sphinx主要包括3个可用的工具，分别是index实时索引工具，主要是对数据源的数据进行倒排索引，并存储，使用命令如下，sphinx.conf是sphinx的配置文件。

/usr/local/sphinx/bin/indexer -c sphinx.conf code

Searchd搜索服务工具，php可以通过sphinx扩展，访问该服务，使用命令如下。

/usr/local/sphinx/bin/searchd -c sphinx.conf&

Search搜索工具，客户端搜索工具，可以用该工具测试索引的正确性，一般只是测试使用。

/usr/local/sphinx/bin/search -c sphinx.confmykeyword

可以看到这3个命令都用到了sphinx的配置文件，那么这个文件怎么配置。

② sphinx实时分布式的配置详情

一般情况下，最初会采用主索引和增量索引的方式，但是随着数据的增加，服务和运维都有压力，通过优化，我们最终采用实时分布式的方式。实时索引的好处有，代码索引无延时，没有额外的定时程序更新和合并索引服务，降低运维成本，提高搜索精确性和可靠性。分布式的好处有，资源利用率提高，搜索效率提高，搜索并发性提高等。

实时分布式的配置如下，第1个实时索引的配置，type是rt，也就是realtime，path表示该索引存储的位置，下面几行是字段的定义，rt_field就是需要索引的字段，rt_attr_uint和rt_attr_timestamp是索引字段的属性，一个是int类型，一个是时间戳类型。第2个配置是分布式配置，type是distributed,下面几行是分布式位置。第3个配置是索引服务配置，9312接口是提供索引服务的，9306是接收实时索引服务的，下面2行是日志位置。

indexcoderealtime
{	
	type = rt
	path = user/local/sphinx/indexer/files/coderealtime
	rt_field = content
	rt_field = filename
	rt_attr_uint = rpid
	rt_attr_timestamp = cdate
}
indexcodedistributed
{
	type = distributed
	local = coderealtime
	agent = localhost:9312:crt1
	agent = localhost:9312:crt2
}
searchd
{
	listen			= 9312
	listen			= 9306:mysql41
	log			= /user/local/sphinx/indexer/logs/searchd.log
	query_log		= /user/local/sphinx/indexer/logs/query.log
}

③ 代码搜索排序方法

代码搜索最重要的一个指标就是排序方法，本方案，主要从3个方面对代码结果进行排序，分别是词组评分，代码提交时间，和BM25算法。这3个指标中最重要的是BM25算法，下面简单的介绍该算法的实现方法，公式如下：

900×525 35.6 KB

Score(Q,d)是衡量某次query查询和文档的相关性计算公式，d表示当前文档,Q是query中所有的关键字集合，qi是其中的某个关键词，n是Q的长度，Wi是这个词的权重,R(q,d)是这个词和文档的权重。Wi默认是IDF值，N表示所有文档数，n(qi)表示包含该关键词的文档数，0.5是避免n(qi)为0的情况。大致的意思是关键词在所有文档中出现频率越多说明越普遍，就越不重要，权重越低。R(q,d)是这个词和文档的权重，大致的意思是某个关键词在该篇文档出现的次数越多，说明越重要。

Wi突出的全局的权重，R(q,d)表示的局部权重。举个通俗的例子，在图书查找过程中，比如[作者]这个词，几乎在所有书中都会出现，所以他的权重很低，[人工智能]这个词不常见，如果某个图书中经常提到人工智能这个词，大概率这本书再讲人工智能。BM25算法通过统计的方法，就能对代码进行合理的排序。

提高产品质量的方法

如何利用代码搜索技术提高产品质量，主要是2种方法。

第1种方法是结合业务督促开发修复代码漏洞，一方面根据前面介绍的检查产品代码漏洞的2种方法，根据这些检查出来的漏洞进行深度搜索，将产品和公司代码库中隐藏的漏洞都修复了，去除产品隐患，另一方面结合业务，比如某个函数实现有漏洞，可以根据函数名进行搜索，查看函数调用的模块，避免代码漏洞的扩散。

第2种方法是对产品代码的敏感词的检查，比如代码审计系统的敏感词和禁用api的检查，文件签名系统的敏感签名信息的检查等。

下面这个图是代码搜索的一个demo，主要有3部分构成，最上面是搜索输入，左边是过滤条件，包括时间，代码语言，归属人，代码仓库。右边是搜索的结果，主要包括文件名，仓库名，文件位置，版本号，提交日期和归属人，测试人员可以根据仓库和归属人信息找到对应的开发负责人，进而督促修复漏洞。

1080×497 57.3 KB

总结与展望

本文主要从3个部分阐述了如何从代码层提高产品质量，第一部分是产品代码漏洞检查的背景和方法，主要讲了检查产品代码漏洞的2种方法，即源代码漏洞扫描与检查、二进制文件漏洞扫描与检查，但是这2种方法只能对特定项目的代码进行检查，隐藏的bug量是巨大的，从而引出第二部分，代码漏洞的搜索深挖技术。第二部分是本文的重点，展开讲了代码搜索的技术方案及实现细节，第三部分从2个方面说明了如何利用代码搜索技术提高产品质量。

代码搜索系统能够快速定位问题，通过对细节的不断探索，搜索速度显著提升，搜索排序质量提高了，本系统辅助优化了产品代码质量。接下来，我们将从2方面进一步优化，分别是代码推荐结合代码语义上下文和AI的方法，进一步提升代码推荐的精确度，以及函数式的代码推荐。

微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
《在战“疫”中成长致敬生活》观后感梅子刘的刀
（作者：周晨）今天上午，我看了“我是接班人”网络大课堂《在战役中成长致敬生活》。有很多人拿出自己攒下的钱，默默地捐给了武汉，有几千块钱的、有几万块钱的，也有十几万块钱的。连小朋友也把自己的压岁钱捐给了武汉。有名环卫工人把自己五年的积蓄全部捐给了武汉。有名外卖小哥为医护人员买鞋子送吃的。还有已经治愈出院的新型肺炎病人捐了400毫升的血浆。还有位叫大树的叔叔，虽然他没有钱，但是他地里有蔬菜，捐了几大卡
EIO国际确定性的交易（3/10）资管，资金委托安全吗？古城鹏哥
大家可能都知道资金托管，账户是自己开，钱在自己的账户上，密码是由自己掌控，别人提不走你账户的资金，每天可以看下到自己的账户，也可以看到交易流水。现金只能提到自己的银行卡中。账户由技术人员或操作人员，或者是机构团队帮你操作账户，产生盈利和收入，以获得的利润来分配盈利，技术强硬和做的时间久了过硬技术团队，会保证你的资金本金，不会让你的本金亏损的按照一定比例分配收入。所以在这个过程当中一定要看清楚技术的
TDengine 签约前晨汽车，解锁智能出行的无限潜力涛思数据（TDengine） tdengine 汽车大数据
在全球汽车产业转型升级的背景下，智能网联和新能源技术正迅速成为商用车行业的重要发展方向。随着市场对环保和智能化需求的日益增强，企业必须在技术创新和数据管理上不断突破，以满足客户对高效、安全和智能出行的期待。在这一背景下，前晨汽车凭借其在新能源智能商用车领域的前瞻性布局和技术实力，成为行业中的佼佼者。前晨汽车采用整车数据采集和全车数据打通策略，能够实时将数据推送至APP端客户。然而，这导致整体写入和
中原焦点团队网络初中级30期阴丽丽坚持分享第三百八十八次2022.10.18分享约练次数（74）咨询师（6）来访者（53）观察者（15）阴丽丽
今天是忙碌的一天，一早起来，总想着找点把事情弄完，可总也弄不完。就这样弄着吧！孩子的事，自己的事都在那里搁置着，不想做，有点欧！今天总体还不错，只是在下午起床时走神了俩小时，也算是给自己的放松吧！今日难得1.儿子乖巧、听话，努力配合，一天下来也是忙忙碌碌，这真的很难得！2.儿子今天录的视频被班主任认可，这真的很难得3.我今天早上做核酸时，自己把教案整了一下，这真的很难得
“这才好”麻辣香锅能够增加人身体的免疫能力小补文知
我就来介绍一种香锅，那就是“这才好”麻辣香锅，它产出于著名的蜀地文化，具有悠久的历史土家风味，麻辣鲜香，健康安全。采用传统秘制麻辣香锅油辣子，还有贴心加料“孜然包”满足人们的不同口味需求，香锅底料辣椒，微辣且香，含有丰富微量元素和维生素，具有辣而不躁，味道纯正，醇厚温和。花椒采用历史悠久，被列为宫廷供品的“贡椒”的汉源花椒。我们还挑选了“川菜之魂”郫县豆瓣的鼻祖品牌豆瓣，保留最原始的郫县豆瓣味道，
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
多子女家庭问题 3e5c5362403c
杨宁宁焦点解决网络初17中19坚持分享589天（2021.3.20）本周约练我1次，总计166次，读书打卡第256天案例督导收获：【家有老大篇】被爱与高期待下的独舞家里的第一个孩子往往集万千宠爱于一身。爸爸妈妈、爷爷奶奶、姥姥姥爷的目光都聚焦在他的身上。在这种光环下长大的孩子，就如小皇帝一般，衣来伸手、饭来张口。拥有爱的同时，也意味着拥有了更高的被期待，父母会花血本给你报各种各样的早教班，给你买各
父母教育孩子的方式，将影响孩子一生树英教育
为什么有些孩子总是充满自信与快乐？独立、有主见又坚强？而有些孩子却自卑、胆怯，软弱又过度依赖父母？为什么有些孩子总是健康、阳光又富于创造力？而有些孩子却悲观、孤僻又思想空乏？一个孩子的行为取决于孩子的思想，思想取决于环境和自己的认知，认知取决于教育。父母是孩子人生中的第一位教育者，父母养育孩子的方式，将决定他们人生的高度，影响他们的一生。网络图，侵权即删优秀的父母就像园丁，既要浇水施肥，又要修剪杂
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
戴容容中原焦点团队.网络初级第33期,坚持分享第19天 2022年3月9日 TessDai
《每个人眼中的世界都是不同的》“一千个人眼里有一千个哈姆雷特”世界是多元的,每个人都有自己的道理,人人按照自己的理解去看待这个世界的人和物.我们如此,其他人也是如此.因此,任何事情,我们要放下自己以为的真理,去理解他人认为的真理,只有同频方能共振.孩子在慢慢长大的过程中慢慢学会独立,甚至对抗.尤其当孩子处于青春期的时候,他们开始有很多自己独立的想法,和一些特立独行的做法,家长常常会觉得不可思议,觉
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
2022-10-10 幸福芳芳
10.10日觉察日记1.事件：开晨会员工来不齐，路远的请假，离得近的也请假，一律不批！2.感受：生气，气愤（情绪如何转化或使用）3.想法：1.今年已经很少开晨会了，非必要不会通知开会的，临近点了再打电话请假，又不是特别忙的季节，借口都会找～～2.不来的按公司标准执行负激励，待岗处理！我为你们负责，你们安全重要会议都不参加，自己都不为自己负责！以后有事也别找我！尤其是经销商老板，自己都不清楚自己用工
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
基于STM32的汽车仪表显示系统：集成CAN、UART与I2C总线设计流程极客小张 stm32 汽车嵌入式硬件物联网单片机 c语言
一、项目概述项目目标与用途本项目旨在设计和实现一个基于STM32微控制器的汽车仪表显示系统。该系统能够实时显示汽车的速度、转速、油量等关键信息，并通过CAN总线与其他汽车控制单元进行通信。这种仪表显示系统不仅提高了驾驶的安全性和便捷性，还能为汽车提供更智能的用户体验。技术栈关键词微控制器：STM32显示技术：TFTLCD/OLED传感器：速度传感器、温度传感器、油量传感器通信协议：CAN总线、UA
3286、穿越网格图的安全路径 Lenyiin 题解 c++算法 leetcode
3286、[中等]穿越网格图的安全路径1、题目描述给你一个mxn的二进制矩形grid和一个整数health表示你的健康值。你开始于矩形的左上角(0,0)，你的目标是矩形的右下角(m-1,n-1)。你可以在矩形中往上下左右相邻格子移动，但前提是你的健康值始终是正数。对于格子(i,j)，如果grid[i][j]=1，那么这个格子视为不安全的，会使你的健康值减少1。如果你可以到达最终的格子，请你返回tr
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

如何从代码层提高产品质量

你可能感兴趣的:(安全,网络,运维)