xch_w

Drools, IKExpression, Aviator和Groovy字符串表达式求值比较

eSOC项目的一个重要功能就是规则引擎，规则引擎的主要功能就是关联分析。规则引擎的最基本的功能就是计算表达的值（表达式是规则中的基础部分），为了选择一个合适的基础构件作表达式求值工具，前后比较了Drools, IKExpression，Aviator和Groovy，Drools为JBosss的开源规则引擎， IKExpression和Aviator都是轻量的Java表达式求值引擎（均为中国人开发的开源表达式求值引擎），Groovy是JVM上的动态语言，Java的官方弟弟。比较的基本要素是性能；第二是功能：支持常见的操作包括>,>=, ==, !=, <,<=，contains和正则表达式以及二元操作符&& ，括号等, ，其次是使用方便。

背景介绍

什么是关联分析

在如下的场景中，我们需要找出威胁程度最高的事件，也就是报警5，依靠的就是关联分析来完成，下图中所示的是交叉关联分析中的典型场景。

对应于这个场景，规则引擎需要做的事情是从收集到的IDS日志，防火墙日志，资产列表和漏洞库中发现如下的情况：

“IDS检测到Attack的行为，并且防火墙允许了这个行为，Attack的目标资产（服务器，网络设备等）非常重要，并且资产具有该攻击对应的漏洞；如果以上都匹配，并且在10分钟之内发生了一次以上，就产生一个高级别的实时报警”

为了能够分析出上述行为，需要一个或者规则来执行，那么上述文字描述可以转换为如下描述的规则，一个规则由表达式+聚合 + action三部分组成

表达式部分：

1. (Event1.devicetype == 'IDS' && Event1.eventtype=='Attack')

2. (Event2.devicetype == 'Firewall' && Event2.eventtype=='Accept')

3 （(Event1.attcaktype + Event1.destinationIP) in vulnerabilityList //事件的攻击目标地址具有该攻击类型所包括的漏洞

聚合部分：

1. (Event1.destinationIP == Event2.destinationIP) //事件1和2的目标地址是同一个

2. Event1和Event2 在10分钟内发生的次数 > 1次

action

if( Event1.destinationIP 是高价值资产) 产生报警，级别是10

else if(( Event1.destinationIP 是中价值资产) ) 产生报警，级别是8

从这里可以看出，表达式是规则的基础组成部分

表达式示例

下面展示一下赛门铁克SSIM的表达式样式

表达式引擎介绍

在这里简要介绍一下4种表达式求值方法，并对同一含义的表达式在各个引擎中的使用方法给出了示例。需要求值的表达式的文字描述为：(模块等于"system" 并且设备ip地址包含"252") 并且事件开始时间大于等于"2011-08-09 09:44:15"。需要进行比较的数据输入为Map或者Bean格式，内容为（groovy的语法示例，定义一个map是不是很简单呢）：

Drools简介

Drools（JBoss Rules ）具有一个易于访问企业策略、易于调整以及易于管理的开源业务规则引擎，符合业内标准，速度快、效率高。业务分析师或审核人员可以利用它轻松查看业务规则，从而检验是否已编码的规则执行了所需的业务规则。

除了应用了Rete核心算法，开源软件License和100％的Java实现之外，Drools还提供了很多有用的特性。其中包括实现了JSR94 API和创新的规则语义系统，这个语义系统可用来编写描述规则的语言。目前，Drools提供了三种语义模块――Python模块，Java模块和 Groovy模块。Drools的规则是写在drl文件中。对于前面的表达式，在Drools的drl文件描述为：

When表示条件，then是满足条件以后，可以执行的动作，在这里可以调用任何java方法等。在drools不支持字符串的contians方法，只能采用正则表达式来代替。

IKExpression简介

IK Expression 是一个开源的（OpenSource），可扩展的（Extensible），基于java 语言开发的一个超轻量级（Super lightweight）的公式化语言解析执行工具包。IK Expression 不依赖于任何第三方的java 库。它做为一个简单的jar，可以集成于任意的Java 应用中。这包括了JavaEE 应用（基于应用服务器的），Java桌面应用以及Java WebStart 方式的应用。对于前面的表达式，IKExpression的写法为：

可以看到IK是通过内置的函数$CONTAINS来完成字符串是否包含另外一个字符串。

Aviator简介

Aviator是一个高性能、轻量级的java语言实现的表达式求值引擎，主要用于各种表达式的动态求值。现在已经有很多开源可用的java表达式求值引擎，为什么还需要Avaitor呢？
Aviator的设计目标是轻量级和高性能，相比于Groovy、JRuby的笨重，Aviator非常小，加上依赖包也才450K,不算依赖包的话只有70K；当然，
Aviator的语法是受限的，它不是一门完整的语言，而只是语言的一小部分集合。
其次，Aviator的实现思路与其他轻量级的求值器很不相同，其他求值器一般都是通过解释的方式运行，而Aviator则是直接将表达式编译成Java字节码，交给JVM去执行。简单来说，Aviator的定位是介于Groovy这样的重量级脚本语言和IKExpression这样的轻量级表达式引擎之间。对于前面的表达式，Aviator的写法为：

在Aviator中，字符串是调用String函数来完成的。

Groovy简介

Groovy的网站（http://groovy.codehaus.org）给出了groovy的最好定义：groovy是在java平台上的、具有象Python，Ruby和Smalltalk语言特性的灵活动态语言，groovy保证了这些特性象java语法一样被java开发者使用。

Groovy经常被认为是脚本语言——它也像脚本一样工作的很好。但是，把Groovy理解为脚本语言是一种误解，groovy代码被编译成java字节码，然后能集成到java应用程序中或者web应用程序，整个应用程序都可以是groovy编写的——groovy是非常灵活的。

groovy与java平台非常融合，groovy的许多代码是使用java实现的，其余部分是用groovy实现的，当你使用groovy编程的时候，许多情况下你正在写特殊的java程序，在java平台上的所有强大功能——包括大量的java类库也可以直接在groovy中使用。对于前面的表达式，Groovy的写法为：

Groovy的写法最接近于语言表达式本身需要描述的事情，我非常喜欢。

性能对比

在表达式引擎介绍中，简要概述了不同的引擎的用法，那么它们的性能有什么差异呢。为了进行对比，针对同一功能的表达式，(模块等于"system" 并且设备ip地址包含"252") 并且事件开始时间大于等于"2011-08-09 09:44:15"，分别执行100万次，每次跑三遍。运行环境为：

硬件：Core2 7250 2G双核/2G内存；

操作系统：Win7；

JDK：1.6.0.24；

Drools：5.1；

IKExpression：2.1.2;

Aviator：2.0；

Groovy：1.8

运行JVM参数为：-Xms512m -Xmx512m -XX:CompileThreshold=10000 -XX:MaxPermSize=128m。执行结果为：

execute Drools total time = 66318ms
execute Drools total time = 66303ms
execute Drools total time = 66802ms

execute IKExpresion total time = 12603ms
execute Aviator total time = 4855ms
execute Groovy total time = 1722ms

execute IKExpresion total time = 12465ms
execute Aviator total time = 5035ms
execute Groovy total time = 1841ms

execute IKExpresion total time = 12591ms。
execute Aviator total time = 4809ms
execute Groovy total time = 1784ms

从执行100万次表达式求值看，Groovy最快，Aviator其次，IKExpression然后，Drools最慢；而且Groovy的语法我非常喜欢，简单并且功能强悍，大爱Groovy。数据统计图如下

Groovy太快了，一秒钟可以执行56万次！ 程序的源码见附件。

测试结果分析

Drools是一个高性能的规则引擎，但是设计的使用场景和在本次测试中的场景并不太一样，Drools的目标是一个复杂对象比如有上百上千的属性，怎么快速匹配规则，而不是简单对象重复匹配规则，因此在这次测试中结果垫底。

IKExpression是依靠解释执行来完成表达式的执行，因此性能上来说也差强人意，和Aviator，Groovy编译执行相比，还是性能差距还是明显。

Aviator会把表达式编译成字节码，然后代入变量再执行，整体上性能做得很好

Groovy是动态语言，依靠反射方式动态执行表达式的求值，并且依靠JIT编译器，在执行次数够多以后，编译成本地字节码，因此性能非常的高。对应于eSOC这样需要反复执行的表达式，Groovy是一种非常好的选择。在学习Groovy过程中，已经深深的爱上了它，强大的功能，简洁的语法，和Java完美集成。

JIT的威力

在执行测试的时候，使用的VM Args:-Xms512m -Xmx512m -XX:CompileThreshold=10000 -XX:MaxPermSize=128m，我突发奇想，如果把CompileThreshold调整到100W会咋样，也就是在整个测试过程中，都不要让JIT编译器把代码编译为本地代码。当调整到XX:CompileThreshold=1000000，结果数据发生了非常显著的变化。大家可以看下面的数据

VM Args:-Xms64m -Xmx64m -XX:CompileThreshold=10000

execute IKExpresion total time = 12553ms

execute Aviator total time = 4900ms

execute Groovy total time = 1782ms

VM Args:-Xms64m -Xmx64m -XX:CompileThreshold=1000000
execute IKExpresion total time = 45913ms
execute Aviator total time = 8914ms
execute Groovy total time = 18559ms

数据对比整理结果：

家可以明显的看出，Groovy执行时间变为原来的11倍左右，IKExpression也差不多慢了4倍，Aviator本身就编译成为了字节码，因此受到的影响较小，时间为原来的2倍。也就是说原来Groovy从执行1万次的解释执行以后，后面的99万次由JIT编译器编译为本地字节码后，本地字节码的性能是解释执行的11倍！

那么大家可能有个疑问，是不是JIT都是好的呢，我们什么代码都让JIT编译为本地字节码，这样不是性能就非常高了。其实不然，这个和你的应用场景是密切相关的，如果你的代码执行的次数不够，那么就没有必要编译为本地字节码，否则执行性能的提升的幅度还抵消不了JIT编译浪费的时间。JIT默认都是开启的，在JVM的 client模式CompileThreshold=1500，server模式是CompileThreshold=10000。更多一点的信息，可以参考Java关于JIT的原理和相关知识

到这里，关于表达式求值的论述就算结束了，其中还发现一些有趣的现象，比如GC的策略和堆大小对测试程序的影响，在这里就不一一写出来，人懒：）

你可能感兴趣的:(Drools, IKExpression, Aviator和Groovy字符串表达式求值比较)

Python网络爬虫实战：抓取猫眼TOP100电影信息莱财一哥
本文还有配套的精品资源，点击获取简介：在Python中，Web爬虫是获取互联网数据的关键技能。本教程将指导如何结合使用requests库和正则表达式来从猫眼电影网站的TOP100榜单中抓取电影信息。首先通过requests库发送HTTP请求获取网页内容，然后运用正则表达式提取电影名和评分等信息。在进行网络爬虫时，遵守robots.txt规则，设置请求延时，并考虑处理网站的反爬虫策略。对于更复杂的网
Python面向对象(OOP)速成教程 ftpeak Python python 开发语言
Python是一门支持面向对象编程（OOP）的语言，面向对象编程的核心概念包括类、对象、封装、继承和多态。下面通过具体的范例来详细介绍这些概念的使用一、类和对象类是对象的设计稿，定义了对象的属性和方法；对象是类的实例。#定义一个类classDog:#类属性species="Canisfamiliaris"def__init__(self,name,age):#实例属性self.name=names
Python并发多进程编程 ftpeak Python 网络爬虫 python 开发语言前端
一、多进程（Multiprocessing）多进程是指在操作系统中同时运行多个进程，每个进程都有自己独立的内存空间和系统资源。Python的multiprocessing模块提供了多进程编程的支持。优点可以利用多核CPU的优势，并行执行任务，提高程序的运行效率。各个进程之间相互独立，一个进程的崩溃不会影响其他进程。缺点进程的创建和销毁开销较大。进程之间的通信和数据共享相对复杂。代码示例import
Nginx开启目录浏览功能时加密码的方法 wjf63000 nginx linux centos
环境：CentOS71.安装工具sudoyuminstallhttpd-tools2.创建密码文件和用户使用htpasswd命令来创建密码文件并添加用户。以下命令会创建一个名为.htpasswd的文件，并添加一个名为your_username的用户。sudohtpasswd-c/etc/nginx/.htpasswdyour_username执行上述命令后，系统会提示你输入并确认该用户的密码。如果
订单日记为“容易设计”提供全方位的进销存管理支持雪兽软件 ERP系统进销存软件订单日记
感谢容易（苏州）文化创意设计有限公司选择使用订单日记！容易（苏州）文化创意设计有限公司，成立于2006年，位于江苏省苏州吴中经济开发区，是一家以从事销售时尚女包、旅行便携包、礼品包等产品为主的企业。在业务不断壮大的过程中，想使用一种既能提升运营效率又能节省成本的系统管理工具，在市场上多方比较和考察后最终选择了订单日记。订单日记是轻量级高效的进销存管理工具，它的管理模块很多，对容易（苏州）文化创意设
Java基础入门流程控制全解析：分支、循环与随机数实战 shy2005_5_31 Java全栈开发学习 java python 开发语言 intellij-idea java-ee jvm
引言流程控制是编程语言的核心逻辑结构，决定了程序的执行顺序与逻辑判断能力。本文以分支结构、循环结构和随机数生成为核心，结合代码示例与底层原理，全面解析Java中流程控制的应用场景与实战技巧。一、分支结构1.if分支作用：根据条件表达式的结果（true/false）决定代码执行路径。三种形式单分支if(条件){//条件为true时执行}双分支if(条件){//条件为true时执行}else{//条件
jmeter-AES加密 ramsey17 jmeter java
AES(全称：AdvancedEncryptionStandard)对称加密算法，也就是加密和解密用到的密钥是相同的，这种加密方式加密速度非常快，适合经常发送数据的场合，如：数据加密存储、网络通信加密等。在进行接口测试或接口压测时，有些比较核心的接口有可能会用AES方式对接口的入参或响应内容进行加密/解密。Jmeter对AES加密/解密，当前可以通过beanshell的方式处理。代码如下：impo
springboot Actuator 介绍 stayhungerstayflush spring基础介绍 spring boot 后端 java
SpringBootActuator深度解析与实战指南一、开篇导言SpringBootActuator是SpringBoot生态中用于实现应用监控与管理的关键模块，为生产级应用提供了开箱即用的运维能力。本文将深入剖析其核心机制，并通过实战案例演示如何构建企业级的应用监控体系。二、核心概念深度解析1.端点（Endpoints）体系端点作为Actuator的核心交互接口，通过HTTP和JMX两种协议暴
onnx处理和TensorRT量化推理相关代码工具天亮换季人工智能算法深度学习
一.说明在模型量化过程中，经常要使用一些工具对onnx或者量化后的模型（这里以TensorRT为例）进行推理，往往需要一些处理工具，比如：拆分或者合并onnx；修改onnx中的量算子QuantizeLinear的scale值；以及使用onnxruntime进行推理；TensorRT的序列化文件的inference；隐式量化生成量化校准表…现提供一些封装好的工具，作为记录，方便日后查阅使用"
word处理控件Aspose.Words教程：使用 Python 删除 Word 中的空白页 CodeCraft Studio 文档管理控件 word python 开发语言
Aspose.Words是一种高级Word文档处理API，用于执行各种文档管理和操作任务。API支持生成，修改，转换，呈现和打印文档，而无需在跨平台应用程序中直接使用MicrosoftWord。AsposeAPI支持流行文件格式处理，并允许将各类文档导出或转换为固定布局文件格式和最常用的图像/多媒体格式。Aspose.wordsfor.net下载Aspose.wordsforforPython下载
从青铜到王者：六大排序算法实战解析 AAEllisonPang Python python 算法排序算法
前言在编程的世界里，排序算法如同一颗璀璨的明珠，闪耀着智慧的光芒。它不仅是计算机科学的基础知识点，更是每一位程序员必备的技能。今天，就让我们一同走进排序算法的世界，深入探究冒泡排序、选择排序、插入排序、快速排序、归并排序、堆排序这六大经典算法的精髓所在，为你提供一份全面、深入、实用的指南。一、冒泡排序：简单易懂的入门算法冒泡排序是一种简单直观的排序算法，它重复地走访过要排序的数列，依次比较相邻的两
Pandas数据清洗手册（参数解析与实战）步入烟尘 Python超入门指南全册 pandas 数据清洗开发语言 python
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
适配器模式详解：原理、C++代码实现、结构图、场景及优缺点五木大大 C++随想录适配器模式 c++c语言码蚁软件算法设计模式
一、原理及代码适配器模式是一种结构型设计模式，用于将一个类的接口转换成客户端所期望的另一个接口。这可以让原本由于接口不兼容而不能在一起工作的类能够协同工作。适配器模式通常包括三个角色：目标接口（Target）、适配器（Adapter）和被适配者（Adaptee）。适配器模式的原理如下：目标接口（Target）定义了客户端使用的特定接口。适配器（Adapter）实现了目标接口，并持有一个被适配者的实
回流（Reflow）与重绘（Repaint）：原理、性能影响与优化策略冬冬小圆帽前端 javascript html
回流（Reflow）和重绘（Repaint）是浏览器渲染页面时的两个关键过程，它们对页面性能有重要影响。理解它们的机制以及如何优化，可以帮助我们编写更高效的代码。下面我们将结合代码深度分析回流和重绘。1.回流和重绘的基本概念1.1回流（Reflow）回流是指浏览器计算页面布局的过程。当页面中的元素发生几何属性（如宽度、高度、位置等）变化时，浏览器需要重新计算元素的几何信息，并重新构建渲染树（Ren
Webpack 优化深度解析：从构建性能到输出优化的全面指南冬冬小圆帽 webpack 前端 node.js
Webpack是一个强大的模块打包工具，广泛应用于现代前端开发中。随着项目规模的增大，Webpack的构建速度和输出文件的优化变得尤为重要。1.Webpack优化的核心目标Webpack优化的主要目标包括：减少构建时间：加快开发环境的构建速度，提升开发体验。减小输出文件体积：减少生产环境的资源体积，提升页面加载性能。提升缓存利用率：通过合理的文件哈希和代码分割，提升资源的缓存命中率。提高代码质量：
基于Spring接口，集成Caffeine+Redis两级缓存码事通 spring java spring boot
在上一篇文章Redis+Caffeine两级缓存，让访问速度纵享丝滑中，我们介绍了3种整合Caffeine和Redis作为两级缓存使用的方法，虽然说能够实现功能，但实现手法还是太粗糙了，并且遗留了一些问题没有处理。本文将在上一篇的基础上，围绕两个方面进行进一步的改造：JSR107定义了缓存使用规范，spring中提供了基于这个规范的接口，所以我们可以直接使用spring中的接口进行Caffeine
十大排序算法迷茫的羔羊羊数据结构与算法排序算法算法数据结构
1.冒泡排序（BubbleSort）冒泡排序重复地走访过要排序的数列，一次比较两个元素，如果它们的顺序错误就把它们交换过来，直到整个数列有序。publicclassBubbleSort{publicstaticvoidbubbleSort(int[]arr){intn=arr.length;//外层循环控制排序的轮数for(inti=0;iarr[j+1]){//交换arr[j]和arr[j+1]
【从零开始学习计算机科学】操作系统（七）文件管理贫苦游商学习服务器操作系统文件管理文件读写文件块文件操作
【从零开始学习计算机科学】操作系统（七）文件管理文件管理文件的逻辑结构文件的读写方式文件的物理结构与组织文件目录空闲块管理文件的共享文件的权限控制与保护文件系统的其他功能文件管理文件管理主要涉及文件的逻辑组织和物理组织，目录的结构和管理。所谓文件管理，就是操作系统中实现文件统一管理的一组软件、被管理的文件以及为实施文件管理所需要的一些数据结构的总称（是操作系统中负责存取和管理文件信息的机构）从系统
你所不知道的关于AI的27个冷知识——AI的伦理问题贫苦游商人工智能大数据算法机器学习 transformer
AI的伦理问题亲爱的朋友们，今天我们要探讨一个充满哲理与挑战的话题，那就是人工智能（AI）的伦理问题。想象一下，AI就像是一位超级英雄，拥有无尽的力量和智慧，但如果不加以规范和引导，它也可能成为一位不受控制的“反派”。让我们一起走进这个复杂而又有趣的世界，看看AI在伦理方面的种种问题和挑战。AI决策的透明度：黑盒子的谜团首先，我们来聊聊AI决策的透明度问题。想象一下，你有一个神奇的黑盒子，每次输入
【经典游戏】Java实现俄罗斯方块小游戏（附源码）枫蜜柚子茶小游戏 java 开发语言游戏
一、需求分析俄罗斯方块（Tetris）是一款经典的益智类电子游戏，最初由俄罗斯设计师AlexeyPajitnov于1984年创建。该游戏的目标是通过移动、旋转和适当摆放下落的不同形状的方块，使它们在底部组成完整的水平线，一旦一条水平线被填满，该线将消失并为新的方块腾出空间。游戏的难度会随着时间的推移而加大，方块下落的速度也会逐渐增加。CSDN资源-经典游戏java实现俄罗斯方块游戏【预期实现效果】
C# WPF 基础知识学习（二）埃菲尔铁塔_CV算法 c#wpf 学习计算机视觉人工智能开发语言
四、数据绑定（一）数据绑定基础绑定源和目标：数据绑定建立了UI元素（绑定目标）属性与数据源（绑定源）之间的联系。例如，将一个TextBox的Text属性绑定到一个对象的某个属性上。绑定源可以是对象的属性、集合、XML数据等，绑定目标通常是UI元素的依赖属性。绑定模式：WPF支持三种绑定模式：OneWay：数据从绑定源流向绑定目标。当绑定源属性值发生变化时，绑定目标属性会自动更新，但绑定目标的变化不
express+ bootstrap/vue.js+mongodb 开发综合学生管理WEB项目系统鱼弦前端 express bootstrap
该WEB项目要求如下：整个系统要有比较完整的功能，有前端网页数据示，也要有后台管理功能，具有一定的实用性。网页前端展示页面设计可以采用bootstrap框架，也可以使用vue.js实现，前端网页数据均要来自于后端从数据库中查询出来的数据。下面是利用Express后端+Bootstrap前端+MongoDB数据库的代码示例，用于实现一个综合的学生管理系统：1.安装所需模块在终端中输入以下命令，安装所
谈谈List,Set,Map的区别蓝莓浆糊饼干面试：java部分 java
List、Set和Map是Java集合框架（JavaCollectionsFramework）中的三种主要接口，它们各自有不同的特点和用途。以下是它们的区别和使用场景的详细解释：1.List（列表）1.1特点有序集合：List是一个有序集合，元素的插入顺序和访问顺序一致。允许重复：List允许存储重复的元素。索引访问：可以通过索引（index）快速访问元素。典型实现：ArrayList：基于动态数
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
C++ std::reference_wrapper：让引用更强大 Lion 莱恩呀 C/C++技术干货 c++开发语言 c++17 stl c++11 算法 linux
std::reference_wrapper的通俗易懂解释一、简介二、std::reference_wrapper的初衷三、常用示例3.1、与`make_pair`和`make_tuple`一起使用3.2、引用容器3.3、通过`std::thread`按引用传递参数给启动函数3.4、引用作为类成员3.5、按引用传递函数对象3.6、与绑定表达式一起使用四、总结五、推荐阅读一、简介std::refer
STL：List模拟实现 Ghost__s C++
原理：list的底层是双向链表结构，双向链表中每个元素存储在互不相关的独立节点中，在节点中通过指针指向其前一个元素和后一个元素。优点：任意位置的插入删除效率很高（双向迭代）缺点：任意位置的随机访问效率很低list的使用#include#includevoidtest1(){std::listl1(3,10);std::list::iteratorit=l1.begin();//迭代器遍历while
【爬虫实战】python入门爬取猫眼电影排行进击的C语言爬虫自动化网络
爬虫爬虫概述应用场景：1、抓取特定网站或应用的内容，提取出有价值的信息。2、模拟用户在浏览器或应用中的操作，实现自动化流程。爬虫是什么专业术语：网络爬虫（又称网页蜘蛛、网络机器人）网络爬虫是一种自动按照特定规则抓取网页信息的程序或脚本。爬虫起源随着网络的迅猛发展，万维网成为海量信息的载体，如何有效地提取和利用这些信息成为一项巨大挑战。搜索引擎如Yahoo、Google、百度等，作为帮助人们检索信息
100个AI岗位，00后就业首选AI赛道，应届大学生找工作收藏！零基础入门到精通，看这篇就够了！赶紧收藏！ AI大模型入门教程人工智能自动化深度学习数据库大数据
自从2022年11月30日Gatchap发布，AI如同一股强劲的浪潮，带着危机席卷了各行各业，不仅重塑了商业模式和工作流程，更是颠覆了传统就业思维，同时带来了前所未有的就业新机遇。麦肯锡全球研究院发布的《工作的新未来》报告显示：“在2030年至2060年间，将会有50%的现有职业被AI取代。”算一下就5年时间了，取中是2045年，也只是20年后。AI市场规模持续扩大是必然趋势，这直接带动了AI人才
图像识别技术与应用课后总结（18）一元钱面包人工智能
·YOLO-V3RetinaNet系列，YOLO-V3在不同变体（如YOLOV3-320、YOLOV3-416等）下，在推理时间和精度上有不同的表现，展示了其在速度和准确性上的平衡。YOLO-V3的改进点网络结构：相比之前版本，YOLO-V3的网络结构进行了优化，使其更适合小目标检测。特征处理：对特征的处理更加细致，通过融入多持续特征图信息来预测不同规格的物体。先验框：先验框更加丰富，有3种sca
英伟达的最新AI算力芯片——Blackwell芯片性能及应用场景算力资源比较多英伟达算力大模型人工智能语言模型 gpu算力推荐算法
英伟达的最新AI算力芯片——Blackwell芯片在性能和应用场景上均有着显著的提升和广泛的应用。以下是对其详细性能及应用场景的归纳：性能特点晶体管数量：Blackwell架构的GPU拥有2080亿个晶体管。这一庞大的数量确保了芯片具有极高的计算能力和复杂性，使其成为目前市场上最强大的AI芯片之一。制程工艺：采用台积电4纳米（4nm）工艺制造。这种先进的制程技术不仅提高了芯片的集成度，还降低了功耗
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他