翻斗大街翻斗花园胡图图

SPSS MODELER笔记1----数据基本处理和整体方法概念

基本思路

统计挖掘模型是利用一个或多个输入变量，一般也被称为自变量，通过你和适当的关系式来预测目标变量也被称为因变量的方法。

误差

往往在模型当中也包含了随机误差项，它是指在测试过程中因诸多因素随机作用而形成的，具有不可抵抗性的误差。生成因素十分复杂，由于不可知，因此只能估计。这个属于不可约误差。
另一个误差则是可约误差，它可以通过不断的对模型的优化降低。所以，可约误差与不科学误差决定了模型的精确度。

数据挖掘任务可以简单地分为预测人物和控制任务。

预测任务。其中的预测模型的形式向一个黑箱模型。即对于模型本身，我们不能很好地解释，或者并不清楚其内部的结构，而是更加关系模型的输入和输出，只要能够提高预测精度，我们就认为达到目的了。
控制任务。只预测结果固然重要，但我们也非常关心模型的具体形式，比如哪个因素影响高？哪个因素影响的另一种分类？
就是从一侧的场景来看，分为有监督学习与无监督学习。上述内容都属于有监督学习的范畴。而对于无监督学习，就是指只有自变量啊，没有明确因变量。而监督学习的是每一个自变量，都有与其明确对应的因变量。

数据挖掘方法论

其中最经典一个就是。CRISP-DM，他将一个数据挖掘项目分为六个步骤
第一，商业理解
第二数据理解
第三，数据准备
第四，建立模型。
第五模型评估
第六，结果部署。
实际上，这是一个不断循环的过程，如果在某些阶段遇到问题，那我们就返回上一段进行。

商业理解阶段

在做数据挖掘的时候，我们一定要明白。分析方法只是手段，不是目的，我们最重要的是要理解客户的根本需求，并不是建立一个最完美的模型。这个是次要的。这就是商业理解阶段我们需要对客户的商业运行逻辑有一定的了解

数据理解阶段

我们需要全面认识企业的数据，资源和资源有何特征，然后根据我们的应用目标来开展哪些数据应该被纳入进来，所以我们应该思考哪些数据可以用于本次分析的主题，哪些数据已经在公司的系统中是否有一些重要的影响因素，还没记录和需要付出一定的代价才能获取。再比如我们在零售业经常看到会员积分这个指标，那么我们必须要清楚会员积分的规则，对于客户来说，会员积分的吸引点是什么？他的一些运行模式，累积模式，我们都需要明白的了解。之后才会更好地做出分析。之后，我们要对数据进行探索性分析，也就是对数据的质量分析。对数据的分布分析。辅助统计指标，统计分析。

数据准备阶段

第一是数据清洗
在这一阶段，我们需要对数据的缺失值进行清洗，对数据的离群值进行清洗。对于离群值，我们可以删除记录和把离群值进行替换。上离群值等于，四分位数括号0.75加iqr2成三，下离群值等于四分位数括号0.25括号减iqr乘三。也需要对三类指标分类字段进行一定的处理，将不合规的字段将编码方式，统计口径不一致的问题。然后对单位范围等等进行一系列的处理。
第二就是数据的衍生转换。
第一个问题单变量转单变量。比如转换单位。对数据进行标准化等等。

连续变量转连续变量。通常有对数据进行标准化。对数转换转换单位。
连续变量转化为离散变量。一般采取的措施是利用分箱处理，可以选择等距离分箱和等数量分箱。
离散变量转化为连续变量，一般只适用于将一些有序的分类变量转化为1234。
将离散变量转化为离散。一般当某个分析变量中包含多个类别，是考虑到会对模型产生不良影响，会合并变量。多变量之间的相互衍生。

汇总型指标。强度相对指标。比例相对指标时间相对指标。趋势型指标。波动指标。
指标和强度相对指标一般也就是描述的范畴。

整个数据挖掘项目中的核心阶段就是建立模型阶段。在某些阶段中，我们会有多种合适的模型和选择方法，但在这个时候，我们需要不断的测试，以选出最优的哪一个。模型的评估往往要从业务和技术两个方面来进行考虑。对于模型的评估，可以采取一些常用的指标，比如

模型准确率，它用于直接描述模型的总体准确情况。但是，具体在某些案例当中可能是更加关注某一个特定的类别，并不是整体模型的准确率，

第二个模型的精确率。它主要反映的是模型，对目标类别的预测准确性。

第三个是模型的召回率。使用召回率，这个指标就是衡量模型，是否能够将目标一网打尽。我们可以使用F值作为综合评价指标，它是精确率和召回率的调和平均数

结果部署

结果部署阶段就是让模型与业务进行最紧密的结合，实际应用到商业节目当中，以实现自己的价值，同时制定相应的维护及更新策略，数据挖掘模型并不是一成不变的，随着时间的推移和商业环境的变化。挖掘模型需要建立一个监测及更新机制来让数据挖掘模型，不断学习新的有实力，才能保持永久的生命力。F值的取值范围在零到一之间，取值越接近于一则证明模型的效果越好。
我们这里有一个营销活动，想要看一看，有多少人会想用我们的活动，那么他给模型给出了我们一份100名顾客相应名单，这个就是模型的准确率。在这100人的名单里面，有90人响应了我们的活动，那么它的准确率就是那么它的精确率就是90%，这就是模型的精确率。这个名单当中有90个人响应了我们的活动，可实际情况当中响应我们活动的有900人，所以我们的模型到底发现了客户群体当中的多少呢，只发现了900人中的90人，所以想要将所有的潜在客户一网打尽，这就是模型的召回率。
所以总结就是。CRISP-DM方法论中。
第一阶段，商业理解。
需要与相关业务及技术人员对数据挖掘目标的达成现有资源的评估和计划的制定进行充分的讨论，我们需要确定业务目标评估情况，确定数据挖掘的目标，制定项目计划
第二阶段数据理解阶段。
我们需要深入理解现在可用的数据资源，对其进行充分的掌握。我们需要收集初始数据描述数据，探索数据，验证数据的质量。
第三阶段数据准备阶段。
我们要对数据进行清洗和整理。我们要选择数据清理数据构建新数据，集成数据格式化数据。
第四阶段建立模型。
我们需要建立不同的模型，从中选择最适合的。我们选择建模技术生成测试，设计，构建模型。评估
第五阶段模型评估。我们要从业务理解和技术手段两个方面来进行评估，我们需要完成三个工作，第一是评估结果，第二审核过程，第三次后续步骤结果部署上。需要指定部署计划计划，坚持和维护生成最终报告执行最终项目的审核。

基本界面

spss的主界面分为四个区域
第一是模型流构建区。这是数据分析师的主要工作区域。他被称为stream。我们往往在节点区节点拖拽至模型流区。模型流是由一系列节点连接而成，这些节点都来源于节点去，那么什么是节点区，节点区就是构建模型流的弹药。

节点可以细分为八类
第一，源节点就是起始节点。它包含各种接入各种类型，数据源的方式。
第二个节点就是记录选项节点属于中间节点。该节点将从行业角度来处理数据。
第三字段选项节点属于中间节点，该节点会从那会从列的角度来处理数据。
第四，建模节点属于终端节点。建模节点分为分析服务节点，分类节点，关联节点，细分节点。
第五类属于终端节点。可以以图形的方式来进行数据探索，展示最后的结果
第六，输出节点也属于终端节点。可以以表格矩阵，交叉表等方式来输出结果
第七，导出节点属于终端节点，它会帮助客户将数据结果到处以各种形式的文件。
第八分析节点属于终端节点。

节点区中还有一个收藏夹选项卡，在该选项卡下可以把常用的节点放进去，方便用户的日常使用。
第三个区域就是模型流结果和模型管理区域在主界面的右上方。

他有三个选项卡，

第一个就是模型流管理区。我们往往会同时构建和编辑多个模型留，那么在这里就可以实现多个流之间的切换。

第二个选项卡是输出。通过输出选项卡，可以对每个结果进行编辑命名，随意切换，甚至把特定的结果保存为文件供下次查看模型。在该选项卡下，用户给你的所有模型都会出现在这里。

主界面右下方就是第四个数据挖掘项目管理区域。我们可以把相应的预备使用的内容全部归纳及乃需要使用的时候再进行使用。
将modeler连接到服务器端。单击主界面，右下角的服务器本地按钮。服务器登录对话框中单击添加按钮。添加编辑服务器，对话框中输入我们的服务器信息，然后点击确定。之后回到服务器登录对话框中，此时看到其中已经被填写了了新的服务器名字。选择新的。设置好相关凭证，填写完成后确定。我们就可以将客户端连接到。服务器端从而提升数据运算的效率。
菜单栏选择工具选项系统选项命令可以设置我们使用的最大运行内存。
也可以使用缓存来提高操作效率。就是将之前节点运作的结果保存下来，下次使用时直接从该节点开始。我们右键单击需要缓存节点，选择缓存启用命令。就可以对此次运行结果进行保存。
当我们关闭文件之后，缓存也会消失，如果关闭后想要继续使用。就可以在右键快捷菜单中选择缓存，保存，缓存的命令。下次使用时，只要在相同的节点处单击右键，缓存加载，缓存即可召回之前的存储信息。

超节点

可以将节点封装在一个节点之内，从而防止出现主界面的布局混乱，流程不清。选择要封装的节点，右键单击，在弹出的快捷菜单中选择创建超节点。要查看超级节点具体内容右键单击超级节点，快捷菜单处选择放大命令。展开选项中会拆开节点，恢复原来的状态。我们只需要选中某个超级的节点，右键单击选择新注释命令就可以对它进行注释，有便于我们在后期回顾整个数据，构建。

数据的身份和读取

可以从存储类型，测量级别和角色三个角度进行划分。
第一，变量的存储类型。通过源节点导入之后会自动确定，我们也可以在后续的数据操作过程当中对它进行更改。分为整数型，实数型，字符串型，日期型，时间型，时间戳型，列表型。

列表型的意思就是单个记录当中会包含多个字。
实数型的意思就是包含小数的字段。
字符串在计算当中是不会被纳入的
时间型数值表示持续时间的数据。
时间戳则是现在标准时间的格式。
日期型则是标准日期格式。

第二，从变量的测量级别来看。分为默认型。即变量的类型为未知，将被设置为默认型
连续性。
分类型。取值范围已知的情况下。如果他们之间如果有序性就是有序型。
如果没有顺序，则被称为名义型
如果仅有两个不同标记的变量类型，那么则是标记型。
无类型则不会参与建模。
集合性实质上是深度为零的解表列表字段地理空间醒。以列表的方式来进行存储数据。第三，变量的角色。
要输入，也就是自变量
目标，也就是输出就是因变量。
任意的话就是既可以是自变量，也可以是因变量，但它只适用于关联规则算法。
无的话则会被忽略。
分区。则被用来标识数据是属于训练集还是测试集。
拆分。分类字段可以被设置为拆分。算法将会为字段的每一个可能性都建立一个模型。频率数值字段能够被设置为频率，并且因为正整数。设置好之后，该字段将会被用作记录。也就是当做权重处理。
记录标识。作为样本标识的使用及ID号。

关于EXCEL的读取。变量数据的读取。数据库的读取。此处不再赘述。

ODBC数据读取失败

SQL password:root

缺省型(Delaul):; 缺省型是一种尚未明确的变量类型。

读取变量:
存储类型取值范围不可知的情况下为非实例化变量，默认型
在用户定义变量时，如果仅指定了变量存储类型而没有输入或读入具体的变量值，通常为连续或分类。这样的变量为半实例化变量。
当用户输入或读入变量值后，通常为连续标记名义有序，此时称变量已被实例化。
清除值为清除值一列的内容，清除所有值为清除测量和值的内容

demo目录
预览数目调整

数据整理

类型节点
修改存储类型可以通过“填充节点”
测量和角色可以通过“类型”功能改变
整个处理过程就是实例化的过程。当数据源发生清洗后建议重新进行实例化

过滤器节点
删除，重命名，匿名化
批量化处理功能

追加节点
从多个不同的数据源中抽取数据并合并。

记录集成

就是纵向追加行记录

输入选项卡:
输入选项卡主要是用于概览，连接到追加节点的各个数据源情况，在这里你可以看到每个被连接的节点的类型是什么？字段有多少?源节点是什么?标记是什么？

标记的意思就是。有哪些数据被集成了，也就是数据源的标识，我们可以对不同的数据源进行识别。标记为一的数据集通常会被自动设置为主数据集。

查看当前标记就是显示，当前数据流中已与该追加结点相连的数据源
查看未使用的标记设置，显示当前数据流中存在，但是未于该追加节点相连的数据源。追加选项主要是用于设定多个数据源的追加继承方式，包括匹配的集成和字段匹配预览等等。

包含字段来源
选择所有数据及所有表格中的字段，都会输出所有数据，
仅数据集，即只有主数据集的数据才会被输出。
通过在字段中包含数据集来标记记录。选择此项会向最终的数据列增加一列，表示每个记录的数据来源，默认变量名为输入。

字段匹配的依据。
选择位置，即根据数据表当中的位置进行一一对应，第一列对应第一列，第二列对应第二列
名称及根据数据表当中的名称进行一一对应，比如性别一列对应性别一列，即使位置不一样，也会将性别匹配与性别
当选择名称之后选择匹配。代表启用大小写区分。

数据的字段集成。

它是横向集成的一个过程。它会一列一列的集成数据，而并不是像之前一行行的集成数据，
第一个选项卡。合并。合并节点的合并选项卡主要是用于设计不同数据源的合并集成方式。
合并的方法有顺序，关键字，条件以及排名条件四种不同的合并方法。
其中顺序是指按照表格中的顺序逐条合并，所以顺序合并前提就是已经排完序。
关键字合并及当两个表格中关键词的取值一致时，才能进行。
条件合并。这是比关键字更加灵活的一种方式。
排名条件。我们可以对它进行排名的合并。

连接的类型当中包含
仅包含匹配的记录(内部连接)。只合并不同数据源中关键字取值一样的记录。不匹配的才会被删除。
包含匹配和不匹配的(完全外部连接)。
无论能不能匹配都会被保留。对于未能匹配的记录将其控制。
包含匹配的记录和选定的不匹配记录(部分外部连接)。仅对主表的所有记录进行保留，副表只保留能够和主表相匹配的记录。
反连接。包含主数据表中不与其他副表格匹配的记录。就是指把没有匹配的记录所保留下来

优化选项卡主要优化合并速度。
当某个数据集很大的时候可以勾选。一个输入数据集相对较大。
如果数据集已经进行排序了，那么就勾选所有输入已按关键字段排序，这两种方式都能增加合并的性能。
这里存在类型的限制，我们需要对它进行更改，比如分类型变量默认的最大数为250，当超过250个类别之后，将会被强制转为无类型。所以，我们要在菜单栏的工具，流属性，选项，常规中的名义字段的最大成员数进行设置，也可以直接取消最大成员数设计。
我们将某个字段过滤掉之后。他便是彻底地从这个数据集中消失。我们选择无，则是被保留在这个数据集当中，但不会参与后续的运作。

数据整理

数据的选择功能也就是使用选择节点，该节点包括两种模式，分别是包括和丢弃。分别是包括符合条件的数据或者是丢弃符合条件的数据。我们可以选中右上方绿色方形按钮，启动表达式构建器来输入条件表达式。输入完成后，一般先单击检查按钮，检查表达式是否有误。之后自行确定。
我们可以对节点设置参数

流参数。对当前流中的所有节点使用
会话参数，在当前窗口当中所使用的所有流都会使用这个功能。
流参数的设置步骤是工具流属性参数。
会话参数则是菜单栏工具设置会话参数。

数据排序

选择排序节点就可以。
数据区分。就是去除数据当中的重复记录。需要用到区分节点。设好关键字段模式，每组包括首个记录。

数据重复

部分列值重复的情况该如何处理？就是模式选择为每个组创建组合记录用于分段的关键字段选择好。
数值型字段则选择组中第一条与最后一条记录。还有总计。均值最大值最小值定制。
如果是字符型字段，可以选择组装第一条记录，最后一条记录，第一个字母数字，最后一个字母数字定制。
如果是时间和日期字段，可以在以下选项组中的第一条记录组装，最后一条记录最早最近定制。
数据汇总功能。就使用汇总节点，可以汇总很多统计数值。首先要选择汇总的关键字段，即我们要汇总什么东西。就是汇总数据。
接下来分为基本汇总和汇总表达式，基本汇总则是直接选择汇总的指标，是什么？按什么进行统计的汇总？如果想对两个或者更多字段进行组合汇总，需要使用汇总表达式来进行实现。
数据整理是关于列的处理。
在处理的时候，很多时候并不是原始指标效应，生出一些指标，这就是导出节点。它分为两种模式，单个就是指导出一个字段，多个会导出多个字段，前提是他们的计算公式是相同的才行。
中间的导出为下拉列表框中可选择六种导出的数据类型。公式一栏，单击右边的启动表达式构建按钮就可以进行。

数据审核

这个节点会提供常见的统计分析结果

如果设置过类型节点，那么会将角色为无的字段排除在外，角色是目标的会被作为交叠字段

缺失值的处理

先接类型，再数据审核的节点（质量面板处进行查看）

缺失值类型：

空白值---对某值被专门进行定义为空白

空字符串和空白---字符串设置为不可见的

空值-----留空和被定义为空值（使用undef）

缺失值的定义：

类型节点中，检查列是检查符不符合要求。而缺失值如果有的话会在缺失值列中表现出来。

无是默认操作
不对字段的值进行检查
无效就是将超出限制的值更改为系统空值
强制就是字段已经实例化了，把超过限制的值更改为符合该字段测量级别的合法值，其中分为标志集合和数值，数值就是大于上线的转换为最大值，小于下线的为最小值，空指则会转化为中间值。集合就是将未知值转化成集合值中的第一个成员。标志，将真值和假值以外的值转换为假值。
丢弃，如果在检查中发现非法值，将丢弃该记录。
警告，检查中发现非法值，将警告
中止，如果在检查中发现非法值将终止运行并提示错误
如果缺失值已经被提前处理为一个指定的数字，那么系统将不会发现，所以我们需要告诉系统有数值要被指定为缺失值。我们通常在缺失值一列中选择指定，指定的设置含义如下，开就是对该字段进行缺失值处理。关，没有为该字段确实处理决定。
选择指定，我们可以为字段进行针对性的缺失指定处理，其中选项我们可以定义该字段值的有效范围。
检查值可以同时执行检查操作并警告
定义空白的选项，可以将哪个值视为空白值进行说明

缺失值的自动化处理

1.对于空字符串----数据审核结果的质量分析报告中生成，缺失值选择节点。就可以对其进行抛弃或者是筛选

缺失值选择节点：查询无效值的范围---所有字段，所选字段，质量高于多少的字段才进行。

以下位置发现无效值---以上字段（上述字段中发现就无效）和以上所有字段（指定字段的每一个字段）

2.对于空白值---数据审核的质量面板--方法处，固定（平均值等自己指定）、随机（分布中的均匀数据随机分发）、表达式（自己写表达式）、算法（系统进行插补）

再点击要处理的变量，生成，缺失值超节点命令，再将该节点连接到类型节点就可以进行插补。

图形表示：

在类型节点处，将因变量设置为目标就可以（有且仅有一个）

数据抽样

我们可以通过样本节点来对数据进行抽样
样本节点当中分为简单和复杂两种重要模式。
简单抽样模式中包含样本和丢弃样本。
在设置选项卡中，第一个可以选择前n条记录，也可以n中取1，就是每隔n条取一条。随机百分号就是随机抽取指定百分比的数据，或者是丢弃。
最大样本为，我们在选择n中取一以及随机百分比的时候，可以使用该功能。
复杂模式当中有抽样和分层，复杂抽样方法中有聚类和分层方法，单击聚类与分层按钮在弹出的对话框中设置分层方式，并且选择按比例或者是计数来进行筛选。选择定制单选按钮将排序方式设为，单击右下角的读取置按钮会进行自动的读取。
聚类的应用主要是指在抽取样本的时候，很有可能同一样本的被抽取了，有的没有被抽取。那么为了保证这一类的数据全部都被抽取到，让它的分析更加全面。所以我们会使用聚类，要么这一类会全部被抽取，要么这一类全部不会被抽取，不会导致对这一类的分析一半。

数据分区

功能是将数据分为训练集和测试集，用于对于模型的训练和评估，原因是因为我们想要测试这个模型有没有效？无法获得未来可能会发生的数据来进行测试，所以就要将原来的数据一分为二留一部分来进行测试，我们通常将在测试集的结果来作为对模型评判的标准，如果我们对于同一问题建立了多个模型来进行比较，那么我们会在多划分一个验证机用于选择模型的参数，所以数据集最终会被划分为三部分，用于模型训练的训练集以及用于参数选择的验证集以及用于模型评估的测试集
这些操作由分区节点来进行实现

如果在一个数据集中，某种比例要明显大于另一种比例，可能会导致整个数据集被认为成具有较大比例的那个。比例较小的，会被完全的忽视掉。但此时由于占较大比例的数据较多，所以我们对该数据的预测已经达到了一个很好的状态，让我们无法进行识别。所以在前期要对他进行数据平衡处理，所以我们可以使用平衡节点对数据进行平衡处理有两种方式欠采样和过采样。
欠采样，就是针对数据当中，对多数类别进行随机抽样来减少多数类别的样本量
过采样就是针对少数类别，通过对选择少数类别的部分样本进行复制来增加额外的样本量，通过这两种方式来减少或者是降低数据集不平衡程度。
条件输入条件，针对满足输入条件的数据样本来进行操作。
因子该值小于一表明对于满足样本的，对于满足条件的样本进行欠抽样，该值大于一表示对满足条件的样本进行过采样训练。

平衡数据

的意思就是如果事先已经定义了分区节点，选择此项就只对进行分区节点当中的训练数据集来进行平衡处理。

平衡处理以及分区处理的正确顺序应该是首先使用分区节点把数据划分为训练集和测试集。再在分区节点中对数据集进行平衡化处理，并且勾选上仅平衡训练数据。

特征选择

如果备选字段很多的话，我们可以使用特征选择节点来进行快速识别最为重要的字段
第一筛选删除不重要或有问题的输入记录，或者是个案排序
第二对剩余的输入进行排序，并根据重要性来进行分级选择，确定要在后续当中使用的功能子集
定制字段分配就是自己来设置输入输出。字段预定义角色，就是按照前面类型节点定义的输入和输出。
在模型面板当中，可以针对数据质量问题的筛选标准做出要求。
缺失值的百分比筛选具有过多缺失值的字段，默认70%以上确实则过滤掉该字段
最大百分比筛选，在分类字段中，其中有一类超过了默认的数值，就会过滤掉该字段
最大类别数，按记录百分比。在分类字段中类别的内容过多，超过了默认的数值就会过滤掉该字段
最小变异系数，筛选变异系数小于或等于指定最小值的字段
最小标准差筛选标准x小于或等于指定最小值的字段
选项中
所有排列字段中如果勾选重要的，那么重要的就会被勾选上字段。总数设定为多少，那么就会有前多少个重要字段被勾选上？如果选择重要性大于，就会按照设置的值进行筛选，就是比如说设置0.95，就会将重要性大于0.95的字段都勾选上

数据变换

作用就是对数据进行相应的变化，比如可以让不服从正态分布的变为服从正态分布的。选择生成导出节点非标准变化咋按原始数据做倒数生成泥模型标准变化及将数据再做归一化取值限制在0到1范围内

历史记录找回

流、结果管理区切换到输出选项卡，可以回顾输出结果，也可以对其进行重命名和注释

注：表格节点的生成，就是进行节点筛选的意思。可以根据需要进行选择

你可能感兴趣的:(SPSS,Modeler,数据挖掘,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo