Jiong-952

2023广工数据挖掘复习重点精讲

重点

第一章

数据挖掘定义

数据挖掘任务

分类、聚类、回归、关联、离群点检测、演化、序列模式挖掘

分类：通过分析示例数据库中的数据为每个类别做出准确的描述和建立分析模型或挖掘出分类规则，然后用此规则对其他数据库的记录进行分类
聚类：试图找出数据集中的共性和差异，并将具有共性的对象聚合在相应的类中
回归：确定两种或两种以上变量间相互依赖的定量关系的一种分析方法
关联：发现特征之间的相互依赖关系通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。

知识发现过程：

①数据清洗：清除数据噪声和与挖掘主题明显无关的数据
②数据集成：将来自多个数据源中的相关数据组合到一起
③数据选择：根据数据挖掘的目标选取待处理的数据
④数据转换：将数据转换为易于进行数据挖掘的数据存储形式
⑤数据挖掘：利用智能方法挖掘数据模式或规律知识
⑥模式评估：根据一定评估标准，从挖掘结果中筛选出有意义的相关知识
⑦知识表示：利用可视化和知识表达技术，向用户展示所挖掘的相关知识
数据挖掘过程【商业角度】

数据收集和预处理
知识提取
知识辅助决策

(1)
在数据挖掘中，与谚语“蜜蜂归窠迟，来日好天气”和“蚯蚓爬上路，雨水乱如麻”中的人类思维过程最相关的任务是序列模式挖掘。
序列模式挖掘是一种数据挖掘任务，旨在从有序数据序列中发现频繁出现的模式或规则。它适用于时间序列、文本数据、日志记录等场景，其中数据具有固定的顺序关系。
谚语中所描述的情景涉及到某种顺序和时间上的关联，即蜜蜂归巢和好天气之间的关系，以及蚯蚓爬行和雨水乱如麻之间的关系。这种思维过程涉及到对事件之间的顺序和时序关系的感知和理解。
序列模式挖掘的目标就是从序列数据中提取出这种顺序关系，发现频繁出现的模式或规则。通过分析序列数据中的模式，我们可以了解事件之间的顺序关系和可能的因果关系，类似于人类思维中观察事件的顺序和推断可能的结果。
因此，序列模式挖掘任务与谚语中的人类思维过程具有一定的相似性，可以帮助我们揭示事件之间的顺序关系，并从中推断可能的结果或趋势。
(3)分类与回归的区别
分类和回归是两种常见的有监督学习任务，它们的主要区别在于输出结果的性质。
分类任务是一种有监督学习任务，旨在将实例分到预定义的类别中。其输出是离散的类别标签。分类任务的目标是根据已知的输入特征来建立一个模型，使其能够将新的实例正确分类到预定义的类别中。分类问题的例子包括垃圾邮件分类、图像识别（将图像分为不同的物体类别）、疾病预测（将患者分为不同的疾病类别）等。
回归任务也是一种有监督学习任务，其目标是预测一个连续的数值输出。回归任务通过建立输入特征和对应的输出之间的关系来进行预测。回归问题的例子包括房价预测（根据房屋的各种特征预测价格）、销售量预测（根据市场因素预测产品的销售量）等。
区别总结如下：

分类任务的输出是离散的类别标签，而回归任务的输出是连续的数值。

分类任务的目标是将实例分到预定义的类别中，而回归任务的目标是预测数值输出。

至于分类算法属于有监督算法还是无监督算法，分类算法属于有监督算法。有监督学习是一种利用已标记的训练数据进行模型训练的方法，其中训练数据包括输入特征和对应的输出标签（类别标签）。分类算法通过使用有标签的训练数据来构建模型，以便对未标记的数据进行分类预测。

(1)数据挖掘的过程：
知识发现过程的1-7
（2）为了对银行的储蓄客户进行细分，以下是一个基本的数据挖掘方法的工作步骤：

数据清洗：

清除数据中的噪声和异常值。

处理缺失值，可以使用填充方法进行处理。

剔除与储蓄客户细分明显无关的数据。

数据集成：

从不同的数据源中收集与储蓄客户相关的数据，如个人信息、交易记录、储蓄账户信息等。

将这些数据集成到一个统一的数据集中。

数据选择：

根据银行储蓄客户细分的目标，选择与细分任务相关的数据。

例如，可以选择与客户年龄、收入、存款金额、交易频率等相关的数据。

数据转换：

对选定的数据进行转换，以便于进行数据挖掘。

可以进行特征工程，提取客户的关键特征，如平均存款金额、交易频率等。

标准化数据，使得不同特征具有相同的尺度。

数据挖掘：

使用适当的数据挖掘算法，如聚类、分类、关联规则挖掘等，来发现储蓄客户的细分模式或规律。

可以尝试不同的算法和参数组合，进行实验和比较。

模式评估：

根据预先设定的评估标准，对挖掘结果进行评估。

筛选出有意义且与银行需求相关的细分模式或规律。

知识表示：

使用可视化和知识表达技术，向银行提供所挖掘的相关知识。

可以通过报表、图表、可视化图像等方式向银行展示不同储蓄客户细分的特征和结果。

这些步骤提供了一个基本的框架，银行可以根据实际情况和需求进行调整和扩展，以实现对储蓄客户的细分分析。
（3）离群点和噪声点的区别：

定义：

离群点（Outliers）：离群点是指与其他数据点明显不同的数据点，它们在数据集中远离其他数据点或者与大多数数据点具有明显不同的特征。

噪声点（Noise）：噪声点是指数据中的随机、无意义或不相关的异常值，它们可能是由于数据收集过程中的错误、测量误差、数据传输问题或其他不确定因素引起的。

影响程度：

离群点：离群点对数据集的整体模式和结构具有较大的影响，可以对数据分析和挖掘结果产生较大的扰动。

噪声点：噪声点通常是孤立的，对整体数据集的分析和挖掘影响较小。

处理方式：

离群点：离群点可以被视为特殊情况或异常情况，可能包含有用的信息。在某些情况下，可以选择保留离群点或将其作为独立的类别进行处理。然而，在其他情况下，离群点可能会被视为异常值，并被删除或进行异常值处理。

噪声点：噪声点通常被认为是无效的或不相关的数据，一般会被视为干扰信号。处理噪声点的常见方法是进行数据清洗，通过修正、删除或替换噪声数据来净化数据集。

总结而言，离群点是与其他数据点明显不同的数据点，对整体模式和结构有较大影响；而噪声点是随机或无意义的异常值，对整体数据集影响较小。在数据分析和挖掘中，离群点可能包含有用信息，而噪声点通常需要进行清洗和处理。

第二章

三种均值在反映数据时的特点：

平均值：描述数据集中心最常用的，最有效的数值度量，但对极端值敏感
中位数：对于倾斜（非对称）数据，中位数是数据中心的较好度量
截断均值：截断均值可以避免少量极端值影响均值

截断均值：指定0和100间的百分位数p，丢弃高端和低端(p/2)%的数据，然后用常规方法计算均值，所得的结果即是截断均值。

数据预处理：

数据清理：
1. 目的就是试图填充缺失值、去除噪声并识别离群点、纠正数据中的不一致值。
2. 缺失值处理：
  1. 忽略元组
  2. 忽略属性列（很多的缺失值才使用）
  3. 人工填充
  4. 自动填充（全局常数、均值和众数、可能值（回归、推理、决策树））
3. 噪声数据处理：
  1. 分箱（通过考察周围的值来平滑有序数据的值，均值平滑，边界平滑）
  2. 聚类（聚类将类似的值组织成群或簇。落在簇集合之外的值被视为异常值）
  3. 回归（通过回归（线性回归、非线性回归）让数据适合一个函数来平滑数据）
数据集成：
1. 数据一致性和冗余
数据变换：
1. 平滑
2. 聚集
3. 数据泛化
4. 规范化
  1. min-max规范化（x-min÷(maqx-min)）
  2. Z-score规范化（x-avg/标准差）
  3. 小数定标规范化（[999,88]->[0.999,0.088]）
5. 属性构造
6. 数据离散化
数据规约（数据的抽样和特征选择）
数据离散化（具体的年龄使用老年、中年、青年来替代）

简答题：请列举5种数据预处理方法，并简要说明。

以下是五种常见的数据预处理方法及其简要说明：

数据清洗（Data Cleaning）：数据清洗是指处理数据中的缺失值、异常值和重复值等问题。这包括填补缺失值、删除异常值或使用插补方法进行修复，以及识别和处理重复数据。
特征缩放（Feature Scaling）：特征缩放是将不同特征的值范围映射到相似的尺度上，以消除特征之间的量纲差异。常见的特征缩放方法包括标准化（将特征转换为均值为0，方差为1的分布）和归一化（将特征缩放到0和1之间）。
特征编码（Feature Encoding）：特征编码是将非数值型的特征转换为数值型的表示形式，以便机器学习算法能够处理。常见的特征编码方法包括独热编码（One-Hot Encoding）、标签编码（Label Encoding）和序数编码（Ordinal Encoding）。
特征选择（Feature Selection）：特征选择是从原始特征集中选择最具有预测能力的特征子集。这可以减少特征空间的维度，提高模型的训练效率，并减少过拟合的风险。常见的特征选择方法包括过滤式方法（如方差阈值、相关系数）和包裹式方法（如递归特征消除）。
数据集划分（Data Splitting）：数据集划分是将原始数据集划分为训练集、验证集和测试集等子集的过程。训练集用于模型训练，验证集用于模型调参和选择最佳模型，测试集用于评估模型在未见过数据上的性能。常见的划分方法包括随机划分和交叉验证。

这些数据预处理方法在机器学习和数据分析中起着重要的作用，可以提高模型的准确性、稳定性和可解释性。具体的预处理方法的选择取决于数据的特点和应用场景。

相似度度量

线性相关系数

余弦相似度

计算距离（闵可夫斯基距离）

曼哈顿距离（绝对值和）
欧几里得距离（平方求和开根号）
切比雪夫距离（x的差值或者y的差值大的那一个）

第三章分类

决策树

决策树基本概念

决策树(Decision Tree)是一种树型结构，包括：决策节点(内部节点)、分支和叶节点三个部分。

决策节点：代表某个测试，通常对应于待分类对象的某个属性，在该属性上的不同测试结果对应一个分支。
叶节点存放某个类标号值，表示一种可能的分类结果。
分支表示某个决策节点的不同取值。

信息熵公式

信息增益

ID3算法

计算原数据集的熵Entropy（S）
计算所有属性的信息增益，选择增益最大的作为根节点
对每个分支递归使用这个方法

当划分到某个类的目标属性全是一个值时，就可以终止递归

缺点：

只能处理分类属性数据，无法处理连续型数据
对测试属性每个取值相应产生一个分支，会导致还分出很多小的子集，划分过程中可能会因为子集规模过小导致统计特征不充分而停止
由于使用信息增益作为决策树结点属性选择的标准，导致决策树算法偏向选择具有较多分支的属性，可能会过度拟合

C4.5算法

https://www.bilibili.com/video/BV1VA411A7AQ/?p=3&spm_id_from=pageDriver
不仅考虑信息增益的大小程度，还兼顾考虑为获得信息增益所付出的“代价”
分裂信息

信息增益率

计算原数据集的熵S
计算所有属性的信息增益和分裂信息求得信息增益率，选择增益率最大的作为分裂的结点

朴素贝叶斯分类方法

贝叶斯定理

为什么朴素？

假设样本特征彼此独立，没有相关性，而这在现实中不存在，但是用这个方法在文本分类等应用中效果良好

KNN算法

曼哈顿距离（如果属性不同距离+1）

例题2

不平衡数据分类

不平衡数据，是指在同一数据集中某些类的样本数远大于其它类的样本数，其中样本少的类为少数类(以下称为正类) ，样本多的类为多数类(以下称为负类)。

查准率（精度）
预测正确的正例占分类为正例的比例

查全率（召回率）
预测正确的正例占实际为正例的比例

F1 度量
表示精度和召回率的调和平均值 F1 = 2rp / (r + p)

一元线性回归 - 最小二乘法

第四章聚类

K-means

划分后取均值作为中心再划分直到不变化

K-summary

计算点与簇之间的距离

计算簇与簇之间的距离



例题

第一次先计算所有点到每个簇中心的距离，将他划分到距离进的簇

这样可以得到新簇的CSI信息
然后对所有点再计算一次距离
直到不变为止

DBSCAN算法

基于密度的聚类算法

当Eps>=MinPts时，该点为核心对象

例子：

一趟聚类算法

这个聚类阈值不知道是怎么算的


如果对两个簇都同时小于，就放进距离更小的

第五章关联

关联分析中为何要首先寻找频繁项集，在非频繁项集中可以发现规则吗

在关联分析中，首先寻找频繁项集是为了确定数据集中出现频率较高的项集。频繁项集是指在数据集中经常同时出现的一组项的集合。通过寻找频繁项集，我们可以确定哪些项集具有较高的关联性，即它们经常同时出现。
寻找频繁项集有两个主要目的：

简化搜索空间：在大规模的数据集中，项集的组合可能非常庞大。通过首先寻找频繁项集，我们可以缩小搜索空间，只关注那些频繁出现的项集，减少计算复杂度和时间开销。
建立关联规则的基础：频繁项集是生成关联规则的基础。关联规则是指项集之间的条件关系，例如"苹果"->“橙子”，表示购买了苹果的人也倾向于购买橙子。通过找到频繁项集，我们可以进一步挖掘其中的关联规则，确定哪些项集之间存在着显著的关联性。

非频繁项集一般表示出现频率较低的项集，它们的出现可能是偶然的或者不具有统计显著性。在非频繁项集中发现规则的可行性较低，因为它们的出现很少，可能没有足够的样本来支持或验证关联规则的有效性。
因此，通过首先寻找频繁项集，可以筛选出具有统计意义的项集，从而为后续的关联规则挖掘提供更可靠的基础。

支持度和置信度

支持度分母是总数
置信度分母是包含x项的总数

频繁项集与规则

Apriori算法

标准的解题步骤

FP增长树

扫描事务表，对所有1项集进行计数并进行降序排序
利用L的排序来对事务表进行更新，根据事务表画出FP增长树
FP-tree挖掘过程

关系规则生成

利用置信度和提前处理好的频繁项集来进行生成

筛选出符合置信度要求的关联规则

关系规则评价

假设评价规则{X}->{Y}

支持度：![](null#card=math&code=support = P(X)/P(ALL)&id=yb7XV)普遍性
置信度：可靠性
提升度：![](null#card=math&code=Lift = \frac{P(Y|X)}{P(Y)}&id=jp8xa) 提升度<1表示负相关

第六章离群点

离群点挖掘
基于统计的离群点检测
离群点对应于低概率的数据

基于距离的方法

计算K个最近邻的平均距离，可以得到离群点分数

基于相对密度的方法

感觉N（P5,k）有点问题，应该是2个才对

离群点与噪声点的区别

噪声是测量变量的随机错误或误差。噪声是测量误差的随机部分，包括错误或或孤立点值。导致噪声产生的原因有多种，可能是数据收集的设备故障，也可能是数据录入过程中人的疏忽或数据传输过程中的错误等
离群点是在数据集中偏离大部分数据的数据。可能对应稀有事件或异常行为。离群点可能是由于测量、输入错误或系统运行错误造成的，也可能是数据内在特性所决定的，或因客体的异常行为所导致的。离群点往往具有特殊的意义和很高的实用价值，需要对其认真审视和研究。在聚类，分类，关联分析等方法中，离群点通常被当成噪声，但在安全，风险控制领域，离群点有比较高的研究价值

《正常人》听书笔记童心麻麻
一、同侪压力。1、康奈尔校园明星，很多朋友，太在意别人怎么看自己，行为被同侪压力左右，玛丽安不太意别人怎么看自己，也不为任何人改变自己，最招人恨的反派，没有朋友。他们俩都很聪明，谈话默契。2、社交生活中，康奈尔维持自己校园明星的地位，私底下，他与玛丽安灵肉合一。但是在毕业舞会选择舞伴上，伤害了玛丽安。二、心理问题。1、玛丽安是没有金钱概念的富家女，康奈尔家境贫寒，玛丽安和康奈尔有社会阶层差异，他们
2021年1月22日星期五天气多云亲子日记（778） love_happy
今天期末考试，我早早地醒了，惦记的睡不着了，豪宝昨晚就说了，还和往常一样，要吃两个鸡蛋加一个火腿或者油条，代表考试能得满分的意思，这也许能带给他一点点心安，我就起床照做了一份早餐，饭桌上又唠叨了一些注意事项，然后给他一个爱的拥抱，我知道说的再多，也不如他自己多一点细心认真，每一场考试都希望他能认真对待，考出自己的真实水平。终于等到放学时间，见到他我还没说什么，看他高兴的样子就知道答案了，看来还算顺
《三十岁，一切刚刚开始》读书笔记Day02/25 设绘喵爱读书April
第一章：三十岁轨迹1-2三十岁，真正的人生才刚刚开始•人和人不能用生理年龄来区分，更不能十年、十年地来划分。•见过很多二十多岁却从不学习的年轻人，也见过六十多岁还在路上奔波的长者，前者已经老了，后者依旧年轻。所以，人到底什么时候才算变老了呢？答案是，不学习的时候，不进步的时候。•有两种方式可以让人减缓衰老：第一，寻找一个伟大的目标，用一生完成。第二，做一件持续升值的事情，直到永远。•这两种减缓衰老
想象篇盗墓笔记 zy呵呵呵
（2）克凌来到穿越门面前，穿越门对克凌说：“这位男士，请问你想去哪儿？”“我要到一百年以前，去盗墓！”“呵呵，去盗墓啊！提醒你，那里非常危险哦！”“没事，我不怕！”“好的，现在开始穿越之旅，坐稳点！”一眨眼，就来到1918年，克凌看了看周围，自己在街上，非常吵闹。克凌来到一家饭店，要了盘瓜子，在吃起来，听着其他人谈话。“听说要来个人，要开拍卖会。”“真的吗？”“听说那是个财主！”“那东西是恶龙的蛋
阅读记录（54）｜拆书稿拟定主题方式初十一
阅读目的/碎片出处碎片出处：阅读分享三十九：《拆书稿的经典结构，如何拟定一个主题点？》-笔记内链：阅读目的：了解拆书稿的提炼主题的方式，在读书时应用提炼知识点，总结成个人思想读后收获/感受要点一：干货类书籍拆书结构：话题引入+书的名字+作者观点+提出问题+作者解决办法+总结收尾开头用相关热点或者是生活痛点进行引入，读书化做已用，要先思考哪些点能解决自己的哪方面的问题自然而然地引出书的名字，表明这本
《金文成〈中庸〉学习笔记399。2020-2-22》金吾生
《金文成〈中庸〉学习笔记399。2020-2-22》今天是庚子年戊寅月乙未日，正月廿九，2020年2月22日星期六。【唯天下至诚，为能尽其性；能尽其性，则能尽人之性；能尽人之性，则能尽物之性；能尽物之性，则可以赞天地之化育；可以赞天地之化育，则可以与天地参矣。】上一节，船山讲到诚与性的关系，诚是第二性的，性是第一性的，该怎么理解呢？船山说：“诚者性之撰也，性者诚之所丽也”，意思是说，不能简单地将诚
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
高省app没有邀请码怎么注册？高省app总部邀请码是什么？古楼
高省是正规平台吗？高省app是杭州长孚科技有限公司旗下的一款电商导购应用，为用户打造一个电商购物优惠平台，用户可以在这个App中领取主流商城的商品隐藏优惠券以及获得返利。基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
分享高效背诵单词的方法落笔情深i
图片发自App如何一天刷掉1000多个单词？我对背单词效率高的理解是，在同等时间内，过单词的数量比别人的多，且记忆的效果比别人的好。即单位时间内，既有数量又有质量。当年在准备各种标化考试时，我每天都需要背很多单词。到备考后期，我可以每天刷1000多个左右的单词（含背过待巩固的）。以下我分享自己背单词的经验，包括自己走过哪些弯路，又是如何走出这些弯路。希望能帮到大家。1.要有合理的预期弯路：记得我背
[密码学实战]密评相关题库解析曼岛_ 成长之路密评题库
[密码学实战]密评相关题库解析一、背景依据《密码法》第二十二条，关键信息基础设施（关基）运营者必须开展商用密码应用安全性评估，且需定期进行（不少于每年一次）。二、核心解析2.1测评标准框架（依据GM/T0115）考试围绕四大技术层面和三大管理维度展开：评估维度核心测评内容常见考点案例物理和环境安全电子门禁身份鉴别、视频记录存储完整性门禁系统使用SM3-HMAC判定合规性网络和通信安全VPN通道加密
怎样学习2.0（也就是怎样实现自己的梦想）？希望是终结版 gjf05_05 初学者综合 google 百度
2$*******************************************************************324.怎样学习？41.前期：整体规划与局部规划52.中期：提出问题与解决问题与同行交流！63.后期:笔记（总结）。7******************************8解释1.整体规划:了解怎样实现梦想?9(也就是实现梦想大致应该做些什么？也就是把梦
数据库学习笔记——14组合查询 Love零O
本课学习如何利用UNION操作符将多条SELECT语句组合成一个结果集。1组合查询多数SQL查询只包含从一个或多个表中返回数据的单条SELECT语句。但是，SQL也允许执行多个查询（多条SELECT语句），并将结果作为一个查询结果集返回。这些组合查询通常称为并（UNION）或复合查询（compoundquery）。主要有两种情况需要使用组合查询：在一个查询中从不同的表返回结构数据；对一个表执行多个
反躬自省：用手中的笔让世界变得更美好的文学家——读《品格之路》笔记（2021年11月22日）敏于事而慎于言
今天阅读了本书第九章内容，主题为：反躬自省——用手中的笔让世界变得更美好的文学家。这一章的主人公是塞缪尔·约翰逊——英国作家、文学评论家和诗人，最让他得以扬名的是他用九年的时间编著而成的《英语大辞典》。婴儿期就由于感染淋巴结核导致一只眼睛永久失明，另一只眼睛弱视，一只耳朵失聪。后来，天花又使他变得丑陋无比。这就是作者开篇对塞缪尔.约翰逊的描写。用这幅形象来映衬他后期通过艰难成长而取得的了不起的成就
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
【乳腺超声、乳腺钼靶、宫颈癌、CT骨折】等项目数据调研，及相关参考内容整理汇总钱多多先森人工智能（AI）医学影像深度学习乳腺钼靶乳腺超声宫颈癌
文章目录一、乳腺超声内容整理1.1、数据集1.2、可以参考的论文1.3、可以参考的GitHub代码1.4、可以参考的博客1.5、简单任务需求二、宫颈癌风险智能诊断2.1、数据集2.2、KFB读取文件显示三、乳腺钼靶3.1、数据集3.2、拍摄方式：3.3、拍摄和观察视图3.4、DDSM标注文件解析四、CT骨折4.1、数据集五、总结本博客是一个笔记类的记录文档，主要是记录了在调研各个项目的过程中，遇到
5商学习笔记爱英思谭523
【Jocelyn1月25日习得小结:】1.知识划重点(R):快速学习：如何用20小时，快速学习？2.我的理解(I):润总这个快速学习，跟李笑来老师的最小必要知识很类似，都是通过快速掌握入门的知识，完成从0到1的跨越。时间越快，掌握大概知识越多进门就越快。3.我的相关经验或经历(A1):复述其实是帮助自己去理解概念的绝佳方式。自己带课这几年，对于教材中的概念从浅入深的学习和理解，跟我面对无数个不一样
2022-04-18团练笔记（第三次）花火喜珠
昨天上午团练摸打滚爬三小时，不觉得累，难道是我体能有增？今天左右臀部，后腰，大臂酸疼，看样子老师还是加了些量，不过还不够过瘾！因为，课后我又步行四十分钟回家了。挑战了一个一直以来很惧怕的动作，有一点点心得，还是比较怕。慢慢来吧。左右侧后翻需要做出分解慢动作。横线组合地面旋转一圈半，一直是摸鱼混过去的，需要多练练。改掉耸肩毛病，动作再舒展一些。呼吸带动动作，听着容易，看老师做的也容易，为啥自己做起来
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
8、深入理解AWS认证解决方案架构师助理考试：设计与优化君子心理 AWS认证解决方案架构师弹性架构
深入理解AWS认证解决方案架构师助理考试：设计与优化1设计弹性架构的关键要素设计弹性架构是AWS认证解决方案架构师助理考试的重要组成部分。弹性架构不仅能够确保系统的高可用性和容错能力，还能在面对流量峰值时提供稳定的服务。以下是设计弹性架构的一些关键要素：1.1选择可靠和弹性的存储在设计弹性架构时，选择合适的存储解决方案至关重要。AWS提供了多种存储选项，如AmazonS3、AmazonEBS、Am
AWS Certified Cloud Practitioner 认证考试总结 DEMI0815 AWS aws 云计算
AWSCloudTrailLogs对您的AWS账户进行监管、合规性、操作审计和风险审计。AWSCloudTrail可用于记录您的AWS账户的AWSAPI调用和其他活动，并将记录的信息保存到您选择的AmazonSimpleStorageService（AmazonS3）存储桶中的日志文件中。默认情况下，CloudTrail传输到S3存储桶的日志文件使用具有AmazonS3托管密钥的服务器端加密（SS
AWS Certified Cloud Practitioner 认证考试测试题与解析 DEMI0815 AWS aws 大数据云计算
AWSCertifiedCloudPractitioner认证考试测试题与解析SecurityandCompliance（安全性与合规性）TechnologyCloudConcepts（云概念）BillingandPricing（计费与定价）SecurityandCompliance（安全性与合规性）1:Whichofthefollowingisarecommendedwaytoprovidepr
2023-08-27 每天都微笑
20230827《会痛的不是爱》273笔记及摘抄笔记及摘抄1我们来到世间，就是为了做自己。经历体验，合作创造属于自己独特的生活与功课。尽管信任笃定，安心欢喜的做自己吧。因为这是我们来此，你我他终究要做的。不必比较评判，无需预设强求，我们都尽管做好自己。2一个人，不能控制另外一个人，也因此不能推动另外一个人。每个人都只能自己推动自己，所以应当给别人一些空间。3学习真实、自由、负责任地做自己，并通过同
这个冬天格外的冷，格外的长（第十一章）麦芒律师
看似平静地回到家，她躲到房间里，还是往外瞄了瞄，其实黑漆漆的，啥也看不到。小心翼翼地从包里慢慢抽出那个笔记本，凑近煤油灯，用手反复摩挲着光滑的封面，晃一晃，反射出晶莹剔透的光，太阳下肯定更漂亮。她谨慎地翻开封面，第一页有一行蓝色钢笔字，字体刚劲有力：好好学习，好好生活！她双手轻轻地抚摸着这几个字，眼泪不受控制地往外涌，她赶紧用袖口抹去，不然会落到本子上，可是为什么越抹越多呢？婆婆催着睡觉，她吹灭了
淘宝优惠券app排名前十(最受欢迎的10款省钱优惠劵app) 直返APP淘宝优惠券
随着网购的普及，越来越多的人开始寻找各种省钱的方法。其中，使用淘宝优惠券APP就是一种非常受欢迎的省钱方式。在这篇文章中，我们将为你介绍淘宝优惠券APP排名前十的app，帮助你省钱购物。月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）一、直返直返的口号是“返利就用直返”，它强调没有上级赚差价，直接为用户提供商家和消费者之间的综合优惠券返利平台。用户可以在直返上
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
2023-06-18 每天都微笑
20230618《会痛的不是爱》203笔记所有的自我破坏都隐藏了对更大牺牲的恐惧笔记1带着牺牲的付出，不是真的付出。这些牺牲里面，可能是我们的不配得感，讨好感，想要对方对自己有好的回应或是获得好的评价等等。这样的付出，其实是交换，是算计。而交换与算计，往往不是落空就是很难完全如愿，同时，很累很累。带着牺牲的付出，双方都无法真的受益。有的时候，有意识无意识的自我破坏，就是在暂停这样的局面，在表达，我
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息