如何原谅奋力过但无声

【第一章走进数据科学】袁博《数据挖掘：理论与算法》

1 整装待发

1、数据挖掘的前提和基础：Technology Advancement

2、DRIP：Data Rich，Information Poor

2 学而不思则罔

1、学习资源

2、数据挖掘（Data Mining）是一个多学科交叉领域

3、数据挖掘（Data Mining）无所不在

3 知行合一

1、Data（数据）

2、Big Data（大数据）

3、实际应用

4 从数据到知识

1、Open Data（开放数据）

2、Data Mining（DM，数据挖掘）

3、从数据（Data）到智能（Intelligence）

4、流程

5、业界应用（商用数据分析软件）

5 分类问题（Classification）

1、什么是分类问题？

2、Classification Boundaries（分界面）

3、Overfitting（过学习）

4、Cross Validation（交叉验证）

5、Confusion Matrix（混淆矩阵）

6、Receiver Operating Characteristic（ROC曲线）

7、Cost Sensitive Learning（代价敏感分类问题）

8、Lift Analysis（评价模型实际使用中的效能）

6 聚类及其他数据挖掘问题

1、聚类（Clustering）

2、关联规则（Association Rule）

3、回归（Regression）

4、Seeing is Knowing（所见即所得）

5、Data Preprocessing（数据预处理）

7 隐私保护与并行计算

1、隐私保护（Privacy Protection）

2、云计算（Cloud Computing）

3、并行计算（Parallel Computing）

4、宏观上，数据挖掘该怎么做？

5、No Free Lunch（没有免费的午餐）

8 迷雾重重

1、Case Study

2、相关

3、Survivorship Bias（幸存者偏差）

4、解决实际问题时不能单向思维

9 单元补充

1 整装待发

1、数据挖掘的前提和基础：Technology Advancement

Data Storage 存储数据的能力
Computation capacity 处理加工数据的能力

2、DRIP：Data Rich，Information Poor

现实生活中普遍存在的“数据充沛而信息不足”的问题，原因在于对原始数据没有进行必要的处理和分析，没有发挥出其应有的价值。

2 学而不思则罔

1、学习资源

（1）经典教材：

（2）国际会议：

ICDM：International Conference on Data Mining

Welcome to ICDM: IEEE International Conference on Data Mining!

IEEE International Conference on Data Mining 2021 (ICDM2021) | IEEE ICDM 2021

https://ieeexplore.ieee.org/xpl/conhome/1000179/all-proceedings

ICDE：International Conference on Data Engineering

ICDE 2022 – 38th IEEE International Conference on Data Engineering

https://ieeexplore.ieee.org/xpl/conhome/1000178/all-proceedings

ICML：International Conference on Machine Learning

2022 Conference

IJCAI：International Joint Conference on Artificial Intelligence

Welcome to IJCAI | IJCAI

PAKDD：Pacific-Asia Conference on Knowledge Discovery and Data Mining

Home - Pacific Asia Conference on Knowledge Discovery and Data Mining

PAKDD 2022

Pacific-Asia Conference on Knowledge Discovery and Data Mining | SpringerLink

SIGKDD：ACM SIGKDD Conference on Knowledge Discovery and Data Mining

SIGKDD

SIGKDD - Home

http://dbgroup.cs.tsinghua.edu.cn/wangjy/KDD4CCF.pdf

（3）期刊：

IEEE Transactions on Neural Networks and Learning Systems
IEEE Transactions on Knowledge and Data Engineering（TKDE）

（4）协会：

（左）计算智能协会；（右）计算机协会

（5）知名学者：

吴信东：ICDM创始人之一

吴信东 - 搜狗百科

吴信东 - 搜狗学术

周志华：南大教授

周志华 - 搜狗百科

韩家炜：Data Mining: Concepts and Techniques （数据挖掘：概念与技术）
——数据挖掘界公认的经典教材作者之一

韩家炜 - 搜狗百科

裴健：TKDE主编

裴健 - 搜狗百科

杨强：华为诺亚方舟实验室的创始主任，香港科技大学教授

杨强 - 搜狗百科

Chih-Jen Lin：LibSVM软件

LIBSVM -- A Library for Support Vector Machines

支持向量机SVM工具包LIBSVM的安装和测试 - 知乎

Philip S.Yu：清华大学数据研究院院长

Professor Philip S. Yu's Homepage

https://scholar.google.com/citations?user=D0lL1r0AAAAJ&hl=zh-CN

张长水：清华大学自动化系教授

张长水 -清华大学自动化系

（6）互联网资源：

Google
Google Scholar
Wikipedia
UCI Machine Learning Repository（有很多数据集）
The Data Platform for AI | WEKA（开源数据挖掘软件）
MATLAB & Simulink - MathWorks（数据挖掘相关软件包，如神经网络）
KDnuggets: Machine Learning, Data Science, Big Data ...（数据挖掘网站，有大量关于论文、数据、工作等方面信息）

2、数据挖掘（Data Mining）是一个多学科交叉领域

机器学习 Machine Learning
模式识别 Pattern Recognition
统计学 Statistics
人工智能 Artificial Intelligence

3、数据挖掘（Data Mining）无所不在

商务智能 Business Intelligence（BI）
数据分析 Data Analytics
大数据 Big Data
决策支持 Decision Support
客户关系管理 Customer Relationship Management（CRM）
3 知行合一

1、Data（数据）

（1）定义：定量或定性的属性值，是最底层的表现形式，数据做一些处理后称之为信息

（2）类型：

连续型（如身高、体重）
二进制（二值型，0/1，如婚否）

（3）存储：

物理层：所有的数据（声音、图像、文字）在磁盘上存储的时候，都是01这样存储的（串型/顺序存储）
逻辑型：数据库中是一个二维表、数据仓库有立方体、星型、网络型结构等

（4）主要问题：

在实际数据分析工作中，面临的主要挑战有：

数据类型转换
数据自身的错误

2、Big Data（大数据）

（1）定义：

Gartner：数据量大（high-volume）、产生速度快（high-velocity）、数据类型多（high-variety）
麦肯锡：超过传统意义上数据库、数据存储技术、数据处理技术能力的数据

（2）特点：

数据量 Volume：从 TB 到 ZB
数据类型 Variety：从结构化数据（数据）到非结构化数据（文本、声音、图像、视频）
数据产生的速度 Velocity：从堆（Batch）到流（Streaming）

3、实际应用

（1）公共安全：根据犯罪历史记录，把不同犯罪类型标注在地图上，同时还标注警察局的位置。通过可视化，更加直观地看到犯罪发生的规律、挖掘犯罪的模式，以达到预防犯罪、减少犯罪发生的目的

（2）医疗保健：分析人类基因组，根据基因不同把人进行分组，给不同组的人不同的药物和治疗方式（哪怕得的病相同），以达到对症下药的目的

（3）地理位置数据（Location Data）：

城市规划：如交通信息
移动用户：APP或智能装备的定位
购物：每一个购物车上都有RFID标签，当一个人购物时，他的所有轨迹信息都被记录下来，甚至可以记录某一个顾客在某一个货架前停留的时间、只是浏览还是实际购买了。或者统计商场每一层每一个区域的人数，预防拥挤踩踏

Q：在超市环境中对客户位置轨迹进行记录和分析的主要目的有：

对拥挤人群进行预警
优化商场布局
个性化营销

（4）零售业：

精准营销（Targeted Marketing）：对客户进行精准画像（目标客户），有针对性地推荐商品
情感分析（Sentiment Analysis）：用户购物后的评论，识别其情感

（5）社交网络（Social Networks）：找到其中的group、有影响力的人（关键意见领袖KOL）

（6）点球成金（MoneyBall）：

棒球
数据分析技术，可以更加全面衡量地每一个球员真正的价值，用这种方法挑选球员

（7）Attractiveness Mining：非诚勿扰

每一个女嘉宾的信息（年龄、城市、工作信息、要不要孩子、是否跟父母一起住）
颜值数字化：人脸识别、模式识别——脸的形状、眼睛的大小等
评价指标：心动女生
回归（Logistic Regression）
4 从数据到知识

1、Open Data（开放数据）

数据很多时候都是在政府部门手里，很难将这些数据获取并打通，形成了所谓的“数据孤岛” 现象，每一个小岛上有一个服务器

公开数据有两个层面的含义：

法律上（Legally）公开：数据是允许别人访问的，而不是以抓取的方式
技术上（Technically）公开：数据易获取，政府部门应将数据以标准数据格式（如Excel）公开

可以下载公开数据的网址：

开放政府数据

2、Data Mining（DM，数据挖掘）

（1）定义

数据挖掘是一个自动的过程：从大量的（massive）、不完整的（incomplete）、有噪声的（noisy）数据中，提取有趣的（interesting）、有用的（useful）、隐含的（hidden）模式

Q：理想的数据挖掘工作成果应当：interesting、useful、hidden

数据挖掘不是一个全自动的过程：需要人为交互（如挑选属性、解释等），尤其是在数据的获取和预处理过程中
近义词：Knowledge Discovery（知识发现）

（2）数据挖掘的重要性

数据现在变得越来越多、越来越廉价，要学习与数据分析相关的技术

数据库
机器学习
统计学
可视化

（3）在商务智能（Business Intelligence，BI）领域的应用

Decision Making（决策）
Customer Segmentation（客户群划分）、识别风险客户（如欺诈客户）、识别VIP客户（保留，不能流失）
预测企业的发展或危险（提前预警）

3、从数据（Data）到智能（Intelligence）

Data：最底层，传感器采集
Information：数据经过处理称为信息，数据本身可能会有很多冗余或错误，信息是在数据层面之上的
Knowledge：信息通过数据挖掘称为知识
Decision Making：知识加上领域模型，就成为可以帮助认为进行决策的商务智能方面的模型

4、流程

（1）业界数据挖掘的流程：

通常数据是存放在不同数据源当中的（如文本文件、CRM系统、ERP系统、数据库），要把所有数据进行融合（ETL：Extraction提取、Transformation转换、Loading装载），然后装在数据仓库当中（有源数据、真实数据），再在这些数据上做分析

Q：ETL系统的主要作用包括：数据提取、数据转换、数据装载

（2）抽象层面数据挖掘的流程：

定义问题—采集数据—数据准备—建模（分类、预测、回归等等）—解释或评价结果（若结果准确度不够高，还要反馈回去）—实施/应用（若有问题也需要反馈）

类似软件工程开发时的瀑布模型

5、业界应用（商用数据分析软件）

IBM SPSS：可视化建模工具（神经网络、决策树、时间序列分析、分类器）
SAP Predictive Analysis 1.0：数据分析软件
Oracle Data Miner
5 分类问题（Classification）

1、什么是分类问题？

数据挖掘中的第一类算法

（1）形式化定义：给一些训练集（有属性、标签），训练出一个模型，再来一个未知的物体，可以预测它是什么样

（2）算法：

决策树（Decision Trees）
KNN（K-Nearest Neighbors）
神经网络（Neural Networks）
支持向量机（Support Vector Machines）

（3）应用：

医学诊断（根据体检报告预测有病还是没病、肿瘤是恶性还是良性）
预测客户是否会流失

2、Classification Boundaries（分界面）

分界面可以是一条直线或一条曲线，或多个曲线围成的区域，其本质就是对空间的划分，因为每一个 item 或 object 都量化成了 n 维空间的一个点

横坐标：收入
纵坐标：存款
预测贷款风险高低

无法用一根线区分开圆圈和三角

3、Overfitting（过学习）

可以生成不同的分类器，对应不同的分类面

绿色的分类器：所有点都分类正确，但没有形成一个合理的分界面
黑色的分类器：有分错的，但是是 平滑的曲线，更优

并不是分类器在训练样本上的学习误差越低越好

4、Cross Validation（交叉验证）

数据是要分成两部分的

训练集（Training Set）：生成模型
测试集（Test Set）：校验模型

5、Confusion Matrix（混淆矩阵）

假设是两分类问题：一类叫正类（Positive），一类叫负类（Negative）

每一个样本本身是有自己的真实的标签的
模型对样本又打了一个标签

这两个标签可能是不一致的

6、Receiver Operating Characteristic（ROC曲线）

男人、女人和身高

横坐标为身高，两个高斯分别代表男人和女人（通常来说男人的身高是比女人高的，但不可能用身高去绝对区别男人和女人），中间这条线代表了阈值（threshold）

若阈值设置的过低，则TP为100%（所有男人都被判断成男人），但FP也是100%（所有女人也都被判断成男人）
反之，若阈值设置的过高，则TP为0（所有男人都会被误判为女人），FP也为0（所有女人都会被正确地判断成女人）

Random guess对应的是50%，即不考虑属性，随意乱猜的结果

如何衡量这条曲线好还是不好？

AUC（Area Under Curve）：性能指标，即曲线下的面积，上限为1，越接近于1越好

在ROC分析中，分类器的性能曲线的理想状态是：越靠上越好（AUC趋近于1）

7、Cost Sensitive Learning（代价敏感分类问题）

实际中，问题是带权重的，两种错误的代价成本是不同的，要寻找 balance 或 trade-off

如：把一个有病的人误判为没病 VS 把一个没病的人误判为有病哪种危害更大？

Q：以下最有可能涉及代价敏感分类问题的是？

区分猫狗图片社交网络好友推荐手写体识别 银行信用卡评分模型

8、Lift Analysis（评价模型实际使用中的效能）

市场营销中会用到

例1：假设100个人里，真正会购买产品的只有8个人（先验是8%），如果一个一个打电话推销，比较低效。随机挑10%，8个人中的10%会被挑中

对用户进行建模，假设模型能把用户接受产品的概率计算出来并排序，把最有可能购买产品的前10%的用户放在前面，这前10%的用户里可能就包含了真正购买产品的将近40%的客户

Lift（提升度，即用了模型和不用模型的差异）：40% / 10% = 4

例2：Overall Response Rate = 8%，平均下来随机挑100个人，有8个人会买产品

经过打分排序，前10%的人中有29%的人都会买产品

浓缩的过程

Q：假设目标客户占人群的5%，现根据用户模型进行打分排序，取1000名潜在客户中排名前10%的客户，发现其中包含25名目标客户，问此模型在10%处的提升度是？

目标客户占人群的5%，有1000名潜在客户 ——> 目标客户有1000×5%=50人

而现在采用模型之后，发现了25名目标客户，占全体目标客户总数的一半（50%）

故提升度为 50% / 10% = 5

6 聚类及其他数据挖掘问题

1、聚类（Clustering）

（1）定义：给一堆 items（无事先人为的标签），分 group，同一个 group 里的数据是比较相似的，不同 group 之间数据差异比较大

分类（Classification）是Supervised Learning（有监督学习）
聚类（Clustering）是Unsupervised Learning（无监督学习）

Q：聚类和分类的主要区别在于：数据有无标签

（2）如何衡量两个点距离远近或是否相似？——距离度量（Distance Metrics）

欧氏距离（Euclidean Distance）
曼哈顿距离（Manhattan Distance）
马氏距离（Mahalanobis Distance）

（3）算法：

K-Means
Sequential Leader
Affinity Propagation

（4）应用：

客户划分（Market Research）
图像分割（Image Segmentation）
社交网络分析（Social Network Analysis）

例1：每个圈都代表一个group，group里的样本离得近，group之间的样本离得远

例2：层次型聚类（Hierarchical Clustering）

适用场景：不易区分两个样本的远近，取决于从哪个层面去看时

最上一层是一个一个单独的elements，两两聚类，最终聚成一个cluster

2、关联规则（Association Rule）

商店购物时，每个人都会买很多商品，形成transaction（购物小票）

购物记录形式化处理后就是一张二维表

要从中发掘哪些物品经常会被同时购买，或买了什么东西的人，会比较可能去买其他的一种或多种商品

例：{Milk，Bread} => {Butter}

1表示购买了，0表示没有购买

3、回归（Regression）

（1）线性回归不是只能拟合出直线，如多项式就会拟合出曲线。以上举的例子都是线性回归

线性是指参数与变量之间是线性的，即β乘以x是线性的，而不是最终的表达是线性的

Q：判断 — 线性回归模型由于自身局限性只能描述变量间的线性关系错误

应是参数与变量间

（2）回归也有overfitting（过学习）的问题

（左）模型不够强大，误差很高，数据不是线性的，不能用一根线来描述
（中）最优
（右）误差为0，但过学习了

4、Seeing is Knowing（所见即所得）

表达高维数据或不同形式数据之间的相互关系

分析数据前先做可视化，再判断用什么样的算法应用在数据上建模
数据挖掘完成后，模型有输出，输出的结果同样可以可视化，便于解释结果

Performance Dashboard（仪表板）

可视化软件：

5、Data Preprocessing（数据预处理）

实际数据挖掘中，最麻烦、最有挑战性的部分是数据预处理的部分，数据是dirty的

（1）典型问题

缺失，采集不全
填的值不正确（如年龄填了负值）

GIGO：Garbage In Garbage Out

（2）数据质量

准确性 Accuracy
完备性 Completeness
一致性 Consistency
可解释性 Interpretability
可信性 Credibility
时效性 Timeliness

数据清洗（Cleaning）：缺失值填充、修改不一致的值

数据集成（Integration）：结合不同来源的数据

数据转换（Transformation）：标准化、类型转换

数据约简（Reduction）：特征选择（Feature Selection）、采样（Sampling）

7 隐私保护与并行计算

以前：没有人知道你在互联网上是条狗

现在：知道什么样的狗在上网、旁边有什么样的狗

1、隐私保护（Privacy Protection）

给用户发放调查问卷来采集数据，怎样既保护用户的隐私，又得到想要的数据呢？

Q：如何才能最有效地采集到用户可能不愿公开提供的信息？ 随机问卷题目

（1）思路：收集问卷的人不知道每一个受访者的答案，但是知道所有问卷收集上来之后的比例。即：只需知道比例，不用具体到某一个人

（2）例子：

若问题为 “你吸过大麻吗？” ，回答为 Yes 或 No 受访者通常都会填No
设计两个问题：第一个问题“我吸大麻”，第二个问题“我不吸大麻”
受访者只需回答一个问题（一定概率，如概率p回答问题1，概率1-p回答问题2）。收集问卷的人并不知道特定的受访者回答的是哪个问题，是随机的
假设收上来的问卷中，有20%的人写了True，但并不知道是哪个问题回答True
回答True的概率 = 真正吸大麻的人 P（True）× 选择回答第一个问题的概率 + 不吸大麻 × 选择回答第二个问题的概率
变换后便得到人群中真实吸大麻的人的比例

Q：判断— 在隐私保护的问卷调查中，针对两个互补问题，用户也可用Yes/No回答，与用True/False本质上一样错误

2、云计算（Cloud Computing）

（1）背景：用户对服务器访问的需求是随时间的变化而变化的

（左）阴影部分：浪费

（2）定义： 把计算（如服务器）当做一种资源，不用自己去购买大量的服务器，而是从云计算提供商那里租服务器（虚拟）

软硬件 ——> 服务（新模式）
可以随时调整，对资源的利用率高（PAYG：Pay As You Go —— 云计算的核心特征）

SAAS：Software as a Service 软件即服务

PAAS：Platform as a Service 平台即服务

IAAS：Infrastructure as a Service 基础设施即服务

3、并行计算（Parallel Computing）

（1）串行计算的思想：愚公移山

（2）并行计算：把问题进行切分，分配到不同的处理器上（例：人多力量大、众人划桨开大船）

（3）GPU（图形显示卡）：3D渲染/图形图像/游戏/科学计算

GPU作为高性能计算设备的优点：低成本、高计算密度、安装便捷
目前GPU依然需要与CPU协同工作，共同组成异构计算平台

移动的超级计算（嵌入式系统）

4、宏观上，数据挖掘该怎么做？

数据 + 模型/算法 + 高性能计算（计算平台）----> 实现数据的价值

需要三方面的共同协作，缺一不可

Q：有效的数据挖掘工作需要高质量的数据、合适的算法模型、强悍的计算平台、丰富的领域知识的支持

5、No Free Lunch（没有免费的午餐）

没有最好的算法，算法的参数也没有最好的，都是因问题而不同
需要经验，以及不断尝试，还需要考虑很多因素，取决于目的，如需要结果有可解释性，则选择决策树（if-then规则，可解释性好）而不是神经网络（可解释性差）
先用简单的方法
8 迷雾重重

1、Case Study

例1：是否可以用数据挖掘的方法预测股市？

金融大数据量化交易：克服交易者本身性格上的缺陷

短期股票价格波动难以精准预测的主要原因：股票价格是诸多外部因素共同作用的结果，而这些因素（模型的输入）往往很难被事先准确衡量

例2：彩票中奖号码是随机生成的，无法预测

数据挖掘不创造规律，只发掘规律

2、相关

（1）Grouping

X与Y之间是 负相关关系，X增大，Y减小

换一个角度看问题：

把数据分个组，分为Group A和Group B，此时X和Y变为正相关了

不能宏观的看问题，因为数据可能有内在分组的特性

（2）因果

暴力游戏销量与美国犯罪率的关系：随着暴力游戏销量的增加，美国的犯罪率是减少的

两条曲线有一定的相关性，跟它们之间的因果是很难划等号的（不能说一个导致/促进了一个）

（3）心理因素（人们内心的倾向性）

一个人的身高与他在商业上的成功有无关系？

知名企业CEO中身材高大者比例>平均水平，这是因为：身材高大者容易树立威信

3、Survivorship Bias（幸存者偏差）

轰炸机在哪里加装甲？

在中弹密集的地方（翅膀、尾巴） ×
在要害部位（油箱、发动机、驾驶舱） √

能看到这些飞机的前提是：能飞回来（虽然中弹累累），坠毁的飞机是看不到的

虽然翅膀等地方中弹密集，但是还能飞回来，说明不是致命的

看到的样本本身就是有偏差的，是能飞回来的，而不是那些受到致命伤的

100架轰炸机中弹的分布图

4、解决实际问题时不能单向思维

从相同的数据中，可能得到完全不同的结论

看问题一定要全面，从不同层次、不同角度综合考虑，不能以偏概全

例1：

横坐标：天猫上每一家店铺（都是卖格力）的营业额
纵坐标：有多少个商家在卖

随着店铺数量的增加，每一家的营业额也越来越大（X与Y正相关，蓬勃发展的市场）

反过来看：在天猫上卖格力电器的店越来越少，每一家店的营业额也越来越少（夕阳产业）

为什么？ ——> 缺少时间维度，不知道数据是从左往右看，还是从右往左看

例2：

天猫上卖九阳的越来越多，每一家店的营业额越来越少（市场很饱和，竞争惨烈）

反过来看：从左往右看，随着店铺数量越来越少，每一家的营业额越来越多（经过大浪淘沙，服务不好的被淘汰掉了，是一个健康稳定的市场）

为什么？ ——> 缺少时间维度，不知道数据是从左往右看，还是从右往左看

例3：

三根木板 or 四根木板？
盲人摸象的错误
爱因斯坦？玛丽莲梦露？

9 单元补充

针对数据挖掘领域，观点正确：You cannot be too careful！（你越小心越好）

数据的被遗忘权主要指的是：我有权要求搜索引擎删除过时的和自己有关的搜索结果

数据的可携带性指的是：公民享有要求服务商提供个人数据迁移便利的权利

两个变量X和Y呈现负相关性，说明：Nothing

利用大数据分析技术进行预防犯罪：可针对群体进行防范，但不宜针对个人

你可能感兴趣的:(#,数据挖掘：理论与算法,线性回归,kmeans,算法)

FPGA与ASIC：深度解析与职业选择博览鸿蒙 FPGA fpga开发制造
IC（集成电路）行业涵盖广泛，涉及数字、模拟等不同研究方向，以及设计、制造、封测等不同产业环节。其中，FPGA（现场可编程门阵列）和ASIC（专用集成电路）是两种重要的芯片类型，经常让初入行者或转行者面临选择难题。本文将深入剖析FPGA与ASIC的区别，帮助读者更好地理解并做出职业规划。概念辨析FPGA(FieldProgrammableGateArray)：本质上是一种芯片，允许用户通过编程配置
2024年AI浪潮：基础设施重构、模型演进与挑战并存前端
2024年，人工智能领域呈现出蓬勃发展的景象，投资持续增长、基础设施发生变革，技术应用加速落地。各大科技公司和初创企业纷纷涌入，试图在这一充满机遇的领域分一杯羹。本文将深入探讨2024年AI发展的三大核心趋势：AI基础设施的重构、模型发展的新趋势以及AI发展带来的挑战，并重点关注企业如何从AI投资中获得回报，以及AI智能体技术的巨大潜力。选择合适的AI代码生成器将成为企业提升效率的关键。AI基础设
深度解析 React 合成事件：机制、作用及与 Vue 事件机制的对比前端vue.jsreact
在前端开发领域，React与Vue作为两款备受瞩目的框架，凭借独特的设计理念和技术架构，为开发者打造出截然不同的开发体验。React的合成事件是其核心亮点之一，Vue则采用了别具一格的事件处理机制，二者的差异背后蕴藏着多方面的考量。一、React合成事件的底层剖析（一）事件创建与封装细节当DOM事件触发，React会第一时间在内部事件池中检索对应的合成事件实例。若未找到，便依据原生事件类型，像cl
DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键量子位
原创关注前沿科技量子位DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAIo1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。而是摘掉了轻量版的帽子，称为DeepSeek-R1-Preview（预览版），意味着替换了规模更大的基础模型。Live
【Git】Git 完全指南：从入门到精通 LuckiBit Git git GitHub 分布式版本管理 Windows python mac
Git完全指南：从入门到精通Git是现代软件开发中最重要的版本控制工具之一，它帮助开发者高效地管理项目，支持分布式协作和版本控制。无论是个人项目还是团队开发，Git都能提供强大的功能来跟踪、管理代码变更，并保障项目的稳定性与可持续发展。本篇文章从基础命令讲起，逐步深入，帮助你全面了解并掌握Git，最终达到精通。目录Git完全指南：从入门到精通1.Git概述1.1什么是Git1.2Git与其他版本控
迈拓加入OurBMC，携手探索BMC定制化创新应用程序员
近日，深圳市迈拓诚悦科技有限公司（以下简称“迈拓”）签署CLA（ContributorLicenseAgreement，贡献者许可协议），宣布正式加入OurBMC社区。迈拓自2012年成立以来，始终秉持创新精神，专注于网络安全/通信、物联网、工业安全硬件平台的研发与创新，已发展成为行业领先的网络设备和解决方案提供商。其凭借强大的研发实力和对市场需求的敏锐洞察，不断地为全球各地的数据中心、信息中心、
如何通过可视化管理工具提升团队效率？4 个实用技巧可视化
一、可视化管理工具的概念与来源可视化管理工具是指通过图形化、图表化、仪表盘等形式，将复杂的数据、流程、任务等信息以直观的方式呈现出来，帮助管理者更高效地进行决策和管理的工具。其核心理念是通过视觉化的方式，将抽象的信息转化为易于理解和操作的形式，从而提升工作效率和管理效果。可视化管理工具的概念最早可以追溯到20世纪80年代，随着计算机技术的发展，企业开始尝试将数据可视化应用于管理领域。早期的可视化管
解锁电商数据的无限可能：探秘京东商品SKU信息API接口前端后端运维数据挖掘api
一、引言在电商运营与开发的广袤领域中，京东作为行业巨头，其丰富的商品资源和庞大的用户群体蕴含着巨大的价值。而京东API接口宛如一座桥梁，连接着开发者与京东平台的海量数据。其中，获取京东商品SKU信息的API接口更是至关重要。SKU（StockKeepingUnit）即库存保有单位，是电商中用于标识不同商品的独特编码。每个SKU对应着特定的商品属性组合，如颜色、尺寸、型号等。通过获取SKU信息，开发
开启电商新征程：小红书API 前端后端运维数据挖掘api
一、前言在当今数字化浪潮下，社交媒体与电商的融合愈发紧密，小红书作为极具影响力的社交电商平台，其API（应用程序接口）备受瞩目。小红书API犹如一座桥梁，连接着小红书平台的海量数据与外部电商世界，为电商领域带来诸多变革契机，正悄然重塑电商的运营模式、营销玩法及用户体验，无论是大型电商巨头，还是新兴的线上小店，都有必要深入了解其背后的价值与潜力。二、小红书API全解析2.1小红书API大家族小红书为
汽车服务架构(SOA)开发设计--SOA设计原则与关键技术不懂汽车的胖子汽车电子汽车嵌入式硬件架构
2.1SOA设计原则在SOA架构中，继承了来自对象和构件设计的各种原则，那些保证服务的灵活性、松散耦合和复用能力的设计原则，对SOA架构来说同样是非常重要的。关于服务，一些常见的设计原则如下：（1）接口定义明确。服务请求者依赖于服务规约来调用服务，因此，服务定义必须长时间稳定，不能随意更改；服务的定义应尽可能明确，减少不适当请求使用；隐藏私有数据。（2）自包含和模块化。服务封装了那些在业务上稳定、
API接口在电商的应用及收益前端后端运维数据挖掘api
一、API接口在电商的核心应用场景（一）商品数据管理与展示在电商平台，商品信息的准确与实时更新极为关键。借助API接口，能轻松实现商品数据从供应商系统到电商平台的同步。例如，使用Python结合Requests库编写代码，从外部API获取商品数据：importrequestsurl="https://example.com/api/products"response=requests.get(ur
在 deepin 中使用原生 Wine 安装与运行 Windows 软件指南 deepin
一、前言deepin作为一款广受好评的国产Linux发行版，凭借其出色的性能和易用性，吸引了众多用户。然而，在使用deepin时，我们可能会遇到一些仅支持Windows平台的软件。借助Wine这一兼容层，我们可以在deepin中顺利安装和运行这些Windows软件。本文将详细阐述在deepin中利用原生Wine安装与运行Windows软件的全过程，以32位7-Zip的安装程序为例，助你轻松掌握相关
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
PHP语言的语法 Quantum&Coder 包罗万象 golang 开发语言后端
PHP语言的语法与应用引言PHP（HypertextPreprocessor）是一种广泛使用的开源服务器端脚本语言，特别适合于Web开发。由于其简单易学的语法、高效的运行性能以及强大的功能，PHP已成为开发动态网页和应用程序的热门选择。本文将深入探讨PHP的语法特性、常用功能，以及在实际开发中的应用示例。PHP基础语法1.PHP代码的基本结构PHP代码通常放在标签之间。这些标签告诉服务器开始和结束
时序数据库TDengine 签约智园数字，助力化工园区智联未来 tdengine数据库
近年来，随着化工行业对安全、环保、高效运营的要求日益提高，化工园区的数字化转型成为必然趋势。从数据孤岛到全面互联，从基础监控到智能分析，如何高效管理和利用时序数据已成为化工园区智能化升级的关键环节。作为一家专注于时序数据管理与分析的领先企业，TDengine致力于为行业提供高效、可靠的技术支持，与行业伙伴携手推动智慧化工园区的发展。自2020年起，TDengine与智园数字科技（山东）有限公司展开
如何使用Java爬虫获取微店商品详情：代码示例与实践指南小爬虫程序猿 java 爬虫开发语言
在电商领域，获取商品详情数据对于商家和开发者来说至关重要。微店作为国内知名的电商平台，提供了丰富的商品数据接口，方便开发者通过API调用获取商品详情。以下将详细介绍如何使用Java爬虫获取微店商品详情，并提供具体的代码示例。一、微店商品详情API接口简介微店提供了商品详情API接口（micro.item.get），用于获取指定商品的详细信息。通过该接口，开发者可以快速获取商品的标题、价格、库存、描
数据驱动销售预测的未来：ScriptEcho赋能高效决策前端
在瞬息万变的商业环境中，准确的销售预测是企业制定有效销售策略、实现业绩增长的基石。传统的销售预测方法往往依赖于人工分析和复杂的电子表格，效率低下，难以应对市场变化的快速冲击。然而，随着大数据的兴起和人工智能技术的飞速发展，数据驱动决策正成为现代企业提升竞争力的关键。本文将探讨销售预测面临的挑战与机遇，并重点介绍ScriptEcho如何通过AI赋能，提升销售预测的准确性和效率，助力企业实现数据驱动增
【C++算法笔记】最基础篇------高精度算法孙小健的资料站算法学习笔记 c++算法笔记
个人笔记：只提供学习代码和其步骤思路，仅供参考学习，已提前在相关编译器中提前运行并保证代码运行。为什么要用高精度算法：longlong的存储大小为9*10^19,即超过20位的数字将无法使用基本数据类型存储和计算，所以我们要使用其他方法存储设计。涉及基础知识：基本输入输出，字符串及数组的基本运用基础步骤：1.对字符串s1,s2进行承接2.将a1与a2相加的和存入a33.从左向右进位并出现逆序#in
如何优化亚马逊广告以提高ROI？前端后端数据挖掘运维api
在竞争激烈的亚马逊市场中，优化广告以提高投资回报率（ROI）是卖家的关键任务。以下是一些实用的策略：一、精准的关键词研究与选择深入了解产品特性和目标受众详细分析产品的功能、用途、优势和适用人群。例如，如果你销售一款专业的摄影三脚架，其特点可能包括高度可调节、稳定性强、适合不同类型相机等。目标受众可能是摄影爱好者、专业摄影师等。根据这些特点和受众需求来挖掘关键词。对于摄影三脚架，可以包括“专业摄影三
使用Scrapy抓取图片网站的图片：完整教程与实战案例 Python爬虫项目 2025年爬虫实战项目 scrapy 爬虫 python 音视频开发语言 selenium
引言在互联网时代，图片已经成为我们生活和工作中不可或缺的一部分。随着社交媒体、电子商务、新闻网站等平台的普及，图片的需求量和使用量不断增加。因此，如何高效、便捷地抓取网站上的图片，成为了许多数据工程师、爬虫开发者以及数据科学家需要解决的问题。Scrapy是Python中一个非常强大且广泛使用的爬虫框架。它不仅提供了强大的抓取能力，还能够轻松地处理大规模数据抓取和高效的数据存储。Scrapy适合处理
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
AI时代的前端开发：技能提升与职业发展之路前端
在瞬息万变的科技时代，个人职业发展的重要性日益凸显。提升技能，不断学习，已经不再是锦上添花，而是立足之本，是我们在竞争激烈的职场中脱颖而出的关键。而人工智能（AI）技术的快速发展，为我们提供了前所未有的机遇，特别是对于前端开发领域，AI正以前所未有的速度改变着我们的工作方式和学习方式。AI赋能前端开发：个性化学习路径前端开发领域的技术栈庞大而复杂，涵盖HTML、CSS、JavaScript、各种框
一款开源免费的数据可视化大屏 JimuBI，低代码与 AI 结合产品
简介JimuBI是一个JAVA语言的低代码数据可视化大屏BI产品，将大屏、仪表盘、移动面板、图表或页面元素封装为基础组件，无需编写代码即可完成业务需求。这是JeecgBoot团队出品的另外一款报表产品，积木报表已经成为业内报表首先，预测该大屏即将覆盖全行业。酷炫大屏轻松设计，通过拖拽完成大屏设计，80多种组件及20多种边框装饰满足您的设计需求。智能仪表盘简单易用，拖拽式操作自由布局，页面自适应；支
【免费大屏】积木BI大屏与老版的积木大屏对比有哪些优势？数据可视化数据分析
使用我们积木大屏的朋友经常反应，积木大屏只能在线使用或者商业版与JeecgBoot低代码平台一起使用，不能免费本地使用。为此，我们研发了一款新的大屏产品---积木BI大屏。一起来看一下积木BI大屏与老的大屏设计器对比有哪些优势吧！一、免费开源最大的区别来了，新的积木BI大屏支持免费开源部署；支持maven依赖集成。代码下载：https://github.com/jeecgboot/JimuRepo
陶建辉荣登 2024 福布斯中国新时代颠覆力创始人榜单，见证创新力量的崛起 tdengine数据库
在瞬息万变的时代中，能够引领变革的创新者往往以独特的视角和颠覆性的力量脱颖而出。近日，福布斯中国发布的2024“新时代颠覆力创始人”评选榜单，正是对这些创新力量的致敬与认可。凭借着在时序数据库领域的卓越创新和深远影响，涛思数据创始人&CEO陶建辉荣膺这一殊荣，成为行业先锋中的佼佼者。据了解，本次评选历经8个月的深入调研和洞察，不局限于创始人的年龄、性别或所属行业等传统框架，更加注重候选者是否具备“
AscendC从入门到精通系列（四）使用Pybind调用AscendC算子人工智能深度学习
如果已经通过AscendC编程语言实现了算子，那该如何通过pybind进行调用呢？1Pybind调用介绍通过PyTorch框架进行模型的训练、推理时，会调用很多算子进行计算，其中的调用方式与kernel编译流程有关。对于自定义算子工程，需要使用PyTorchAscendAdapter中的OP-Plugin算子插件对功能进行扩展，让torch可以直接调用自定义算子包中的算子，详细内容可以参考PyTo
AscendC从入门到精通系列（一）初步感知AscendC 人工智能深度学习
1什么是AscendCAscendC是CANN针对算子开发场景推出的编程语言，原生支持C和C++标准规范，兼具开发效率和运行性能。基于AscendC编写的算子程序，通过编译器编译和运行时调度，运行在昇腾AI处理器上。使用AscendC，开发者可以基于昇腾AI硬件，高效的实现自定义的创新算法。算子开发学习地图：2从helloworld出发感受AscendC2.1使用AscendC写核函数包含核函数的
ATB是什么？人工智能深度学习
1ATB介绍AscendTransformerBoost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为AscendAI处理器，专门为Transformer类模型的训练和推理而设计。ATB加速库采用了一系列优化策略，包括算法优化、硬件优化和软件优化，能够显著提升Transformer模型的训练和推理速度，同时降低能耗和成本。具体来说，ATB加速库通过优化矩阵乘法等核心算子和注意力
从管理角度提高团队工作效率的关键策略项目管理团队协作管理团队管理
提高团队工作效率是每位管理者的核心职责之一，通过有效的管理方式，不仅能够提升团队的工作产出，还能够增强团队的凝聚力和协作精神。从管理的角度来看，提高效率可以从以下几个方面着手：优化团队结构、合理分配资源、加强沟通与协作、激励团队成员以及借助技术工具。每个方面都具有重要意义，只有综合运用这些策略，才能在实践中实现高效的团队管理。本文将深入探讨这些提高团队工作效率的管理策略，并提供具体的实施方法和建议
deepin下载mysql教程 deepinmysql
官方下载Mysql8.2支持here解压到需要的文件夹去(建议放到/opt/mysql/mysql8)建立mysql的用户与组（groupaddmysql&&useradd-r-gmysqlmysql）创建软链接到系统中,后继服务与配置中会使用到cd/usr/local&&sudoln-s/opt/mysql/mysql8mysql8cd/usr/bin&&sudoln-s/opt/mysql/m
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

【第一章 走进数据科学】袁博《数据挖掘：理论与算法》

1 整装待发

1、数据挖掘的前提和基础：Technology Advancement

2、DRIP：Data Rich，Information Poor

2 学而不思则罔

1、学习资源

2、数据挖掘（Data Mining）是一个多学科交叉领域

3、数据挖掘（Data Mining）无所不在

3 知行合一

1、Data（数据）

2、Big Data（大数据）

3、实际应用

4 从数据到知识

1、Open Data（开放数据）

2、Data Mining（DM，数据挖掘）

3、从数据（Data）到智能（Intelligence）

4、流程

5、业界应用（商用数据分析软件）

5 分类问题（Classification）

1、什么是分类问题？

2、Classification Boundaries（分界面）

3、Overfitting（过学习）

4、Cross Validation（交叉验证）

5、Confusion Matrix（混淆矩阵）

6、Receiver Operating Characteristic（ROC曲线）

7、Cost Sensitive Learning（代价敏感分类问题）

8、Lift Analysis（评价模型实际使用中的效能）

6 聚类及其他数据挖掘问题

1、聚类（Clustering）

2、关联规则（Association Rule）

3、回归（Regression）

4、Seeing is Knowing（所见即所得）

5、Data Preprocessing（数据预处理）

7 隐私保护与并行计算

1、隐私保护（Privacy Protection）

2、云计算（Cloud Computing）

3、并行计算（Parallel Computing）

4、宏观上，数据挖掘该怎么做？

5、No Free Lunch（没有免费的午餐）

8 迷雾重重

1、Case Study

2、相关

3、Survivorship Bias（幸存者偏差）

4、解决实际问题时不能单向思维

9 单元补充

你可能感兴趣的:(#,数据挖掘：理论与算法,线性回归,kmeans,算法)

【第一章走进数据科学】袁博《数据挖掘：理论与算法》