亚马逊云开发者

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型

日常生活中的大部分决策都以二进制形式存在，具体来说就是这类问题能够以是或者否来回答。而在商业活动中，能够以二进制方式回答的问题也有很多。举例来说：“这种情况是否属于交易欺诈？”，“这位客户是否会购买该产品？”或者“这位用户是否存在流失风险？”等等。在机器学习机制中，我们将此称为二进制分类问题。很多商业决策都能够通过准确预测二进制问题的答案来得到强化。Amazon Michine Learning（简称Amazon ML）就提供了一套简单而且成本低廉的选项，帮助大家以快速且规模化的方式找出此类问题的答案。

在今天的文章中，我们将以Kaggle.com网站提供的实例作为起始。这一次，大家可以接触到网络广告行业当中经常涉及的点击率预测案例。在示例当中，大家将预测特定用户点击特定广告的实际可能性。

准备用于构建机器学习模型的数据

直接从Kaggle站点获取数据来构建这套模型当然也是可行的，不过为了强化其现实意义，我们这一次将利用Amazon Redshift作为数据中介。在多数情况下，建立机器学习模型所需要的历史事件数据已经被存储在了数据仓库当中。Amazon ML与Amazon Redshift这套强有力的组合能够帮助大家查询相关事件数据并执行汇聚、加入或者处理等操作，从而为机器学习模型准备好所需的一切数据。我们在后文中将给出与此相关的部分示例。

要顺利完成本次指导教程，大家需要拥有一个AWS账户、一个Kaggle账户（用于下载数据集）、Amazon Redshift集群以及SQL客户端。如果大家还没有建立过Amazon Redshift集群也完全不必担心，现在可以申请到为期两个月的dw2.large单节点集群免费试用期，这足以支持大家完成本次学习。

建立一套Amazon Reshift集群

在AWS管理控制台的Supported Regions（支持区域）列表当中选定US East（美国东部，即北弗吉尼亚州区域），而后在Database部分选择Amazon Redshift。最后选择Launch Cluster（启动集群）。

在接下来的Cluster Details（集群详细信息）页面当中，对该集群及数据库进行命名（可分别为ml-demo与dev），而后输入主用户名及密码。

在Node Configuration（节点配置）页面当中，对该集群的布局进行定义。针对本次示例所涉及的数据量，大家只需要单一dc1.large节点即可（并接入至Amazon Redshift免费层级）。

选择Continue，在接下来的页面中审查设置并选择Launch Cluster（启动集群）。几分钟之后，该集群即可正式供大家使用。这时，选定该集群名称并查看其配置信息。

在这里，大家需要注意其中的Endpoint值，要确保其能够接入该集群并使用下载自Kaggle站点的数据。

下载并保存数据

点击此处从Kaggle网站上下载培训文件，而后将其上传至AmazonSimple Storage Service（即Amazon简单存储服务，简称Amazon S3）。由于文件较大，我们需要利用AWS命令行将其进行拆分上传。

# Download the train data from:
http://www.kaggle.com/c/avazu-ctr-prediction/download/train.csv.gz
# upload the file to S3
aws s3 cp train.csv.gz s3:///click_thru/input/

大家可以利用多种SQL客户端与该集群实现对接，例如SQL-Workbench或者Aginity Workbench，当然我们也可以在基于Linux的EC2实例中利用终端内的psql命令实现接入。

ssh -i .pem [email protected]
psql -h ml-demo..us-east-1.redshift.amazonaws.com -U  -d dev -p 5439
psql -h ml-demo..us-east-1.redshift.amazonaws.com -U  -d dev -p 5439

在我们的SQL客户端内创建一个表，用于保存所有来自Kaggle网站的事件数据。请确保每一列都使用了正确的数据类型。

CREATE TABLE click_train (
  id varchar(25) not null,
  click boolean,
  -- the format is YYMMDDHH but defined it as string
  hour char(8),
  C1 varchar(20),
  banner_pos smallint,
  site_id varchar(10),
  site_domain varchar(10),
  site_category varchar(10),
  app_id varchar(10),
  app_domain varchar(10),
  app_category varchar(10),
  device_id varchar(10),
  device_ip varchar(10),
  device_model varchar(10),
  device_type integer,
  device_conn_type integer,
  C14 integer,
  C15 integer,
  C16 integer,
  C17 integer,
  C18 integer,
  C19 integer,
  C20 integer,
  C21 integer
);

在SQL客户端内，使用COPY命令将各事件复制到集群当中：

COPY click_train FROM 's3:///input/click_thru/train.csv.gz'
credentials 'aws_access_key_id=;aws_secret_access_key=' 
GZIP
DELIMITER ','
IGNOREHEADER 1;

如果一切工作已准备就绪，大家应该会在使用以下SELECT查询命令后看到现有记录数量已经超过4000万条：

dev=# SELECT count(*) FROM click_train;
  count
----------
 40428967
(1 row)

利用来自Amazon Redshift的数据构建一套机器学习模型

在之前的文章当中，我们曾经探讨过如何利用来自S3的数据文件构建机器学习模型。事实上，此类数据也可以由来自数据库并转储于SQL内的文件提供。由于SQL转储操作非常常见，因此Amazon ML直接将两类高人气数据库源整合在了一起，也就是Amazon RelationalDatabase Service（即Amazon关系数据库服务，简称Amazon RDS）以及Amazon Redshift。在整合之后，我们能够加快数据获取过程，从而更轻松地直接利用“实时”数据改进机器学习模型。

要利用来自Amazon Redshift的数据构建机器学习模型，我们首先需要允许Amazon ML接入到Amazon Redshift当中。具体操作为运行UNLOAD命令对Amazon S3进行相关查询，而后开始培训流程的下一个阶段。

在IAM控制台当中创建一个名为AML-Redshift的新角色，而后选择Continue。

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型_第4张图片

在Select Role Type（即选择角色类型）页面当中，为Amazon Machine Learning Role for Redshift Data Source选择默认角色类型。

而Attach Policy（即附加策略）页面当中，从列表中选定一种策略而后点击Continue。

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型_第6张图片

最后，审查新角色的设置信息，复制其中的Role ARN值以备下一步使用，接着选择Create。

在Amazon Machine Learning控制台当中，选择Create new… Datasource and ML model（即创建新的……数据源与机器学习模型）。

在Data Input（数据输入）页面当中，选择Redshift并填写相关信息，具体包括刚刚创建角色的ARN值、集群名称、数据库名称、用户名以及密码内容。大家还需要指定所要使用的SELECT查询（后文将具体说明）、S3存储桶名称以及作为暂存位置的文件夹。

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型_第9张图片

在SQL查询当中，大家需要将二进制目标“点击”作为一个整数值（0或者1），而非false或者true，从而将其转换为int。我们还建议大家利用ORDER BY RANDOM()对记录进行混排，从而避免数据内容的次序影响。

SELECT
 id,
-- target field as 0/1 instead of f/t
 click::int,
 hour,      
 c1,           
 banner_pos,   
 site_id,      
 site_domain,      
 site_category,    
 app_id,           
 app_domain,       
 app_category,     
 device_id,        
 device_ip,        
 device_model,     
 device_type,      
 device_conn_type, 
 c14, c15, c16, c17,
 c18, c19, c20, c21
 FROM click_train
 -- Shuffle the records
 ORDER BY RANDOM();

在Amazon ML向导中的Schema页面内，大家可以看到Amazon已经自动从数据内识别出了其模式定义。在这一阶段，我们最好审查各项属性的建议值，同时将用于显示类别ID的数字值变更为“Categorical”。

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型_第10张图片

在Target页面当中，选中“click”项作为目标。

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型_第11张图片

遵循向导继续下一步，定义行ID（id字段）。当进行到Review页面时，选定默认设定以创建这套机器学习模型。在默认情况下，Amazon ML会对数据进行拆分，其中70%被作为模型训练内容、另外30%则被用于模型评估。

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型_第12张图片

由于存在大量记录需要处理，因此创建数据源、ML模型以及评估的过程可能需要一段时间。大家可以在Amazon ML仪表板当中监控其处理进度。

在仪表板当中，大家可以看到我们之前创建的原始数据源已经处于“In progress”即“进行中”状态。该数据源中的70%内容会被作为训练素材，而另外30%则用于模型评估。ML模型创建与评估的当前状态则为“Pending”，即待处理，也就是等待数据源创建工作完成。在整个流程结束后，检查模型评估结果。

评估机器学习模型的准确度

在之前的文章当中，我们曾经探讨过Amazon ML如何通过预测精度指标（单一数字）与图形来报告对应模型的精确程度。

在这一次的二进制分类示例中，预测精度指标被称为AUC（即Area-Under-the-Curve，曲线下面积）。大家可以点击此处查看Amazon ML说明文档，从而了解这一临界分值的具体含义。在本次示例中，我们这套方案的得分为0.74：

要进一步了解其含义，大家可以点击此处查看Amazon提供的评估结果可视化说明。直接选择总体临界值数字显然更便于大家理解。每条记录的预测临界值都是一个介于0到1之间的数字值。越是接近1，就代表其越可能得到“是”的答案，而相反则代表其更可能得到“否”的答案。结合这一总体临界值数字，对应记录的评估结果可能分为以下四种类别：

· 真阳性(简称TP) – 被正确分类为“是”

· 真阴性(简称TN) – 被正确分类为“否”

· 假阳性(简称FP) – 被错误分类为“是”

· 假阴性(简称FN) – 被错误分类为“否”

如果大家所获得的整体临界值越接近于1，那就代表着被错误分类为“否”的记录越少，但与此同时被错误分类为“是”的记录可能也就越多。这时候，我们就需要利用该临界值作出商业决策了。如果每一项被错误分类为“是”的记录会产生1美元的成本（假设显示一条广告需要花费1美元），那么显然应该调高该值以避免成本高企。然而如果每条被错误分类为“否”的记录会让我们错失一笔大订单（例如金额达1000美元的豪车购买佣金），那么调高该值显然更加明智。

大家可以如上图所示向左或向右移动滑块来调整这一临界值。向左侧滑动意味着降低该值，这会降低被错误判断为“是”的情况的出现机率，但同时也会造成更多被错误判断为“否”的情况。向右侧滑动以增加该临界值则会导致相反的结果。大家也可以图形下方Advance metrics（高级指标）内的四个滑块对临界值进行全方位控制。不过正所谓“天下没有免费的午餐”，修改其中一项的数值，也会导致其它三项数值出现变化。

· 准确度（Accuracy） –这一指标反映了所有分类预测结果的整体准确比例。提高准确度意味着在两类错误之间寻找平衡点。

· 假阴性比率（FalsePositive Rate） –在全部阴性结果当中，实际为阴性但被错误分类为阳性情况的出现比率。

· 精度（Precision） –全部阳性预测结果当中被正确分类为阳性情况的比率。我们通常利用它来避免预测结果为“是”的记录过多的情况（这可能会造成资金浪费或者让用户对频繁的无关弹窗心生反感）。换句话来说，精度的作用在于衡量大家在决定向某人发送宣传内容时的精确程度，或者当前市场营销预算的花费方式是否合理。感兴趣的朋友可以点击此处查看维基百科当中针对精度与召回提供的说明信息及图片（例如下图）。

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型_第16张图片

· 召回（Recall） –全部阳性记录当中被正确分别为阳性情况的比率。我们通常利用它来避免预测结果为“否”的记录过多的情况（这可能会导致企业错失销售机会）。换句话来说，它代表着我们能够通过广告宣传实际召回多少可能对内容感兴趣的对象。在以上示例中召回数值为0.06，这意味着只有6%的用户属于我们预期当中的宣传受众（因为他们会实际点击广告内容）。

举例来说，如果我们将召回值设定为0.5，则相当于希望确保看到每条广告的人群当中至少有50%属于既定宣传受众。在这种情况下，结果会如何呢？

如大家所见，准确度的下降趋势并不明显（则0.83下降到了0.74），但精度则出现了大幅跳水（由0.6递减至0.33），这意味着现在每三位广告接收者中只有一位会实际点击查看——而在原本的设定中，每三位广告接收者中将有两位实际点击查看。这些变更完全来源于临界值的具体调整，而不会影响或者改进模型本身。

大家可以创建更多来自Amazon Redshift的新数据源来改进机器学习模型，例如在数据内包含更多其它相关信息，包括基于客户工作日及时间安排的IP地址变化（这部分信息在Kaggle数据集中并不存在，但在实际生活中往往不难获取），或者每天早、中、晚时段用户的IP地址轮替。下面我们再来看几段示例SELECT查询，了解如何通过修改最大程度利用来自Amazon Redshift数据源的数据：

SELECT
    id,
    click::int,
    -- Calculating the date of the week from the Hour string
    date_part(dow, TO_DATE (hour, 'YYMMDDHH')) as dow,
    -- Creating bins of the hours of the day based on common behaviour
    case
        when RIGHT(Hour,2) >= '00' and RIGHT (Hour,2) <= '05' then 'Night'
        when RIGHT(Hour,2) >= '06' and RIGHT (Hour,2) <= '11' then 'Morning'
        when RIGHT(Hour,2) >= '12' and RIGHT (Hour,2) <= '17' then 'Afternoon'
        when RIGHT(Hour,2) >= '18' and RIGHT (Hour,2) <= '23' then 'Evening'
        else 'Unknown'
    end
        as day_period
...

要将包含有用户其它类型信息的数据引入这一点击率分析模型，例如性别或者年龄，大家可以对来自Amazon Redshift数据仓库内其它表的数据使用JOIN语句。

总结

在今天的文章中，大家了解了何时以及如何使用由Amazon ML提供的二进制分类机器学习模型。此外，我们也探讨了如何利用Amazon Redshift作为训练数据的数据源、如何选定数据、将目标数据类型转化为int以触发二进制分类、以及如何利用RANDOM函数对数据内容进行混排。

与此同时，大家也接触到了实现二进制分类模型评分所需要的各项指标，包括准确度、精度以及召回等。这些知识将帮助大家顺利构建、评估并修改自己的二进制分类模型，从而切实解决商业运营中的具体问题。

如果大家还有其它问题或者建议，请在评论栏中畅所欲言。

原文链接：

https://blogs.aws.amazon.com/bigdata/post/TxGVITXN9DT5V6/Building-a-Binary-Classification-Model-with-Amazon-Machine-Learning-and-Amazon-R

核子可乐译

基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
Mysql中的mysqlbinlog_MySQL程序只mysqlbinlog详解 Fly蒋
mysqlbinlog命令详解mysqlbinlog用于处理二进制的日志文件，如果想要查看这些日志文件的文本内容，就需要使用mysqlbinlog工具用法：mysqlbinlog[options]log-files参数详解：-?,--help#显示帮助信息并退出--base64-output=name#binlog输出语句的base64解码分为三类：默认是值auto,仅打印base64编码的需要的
毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型清风AI 毕业设计代码实现 python lstm 深度学习神经网络人工智能 matlab pytorch
一、项目背景1.1光伏功率预测意义在能源结构转型背景下（国家能源局2025规划），光伏发电渗透率已超过18%。但受天气突变、云层遮挡等因素影响，光伏出力具有显著波动性，导致：电网调度难度增加（±15%功率波动）电力市场交易风险提升光储协同控制效率降低1.2技术挑战多尺度特征耦合：分钟级辐照度变化与小时级天气模式共存非线性映射关系：气象因素与发电功率呈高阶非线性关系数据模态差异：数值天气预报(NWP
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
Python——函数生如雪花 Python python
一、十进制小数转换成二进制小数【问题描述】编写程序，输入十进制小数（只考虑正数），把它转换为以字符串形式存储的二进制小数，输出该二进制小数字符串。对于转换得到的二进制小数，小数点后最多保留10位。小数点后不足10位，则输出这些位，尾部不补0；小数点后超出10位，则直接舍弃超出部分。【输入形式】十进制浮点小数【输出形式】对应输入小数的二进制小数字符串。若整数部分或者小数部分为0，则输出0。比如输入0
乘法阵列器 2401_83299419 计算机组成原理乘法矩阵器
不带符号的原码乘法阵列器m位×n位二进制数的计算过程A表示为a_{m-1}a_{m-2}…a_1a_0，B表示为b_{n-1}…b_1b_0每个a_i与b_j相乘得到一个部分积。最终将这些部分积相加得到结果P，表示为p_{m+n-1}p_{m+n-2}…p_1p_0。例如：带符号的乘法阵列器对二求补电路：补码的计算规则如下：当符号位为0时：如果一个二进制数的符号位（最高位）为0，表示这是一个正数，
深入理解 Redis SDS：高效字符串存储的秘密沉默的煎蛋 bootstrap 前端 html maven 架构开发语言数据库
目录1.引言1.1Redis中字符串的广泛应用2.SDS结构定义2.1Redis3.2之前的SDS结构2.2Redis3.2及之后的SDS结构3.SDS与传统C字符串的比较3.1获取字符串长度3.2缓冲区溢出问题3.3二进制安全性3.4内存分配次数4.SDS的内存分配策略4.1空间预分配4.2惰性空间释放5.SDS的其他特性5.1兼容C字符串函数5.2类型灵活6.SDS的使用场景6.1键值对存储6
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
【二、DeepSeek应用场景与案例】10.农业智能化：DeepSeek如何助力精准种植与养殖？代码世界的浪客人工智能 DeepSeek
一、引言1.1农业智能化的时代背景在全球人口持续增长的大趋势下，粮食需求正以前所未有的速度攀升。据联合国相关预测，到2050年，全球人口有望突破90亿，这无疑给本就压力重重的农业生产带来了更为艰巨的挑战，保障充足的粮食供应成为了迫在眉睫的任务。与此同时，资源短缺问题日益尖锐，耕地面积因城市化进程、土地退化等因素不断缩减，水资源分布不均且浪费严重，进一步加剧了农业生产的困境。根据世界银行的数据，过去
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
进制转换（R转十）（1290. 二进制转换十进制、1292. 十六进制转十进制、1291. 八进制转十进制、1405. 小丽找潜在的素数）是帅帅的少年东方博宜OJ题库解析算法 c++数据结构
题单地址：题单中心-东方博宜OJ这里以二进制转十进制为例（按位加权求和法）1290.二进制转换十进制问题描述请将一个25位以内的2进制正整数转换为1010进制！输入一个25位以内的二进制正整数。输出该数对应的十进制。样例输入111111111111111111111111输出16777215解析：按位加权(2^n)求和法。#includeusingnamespacestd;intmain(){st
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Java常用集合与映射的线程安全问题深度解析 QQ828929QQ java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
史上最贵iPhone，苹果首款折叠iPhone预计售价超1.6万佳晓晓 django 智能手机 harmonyos pygame scikit-learn
史上最贵iPhone！苹果首款折叠屏手机售价超1.6万，能否颠覆折叠屏市场？一、天价折叠屏：苹果的“奢侈品”战略2025年3月，苹果首款折叠屏iPhone的定价传闻引爆科技圈。据英国巴克莱银行分析师蒂姆·龙（TimLong）预测，这款机型起售价将高达2300美元（约合人民币16637元），远超当前旗舰机型iPhone16ProMax的1199美元，成为苹果史上最贵智能手机。而供应链分析师郭明錤此前
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
蒙特卡罗树搜索算法依赖游戏树，也就是游戏的状态空间和可选动作的构成。游戏树是游戏设计者为了实现对战或博弈的目的 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介20世纪末到21世纪初，计算机科学和互联网科技迅速发展。在这些新兴领域中，蒙特卡罗方法是一个显著的研究热点。蒙特卡罗方法源自物理学和数学领域，其目的是模拟物理系统的随机运动，从而解决很多数学、物理等领域的问题。蒙特卡loor方法被广泛应用于各类模拟、预测、优化、控制等领域。在计算机领域，蒙特卡罗方法也扮演了重要角色。现如今，计算性能已经足够强大，人们可以轻松地进
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

利用Amazon Machine Learning与Amazon Redshift建立二进制分类模型

准备用于构建机器学习模型的数据

建立一套Amazon Reshift集群

评估机器学习模型的准确度

总结

你可能感兴趣的:(云计算基础,客户案例,AWS,机器学习,二进制,预测)