AITIME论道

2021年最值得期待的数据智能赛事之一，有何解题妙招？

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在 GIS（Geographic Information System）领域，由国际计算机学会 ACM 空间信息专业委员会主办的 ACM SIGSPATIAL，被认为是 GIS 科学与计算机科学结合最广泛的国际顶级会议。

今年，滴滴联合 ACM SIGSPATIAL，共同举办 2021 ACM SIGSPATIAL GISCUP 比赛，这也是 ACM SIGSPATIAL 会议是第一次离开美国在北京举办。

近日，以该赛事为主题，滴滴、biendata 、ACM SIGSPATIAL 中国分会、paper weekly 和 AI time 合作发起了一次赛题解析直播。

2021 ACM SIGSPATIAL GISCUP 的赛题是 “预估到达时间”（Estimated time of arrival，下文简称 “ETA”）。赛事详情可参见：

SIGSPATIAL 2021 官网：
https://sigspatial2021.sigspatial.org/sigspatial-cup/
Biendata 官网（点击文末“阅读原文”即可访问）：https://www.biendata.xyz/competition/didi-eta/

直播主讲人为滴滴公司地图与公交事业部的资深算法工程师刘欣悦。她于 2019 年加入滴滴，担任地图与公交事业部 ETA 和路况策略团队资深算法工程师，主要负责滴滴平台 ETA 和预估算法优化的相关工作，在大规模深度学习模型方面经验丰富。

直播中，她详细介绍了比赛数据和赛题，并分享了滴滴在提升 ETA 能力上的实践经验，希望鼓励参与者基于滴滴发布的新数据集，进一步提升时间预估的准确性。

目前，比赛使用的行程时长数据集已通过滴滴盖亚数据开放计划（https://outreach.didichuxing.com/research/opendata/）对外发布，囊括了 2020 年 8 月在深圳经过脱敏处理的出行时间数据。

一、赛题：预估到达时间难在哪里？

作为大赛赛题，ETA 本身是一个较实用且容易理解的场景。

日常生活中，我们经常会说 “上下班路程大概要半个小时”，或者 “大约 5 分钟以后才能到目的地” 等，这些都是比较笼统的 ETA 的说法。

在滴滴或者其他地图工具的使用场景中，往往需要一个更加精细化的 ETA。

无论是滴滴的各个产品线上，还是其他地图工具，或多或少都会涉及这个议题。

如下图中导航界面的截图，可以看到三条路线，每条路线都会有一个预估的到达时间。这样可以方便用户在出行的时候，结合该时间来选择更适合自己的路线。

另外，预估到达时间也是同一个起点、终点之间多条路线间排序的重要特征，它可能会影响优先展示给用户的路线是哪一条。用户可以根据预估到达时间来安排自己的日程。

在滴滴网约车场景中，预估费用是根据路线距离和预估行程时间来计算得出的，所以，ETA 会直接影响到乘客对出行方式的选择。

在拼车的场景中，如何判断将哪些乘客拼成一个订单，ETA 也是一个非常重要的指标，它直接决定着订单的拼成率。

所以，可以看到，在滴滴的各产品线，ETA 必要性体现在用户决策、路线排序、行程安排、价格预估、拼车成本 5 个方面，它的准确性会直接影响乘客的体验和司机的效率。

不过，要想预估准确，并不是一件很容易的事情。

即便是同一条路线，在不同的时刻出发，可能会面临不同的路况环境，花费的时间也会差很多。

比如早晚高峰、工作日和周末的拥堵情况和拥堵时间段都不太一样，由此带来的路况变化和波动，会直接导致路线花费时间差距变大。

如果遇到了极端天气，或者是一些突发的交通事故，比如说演唱会或者重大赛事等等，也会带来路况的变化。

例如，今年 3 月份某个周五下午，北京突降暴雨，那一天，几乎所有的订单都比平时要慢很多。事后，我们统计了那一天的订单分布，可以看到的是，从下午开始，订单时间明显比一个普通周五的平均订单时间要长。所以，如果当天我们用了一个正常模型来预测，那么情况会变得很困难。

另外，还有一些可以预想到的日常会发生的情况，比如说红绿灯的影响，有的人可能会运气比较好，一路上没有碰到什么红灯，有的人在同一条路就反复碰到，同样会影响预测结果。

简而言之，异常天气、特殊事件 / 突发事故，是提高 ETA 准确率所要面临的主要挑战。

本次比赛的 ETA 任务，使用的数据由滴滴盖亚数据开放计划提供，即 “行程到达时间预估数据集”。数据为 2020 年 8 月份深圳市网约车的真实订单数据，这一整个月的订单数据含有出发时间日期、行程路线、路况信息、网络拓扑结构等信息。

且该数据集已经进行了脱敏处理，所有订单数据都不包括任何司机和乘客的个人信息。比赛任务即根据这些特征来预测每个订单的到达时间。

接下来，将介绍滴滴盖亚数据开放计划以及比赛流程。

通过滴滴盖亚数据开放计划，滴滴将脱敏数据集开放给学术界，希望携手学界一起去探索科学的边界，共同产出一定的学术成果。

截止目前，滴滴已经陆续开放了十五大特色数据集，可在滴滴盖亚数据开放计划的官网下载这些数据集用于科学研究，目前已有 1 万余人次进行了数据集的申请。这一系列数据集也已支持了大量的 AI 类竞赛，包括 2020 KDD CUP、CCF BDCI 路况预测竞赛，以及这一次的 SIGSPATIAL GISCUP ETA 竞赛。统计显示，已有 90 篇以上学术文章采用了这些数据。且这些数据也为很多高校提供了支持，至少有 20 多个教师团队进行了相关课程建设。

滴滴希望，这些数据集能够真正帮到学术界的老师和同学产出对社会有帮助的科研成果。

具体的比赛流程方面，本次比赛在 4 月 23 日正式对外开放注册，目前仍可以进行注册。

其中，4 月 30 日至 8 月 9 日是参赛选手的成果提交阶段，选手需要提交测试集的预测结果。此次比赛采用 ab 榜的机制，8 月 2 日前，选手可使用 a 榜每日测试自己模型的当前水平。组队截止时间为 8 月 2 日，当日也将公布 b 榜的竞赛数据。

8 月 31 日正式公布比赛结果，比赛结果以 b 榜的成绩为准，获得前 5 名的队伍需要提交一份训练的代码及注释、可复现最高分的预测模型，最后按照 ACM 的格式要求，产出一篇不多于 4 页的英文论文，论文提交的截止时间是 9 月 15 日。

11 月 2-4 日，前 5 名的参赛队伍会受邀参加 SIGSPATIAL2021 进行现场展示，同时也欢迎其他的参赛选手参加这次会议。

此次比赛总奖金池达到 25,000 美元。其中，冠军队伍一名，将会获得 1 万美元的奖励。亚军两名，将分别获得 5000 美元，季军队伍两名，将分别获得 2500 美元。奖金力度非常可观。

二、大赛数据字段详解

此次大赛提供了三份数据，本节将对第一份数据 —— 行程路线和路况数据进行详解。

该数据分为三个部分，每个部分之间用两个分号分隔。

第一个部分是 head 部分，字段之间由空格隔开。

link 部分和 cross 部分都是序列数据，每个序列中会有很多小段数据，每一个小段数据都有自己的特征。小段之间用空格隔开，特征之间是用逗号隔开，详细的格式网页上都会有说明。

在此，进一步详细说明每个字段的含义：

l ATA，是指实际到达时间，也是这次比赛的一个 label 和训练的目标。ATA 的获得方式是乘客到达时间减去乘客上车时间，单位是秒。我们以 ATA 为训练目标进行训练。

l Drive ID，是指行程里驾车司机的 ID，已经过脱敏处理，不涉及司机个人信息。

l Distance，是路线的路面距离，单位是米。

l Slice ID，代表的是乘客上车的时间，它由时间转换而来，每 5 分钟有一个对应的 ID， 24 小时循环一次。

l Link ID，指路线中的每一个子路段的 ID。两个圆点之间就是一个 link。

l Link time，是指平均通过一个 link 的时间。滴滴在计算过程中做了一些轨迹的数据清理，总的来说，link time 是一个比较准确的平均统计值，但是因为它是用历史轨迹统计出来的，所以没有任何预测含义。我们可以直接用 link time 累加作为 ETA，但是它可能在预估上不含有任何未来信息，所以不会特别准。Link time 考虑了 link ratio。

l Link ratio，指的是 link 在整条路线中被覆盖到的比例，除了头尾 link 以外都是 1，头尾可能 < 1。

l Link current status，代表的是该 link 的路况状态，路况状态正常情况下有 4 个等级，1 等于畅通，2 是缓行，3 是拥堵，4 是极度拥堵。需要注意，这是乘客上车时候的路况。

l Link arrival status，是司机到达时刻该 link 的路况状态。它相当于一个泄露信息，因为不可能在行程开始的时候就获知这一信息，所以测试集中不包含这一字段，只有训练集有。

l Link 长度已经过脱敏处理。

l Cross ID，代表的是红绿灯路口的概念，数据是由一个 link ID 加一个下划线，再加一个 link ID 组成的。两个 link ID 分别代表的是进和出这一路口的 link。

l Cross time，是路口的一个平均等待红绿灯的时间，属于挖掘值，它也是利用历史轨迹统计出来的。

l Simple ETA , 是全程所有 link time 和 cross time 之和。

第二份数据是路网的拓扑结构数据。拓扑数据总共有两列，第一列代表一个 link id；第二列是由逗号分隔的很多个 link ID，它代表的是 link ID 的每一个下游，它们的顺序是没有前后关系的。

另外，还有一份天气数据 —— 深圳 2020 年 8 月份整个月的天气情况，包括了当天的晴雨情况以及最高气温和最低气温。

三、比赛评测标准：MAPE 权威计分

本次比赛的评测标准采用 MAPE（Mean absolute percentage error）进行计分。

主办方将会使用模型产出的订单 ETA 减去它作为 label 的 ata 获得的绝对值，除以 ata 得到一个比值，最终所有测试集取均值作为分数。

如果出现两个队伍分数相同，则以提交次数更少的队伍为获胜方。如果两个队伍提交的分数和次数都相同，则按照提交时间早的队伍为获胜方。

之所以用 MAPE 作为评测标准，是因为，目前它在业界和学术界都是一个获得通用认可的指标。

同时，在我们日常的感受中，它也是更接近用户感知的。

一条比较长的路线，人们可能会认为稍微高估 5 分钟或者低估 5 分钟，差别不是特别的明显。但是如果全程就只有 10 分钟，系统还高估 5 分钟，你会感觉预测特别不准，而 MAPE 在这一点上也是比较结合这种感受的。

四、滴滴解决 ETA 任务的总结

正如上文所提，滴滴在 ETA 任务的处理上有着长期的积累，本节将分享滴滴团队在 ETA 上尝试过的思路和方法，以帮助参赛者碰撞出更好的解决方案。

首先，ETA 是一个回归问题。理论上，要预测一个 ETA 的值，我们现在可以想到的几乎所有的回归问题解法，在这个场景上都是可以使用的。

同时，鉴于这些数据有很明显的序列特征，进一步地，可以很明确地想到一些序列的建模方式，比如说 LSTM，把它套用到这些有序列特征的模型上是比较方便的。

另一方面，ETA 问题可能和 NLP 中存在很明确上下文关系的情况又不是那么相似，即没有那么强烈的上下文依赖性，所以，有的时候可以用例如 CNN 这样的深度网络也是可行的。

第二个思路是考虑邻域的影响。路网数据本身是有邻域的关系，除了受到路线的上下游影响之外，也可能会受到自己在地图网中的上下游的影响，所以，邻域之间的影响是存在的。

加之本次比赛也开放了拓扑关系的路网数据，利用拓扑关系，可以结合图神经网络的建模方式，让模型学到更多的上下游信息，丰富模型的特征表。

第三个思路在于，上文有提到，ETA 的难点之一是路况变化会导致预估难度增加。

如上图所示，出发时刻的路况是左图，路线上有一小段拥堵，大部分是缓行。但当司机已经开到拥堵路段附近时，又变成了全程拥堵的情况，最终开过去 500 米用了整整 10 分钟。

这就是路况变化带来的预估困难问题。而这次的数据有泄露的特征，即到达时刻的路况。之所以提供了泄露的特征，是希望引导参赛者考虑让模型能够在训练的过程中学到路况有可能变化的信息，增强模型本身对变化的感知力。

第四个思路是特征工程。我们经常说，一个模型的上限其实是由特征来决定的，所以，建议参赛者在建模的时候，不要忽略特征工程可以带来的收益。

本次比赛提供的数据特征虽然都是相同的，但是选手可以通过自己去挖掘数据中的特征统计值、以及数据之间的组合方法和变换方式，去发现更多的、有统计含义的信息来丰富特征，可能会达到更好的预测效果。

直播回放地址：

【赛事分享】2021 SIGSPATIAL GISCUP 滴滴ETA赛题解析-哔哩哔哩】

https://b23.tv/eBnmgc

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

（点击“阅读原文”了解赛事更多信息）

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

2021年最值得期待的数据智能赛事之一，有何解题妙招？

你可能感兴趣的:(人工智能,机器学习,大数据,编程语言,数据分析)