高德技术

高德地理位置兴趣点现势性增强演进之路

1.导读

人们在高德地图上会看到很多地理位置兴趣点（Point of Interest，缩写为POI），例如餐厅、超市、景点、酒店、车站、停车场等。对POI数据的评价维度包括现势性、准确性、完备性和丰富性。其中，现势性就是地图所提供的地理空间信息反映当前最新情况的程度，简而言之，增强现势性就是指尽可能快速地发现已停业、搬迁、更名、拆迁的过期冗余POI数据，并将其处理成下线状态的过程。

在线的过期冗余数据会伤害用户体验，经过推算，头部在线数据的一个过期率百分点年度影响用户体验3亿次。因此，POI过期问题的解决势在必行，以增强现势性，减少用户伤害。

POI过期问题的解决分为发现和处理两个环节。发现采用挖掘线主导，采集线和舆情线补位的方式。采集的天然优势是自带核实资料，劣势也很明显，成本高、下发频率低，因而发现的时效性不高，且采集线发现过期需要经过挖掘线；互联网舆情时效性高，但覆盖少且ROI低；作为覆盖高、时效高、成本低的大数据挖掘是绝对主力。

处理环节有人工核实、自动化打标和自动化下线三种手段。人工核实存在缺少核实资料从而导致核实率低的问题，这是因为挖掘所依赖的观测资料不能提供过期的实锤证据，观测资料不等于核实资料，且过期的数据更倾向于核实不到，即能发现、难处理，从而伴随着挖掘的演进，衍生了自动化打标和自动化下线两种处理手段以及相应的风险控制机制（打标回捞、下线回捞），一方面提高了处理能力，另一方面降低了人工成本。

注：自动化打标是一种与前端搜索联动灰度处理高疑似过期数据的方式—打标数据非精搜不展现，精搜伴有话术提示。其背后的核心思路是由传统图商的实锤思维向互联网思维转变，及时触达用户，快上快下。

本篇文章将主要介绍挖掘的演进历程，作为过期发现的核心手段，挖掘在不同阶段分别面临缺资料、提准难、资料薄三大问题，站在今天回首过去，这个过程可以分为三个阶段：

基于自身属性的POI过期挖掘
基于使用行为的POI过期挖掘
基于人地关系的POI过期挖掘

我们利用策略、机器学习和深度学习等数据挖掘技术，从点到面、由粗到精地攻克POI过期挖掘业务，POI现势性增强的模式已经发生了深刻的变化。

2.数据挖掘手段的演进

2.1阶段一：基于自身属性的POI过期挖掘

早期的主要矛盾是缺少挖掘资料，如果同时做资料的POI挂接和基于挂接资料的挖掘策略会导致挖掘链路长、项目风险高。因此，在提升新资料的POI聚合能力的同时，以POI自身属性作为主要的挖掘资料。高德POI团队在信息聚合、融合方面有长时而丰富的积累，POI属性可大致分为三类：基础信息、深度/动态信息和关系信息。

基础信息：表征实体，包括名称、坐标、地址、行业、电话、时间、来源等。

深度/动态信息：增加POI数据丰富性，包括：图片、评分、评论、团购、报价等。

关系信息：POI间通过语义、时空建立的关联，包括：亲子、引用、共现等。

针对不同的属性，我们设计不同的策略去挖掘过期POI。根据复杂程度，我们将策略主要分为：基于单POI的挖掘和基于多POI的挖掘。二者的最大区别在于是否使用POI间的关系信息。下面介绍几个比较典型的策略：

策略特征使用表

◎代表关键特征,△表示辅助特征

评论过期语义挖掘是比较典型的基于单POI的挖掘策略。深度/动态信息中的评论是获取用户对POI反馈的有效途径之一，其中也包括对过期POI的反馈，我们通过匹配关键词很容易找到这种评论。上、下文的语境会导致关键词的语义发生变化，为此，我们利用TextCNN模型实现语义分类以达到消歧的目的，筛选出真正表达POI过期的评论。如下所示：

“原”关系挖掘使用POI间的引用关系，是一种基于多POI的挖掘策略。我们在含有“原”关键字的POI名称、别名或地址中通过实体抽取技术，得到“原”关系（新旧关系）的两个POI名称，通过聚合技术找到旧名称所对应的过期POI。

同地址策略则利用地址门牌冲突关系来挖掘。其逻辑是：相同的门牌号（包括室内水牌）上通常只有唯一的经营实体，若地址上存在两个或多个实体且不是聚集实体（商场、园区等），则应当存在过期POI。我们采用图论对问题建模，取门牌相同的POI集合，将POI视为节点，POI间关系（亲子、兄弟、共现、参考引用等）为边。利用最大连通分解算法将集合划分为K个连通子图，每个子图看作是一个实体或聚合实体。若K=2，则将更新时间较早的子图作为疑似过期集合输出。

同电话策略是为数不多能与具体过期现象对应的策略。取有相同电话的POI的集合，与同地址策略类似，通过名称语义计算、空间计算、共现关系、亲子关系等，剔除掉聚集实体、连锁店、疑似重复数据等噪音，并根据名称相似性和距离关系，分辨出更名和搬迁现象。电话实际上代表着POI背后真正的人，通过人的行为变化可以判断一个POI过期与否，甚至可以推断出该POI具体的过期现象。

伴随着POI聚合多种新数据源的能力的日渐成熟，新的挖掘资料已具备。我们的重心也逐步转移至基于使用POI行为的挖掘。

2.2阶段二：基于使用行为的POI过期挖掘

步入阶段二，缺少挖掘资料已不再是解题的主要矛盾，人工核实率低、处理能力不足的问题凸显，从而迫切需要建立自动化打标/下线能力（提准）。过期挖掘的实质是感知伴随POI过期而发生的变化，进行事后观测式挖掘，比如，过期一般都会伴随着POI活跃度（运单量等）的下降。

前文已提到，挖掘所依赖的观测资料不能提供过期的实锤证据（比如，运单消失并不是过期实锤）；且过期强相关因子种类偏少、天然引入上游误差以及真实世界存在贝叶斯误差；外加随着解题推进，在线POI数据现势性增强、过期率下降，在观测资料固定的前提下，过期挖掘的产量及精确率均随过期率的下降而自然下降，上述这些都会导致精确率难提高，因此，提准难成为该阶段的主要矛盾。

特征层面我们通过去噪、精细化加以应对，受篇幅所限，本文暂不做展开介绍。而算法层面则是通过技术升级来应对。路线图：从规则到模型；从浅层模型到深度模型；从单源决策到多源信息融合；从决策层多源信息融合到特征层多源信息融合。

根据是否需要参考历史情况，我们将基于使用行为的POI过期挖掘划分为时序异常和事件异常两类。

2.2.1时序异常

POI的存活状态可以通过关联的使用行为量活跃度间接反映出来，从使用行为量的趋势角度尝试迭代解题。

趋势模型的主要思想是，统计某个时间窗口关联的使用行为量活跃度来衡量POI的存活状态，并通过分析活跃度相对于历史情况的衰减程度来判断POI是否过期，其基本假设是时序趋势下降与POI过期正相关。以已知活跃度信息的逐月统计量时间序列为特征，我们完成了RF->RNN->模型融合->Wide&Deep四个迭代阶段的研发。

鉴于RF在分类决策问题中表现出的精度高、不易过拟合、对数据集适应能力强、落地高效以及对于规则思维的天然吻合度，可成为验证解题方案可行性的首选。方案是将每种特征的每个时间节点值作为一个输入维度来构建模型。RF凭借高准确和高产出落地投产，验证了行为量趋势应用于过期挖掘的重要意义。

之后，针对RF存在的一些不足来做进一步的技术升级。首先，模型无法学到连续时间节点之间的趋势关联性，时序信息未得到充分利用；其次，对于不同种类特征缺失、长短序列融合等问题需要建立定制化模型来解决，多模型增加了维护负担。因此，要选择时序领域优势明显的RNN模型进行迭代升级。

通过构建多层LSTM深度网络实现了趋势关联信息的深度挖掘，同时针对不同热度分段的数据分布差异性，采取各自最优的缺失特征填充方式，避免了多模型式的解题方案，便于业务维护。RNN模型使发现能力，特别是自动化能力得到较大提升。

虽然RNN相对于RF提升了对于时序特征的学习能力，但信息不足依然限制了模型的自动化能力。我们进一步开发了能够实现多源信息融合决策的融合模型。思想是将RF、RNN、拆迁区域等现有各基线模型、策略以及白名单作为子分类器纳入统一框架内考虑，在此基础上构建贝叶斯网络，做决策层的多源信息融合。相较于特征层的多源信息融合，它落地快且效果明确，为过期业务提供了稳定的高准确自动化下线产出，自动化能力大幅提升。

第四个阶段是从多源信息融合的角度进一步优化。一方面，决策层融合相比特征层融合存在更多的信息损失；另一方面，一些模型/策略只在部分品类的POI上满足业务投产的准确率标准，导致不达标品类的产出结果未得到充分利用。因此，从实现特征层多源信息融合的角度出发，借鉴Wide&Deep思想搭建新业务模型。

整体思路是，将众多不可量化或比较的属性特征和状态信息特征进行编码表征，再经过一层全连接层降维后作为Wide部分；将RNN模型作为Deep部分，最后将两部分耦合。模型经过多轮迭代优化可稳定投产，自动化能力得到进一步提升，已成为过期挖掘业务中覆盖行业广、自动化解题能力突出的综合性模型。

综合以上，人机解题比大幅下降，解决了人工核实率低、处理能力不足的问题，并且大幅降低了成本。

2.2.2事件异常

现有的时序异常模型主要依赖于使用行为量的趋势特征做判断，存在挖掘资料覆盖上的天花板，以加油站、ATM、公共厕所等为例，这些类型的POI因自身属性的原因导致无挖掘资料，趋势模型无能为力。因而提出基于日志（Session）的异常事件模型，统计陌生群体到达过期POI后需求不满足引发的异常事件，补位时序异常模型的挖掘盲区，即无需参考历史情况，仅利用日志抽取POI关联的异常行为事件，累积近期异常事件衡量POI的存活状态是否正常。

日志挖掘难点

海量的日志行为。直接使用不仅消耗资源大，且有大量的冗余数据造成干扰。如何在海量行为中抽取与过期相关的特征是一个艰难的工程。

行为随机性大。例如，很多情景里快到终点前会提前结束导航从而无法判断是否到达目的地；有些情景是规划去一个目的地但从末端轨迹可以判断实际去的地点天差地别。

解题框架

针对上述问题，主要通过实地评测的过期POI case分析来构建具体的异常事件场景，例如到达后试图报错、到达后快速发起二次同质化导航等，以上统计量作为特征输入，由此可聚焦相关日志片段并降低随机行为噪音。整体解题框架如上图所示，从不同的Session源解析与POI相关的事件，按照时间顺序组合成场景1、场景2、场景…，加入外部属性如类型、城市等，以目的地POIID按照时间窗口归并生成相应的统计特征，输入LR模型，输出POI的过期得分。目前采用LR，优点是简单粗暴压住噪声。

挖掘效果

Session异常事件模型有效补充其他手段未能覆盖的解题集合，专攻汽车服务、生活服务、娱乐场所、金融保险服务等品类POI，是过期挖掘不可或缺的组成部分，且未来仍有较大的泛化提召回空间。

2.3阶段三：基于人地关系的POI过期挖掘

2.3.1 人地关系建设

趋势特征丰富（厚）的过期POI，容易被趋势模型挖出。而当趋势特征（使用行为）稀少（薄）时，模型发现能力较差。所以该阶段需要解决资料薄的问题，通过对关键群体（>2）线索的捕捉，降低对资料厚度的依赖。洞察POI的关键群体的行为，有可能找到发现甚至解释POI过期的特征。

因此，第一步我们需要建设人地关系，找出所谓的关键群体，称之为内部群体，是指：对POI有依赖的群体，这种人地关系，我们称之为内部关系，其它均为外部关系。

第二步基于内部群体的时空运动模式的变化发现过期POI，补位趋势特征稀疏时的召回问题，局限性：内部群体基本不变的POI更名等场景不可解。第一步人地关系建设基本完成，大体分为数据层、行为层和模型层三层，分别介绍如下：

在数据层，收集可能与POI相关的数据源，打通各个数据孤岛，将不同类型的数据关联到高德POI上。

在行为层，将行为特征表达在窗口为X天的二维矩阵上，如图所示。矩阵表示能够更加清楚地反映行为的周期性规律。不同行为序列可以看作是不同通道的矩阵，很好地适配行为数据的异步性，同时保持可扩展性（每多一种行为，可增加一个通道表示）。

在模型层，面向多通道的矩阵特征，采用深度卷积网络完成分类任务，其基本结构如下：

该结构一定程度地缓解由于数据不完备导致的特征稀疏,有效地学习行为的时间规律，取得符合预期的结果，验证了模型的可用性。在模型层，通过补充的召回策略，帮助将内部关系对POI的覆盖度进一步提升，完成从0->1的建设。

总结

过期挖掘已经成为增强POI现势性的绝对主力手段。这条以大数据挖掘为主导的路线还远远没有达到终局，未来的演进方向至少有以下几个：内部群体时空转移本质化通盘解题，降低对资料厚度的依赖；面向过期现象的定向挖掘能力提升；POI生命力画像构建；生态探索，从逆向解题向逆向+正向解题渗透。我们将致力于为提供给用户更美好的出行服务体验而努力。

招聘

阿里巴巴高德地图-智能技术中心长期招聘机器学习算法专家，基于大规模出行数据（文本、轨迹、图像等）进行分析建模，运用NLP、机器学习、深度学习等AI算法，改善地图POI数据的鲜度和准度，提升用户出行体验。职位地点：北京。欢迎投递简历到[email protected]，邮件主题为：姓名-应聘方向。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR