比赛调研资料

视觉文旅

比赛调研资料_第1张图片

现有的模型

比赛调研资料_第2张图片

数据

比赛调研资料_第3张图片
比赛调研资料_第4张图片

功能

  • 精准营销
    比赛调研资料_第5张图片

  • 基于地理推荐能力
    比赛调研资料_第6张图片

  • 乡村圈分析能力
    比赛调研资料_第7张图片

  • 都市圈分析能力比赛调研资料_第8张图片

产品体系

比赛调研资料_第9张图片

三大数据平台

比赛调研资料_第10张图片

比赛调研资料_第11张图片


携程问道

旅游服务框架:前置(推荐种草),途中(客服),售后(?)

  • 行程规划

携程问道在训练期间筛选了200亿个高质量非结构性旅游数据,再结合携程现有精确的实时数据进行自研垂练,成为百亿参数规模的行业垂直大模型。

  • 大模型推荐

“携程问道”大模型目前已经具备了“前置推荐”和“智能查询”两项能力:
首先,在用户需求尚未确定时,携程问道能为其提供出行推荐服务;
如若用户已有相对明确的需求,问道也能提供智能查询结果。

“旅游重在体验,任何一个5%的行程规划失误都会造成100%的旅游问题”,携程深知,AI能否给出可靠答案,将直接关乎游客的出行体验。

  • 客服
    当前互联网平台主流的客服回复方式,无外乎线上咨询、电话语音和电子邮件。随着技术升级迭代,携程已将成熟的AI客服系统与客户无缝对接。

据了解,在中文渠道或是涉及多语种对话的场景中,携程AI的自助率已经达到了约75%,50%的电话咨询能够通过AI解决;利用文本抽取和意图识别技术,后台25%的邮件反馈,也已交由AI进行回复。
数据显示,AI客服上线至今,日均可节约10000+小时客服工作时间,邮件回复速度已从小时级降低至分钟级。

  • 显然,凭借公司自身在旅游行业多年深耕积累的旅游数据,训练语义理解、信息抽取、信息摘要等模型,携程正在用AI技术,提升着旅行全程的效率和体验。

中国移动

数据优势:

  • 数据覆盖人们的生活,移动用户基数大
    比赛调研资料_第12张图片
  • 尤其是轨迹位置数据

融合多种位置数据,包括信令、话单、MR以及流量解析中的GPS数据等,综合多维模型能力,提供高精准、高保障、高连接、
高响应、低时延的实时精准位置服务能力。

时间和位置数据如何利用?

  1. TimeGPT的方案,Transformer单独训练一个预测大模型,作为一个轨迹预测模块,针对单用户进行时间序列建模

  2. 多模态大模型,将时间和位置加入预训练数据中,作为一个Prefix,拼接到数据中

    • 存在一个问题,训练数据是已知的,推理是未知的,OOD
    • 位置可以直接拼接,时间不行使用相对时间,offset偏移?
      • 针对一个位置使用相对时间?
  3. Diffusion模型,进行预测

    • 扩散模型生成GPS轨迹:https://zhuanlan.zhihu.com/p/660517182
  4. TrafficGPT

    • https://zhuanlan.zhihu.com/p/656801328
    • https://arxiv.org/pdf/2309.06719.pdf
    • 用Tools实现各个功能的调用,
  • 移动目前的核心就是,基于位置的识别模型?

    • 那么我们如何建立一个大一统的识别模型呢?
    • 其实不用,可以使用Tools来唤醒各个专用的小模型
  • 需要精确性和可靠性

    • 精确性:ChatGPT已经可以很好的知道世界的经纬度了,所以可以大胆的加入位置信息进行训练
    • 可靠性:语言模型无法做到实时查询,通过tools来实现实时的查询

TrafficGPT的可靠性解决方案:

数据真实性:指示TrafficGPT避免生成虚假的交通基础模型(TFM)名称、输入和输出数据至关重要。这确保输出可信且可靠,最大程度地减少了误导信息的可能性。

最小化冗余:通过指示TrafficGPT避免重复使用工具,您鼓励了连贯的问题解决,同时减少了错误的机会。这种方法通过防止不必要的重复,增强了系统的可靠性和准确性。

人工干预协议:承认现有信息和TFM的局限性,该协议强调了当TrafficGPT遇到无法准确完成的情况时人工干预的重要性。它指示系统暂停并请求人类提供额外信息,以确保最终输出的准确性和可靠性。

任务精确性和响应及时性:由于TrafficGPT利用多种交通基础模型(TFMs)并能将它们相互关联以完成复杂任务,因此提供精确的提示变得至关重要。这确保系统准确理解任务要求,并能及时地做出响应,有效地利用相互关联的TFMs。

这些策略共同旨在通过关注真实数据生成、避免冗余、在需要时引入人工监督,并通过精确的任务理解和及时的响应来维护TrafficGPT在处理复杂交通相关任务时的可靠性和准确性。

ChatGLM问答(回复生成)

  • https://mp.weixin.qq.com/s/1ODytWmjCkEs8lL5VFo-PA

GPS轨迹(轨迹预测)

  • DiffTraj: 利用扩散模型生成 GPS 轨迹: https://zhuanlan.zhihu.com/p/660517182
  • DYffusion: DYnamics-Informed Diffusion Model: https://neurips.cc/media/neurips-2023/Slides/73469.pdf

比赛调研资料_第13张图片

TableGPT(做数据分析)

  • https://zhuanlan.zhihu.com/p/644674989

Global Table Representation 表格全局表达
Chain-of-Command 链式命令
Domain-aware Fine-Tuning 领域感知微调

比赛调研资料_第14张图片

Background:目前的大模型逐渐走向多模态,除了文字之外,还可以处理图像、音频等。但就如之前所说,现有的大模型处理表格数据的能力十分有限。要让大模型正确地理解和解释表格是一个难题。之前有人做过各种尝试,比如把表格数据的每一行转换成句子状的文本描述等等。但这些方法都只是从表格里提取了部分信息喂给大模型,而忽略了整体,也没有考虑到数据中隐含的行业相关背景。

那么能不能直接从表格中提取矢量表征呢?这里最大的挑战是,不同于图像、音/视频,表格数据是一种非常抽象的结构化数据。同时表格还具有双置换不变结构,即重新排列行或列不会影响表格中包含的信息,这与图像和音频形成了鲜明的对比,后者在相邻位置或序列中具有归纳偏差。更不用说不同的表格的大小、尺寸、列数都不一样,要用统一的神经网络架构来提取特征是很困难的。

普通的大模型在理解表格的时候往往太拘泥于每一格中的具体信息,而忽略了全局。于是研究团队的解决方法是让他们的模型像人类数据分析师那样去理解表格。具体来说,就是把表格中的信息分成两部分:

  1. 第一部分是表格的元数据表征,即表格的呈现形式、表格内容的行业背景,每一列的栏目名称等。这样可以大模型对表格结构有一个整体的把握。
  2. 而第二部分是学习表格中的数字信息表征,比如每一列中数值的分布和变化趋势。这里他们将表格的行和列视为一组元素,并学习整个集合的整体表征。而表格编码器的主干来自修饰过的集合转换器(modified set transformer)。
  • 编码器通过注意力机制加强之后可以理解不同行和列之间的相互关系

指令链

大模型具有思维链(chain-of-thought),可以把复杂的推理过程分解成一系列中间步骤。而在这里,研究团队提出指令链(chain-of-command),为思维链的这一系列中间步骤提供逐步的指示。

例如当用户提出:“列出 5 部利润最高的电影。” 大模型会先检查列表里面有没有利润这一栏,如果没有这一栏,那么它会生成一套指示来指导自己通过票房和成本数据计算出利润,再根据指示按照利润高低排列电影,找出利润最高的那 5 部。指令链增强了大模型的多跳推理(multi-hop reasoning)能力,使其能够把用户的诉求拆解成一系列指令,这样更易于进行复杂的跨表格操作。此外,当用户的请求太过模糊、宽泛的时候,比如用户说“给我一些数据”,那么指令链还会提醒用户把请求变得具体、明确。

用处: 用自然语言去进行数据分析

另一方面,在同一企业内部,数据分析部门与其它部门之间沟通不畅,数据分析的术语对于其它部门人员来说晦涩难懂,而数据分析师由于不在业务的一线,也很难理解业务的真实需求。

如果有一个工具可以降低数据分析的门槛,让所有人都可以用自然语言与之交互,省去了学习复杂的工具和写代码的麻烦,那么将大有可为。我们希望 TableGPT 会是这样的工具。


LLM推荐

传统

一个完整的推荐系统包含召回、排序(粗排、精排、重排、端排序)、业务过滤层等几个重要的逻辑分层。这多年虽然很多论文层出不穷,但是主要框架没有发生很大的变化,围绕这个架构的各个层进行深入优化,通过分阶段的贪心的方式来优化算法的效果,来提升整体的业务指标,算法“卷”起来。

对于现在的整个推荐系统而言,虽然看似是一个智能化的推荐系统,但是本质还是在通过过拟合用户在场景内的行为来进行各种预测。过拟合是个毒药,效果好,但是会出现各种各样的问题(冷启动用户、买了还推、内容单一),于是也出现了很多算法来解决这一类问题的,怎么提高推荐系统的多样性?怎么了提高推荐系统的惊喜性。

LLM

主要是想利用LLM的三种能力

  • 涌现, Emerge(abilities), 即一般指在大模型中出现而小模型没有的能力。所谓“涌现”,在大模型领域指的是当模型突破某个规模时,性能显著提升,表现出让人惊艳、意想不到的能力。比如语言理解能力、生成能力、逻辑推理能力等。一般来说,模型在100亿到1000亿参数区间,可能产生能力涌现。
  • 上下文学习(ICL):是指不需要微调,只需要少数几个样例作为示例,就能在未知任务上取得不错的效果(提升few-shot能力)。
  • COT能力:也是一种奇妙的能力,大模型涌现出来的COT能力,让模型可以解决复杂问题,而且具有了可解释性。

如何利用?

LLM有很多特性可以被用来对推荐系统来进行改进。

可以利用大模型的知识和推理能力来对用户的上下文行为来进行深入理解

  • 大模型有很强的zero-shot/few-shot的能力,可以很方便的进行下游任务的适配。相应的推荐也有很多的场景,有的场景样本多,有的场景样本小,这种范式给推荐提供了一种统一的可能,是否未来可以构建类似的高速适配的能力
  • 推荐系统发展到今天,都离不开过拟合场景数据来提升效果,会带来很多的负向作用(各种公平性、bias问题),LLM型虽然也有问题,但是大模型是建立在巨大的知识之上的,可以利用这些知识来尝试去打破各种目前的问题。
  • 多场景多任务冷启动是推荐系统里面经常遇到的场景优化,很多的工作都在这个方向的优化。LLM提供了一种能力可以快速来进行一些冷启动场景的优化和多场景多任务的优化。
  • 推荐系统的可解释能力一直被大家诟病,LLM有很丰富的知识,可以利用这部分知识来进行推荐结果的可解释性。
  • 最后一种就是直接利用大模型来进行推荐结果的生成

总的来说,已经尝试的工作可以分为下面的三大类,当然有很多的划分方式:

1)LLM Embeddings + RS

这种建模范式将语言模型视为特征提取器,将物品和用户的特征馈送到LLMs中,并输出相应的嵌入。
传统的推荐系统模型可以利用知识感知嵌入来完成各种推荐任务。

2)LLM Tokens + RS

这种方法基于输入的物品和用户特征生成token。通过语义挖掘,生成的token可以捕捉潜在的偏好,这些偏好可以融入到推荐系统的决策过程中。

3)LLM AS RS
这种方式直接把LLM作为一个RS系统,不过这种对LLM精准性要求比较高
比赛调研资料_第15张图片


Chat-REC: LLMs-Augmented Recommender System

本文中提出了一种用 LLMs 增强传统推荐的范式 ,通过将用户画像和历史交互转换为 Prompt,Chat-Rec 可以有效地学习用户的偏好,它不需要训练,而是完全依赖于上下文学习,并可以有效推理出用户和产品之间之间的联系。

通过 LLM 的增强,在每次对话后都可以迭代用户偏好,更新候选推荐结果。和基于检索增强的QA一样,LLM与传统搜推系统结合,为了保证结果更加可靠,还需要增强一下。

论文图如下,流程还是蛮清晰的。给推荐系统怎么使用LLM指明了一条路。
比赛调研资料_第16张图片


A First Look at LLM-Powered Generative News Recommendation

对于传统的新闻推荐,往往有如下的几个问题:

1)冷启动。对于长尾或新用户,模型无法较好的建模和理解他们的兴趣。冷启动是推荐系统经常遇到的问题

2)用户画像建模。出于隐私保护的考量,现有的数据集可能无法包含详细的用户画像信息。另外用户的兴趣往往是多样的,怎么能比较精准的客户还是蛮有挑战性的。

3)新闻内容理解。由于新闻数据中标题和内容存在不一致的问题,导致难以识别新闻中的关键概念和主题。而且新闻一般内容都会比较多。

本文提出来GENRE框架,这个框架可以提供一种灵活的,可以配置的,能快速把LLM的相关的能力引入进来来进行相关的推荐。、

Recommendation as Instruction Following: A Large Language Model Empowered Recommendation Approach

这个论文主要思想是,用户的偏好或需求可以用自然语言描述(称为指令),以便LLMs能够理解并进一步执行指令以满足推荐任务。主要是提出推荐系统的指令调优方法,名为InstructRec。该方法允许用户在与推荐系统交互时,用自然语言指令自由表达他们的信息需求。考虑与用户需求表达相关的三个关键方面,即偏好、意图和任务形式来设计指令。本文采用3B Flan-T5-XL作为骨干型号,Flan-T5基于T5进行了微调。

A Survey on Large Language Models for Recommendation

这个综述是组内中科大的AIR实习生的一个组的老师发的,王老师把最近的一些关于LLM相关的推荐论文进行了详细的了解和梳理。

我怎么做文旅场景的推荐?

  1. embedding + RS的思路
    • 需要编码器对用户输入的数据进行embedding
    • LLM也需要指令微调 (prefix加入轨迹位置)
  2. Prompt构造增强
  • 指令需要构造
  1. 候选集过滤

你可能感兴趣的:(深度学习基础,深度学习,人工智能)