近日,观远数据G-park「Let's Date!BI!」系列直播第二期「2023,金融业如何应对“流浪数据”」顺利落幕。观远数据联合创始人兼首席数据科学家字节带来了《漫谈 ChatGPT 与问答式 BI》的探索思考。
字节一方面介绍了一系列 ChatGPT 等基于大语言模型的工具,如何提升日常工作、生活效率;另一方面,在 BI 和数据分析领域,对话式或者问答式的BI将给未来带来的无穷想象力。
在工作、生活角度带来的提升,这里分别以阅读、写代码、各种创作等角度展开。
ChatGPT 刚出世时,很多人说要颠覆 Google。因为原来要找一个知识,需要在 Google 或者百度进行关键词搜索。但搜索完之后,结果将是上万张网页,需要我们一页一页点击链接,查看信息。这其中,10 条链接或许只有 1 条和问题相关。当我们没找到相关信息时,还需要重新输入关键词再搜索。
而在 ChatGPT 中,对于提问可以直接解答。不过 ChatGPT 有两个缺陷,一是信息只到 2021 年,二是没有联网缺乏及时性的新信息。
New Bing 集成了 ChatGPT 的模型。当我们输入问题后,不仅会触发搜索,还会自动浏览网页文档,并总结相关信息,以结果直接反馈。以代码问题为例,正常搜索跳到 CSDN 等相关类型的开发网站,而 New Bing 将直接列出可运行的代码。这是非常方便且提效的。
延伸到企业内部的搜索,也是同理。企业内部信息管理系统,大部分搜索与 Google 类似,输入关键词,弹出文档链接,里面有标题和正文内容的匹配。这也需要一篇一篇自行寻找。此时通过 GPT 能力的结论直接反馈,将节省大量时间。
除了 New Bing,还有两个项目 perplexity.ai 和 you.com 可以直接访问,也提供了类似ChatGPT形式的问答。搜一个问题,会直接把答案回复出来,而且把相关引用链接都放在里面。这是很好的提效产品。
阅读方面介绍两个优秀产品 Bearly.ai 和 TLDR this。Bearly.ai 是一个浏览器的插件。当用户打开一篇长文章后,它会自动总结文章内容,提炼出关键结构,有效提升阅读效率。此外,该插件还有一个重要功能,可以在亚马逊等购物网站上,遍历商品的用户评论,并进行好评、差评的总结。
企业内部也常有类似需求,包括邮件、微信的沟通,甚至外部评论,通过收集信息并基于GPT模型的能力,进而快速知晓产品服务的好坏点。
除了搜索之外,Google 有 Talk to Books 的产品。当提出问题之后,将从历史上已出版的书籍中摘录问题相关的原文,并展示来源书籍。
这些是问答式的搜索,并不是严格的关键词匹配。如果仅是关键词匹配,效率是不高的。以搜素“不良率”关键词为例,我们会得到很多不相关的信息,因为它不知道我们想要“什么样的不良率”。但如果通过自然语言,详细地提出问题,那模型可以自动理解语义,并找到相关文档进行全面展示。这是很大的基础进步,提升产品体验。
代码方面目前也有很多成熟应用,通过注释自动生成代码,或者选中代码对齐进行语义注释,甚至测试、检查性能等等。这里面有大名鼎鼎的 ChatGPT、Copilot ,类似的还有 Tabnine,CodeGeeX 等,也有一些专门领域的生成工具,例如 Warp 中自带的 AI 能力可以生成终端命令,PingCAP 之前做的 Chat2Query,可以帮助自动生成 SQL,以及像 Seek.ai,Manson 等更面向业务用户的数据分析工具。
除了代码生成外,还有专门面向自动化测试生成的 Codium,自动文档生成的 Mintlify,以及各种功能都集成到一起了的 Bito。
创作领域,以“写一份软件质量提升计划”为例。我们通过 notion.ai 生成 10-20 个不错的计划建议,还能进一步通过交互式的指令,展开二级列表,并进行排期执行。
在工作中需要做各种各样的计划时,这些工具可以把常识性的计划罗列出来。我们只需在此基础上,结合公司的实际情况,进行个性化修改即可。
自 ChatGPT 推出以来,很多人的工作是在 ChatGPT 里完成的。这里出现了一个问题,我们该怎么样更好地去向 ChatGPT 提问题。因为ChatGPT的回答能力很强,但这需要我们把问题描述地足够清楚,它才能够给到高质量的回答。
这里分享一系列的工具,提示我们有一个场景问题时,该怎么提问。这些工具网站提供了提示词模板,帮助我们更好的提问。此外,还有其他用户反馈的优质提问经验的分享。
GitHub - f/awesome-chatgpt-prompts: This repo includes ChatGPT prompt curation to use ChatGPT better.
ShareGPT: Share your wildest ChatGPT conversations with one click.
https://untools.co/thinking-tools-guide
https://prompthero.com/
ChatGPT 产品本身有一些常见问题:
ChatGPT 回答可能会胡编乱造;
只知道 21 年前公开网络的信息;
数据隐私安全问题。
针对胡编乱造的现象,目前有一些方式可以优化。例如提问“某公司的业绩表现如何”,该公司根本没有对外披露过该数据,那它可能会给到假数据,这实际上是错误的。
此时,我们需要一些提示词,并构建回答的语境,这很大程度上能避免胡编乱造的情况。此外,针对信息时效性的问题,可以使用 New Bing。New Bing 结合了 ChatGPT 的总结能力,并且基于它本身的搜索能力,可以获取最新讯息,更大程度上降低了胡编乱造的概率。
针对公开信息的局限性。在企业内部,可以进行信息输入,进一步训练,提升模型的信息广度。例如,2021 年之前的外部信息,没有“观远数据的吉祥物是观小猿”这一信息。当信息提交模型后,它可以进一步加以训练。
这里发散开来,将有很多的实际应用。很多公司都有帮助文档,以观远数据 BI 产品帮助文档为例。虽然所有人都可以看到帮助文档,但 ChatGPT 很大概率没有将其纳入训练过程。那么利用信息再输入的方式,可以把这些观远数据公开的BI产品信息提交给模型,再向其提问。如此一来,它就成为了企业定制化的智能问答机器人。
针对数据安全问题。以业务问题为例,例如想获取上季度的营业额,我们通过给 ChatGPT 提交 schema 信息,而不是完整的数据表信息,让 ChatGPT 返回 SQL。我们再在内部通过这条 SQL 搜索获取数据,就能有效避免数据泄露。另外,如果是非常敏感的数据,相信未来可以进行私有化的部署,完全不对公网,数据安全也可以得到一定的保障。
谈了这么多 AI 产品的使用,可以发现在 AI 时代,过去很多要花大量时间做的重复劳动、甚至脑力劳动、知识劳动,现在都可以用 ChatGPT 来替代。那么我们人类在新时代中要发挥什么样的价值?要去做什么样的事情?
首先要了解 AI 基础的运作模式,大致明白它的工作原理;其次是 AI 和人类智能的区别,AI 擅长做哪些事情,不擅长做哪些事情;最后怎么样把日常工作中的事情可以交给AI来做,哪些事情我们自己做。
如果可以利用好 AI,相信我们的工作效率能得到数倍的提升。这里着重分享下人和AI区别的个人理解。
首先是批判性的思维和创造力。这是AI非常匮乏的,因为AI只有收到我们的指令后,它才能做事。
其次是同理心,AI 很难理解用户所在处境,但人和人之间比较好理解。
最后,在有了同理心后,人类可以进行产品构思、具体原型打造,以及后续产品发布的测试与迭代。这些事情都是模型不太擅长的。
但在上述过程中,chatGPT 可以起到很好的辅助作用。例如在产品构思时,可以帮助我们进行头脑风暴并列出关键意见。
在 BI 数据分析的“问题定义—数据接入—数据处理—可视化展示—交互分析—决策行动”全链路上,ChatGPT 都有结合的机会。
问题定义:对于部分场景问题,基于 ChatGPT 可以得到初步的数据分析与决策计划,人工再进行校对与修改;
数据接入:原先非结构化数据通常需要清洗,而现在部分数据或许不再需要清洗,直接进行端到端的分析;
数据处理:辅助数据工程师做ETL开发。在 ETL 开发过程中,通过自然语言的提问,ChatGPT 生成 SQL 提供用户使用,并且可以进行多轮交互式的构建。即便第一步出现偏差,也可以在第二步重新修正;
可视化展现:回答业务问题,快速获得数据结果与结论。提交问题后,自动生成 SQL,再提交于 ChatGPT 生成文字结论以及后续的行动建议,实现问答式的 BI。
交互分析:深度分析报告的自动化生成。基于BI系统能力,对接企业内部各类数据源,基于可靠的数据指标来源提供可信的业务分析报告。自动识别异常原因有业务含义,并以自然语言的方式展示,避免了数据分析方法差异带来的认知偏差。
决策行动:提供辅助性的预测,基于历史行动做未来的推荐建议。
以下着重分享“数据处理”、“可视化展现”、“交互分析”中,观远数据进行的一些尝试和探索。
Chat2SQL 是我们制作的一款浏览器插件,来协助进行数据处理。当需要写 SQL 时,可以一键唤起插件。通过自然语言的交互,插件可以自动生成 SQL。
交互式的提问,可以带来很多好处。首先,它可以不断修正错误,一开始或许有偏差,但随着交互的深入,可以给到正确的结果;其次,应对非常复杂的 SQL 时,交互式方式可以层层生成 SQL,一步步构建出最终成果,准确性也非常高。这将是一个新的构建范式。
在可视化展现上,也就是提问后直接展示可视化内容,原先我们做 BI Dashboard 的交互分析其实有些许麻烦,但如果像 Google 一样,通过搜索把结果展现出来,这将是一个很大的进步。
以国外的 ThoughtSpot 产品为例,其搜索栏通过转化率、渠道、上个月等关键词展示可视化内容,它并不是一句自然语言。真正的自然语言应该是:上个月的每天转化率是多少?
我们制作了一个产品原型 Chat2Viz。首先在输入栏进行自然语言的查询,产品将自动生成查询 SQL,并提交于 ChatGPT 生成文字结论、可视化内容、其他卡片的推荐以及后续的行动建议。这对于业务使用是非常方便的。
Chat2Viz发展到后续,能否形成“DataStory”?DataStory 有个必要的前提条件,它需要一个最佳实践。
因为如果 DataStory 只给数据,但没有业务的分析链路逻辑,对业务本身是没有太大帮助的。举个例子,一家电商客户通过数据发现天猫渠道的业务影响是最大的,但这是一个显而易见的事实,这对于业务没有任何帮助。因此 DataStory 要提供真正对业务有帮助的信息。
对此,观远数据打造了“自动数据洞察”。其中的核心是沉淀了各行各业分析场景的复杂分析“决策树”。我们可以定期进行决策树链路的分析,可能是每天、每周。
基于决策树的分析链路,用户每天自动看到决策树的分析报告。如果没问题,那证明今天的数据是正常的,如果出现异常情况,将提示醒目的标志,并告诉用户哪里出问题了,问题核心在哪。这是 DataStory 的一个雏形。并且后续用户在周会、月会上,不断收集大家的追加问题,甚至对于异常问题的追问,都进一步沉淀进决策树,最后就能成为真正的 DataStory。
未来,DataStory 可以支持多轮的交互,包括未来每天向其提问,呈现一份数据报告。需要开会讨论时,也可以使用该报告。以及未来,在该报告的基础上,进行追问,展开更深度的分析,这些都是非常吸引人、也很激动人心的发展方向。