xAI的Grok聊天机器人现在具备“视觉”能力,能看懂现实世界

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

xAI今日宣布,旗下Grok聊天机器人已加入名为Grok Vision的新功能,用户现在可以通过手机摄像头“指向”现实中的物体,让Grok识别并回答相关问题。这项功能与Google Gemini和ChatGPT已有的实时视觉功能类似,使Grok在多模态交互方面迈出重要一步。

Grok Vision目前仅支持iOS版本的Grok应用,Android用户尚无法使用此功能。


什么是Grok Vision?

Grok Vision允许用户对准手机镜头,拍摄如商品、路牌、文档等现实物体,然后提出自然语言问题。比如:

  • “这个药的成分和作用是什么?”
  • “这是什么品牌的鞋?”
  • “这个停车标志什么意思?”
  • “这张纸上写了哪些重要信息?”

xAI表示,这项功能将在现实环境中帮助用户进行更智能的识别与互动,扩展了Grok的实用场景。


Grok今日还发布了哪些新功能?

除了Grok Vision,xAI还为Grok推出了以下更新:

  • 多语言语音功能:用户可使用多种语言与Grok语音对话。
  • 实时搜索集成至语音模式:Grok在语音模式下可同步进行网络搜索并提供即时答案。

不过,这两项功能目前仅在Android端可用,并且需要订阅xAI的SuperGrok会员计划(月费$30)


Grok的发展节奏持续加快

Grok的功能近期持续扩展:

  • 本月初,Grok加入了**“记忆”功能**,可调用用户过往对话内容提供更具上下文的回答。
  • 同时上线的还有Canvas画布工具,让用户在Grok中创建文档、应用或交互内容。

随着Grok Vision和语音功能的加入,xAI正逐步将Grok打造为一款具备视觉、语言、语音和上下文记忆的多模态AI助手,向着与Google Gemini、OpenAI ChatGPT等主流AI竞争对手全面对标。

你可能感兴趣的:(人工智能,自然语言处理)