由埃隆·马斯克领导的 xAI 开发Grok 语音模式已成为热门话题。超越简单的语音对话,能歌善笑的下一代AI到底有何威力?
从 2025 年 3 月开始,即使是免费套餐,也可以在 iOS 应用程序中使用语音模式。在这篇文章中,我们将彻底解释 Grok 语音模式的特点、如何使用它以及它与其他 AI 的不同之处。

本文内容在上面的GPT主播室以简单易懂的音频进行讲解。
首先,我们使用了Sesame的AI和Grok3的语音模式让AI互相对话,所以请听音频。音频更清晰的是 Sesame。
什么是 Grok 语音模式?

Grok 是 xAI 开发的人工智能聊天机器人,自 2023 年首次推出以来不断发展,具有幽默感和实时数据访问的优势。 “语音模式”于 2025 年 2 月 19 日开始公开测试,作为一种能够通过语音进行自然交流的功能,与仅交换文本的聊天机器人不同,而受到关注。
从 2025 年 3 月 6 日起,即使是免费套餐,Grok 的智能手机应用程序也将提供语音模式。不过,虽然最初不支持日语,但从 2025 年 4 月 23 日起,它已兼容包括日语在内的多语言音频输入和输出,现在可以用日语进行语音对话。
下面是 ChatGPT 语音模式和 Grok 语音模式之间的对话。
各种谈话方式
Grok 的语音模式提供多种对话方式,包括:
- 默认:标准响应方式
- 讲故事的人: 讲故事的风格
- 浪漫的:浪漫的基调
- 精神错乱:情感自由表达
- 性感:性感气息(适合18岁以上人士)
- 冥想:平静的冥想语气
- 阴谋:阴谋风格
- 无证治疗师:非官方治疗师风格
- 格罗克“医生”:医生般的反应
这些风格可以根据用户喜好进行选择,提供更加个性化的交互体验。

语音模式下可以做什么
- 实时互联网接入:不仅可以通过语音进行设置和操作,还可以实时获取最新的在线信息。即时获取新闻更新、天气等信息的答案。
- 自定义语音指令:灵活定制,例如用特定短语或语气发出指令。通过设置自己的语音命令,可以实现更流畅的操作。
- 音频记录:对话内容自动转录为文本,方便以后查看。最大的优点是你可以用它来代替记笔记。
- 音频共享:还会有与家人朋友分享语音交流内容的功能。一种可能的用途是仅使用音频与同事共享会议。
- 在后台工作:即使在操作智能手机和使用其他应用程序时,您也可以继续与 Grok 进行语音交互。该功能对于提高工作效率很有用。
- 唱歌、笑声等娱乐功能:AI边唱边笑,给你一种真实感,仿佛你的朋友和表演者就在你身边。它也非常适合喘口气。

Grok 的语音模式也可在 Android 上使用。但是,有一些使用条件。
Android 版 Grok 应用中的语音模式支持状态(截至 2025 年 4 月 30 日)
- 获取应用程序:Grok 的 Android 应用程序可以从 Google Play 商店下载。
- 语音模式使用条件:要使用语音模式,您需要订阅 xAI 的付费计划“SuperGrok”(每月 30 美元)。
- 日语支持:语音模式支持包括日语在内的多种语言,可以进行日语语音输入和输出。
- 功能限制:与 iOS 版本相比,Android 版本中的某些功能可能会受到限制。例如,Grok Vision(使用相机的视觉识别功能)首先在 iOS 版本中可用。
技术背景
语音模式主要是它是通过整合ElevenLabs的音频技术和xAI的专有技术来实现的。
未来规划了四种以上的语音选项,预计用户将能够从多种适合自己喜好的语音中进行选择。此外,Grok 从 Grok-1、Grok-2 和 Grok-3 开始不断更新其模型,以提高性能,并且对未来的扩展和改进抱有很高的期望。
与竞争对手的差异
这种语音模式有望与 ChatGPT 和 Google Gemini 等其他公司的 AI 语音功能竞争。然而,Grok 是基于与 X(以前的 Twitter)的合作实时信息获取优势其吸引力在于它不仅仅是文字回复。
此外,我们的娱乐功能(例如歌曲和笑声)使我们有别于其他服务。
Grok 的语音模式:总结

Grok 的语音模式是一项突破性功能,为与 AI 交互开辟了新的可能性。
唱歌、大笑等俏皮的互动带来了不同于以往AI服务的兴奋感。如果将来添加更多音频选项,我们可以期待不仅在商业方面而且在娱乐方面都会带来巨大的兴奋。
