首页 精选百科 > 正文

Google Gemini 现在可以收听音频文件

导读 目前,技术正在快速发展,人工智能模型能够识别多种类型的媒体。好吧,谷歌刚刚宣布其新的人工智能模型Gemini 1.5 Pro 现在可以理解音频...

目前,技术正在快速发展,人工智能模型能够识别多种类型的媒体。好吧,谷歌刚刚宣布其新的人工智能模型Gemini 1.5 Pro 现在可以理解音频了。这一消息是在Google 在 Android Studio 中发布 Gemini后不久发布的。

为了让人工智能模型能够学习,它们必须输入大量数据。最初,人工智能模型主要是根据基于文本的数据进行训练的。这对于聊天机器人来说非常重要。然而,随着时间的推移,他们获得了处理图像数据的能力。多个聊天机器人使您能够上传自己的图像以进行重建或确定。

当谷歌首次向公众推出 Gemini 时,该公司表示最终将能够确定图像、音频和视频等多种形式的媒体。嗯,它已经能够确定图像一段时间了,而且该公司刚刚检查了另一张图像。 Gemini 1.5 Pro是该公司最新的AI模型,目前正在测试中。该型号的巧妙之处在于它实际上比 Gemini Ultra 更强大。因此,该公司正在超越自己。

此最新更新使其能够分析和处理音频文件。因此,如果您想要长主题演讲、对话、财报电话会议等的摘要,您将能够将音频直接上传到Gemini。虽然有一些工具可以总结对话(甚至智能手机上也有可用的工具),但这种实现是不同的。当前的工具会将语音转录为文本,然后根据文本总结对话。不过,Gemini 1.5将能够省去中间人,直接收听音频。这可能会提高准确性。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。