我要投稿

Google 发布 Gemini 1.5 Pro，支持原生音频理解

AI老司机 AI行业动态

2025-02-20 0 442

AILSJ 2024 年 04 月 10 日消息，Gemini 1.5 Pro现已在超过180个国家通过Gemini API公开预览提供，引入了首次的原生音频（语音）理解能力和新的File API，以便于处理文件。此外，引入了系统指令和JSON模式等新功能，给开发者更多控制模型输出的能力。最后，发布了性能优越的下一代文本嵌入模型。

Gemini 1.5 Pro的主要更新内容

全球可用性：Gemini 1.5 Pro现已在超过180个国家通过Gemini API公开预览提供，使得全球开发者都能访问并利用这一最新模型。

原生音频理解：引入了首次的原生音频（语音）理解能力，这意味着Gemini 1.5 Pro能够直接处理和理解音频输入，为开发者在音频处理和语音识别方面提供强大的工具。

新的File API：新推出的File API简化了文件处理过程，使得开发者能够更容易地在应用中处理音频、视频和其他文件类型。

系统指令：系统指令功能允许开发者定义角色、格式、目标和规则，以精确控制模型的输出，使其更贴合特定的应用场景和需求。

JSON模式：JSON模式的加入，使得模型能够只输出JSON对象，便于从文本或图像中提取结构化数据，极大地提高了数据处理的效率和便捷性。

功能调用改进：改进了功能调用机制，开发者现在可以选择不同的模式来限制模型的输出，提高了模型输出的可靠性和实用性。

新一代文本嵌入模型：推出了性能优越的新一代文本嵌入模型（text-embedding-004），在MTEB基准测试中显示出比现有模型更强的检索性能，为文本分析和语义理解提供了强大的支持。

更广泛的输入模态支持：Gemini 1.5 Pro扩展了对不同输入模态的支持，包括音频理解，并计划很快增加对视频内容的图像（帧）和音频（语音）跨模态推理的API支持，为开发者提供更多元化的应用可能。

音频理解演示

这些更新不仅展示了Google对AI技术不断创新的承诺，也为开发者提供了更多工具和资源，以便更好地构建和优化他们的应用程序和服务。

如何使用Gemini 1.5 Pro？

获取API密钥：在Google AI Studio创建或访问您的API密钥，开始构建。

音频和视频模态的新用例：Gemini 1.5 Pro扩展了输入模态，包括在Gemini API和Google AI Studio中的音频（语音）理解。此外，Gemini 1.5 Pro现在能够对上传到Google AI Studio的视频进行图像（帧）和音频（语音）的跨模态推理，API支持即将推出。

系统指令：在Google AI Studio和Gemini API中，通过系统指令指导模型的响应。定义角色、格式、目标和规则，以引导模型针对您的特定用例行为。

JSON模式：指示模型仅输出JSON对象，此模式支持从文本或图像中提取结构化数据。您可以使用cURL开始，Python SDK支持即将到来。

功能调用的改进：现在可以选择模式来限制模型的输出，提高可靠性。选择文本、功能调用或仅函数本身。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态 Google 发布 Gemini 1.5 Pro，支持原生音频理解 https://www.ailsj.cn/388.html