苹果公布新“MM1”AI模型的详细信息

Apple 研究人员开发了一种训练大型语言模型 (LLM) 的新方法,可以无缝集成文本和视觉信息。

苹果公司的研究结果详细介绍在一篇名为《MM1:多模式LLM预训练的方法、分析和见解》的研究论文中,展示了一种创建更智能、更灵活的人工智能系统的新方法。Apple 声称,通过利用包含图像说明对、交替出现的图像文本文档以及仅文本数据的多样化数据集,苹果声称MM1模型为AI在图像说明、视觉问题回答和自然语言推理等任务中的准确性设立了新的标准。

苹果的研究重点是不同类型的训练数据和模型架构的组合,这使得人工智能能够根据视觉和语言线索的混合来理解和生成语言。这种能力对于需要对世界有细致入微的理解的任务至关重要,例如解释复杂的图像或回答涉及视觉元素的问题。

论文还强调了 MM1 模型卓越的上下文学习能力,特别是该模型最大 300 亿参数的配置。该版本显然展示了使用少量“思维链”提示对多个图像进行多步骤推理的卓越能力,这种技术允许人工智能基于最少的示例执行复杂的、开放式的问题解决。

这项研究是苹果公司在日益激烈的竞争中增强其人工智能能力的更广泛计划的一部分。

发表评论

邮箱地址不会被公开。 必填项已用*标注