杏彩体育艺术字设计在线生成UI设计ui设计的理解苹果连放4个开源“小模型”跑分却
栏目:公司新闻 发布时间:2024-04-28
 杏彩体育3 月 15 日,苹果收购了加拿大 AI 初创公司 DarwinAI。自身 AI 团队一下扩充几十个技术人员。4 月 23 日又曝出,早在去年 12 月已经悄悄收购巴黎 AI 初创公司 Datakalab。这家 2016 年成立的公司,亦专注低功耗、高效率的深度学习算法。  苹果最近的这两起收购都围绕端侧大模型展开——比如 DarwinAI 想把 AI 系统打造得 小而精 ,Datak

  杏彩体育3 月 15 日,苹果收购了加拿大 AI 初创公司 DarwinAI。自身 AI 团队一下扩充几十个技术人员。4 月 23 日又曝出,早在去年 12 月已经悄悄收购巴黎 AI 初创公司 Datakalab。这家 2016 年成立的公司,亦专注低功耗、高效率的深度学习算法。

  苹果最近的这两起收购都围绕端侧大模型展开——比如 DarwinAI 想把 AI 系统打造得 小而精 ,Datakalab 专于低功耗、高效率的深度学习算法,无需依赖云端系统即可运行。

  也是在 3 月,苹果被爆出与谷歌进行谈判,希望将 Gemini 集成到新的 iPhone 中。此外,据透露,苹果还与 OpenAI 进行了讨论,考虑使用其模型。

  2023 年 10 月,苹果发布名为 Ferret 的开源 LLM。这一模型结合了计算机视觉和自然语言处理技术,能识别图像中的对象和区域,将文本转化为视觉元素,并进行图像相关的文本对线 月初,基于 Ferret,苹果发布多模态大模型(MLLM )Ferret-UI,表现出不凡的 UI 屏幕理解能力——不仅优于大多数开源 UI MLLM,而且在所有基本 UI 任务上也超过了 GPT-4V。

  但发布两月后的 12 月底,AI 医学非营利组织的运营商 Bart De Witte 反应过来——原来苹果 10 月就加入了开源社区,自己没注意到这次重要的发布。

  可以说,在今年 2 月财报发布会上库克公布生成式 AI 计划之前,苹果自身的 AI 研究进展就很多了。2023 年 12 月,它推出专门在 Apple 芯片上用于机器学习的开源阵列框架 MLX。2024 年 2 月,又发布图像编辑模型 MGIE,让用户无需通过照片编辑软件,就能用简单语言描述他们要在照片中更改的内容。

  2024 年 3 月,苹果在论文中介绍的 MM1 多模态大模型,同样拥有图像识别和自然语言推理能力。不过和其他大模型比起来,MM1 的效果不算惊艳。苹果只是围绕 MM1 开展实验发现影响模型效果的关键因素。

  MM1 的论文指出,无论是开源还是闭源,现在都没有真正分享达到算法设计经历的过程。所以苹果希望借 MM1 的研究打破局面,在论文里公开模型训练的种种细节。

  模型构架苹果的研究人员采用了仅包含的 Transformer 架构,但是作出了一些特殊的调整:

  OpenELM 与传统的大语言模型的最大不同在于,通常大模型在每一层 Transformer 中使用相同配置,而 OpenELM 为每层设置了不同的配置(如头数和前馈网络的尺寸)杏彩体育,使每层的参数数量各不相同。

  这种方法,让 OpenELM 能更有效地利用参数预算,从而达到更高模型准确率。通过 层间缩放 (也称为块间缩放),实现了这一层间参数的非均匀分配。

  从苹果提供的公开数据来源来看,数据包括了像 arXiv,维基百科,Reddit,GitHub 等各种主流的网络社区和百科知识平台。

  从上图中可以看出,OpenELM 的准确度随着训练迭代次数的增加而提升,在多数任务中都表现出明显的准确率增长。

  此外,通过对最后五个检查点的平均处理(这些检查点是每隔 5000 次迭代收集一次),显示出与 350k 次迭代后获得的最终检查点相当或略优的准确率。

  推理性能表现研究人员主要测试了模型在两个文章开头介绍过的 PC 和 Mac 两个平台上的推理性能表现。

  可以看出,代表着 Mac 主流配置的 M2 Max 平台,在跑 3B 模型时推理性能可以达到每秒 34 token,已基本超过人类的阅读速度。

  分析显示,OpenELM 处理时间的一个重要部分,可以归因于 RMSNorm 的初级实现(下图所示)杏彩体育。

  为了进一步说明由于 RMSNorm 造成的性能下降,研究人员将 OLMo 中的 LayerNorm 替换为 RMSNorm,观察到生成吞吐量显著下降。在未来的工作中,研究人员计划探索优化策略,以进一步提高 OpenELM 的推理效率。