杏彩平台app:苹果OpenELM:设备瞬间变聪明自家AI无需联网

2024-04-29 23:30:59 1

  苹果推出OpenELM,一系列开源大型语言模型可在设备端独立运行,无需云端支持。包含8款模型,参数规模2700万至30亿,部分预训练与指令调优。旨在赋能开放研究,已引发社区关注。性能良好但非顶尖,有望随社区优化广泛应用。

  随着谷歌、三星和微软在个人电脑和移动设备领域加速推进生成式人工智能(AI)技术的发展,全球科技巨头苹果公司也不甘示弱,携OpenELM加入这场激烈的竞赛。OpenELM是一系列新颖的开源大型语言模型(LLMs),其独特之处在于能够在单个设备上独立运行,无需云服务器支持,这标志着苹果在AI领域迈出了重要的一步,打破了其一贯的保密与封闭形象。

  就在数小时之前,OpenELM正式登陆AI代码平台Hugging Face,为全球开发者带来了专为高效文本生成任务设计的小型模型。该系列包含8款模型,其中4款已完成预训练,其余4款则经过指令调优,参数规模范围从2700万到30亿不等。参数数量反映了模型中人工神经元之间的连接数量,通常与性能强度和功能丰富度成正比,但并非绝对关系。

  预训练是LLM生成连贯、有意义文本的基础阶段,主要通过预测性训练来实现;而指令调优则能确保模型针对用户特定需求提供精准响应。

  IBM一篇文章曾举例说明,未经指令调优的模型面对“教我如何烤面包”的提问,可能会简单回复“在家庭烤箱中”,而经过调优的模型会提供详细的步骤指导。

  苹果通过“样本代码许可”方式公开了OpenELM模型的权重,包括训练过程中的检查点、性能统计及预训练、指令调优、参数高效微调等全方位指南。许可虽未限制商业使用或修改,但要求在完整、未经改动的代码分发中保留苹果版权声明及相关免责声明。

  苹果谨慎提醒,OpenELM模型在提供时未附带任何安全性保障,存在对用户输入产生不准确、有害、偏见或冒犯性输出的风险。这一系列开源AI模型的发布,对于历来以保密著称的苹果而言实属罕见,尤其是继今年10月低调推出多模态开源语言模型Ferret之后,苹果似乎正逐步打破沉默,以实际行动参与到AI技术的开放共享之中。

  尽管OpenELM尚处发布初期,未经广泛公开测试,但从苹果在HuggingFace上的官方介绍可以明确其核心目标:即服务于设备端应用,与谷歌、三星和微软等对手的战略不谋而合。微软近期发布的Phi-3 Mini模型同样具备在智能手机独立运行的能力,可见业界对此类模型的需求日益增长。

  OpenELM模型分为四种规格:2700万、4500万、11亿和30亿参数,相较于市场上常见的70亿参数级高性能模型,显得更为轻巧精悍。每种规格均提供预训练和指令调优两种版本,均基于约1.8万亿个源自Reddit、Wikipedia、公开来源的令牌进行预训练。这意味着OpenELM模型不仅能在主流笔记本电脑上运行,部分高性能智能手机也能承载。

  值得关注的是,OpenELM家族的所有模型采用了逐层参数调整策略,对Transformer模型每一层进行精细化参数分配。苹果表示,这种设计兼顾了计算效率与准确度提升。预训练过程中,苹果运用自主研发的CoreNet库,利用包括RefinedWeb、去重PILE、RedPajama子集以及Dolma v1.6子集在内的庞大数据集,总数据量约1.8万亿个令牌。

  根据苹果公布的OpenELM性能数据,这些模型整体表现出色,尤其以4500万参数的指令调优版最为突出。苹果指出,11亿参数的OpenELM版本在使用较少预训练令牌(仅为OLMo的1/2)的情况下,性能超越了拥有12亿参数的OLMo,提升幅度达到2.36%。OLMo是由艾伦人工智能研究所(AI2)推出的先进开源LLM。

  在衡量知识推理能力的ARC-C基准上,预训练版OpenELM-3B模型的准确率为42.24%。而在MMLU和HellaSwag两项基准测试中,其得分分别为26.76%和73.28%。首批试用者反馈OpenELM模型表现稳定且一致性高,不易产生过于激进或涉及NSFW(不适合上班时间浏览)内容的输出。

  相比之下,微软最新推出的Phi-3 Mini凭借38亿参数与4K上下文长度,在当前市场占据领先地位。该模型在ARC-C基准上的10-shot平均得分为84.9%,在MMLU和HellaSwag的5-shot平均分分别为68.8%和76.7%。

  尽管目前OpenELM在性能上还未达到最前沿水平,但长远看来,其开源属性及社区的积极响应和积极参与,有望推动OpenELM在各类应用场景中不断优化、广泛应用。社区成员如何借助OpenELM平台推动AI技术发展与创新,将是未来值得关注的焦点。

  苹果此举不仅为生成式AI领域的竞争格局增添了新的变数,也为设备端AI应用的普及和个性化服务提供了新的可能性,有望引领新一轮AI技术在终端设备上的落地实践与革新潮流。