苹果发布开源多模态大模型——Ferret

资讯2个月前发布 AIGC学院
24 0
苹果发布开源多模态大模型——Ferret

继12月开始,苹果陆续公布其AI开发及研发成果。苹果上周再公布多模态大型语言模型(multimodal large language model,MLLM)Ferret及相关基准测试工具与数据集。

多模态意味Ferret能接受文本、声音、图片或数据的输入。根据苹果10月公布Ferret的研究论文说明,Ferret能理卸任何形状或任何图片颗粒(granularity),且能准确定位(ground)开放字汇的描述。要将引用(refer)及定位能力集成到LLM中,Ferret采用新式的混合区域表征(hybrid region representation)技术,可集成个别方位和连续性的特征,以表示图片中的某一区域。为提取出区域中的连续特征,苹果研究人员提出一种空间感知的视觉采样器,它能处理不同形状多种稀疏性。这使得Ferret可以接受多样化区域输入,像是点、bounding boxes、自由形式的形状。为提升Ferret的能力,苹果团队使用了GRIT数据集(Ground-and-Refer Instruction-Tuning),后者为是一个广大的refer-and-ground指令微调数据集,包含110万个样本,内有丰富的阶层化空间知识,以及9.5万个负样本,以便提升模型的判断力。

苹果发布开源多模态大模型——Ferret

最后苹果得到的模型Ferret-13B,和Kosmos-2、GPT4-ROI、LLaVA、Shikra等MLLM比较,在传统引用及定位任务具有优异性能,此外,在区域为基础、需要本地化的多模态对话、细节描述,以及复杂推理等任务,都优于其他MLLM。在可视化比较任务,苹果说它的模型展现优异的空间理解及常识推理能力。此外,苹果宣称其对象幻觉也较Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT及mPLUG-Owl等知名MLLM少很多。

苹果公布了Ferret7B130B二模型的程序代码、GRIT数据集、基准测试工具Ferret-Bench,上周也公布了Ferret 70B及130B检核点(checkpoint)。

这是苹果公布最新AI研发成果。12月初苹果公布Apple Silicon平台专用AI框架MLX、以及能在设备端执行LLM的方法,后者能在边缘设备执行DRAM两倍大的LLM,可节省执行LLM所需的计算资源,也更能确保隐私。

(来源:十轮网)
© 版权声明

相关文章

暂无评论

暂无评论...