威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

视觉指令微调火了。

这篇论文名为Visual Instruction Tuning，由威斯康星大学麦迪逊分校，微软研究院和哥伦比亚大学共同出品。

(资料图片仅供参考)

作者包括Haotian Liu，Chunyuan Li，Qingyang Wu和Yong Jae Lee。

同时，研究人员也在GitHub上开源了他们的代码、模型和数据集。论文也发布在了Arxiv上。

讲解

那么LLaVA的功能究竟是什么呢？如果一头扎进论文，不熟悉的朋友可能会有些陌生。

我们先看看LLaVA自己怎么说。

以上回答生成自LLaVA的Chatbot，我输入的问题是，LLaVA的功能是什么，用户该如何利用它？

回答如下：

LLaVA是一个大语言和视觉助手，在UW Madison WAIV实验室经受的训练。LLaVA被设计出来的目的，就是帮助用户处理各类任务，方法则是借助自然语言理解的能力和视觉内容分析的能力。

LLaVA的主要功能包括：

·以文本为基础的任务：LLaVA可以处理并分析文本，允许用户问问题，LLaVA可以和用户交谈，或者完成用户输入的任务，比如说提炼文件概要，情感分析，实体识别等等。

·以图像为基础的任务：LLaVA可以分析图像，描述图像，进行物体识别，分析理解场景。

用户如果想更好地应用LLaVA，可以直接和LLaVA进行交谈，就像和人类之间对话一样。尽可能多的提供细节，LLaVA就会生成出一个更完善的答案。

同时应该记住，说到底LLaVA是一个机器学习模型，是一个AI工具。只要是工具，就有其限制。LLaVA不一定每一次都能完美地回答用户输入的问题。

当然，LLaVA也在不断学习和完善，其功能也会越来越强大。

总的来说，从LLaVA的回答中可以看出，在Chatbot这方面，和GPT的功能差不了太多。但是LLaVA可以处理一些有关图像的任务。

表现出彩

研究人员在Arxiv的论文中详细介绍了LLaVA的技术细节。

要知道使用机器生成的指令跟随数据对大型语言模型（LLMs）进行指令微调，提高了新任务的零点能力，但这个想法在多模态领域的探索较少。

在论文中，研究人员首次尝试使用仅有语言的GPT-4来生成多模态语言图像的指令跟随数据。

通过对这种生成的数据进行指令调整，研究人员引入了LLaVA：这是一个大型语言和视觉助手，是一个端到端的训练有素的大型多模态模型，它连接了一个视觉编码器和LLM，用于通用的视觉和语言理解。

早期实验表明，LLaVA展示了令人印象深刻的多模态聊天能力，有时在未见过的图像/指令上都能输出多模态GPT-4的表现，在合成的多模态指令跟随数据集上与GPT-4相比，获得了85.1%的相对分数。

当对Science杂志进行微调时，LLaVA和GPT-4的协同作用达到了92.53%的新的最先进的准确性。

研究人员公开了GPT-4生成的视觉指令调整的数据、模型和代码库。

多模态模型

首先厘清定义。

大型多模态模型指的就是一种基于机器学习技术的模型，能够处理和分析多种输入类型，如文本和图像。

这些模型设计用于处理更广泛的任务，并且能够理解不同形式的数据。通过将文本和图像作为输入，这些模型可以提高理解和编解释的能力，从而生成更准确和相关的回答。

人类通过视觉和语言等多种渠道与世界互动，因为每个单独的渠道在代表和传达某些世界概念方面都有独特的优势，从而有利于更好地理解世界。

而人工智能的核心愿望之一是开发一个通用的助手，能够有效地遵循多模态的视觉和语言指令，与人类的意图一致，完成各种真实世界的任务。

因此，开发者社区见证了对开发语言增强的基础视觉模型的新兴趣，在开放世界的视觉理解方面具有强大的能力，如分类、检测、分割、描述，以及视觉生成和编辑。

在这些功能中，每个任务都由一个单一的大型视觉模型独立解决，在模型设计中隐含考虑了任务指令。

此外，语言只被用来描述图像内容。虽然这允许语言在将视觉信号映射到语言语义方面发挥重要作用——这是人类交流的常见渠道。但这会导致模型通常具有固定的界面，互动性和对用户指令的适应性有限。

而大型语言模型（LLM）表明，语言可以发挥更广泛的作用：通用助手的通用界面，各种任务指令可以明确地用语言表示，并引导端到端训练有素的神经助手切换到感兴趣的任务来解决它。

例如，最近ChatGPT和GPT-4的成功，证明了这种LLM在遵循人类指令方面的能力，并激发了人们对开发开源LLM的巨大兴趣。

LLaMA就是一个开源的LLM，其性能与GPT-3相当。正在进行的工作利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力，与专有LLM相比，报告了令人印象深刻的性能。重要的是，这一行的工作是纯文本的。

在本文中，研究人员提出了视觉指令调整，这是将指令调整扩展到多模态空间的首次尝试，它为建立一个通用的视觉助手铺平了道路。具体来说，论文的主要内容包括：

多模态的指令跟随数据。一个关键的挑战是缺乏视觉语言指令-跟随数据。我们提出了一个数据改革的观点和管道，使用ChatGPT/GPT-4将图像-文本对转换为适当的指令-跟随格式。

大型多模态模型。研究人员开发了一个大型多模态模型（LMM），通过连接CLIP的开放集视觉编码器和语言解码器LaMA，并在生成的教学视觉——语言数据上对它们进行端到端的微调。实证研究验证了使用生成的数据进行LMM指令调谐的有效性，并为建立一个通用的指令跟随的视觉代理提出了实用的建议。通过GPT 4，研究小组在Science QA多模态推理数据集上取得了最先进的性能。

开源。研究小组向公众发开了以下内容：生成的多模态指令数据、用于数据生成和模型训练的代码库、模型检查点，以及一个视觉聊天演示。

成果展示

可以看到，LLaVA能处理各类问题，且生成的回答既全面又富有逻辑。

LLaVA表现出一些接近GPT-4水平的多模态能力，在视觉聊天方面，GPT-4相对评分85%。

而在推理问答方面，LLaVA甚至达到了新SoTA——92.53%，击败多模态思维链。

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

适合和女朋友一起玩的游戏有哪些_适合和女朋友一起玩的游戏|环球实时

当前播报:赛轮轮胎（601058）4月28日主力资金净卖出1143.99万元

港股异动｜出版、IP公司数据资产积累丰富 新华文轩(00811)、阅文集团(00772)均涨超4%

环球观速讯丨想买新车的且慢！坦克300将出插混版，日产途达换标变成帕拉丁

对话衡美联合创始合伙人杨鹏：做健康食品风口的探路者，衡美如何赋能产业发展？丨玲听 每日资讯

环球热点！四川2023年一级建造师报名入口

短讯！10MW+！振华重工交付两艘海上风电利器！

2023北京门头沟区住宿消费券活动内容有哪些？ 全球快看点

新乡人，“五一”将至，市市场监督管理局发布餐饮食品安全提示 每日视讯

天天信息:秋收起义的意义和启示（秋收起义的意义）

山西省风筝协会 世界简讯

最新！日本终于明确：处理核废弃物为日本政府责任！

ps怎么把图片背景变透明_ps怎么把背景变透明

全球信息:福昕软件(688095.SH)：公司海外版云产品PDF Editor Cloud已集成AIGC技术

中国铁路“五一”小长假运输启动 预计发送旅客1.2亿人次 天天动态

河北黄骅港：优化港口功能结构 拉动腹地经济发展 天天快讯

今日播报!【津城图事】 “学习困难门诊”冲上热搜，你的学习困难么？

2023上海车展大奖 | 晏成：2023上海车展助推汽车行业驶入新的历史性节点

经济持续低迷令英银被迫转鸽，若降息成真英镑或跌至1.26

最新快讯!靖远棚改芦家坑片区（二期）范围内土地及地上建筑物摸底工作全面启动

2023深圳设计周开幕|环球时讯

观焦点：荷花的象征是什么意思_荷花的象征含义

父亲去世后女儿的禁忌_亲人去世的忌讳有哪些

观速讯丨美孚一号机油官网价格表_美孚一号机油官网

每日焦点！湘西州医疗保障局召开医疗保障信用管理实施细则听证会

全球新动态：伊利股份：2022年净利同比增8.34% 拟10派10.4元

今亮点！打新亏了800万！港股“白酒第一股”首日即破发 有大户亏惨了

股价单日上涨超6%，中国人寿一季度净利同比增18% 全球快看点

全球快看：第19届中华全国集邮展览在云南昆明开幕

世界视讯！银保监会：加大对小微企业续贷支持力度

个人贷款计算器工具按天（个人贷款计算器明细）_今头条

北京古北水镇五一去好玩吗？亲子情侣挚友旅游攻略

事关期货交易，这些情况下夜盘可撤单、日盘可集合竞价

南大智慧城建设再进一步，国际人才社区01地块项目结构封顶

视力4.6是0.几_视力4.5是多少度_当前快报

环球关注：11年后NBA再现“黑八”！出局后的字母哥被问是否失败时情绪激动……

医疗事故的定义是什么意思_每日时讯

韩华收购大宇造船获附条件批准-焦点热门

一男子网售儿童表侵权“小天才” 被判赔偿3万元

网络视听节目丰富多元 2022年新增互联网视频节目4328.69万小时|全球即时

事关“五一”，文旅部最新提醒！

每日看点!600462股吧(民生投资)

高通推出骁龙游戏超级分辨率，多家领先游戏工作室采用

阴阳师绮都探秘第四关攻略 第四关神秘海岸通关路线推荐[多图]|每日资讯

天天快讯:天竺葵可以在室内养吗 天竺葵适不适合室内养殖呢

亚马逊将于5月1日正式实施预约新规|当前讯息

头条：柳钢股份：4月26日融资买入44.19万元，融资融券余额8435.09万元

焦点！好当家：4月26日融资净买入209.6万元，连续3日累计净买入230.43万元

【焦点热闻】​沐浴诗香趣成长 汉南区育才小学举办首届诗词大赛

投入中国本土研发，宝马是认真的_环球资讯

读客文化4月27日快速回调

安逸四川日历海报｜在宜宾“春风里”享受春风十里_每日资讯

环球消息！知乎4月26日斥资约29.45万美元回购13.69万股

实时：继续突破之旅！斯佳辉首次参赛即进斯诺克世锦赛四强

社会采集平台网址_社会信息采集平台网址

三派消费券促香港经济向好-要闻速递

环球热推荐：1035人将获2023年全国五一劳动奖章

英雄还是枭雄_关于英雄还是枭雄的简介 全球聚看点

有酒店五一价格涨幅591% 网友呼吁监管酒店价格暴涨 热文

当前消息！班级口号励志文艺_班级口号励志

当前观察：奥拉星好号和密码大全真的_奥拉星好号

环球微资讯！易极：4-26晚黄金1993.50区域第二次做多

当前通讯！雨又来了！全国五一假期天气出炉，你要去的城市怎么样？

本季季后赛“球员实力榜前十”，都有谁？这份榜单，让你心服口服-每日关注

昭通市普通高中云南师范大学附属镇雄中学教研联盟正式启动-当前观点

焦点消息！事关屋顶光伏开发，海南行业协会发布新团体标准

新股浩洋股份300833dianzi申购价值分析|天天微资讯

4月26日创益通现2笔折价22.95%的大宗交易 合计成交1515.33万元|焦点关注

aha 2.0扩展到泰米尔市场

直播采访时，埃尔多安出现突发情况_每日速讯

天天观热点：江南省造老银元价格（2023年04月26日）

热门：红牛商标纠纷再起波澜 中国红牛称生产销售一切正常

环球播报:2023年上海五险一金每月大概多少钱呢？来看看

陈道明获赔50万！侵权商家曾将陈道明设为客服头像-世界新动态

胡竹峰：青灯有味-全球时讯

今日热闻!龙湖·天奕丨世界豪宅收官季 石门封面作品 钜惠清盘!

即时看！交易提示：劳动节假期来临 港股5月1日休市一天

世界快看：方萍萍：黄金多头主力再次走强我们继续重点逢低做多

港股异动｜出版、IP公司数据资产积累丰富新华文轩(00811)、阅文集团(00772)均涨超4%

对话衡美联合创始合伙人杨鹏：做健康食品风口的探路者，衡美如何赋能产业发展？丨玲听每日资讯

2023北京门头沟区住宿消费券活动内容有哪些？全球快看点

新乡人，“五一”将至，市市场监督管理局发布餐饮食品安全提示每日视讯

山西省风筝协会世界简讯

中国铁路“五一”小长假运输启动预计发送旅客1.2亿人次天天动态

河北黄骅港：优化港口功能结构拉动腹地经济发展天天快讯

今亮点！打新亏了800万！港股“白酒第一股”首日即破发有大户亏惨了

阴阳师绮都探秘第四关攻略第四关神秘海岸通关路线推荐[多图]|每日资讯

天天快讯:天竺葵可以在室内养吗天竺葵适不适合室内养殖呢

【焦点热闻】沐浴诗香趣成长汉南区育才小学举办首届诗词大赛

英雄还是枭雄_关于英雄还是枭雄的简介全球聚看点

有酒店五一价格涨幅591% 网友呼吁监管酒店价格暴涨热文

4月26日创益通现2笔折价22.95%的大宗交易合计成交1515.33万元|焦点关注

热门：红牛商标纠纷再起波澜中国红牛称生产销售一切正常

今日热闻!龙湖·天奕丨世界豪宅收官季石门封面作品钜惠清盘!

即时看！交易提示：劳动节假期来临港股5月1日休市一天

2021年淮北高铁最新规划淮北高铁线路规划图_今热点

新版Switch模拟器Yuzu演示游戏性能表现提升50%|环球关注

欧盟召开农业部长会议未能就乌粮食进口问题形成决议焦点简讯

天天观天下！新车第一次保养要多久新车第一次保养多久做

润泽科技收关注函深交所问高送转与业绩成长是否匹配

播报：辰山的睡莲“苏醒”了这个“五一”来草地露营赏群芳争艳

常州前往中华恐龙园交通方式环球热门

每日播报!高纯度颜色，应该怎样用？｜百画苑·油画

我市3家单位获批建设河南省现代农业科普基地热议

热文：腾景科技（688195）盘中异动股价振幅达7.42% 跌7.44% 报31.3元（04-25）

中国绿发与可胜技术合作共同推动熔盐储能技术规模化应用环球滚动

给羽蛇小姐接生！热乎乎的八个蛇蛋就这么出来了（喜当爹？）天天关注

新动态：丰城人在线剑邑论坛丰城人在线剑邑论坛官网

一杯冰激凌，宝马损失163亿，宝马公关到底做错了什么？天天快资讯

美国2022年仍是最大军费开支国军费占全球总额的39%-每日短讯

世界快报:二三四五：一季度净利1.1亿元同比增3.27%