文章 2025-01-16 来自:开发者社区

MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 快速阅读 性能表现:MiniCPM-o 2.6 在视觉、语音和多模态直播领域表现出色,性能媲美GPT-4o。 功能特点:支持实时双语语音识别、情感/语速/风格控制、端...

MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
文章 2024-05-11 来自:开发者社区

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

在人工智能领域,多模态大模型的发展一直备受关注。最近,由字节跳动、华东师范大学和华中科技大学联合研究团队提出的TextSquare模型,在文字多模态视觉问答(VQA)任务上取得了令人瞩目的成绩。 TextSquare模型是一种基于大规模语言模型的文本中心视觉问答模型。它通过使用一种名为Square-10M的大规模、高质量指令微...

文章 2023-05-25 来自:开发者社区

达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力

机器之心编辑部纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的 GPT-4 具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 和 LLaVA 问世不久,阿里达摩院便推出 mPLUG-Owl ,一个基于模块化实现的多模态大模型。mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 mPLUG....

达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
文章 2023-05-12 来自:开发者社区

威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4

 新智元报道  编辑:拉燕【新智元导读】微软&哥大联合发表视觉指令微调论文,LLaVA出炉!视觉指令微调火了。这篇论文名为Visual Instruction Tuning,由威斯康星大学麦迪逊分校,微软研究院和哥伦比亚大学共同出品。作者包括Haotian Liu,Chunyuan Li,Qingyang Wu和Yong Jae Lee。同时,研究人员也在GitHub....

威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等