DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品

数据青年小编4个月前 (01-28)热点新闻117

  来源:财联社

  就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。

  除夕凌晨钟声敲响前不久,DeepSeek工程师们在“抱抱脸”平台上传了Janus Pro 7B和1.5B模型。这俩模型是对去年10月发布的Janus模型的升级。

  15亿和70亿的参数量,意味着这两个模型具备在消费级电脑上本地运行的潜力。与R1一样,Janus Pro采用MIT许可证,在商用方面没有限制。

  据DeepSeek介绍,Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。

  从报告给出的“跑分”数据来看,在部分文生图基准测试中,Janus-Pro 70亿参数模型表现好于OpenAI的DALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。

  虽然DALL-E 3是OpenAI在2023年发布的一款“老模型”,同时Janus Pro目前只能分析和生成规格较小的图像(384 x 384)。DeepSeek在如此紧凑的模型尺寸中依然展现了令人印象深刻的性能。

  技术报告显示,在视觉生成方面,Janus-Pro通过添加7200万张高质量合成图像,使得在统一预训练阶段真实数据与合成数据的比例达到1:1,实现“更具视觉吸引力和稳定性的图像输出”。在多模态理解的训练数据方面,新模型参考了DeepSeek VL2并增加了大约9000万个样本。

  作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的“猫和老鼠”蛋糕)进行介绍。

  公司也在报告中,给出了更多图像生成的案例。

“DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品” 的相关文章

豆包概念股走强多股涨停:如何把握下周机会?

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   来源:中国基金网   摘要:在多项重磅利好事件催化下,豆包概念股成为当前A股市场主流热点。作为火山引擎的合作伙伴,润欣科技(300493)、居然智家(0007...

收盘:美股收高科技股领涨 英伟达引领纳指上涨逾2%

  北京时间29日凌晨,美股周二收高,科技股领涨,纳指与标普指数部分挽回了周一的巨大跌幅。市场继续评估中国初创企业DeepSeek及其AI模型对美股AI交易的潜在影响。投资者还在关注微软与苹果等科技股的财报、美联储货币政策会议以及特朗普发...

华尔街深度研究:DeepSeek是AI末日吗?

专题:DeepSeek为何能震动全球AI圈   来源:华尔街见闻   春节期间,DeepSeek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。   市场上甚至出现了DeepSeek“仅用500万美元就复制OpenAI”...

OpenAI发布o3-mini卷入“价格战”,推理模型首次向免费用户开放

专题:DeepSeek为何能震动全球AI圈   当地时间1月31日,OpenAI宣布推出新一代推理模型o3系列的mini版本。据OpenAI介绍,o3-mini是其最具成本效益的推理模型,在科学、数学、编程等领域的能力较强,同时兼具o1-m...

海通证券:AI全面落地的时代有望在DeepSeek系列模型的推动下加速到来

专题:DeepSeek为何能震动全球AI圈   海通证券研报表示,DeepSeek系列模型的共通之处在于,都在凭借对算法、框架和硬件的协同优化,大幅降低了训练与使用成本,同时维持了行业顶尖的性能水平,使其在性价比上远超同类竞品。特别是 De...