开云·kaiyun(全站)体育官方网站/网页版 登录入口-欧洲杯体育在刻下主流旗舰模子的性能措施和参数领域下-开云·kaiyun(全站)体育官方网站/网页版 登录入口

欧洲杯体育在刻下主流旗舰模子的性能措施和参数领域下-开云·kaiyun(全站)体育官方网站/网页版 登录入口

发布日期:2025-11-05 06:21  点击次数:168

欧洲杯体育在刻下主流旗舰模子的性能措施和参数领域下-开云·kaiyun(全站)体育官方网站/网页版 登录入口

用外卖的顶住作念AI模子?好意思团这是跟“又快又稳”杠上了(doge)。

两个月哐哐发了多款模子后,好意思团依旧动作不停——

最新开源LongCat-Flash-Omni,从名字你也能看出来了(Omni意为“万能的”),没错,这款模子终于维持多模态了!

任务虽更复杂,但模子实力不减,一开头依旧是“开源即SOTA”:

在抽象性的全模态基准测试(如Omni-Bench, WorldSense)上,杰出Qwen3-Omni、Gemini-2.5-Flash,这款模子平直达到了开源SOTA水准,而且能和闭源的Gemini-2.5-Pro相失色。

即使单拉出来文本、图像、音频、视频等各项模态才气,它也依旧能打(单项才气均位居开源模子前哨),信得过实现了“全模态不降智”。

而且啊,这款模子还有一个亮点,那即是“快”(寰宇武功唯快不破?)——

剿袭LongCat-Flash系列“快”的基因,这款Omni模子总参数560B,激活参数仅27B,这种“大总参小激活”的MoE架构,使其在保握庞杂学问容量的同期,实现了极高的推理效率。

不妨来直不雅感受一下它的生成速率:

可以看到,从输入提醒到生成第一个token的期间间隔相配一刹,通盘经过畸形丝滑。

据悉,在刻下主流旗舰模子的性能措施和参数领域下,这是首个大略实现全模态及时交互的开源模子。

以及专门义的是,好意思团发布这一效果时恰逢“Cursor‘自研’模子套壳国产开源”的八卦发酵之际,因此好意思团AI实力被低估的看法正在受到热议。(网友os:望望东谈主家外卖公司,对比过于惨烈~)

当今,这款模子已在好意思团旗下的LongCat APP和Web端上线,东谈主东谈主都能免费体验。

老章程,一手实测火速走起~

实测好意思团新模子

大开LongCat APP,从首页可以看到,它当今维持翰墨/语音两种输入面容,并能进行语音通话(视频通话功能正在跑步入场中),Web端还维持上传图片和文献。

别的不说,最近很火的“让AI赞理数羊哄睡”的职业天然不成落下。

视频联接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

好好好,AI你也偷懒是吧(doge)每数到三就跳到十,还能语焉概略是小羊干的,这下数到100还不是手拿把掐。

而目击和LongCat聊天有点情理,那视频通话内测天然得接续安排上。

唾手拿过一个用光的香水瓶,接连抛出几个问题:

这是什么?你能看到什么?瓶身上的字是什么情理?能带上飞机吗…

没意想LongCat涓滴不慌,仔细“看过”后挨个解答了我们的问题:

视频联接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

看来“能看会说”这种基本功,也曾难不倒我们多模态选手LongCat了。

咳咳,离题万里我们再来测试一下文本/图片的输入情况。

在典中典的六边形小球弹跳问题上,LongCat对物理世界功令的理会也阐扬可以:

Prompt:涌现球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,何况必须传神地从旋转的墙壁上反弹。

由于贴心性附上了代码和可视化决议,是以我们火速把关联代码跑了出来,扬弃be like:

另外,在图片理会测试中,我们发现LongCat相配符合用来“玩梗”。

打发让它识别一张梗图,当我们还在苦想冥想时,东谈主家秒秒钟给出了正确谜底:

3,2,1,谜底揭晓:鸭(压)岁钱。

临了再来看一下语音输入,我们找了段复杂环境下的骑手送餐灌音,给LongCat上点难度。

音频联接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

nice,即使是在BGM和环境音的侵犯下,LongCat也成功识别出了东谈主声信息,并给出了相应意见。

总之这波实测下来,对LongCat-Flash-Omni最大的感受就两个字——快、稳。

即使靠近复杂多模态任务,它也能作念到即时反馈,通盘交互体验尤为丝滑。

而且, 不论是聊天问答、语音识别,如故那种脑筋急转弯式的推理题,它都能第一期转折得住、接得对。

可以说,Omni既延续了LongCat系列在对话和深度想考方面的传统上风,将回报的专科度拉满,又自带“Flash”系列的快基因——

好好好,竟然不愧是LongCat-Flash-Chat和LongCat-Flash-Thinking的亲传弟子(Chat主打快、Think主打专科)。

此时回看LongCat系列的成长旅途,好意思团迭代模子的逻辑也很清楚了——先快、再专、后全。

第一步,速率优先。先把底层买通,把模子反馈、语音识别、及时生成这几件事作念到“丝滑不卡”。对用户来说,这即是“好用”的基础门槛。第二步,专科深耕。速率有了,再往深里卷。LongCat在复杂逻辑推理、物理仿真、嘈杂语音识别等领域,明显作念了不少优化。可以看出,好意思团不仅仅要作念一个“会聊的AI”,而是想作念能在复杂场景下康健阐述的“懂业务的AI”。第三步,全面拓展。诚然当今LongCat还没灵通图片/视频生见着力,但齐集好意思团在视觉、舆图、语音导航这些土产货职业领域的深厚累积,全模态阶梯简直是板上钉钉。到时候翰墨、语音、视觉全买通,也就义正辞严了。

毕竟前不久,好意思团就也曾单独发了一个视频模子LongCat-Video,其康健生成长视频的才气(一般可生成5分钟)也给东谈主留住长远印象。

视频源自:@quarterturn;视频联接;https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

又快又全,如何作念到的?

其实,作念全模态大模子的并不惟有好意思团——仅仅要么作念得不够好,要么作念得没好意思团快。

毕竟要让AI“听得懂、看得清、反应快”,远比想象中贫乏多:

一曰多模态交融难度高。文本、语音、图像、视频……不同模态在结构和期间维度上相反明显,强制交融反而会导致单模态任务效果欠安,样样通但样样松。

二曰离线理会与流式交互难兼容。模子看懂是一趟事,边看边说是另一趟事。两种形式的处理逻辑相反巨大,难以在团结架构中齐集。

三曰及时交互性能受限。现存模子能看能听,但一到及时对话就卡壳,延迟高、反馈慢,用户体验感差。要想模子及时性好,就离不开高质料的模子架构瞎想和基础法子部署。

四曰大领域放哨效率低。多模态模子数据量庞杂,模块之间合作复杂,影响模子放哨速率。

而LongCat-Flash-Omni之是以大略脱颖而出,漏洞在于它在架构层面重构了多模态交融的底层逻辑。

骨干部分延续LongCat系列的高效架构瞎想,遴荐全都端到端的和洽架构ScMoE,大略同期罗致文本、音频、图像、视频及任性组合的多模态输入。

及时交互层面,团队瞎想了更正的流式音视频处理机制,通过分块式音视频特征交汇策略,模子大略将音频与视频特征按照期间片断同步输入LLM,实现低延迟的及时语音生成与视觉反馈。

放哨上,模子遴荐渐进式早期多模交融放哨,先从纯文本预放哨动身,顺序引入音频和视觉数据,再冉冉修复跨模态语义对皆与时序建模才气。

再通过多阶段退火(指先果敢探索,再防卫不休)与高下文扩张放哨,将高下文窗口扩张至128K tokens,最终模子在多模态永劫挂念、多轮对话、时序推理等才气上具备显耀上风,并维持超8分钟的音视频交互。

而且为了进步多模态放哨效率,团队还建议了模态解耦并行(MDP)放哨决议,可以对LLM及编码器的性能、内存占用进行安逸优化,确保放哨经过中系统永久康健运行。

恰是凭借这种全模态遮蔽+端到端架构+大参数目高效推理,LongCat-Flash-Omni达成了均衡:既有遮蔽文本、图像、视频、语音的全模态才气,又能在开源体系下达到与闭源模子相失色的及时交互体验,初步惩办了参数大但推理慢的行业痛点。

软硬件“两条腿步碾儿”,好意思团本来下的是这么一盘棋

u1s1,本年以来好意思团的一系列动作如实给东谈主一种“眼花头昏”的印象——

7月,它接连领投了两家明星具身智能企业它石智航&星海图;然后从8月底运转,又密集发布LongCat-Flash-Chat、LongCat-Flash-Thinking、LongCat-Video等一系列模子。

而且推出的AI新品也不少,包括AI编程应用NoCode、AI糊口助手小好意思智能体……

东谈主们不禁要问了:好意思团这是要干啥?

带着同款酷爱,量子位在仔细梳理后发现,本来好意思团这些看似“东一榔头西一棒槌”的动作,实则内有乾坤。

纪念下来即是,好意思团正在靠着软硬件“两条腿步碾儿”,以最终实现数字世界(比特)和物理世界(原子)的深度联接。

没错,又是“联接”这个因为太抽象宏不雅而容易被公共冷漠的点。记起好意思团方面曾暗示:

我们是一家联接线下业务和线上世界的科技公司。

在AI期间,我们将接续饰演这么的联接者扮装,实现数字世界和物理世界之间的联接,这是我们的签订场合。

这一主见落到实处即为,软件这边要朝着“世界模子”不竭迈进,硬件这边则要围绕“具身智能”加快落地。

这背后的逻辑很清楚:行动一家从迁移互联网起家的公司,好意思团比谁都了了软件的威力。但越往产业深处走,它越理会到,要将软件的影响力蔓延至物理世界,硬件是不可或缺的载体与瓶颈;而反过来,一个苍劲的“世界模子”,又能极大镌汰对硬件性能的残忍条目,从而找到资本与效率的最优解。

有了这一判断基准,好意思团之前的通盘动作就都能逐一双号入座了。

比如说大模子,从最基础的对话机器东谈主→深度想考模子→Video与Omni多模态模子,好意思团无疑是在为构建阿谁能深度理会现实并与其交互的“世界模子”打下根基。

而多年自研并时时开头投资具身智能,则是其“世界模子”才气在机器东谈主、自动驾驶等漏洞场景中最中枢的落地与罢了。

实践上,为了实现“世界模子+具身智能”的完好齐集,好意思团如团结位老奸巨猾的棋手,其布局远比外界看到的更早、也更为体系化。

早在2017年,当无东谈主化观念穷途末路,好意思团方面就在一场行业峰会上建议了着名的“互联网下半场”观念——上天、入地、全球化。

其中“上天”即指用高技术赋能全行业。好意思团当时候就强调:

异日致使会欺诈无东谈主驾驶时间和机器东谈主来配送。

由此可见,用科技重塑办奇迹的远见,早已深植于好意思团的计策构想之中。

通过盘货其积年投资的代表性神色,我们不难发现这么一条清楚的眉目:

2018~2020年,以加固好意思团土产货糊口护城河为主见,投资聚焦在蹧跶领域。要么是好意思团土产货糊口业务蔓延,如好意思菜网、普渡机器东谈主;要么是蹧跶品牌,如喜茶、蜜雪冰城。

2021年,当集团计策升级为“零卖+科技”后,诚然蹧跶神色仍是重心之一,但当中科技神色的占比运转进步。尤其在无东谈主配送方面,一多数与机器东谈主和自动驾驶关联的神色取得了好意思团爱好。

而从2022年运转,好意思团更是全面加码了科技投资。从自动驾驶,到半导体AI芯片、再到种种具身机器东谈主,好意思团握续押注异日中枢基础法子。

这些时间看似纷乱,但其内在逻辑高度和洽——

好意思团投资的,早已不是某一种单一的机器东谈主功能,而是“让通盘物理世界都能被精准打算和高效颐养”的整套时间旅途。

在这条旅途中,AI是大脑,低空航行与自动驾驶是腿脚,它们共同组成了一个杰出具身智能的、更广宽的Robotics邦畿。

对于具身智能,在刚刚终止的2025好意思团机器东谈主筹划院学术年会上,好意思团副总裁毛一年清楚指出:

异日5到10年,具身智能恰是这一切的中枢时间范式。

他暗示,好意思团的漏洞词是autonomy(无东谈主化)——让时间驱动零卖行业变革。昔日数年,好意思团自研的无东谈主机运转翻山跨海送汉堡、披萨,无东谈主车完成了数以百万计的订单,风雨无阻,而机场、货仓、园区场景中,小黄蜂也在承担闪购配送任务。

(注:好意思团如故世界独一取得民航局许可在中国全境正当航行的无东谈主机,而且在晚上也能飞。)

不言而谕,在好意思团的计策拼图中,这些看似安逸的智能末端,正缓缓串联成一张遮蔽“低空—大地—社区”的立体化职业网罗。 它们并非浮浅的开导访佛,而是好意思团将时间才气注入零卖场景、实现系统效率跃迁的漏洞载体。

至此,好意思团在无数推行中千里淀出的中枢方法论已不言自明——零卖是场景,科技是赋能。

当AI成为大脑,机器东谈主成为双手双脚,具身智能与世界模子齐集,联接起的就不仅是线上线下,更是比特与原子、虚构与现实、算法与东谈主类糊口。

Anyway,诚然好意思团从未正面讲述过它的“科技”图景,但标的其实早已清了了楚——

帮公共吃得更好,糊口更好。

只不外这回,好意思团要“喂饱”的,不啻是胃,还有异日。

LongCat Chat(APP需自行下载): https://longcat.ai

Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

GitHub: https://github.com/meituan-longcat/LongCat-Flash-Omni

— 完 —

量子位 QbitAI

温雅我们欧洲杯体育,第一期间获知前沿科技动态



相关资讯
热点资讯
  • 友情链接:

Powered by 开云·kaiyun(全站)体育官方网站/网页版 登录入口 @2013-2022 RSS地图 HTML地图