要点:
阿里正式发布Qwen3系列八款开源大模型,凭借媲美闭源巨头、超越开源标杆的性能,重塑“后DeepSeek R1”时代开源AI竞争格局。
今天,阿里Qwen/通义千问团队正式发布了备受期待的全新Qwen3系列大模型,一口气开源了从0.6B到235B共8款模型,构成了阿里完整的模型矩阵。不同于以往,这次其在性能上全面逼近OpenAI、Google 等闭源大模型,以及超越了开源大模型DeepSeek R1,堪称当前最强的开源模型之一。
在全球大模型迈入“实用主义”阶段的背景下,开源生态不再只是参数规模的竞技场,而成为企业与开发者衡量效率、兼容性与智能表现的比赛。这次Qwen3的开源重塑了大模型标准,可以说在“后DeepSeek R1”时代,以阿里为代表的中国大厂,正在借助产品化思维,以性价比和多模态能力全方位抢夺全球人工智能AI大模型的市场影响力。


推出八大模型:满足不同场景需求
阿里巴巴通过全新发布的Qwen3模型系列展现出在开源AI领域的厚实积累与技术进化路径。这一系列模型涵盖从超小型到超大型不同规格,既面向边缘部署、轻量推理的实际需求,也满足高性能计算场景的极致追求。
其中,最受关注的莫过于旗舰模型Qwen3-235B-A22B。这是一款釆用MoE/混合专家架构的大模型,拥有高达2350亿总参数量,但推理过程中仅激活220亿参数,显著降低了算力消耗。尽管激活参数量有限,该模型在代码生成、数学推理、多语言处理等领域的综合表现已接近Gemini 2.5-Pro、DeepSeek R1、Grok 3和OpenAI o1/o3-mini等主流大模型,实力不容小觑。
与此同时,Qwen团队也推出了另一款高性价比的MoE模型Qwen3-30B-A3B,在保持300亿参数总量、30亿激活参数的同时,实现了超过QwQ-32B的推理性能。这使其在本地部署和响应时延要求较高的场景下表现尤为出色,例如本地代码生成与交互式编程。
在此次发布中,阿里还同步开放了六款Dense/密集架构模型,参数规模从0.6B到32B不等,包括Qwen3-0.6B、1.7B、4B、8B、14B与32B。所有参数在推理过程中均被激活,适合对模型稳定性与表现一致性要求较高的任务。这些模型共同构成了Qwen3的完整技术矩阵,便于用户按需选型,兼顾性能、部署与成本。
在多个基准测试中,小参数量模型的表现尤为亮眼。例如Qwen3-4B在与GPT-4o(2024年11月版)的对比中表现不落下风,体现出阿里在推理效率与模型调优方面的深度优化成果。
但是,在如今大模型技术愈发内卷的背景下,真正能打动用户的不再只是跑分数据和参数规模,而是“如何用得上、用得好”。 Qwen3 的一个重要突破,正是在于它引入了一种对话式AI前所未有的能力:混合思考。
Qwen3系列:中国首个混合思考模型
这一创新被称为“混合思考模式”/Hybrid Reasoning Mode,它赋予了模型一种极具人性的自我调节能力。在面对不同类型的问题时,Qwen3 能灵活切换“快思考”与“慢思考”。这不仅是模型响应策略的转变,更是一种向真实智能靠拢的信号。
简单问题,比如日期查询、翻译、闲聊等场景,Qwen3会优先选择“快思考”(非思考模式),迅速给出答案,响应延迟极低,几乎没有等待感。而当面对复杂推理、数学建模或代码调试等问题时,它则会切入“慢思考”(思考模式),逐步分析、层层拆解,像一个真正理解问题的专家一样,从容得出推论。
用户无需高深技术背景,也能轻松掌控这种“智能节奏”。无论是通过网页端的一键切换,还是在API中使用简单指令(如/think或/no_think),都可以自主控制模型的思考深度。这种能力在业内被认为是大模型走向“可控智能”的关键一步。
更重要的是,这种按需分配算力的机制,还显著提升了资源利用效率。 Qwen团队在技术报告中提到,“Qwen3展现出平滑且可预测的性能增长趋势,与推理预算分配直接相关。”也就是说,在你愿意付出更高计算成本时,它就会认真思考、细致作答。而在只需快问快答的场景下,它也不会过度占用资源。
这种“思维调控”的背后,是Qwen3的全面底层升级:训练语料规模翻倍至3.6万亿tokens,覆盖领域广泛,模型对多语言、多任务的适应力大幅提升。
此外,Qwen3也进一步强化了对代码生成和智能体交互的支持,尤其在近期炙手可热的“AI Agent”方向上迈出坚实一步。它不仅能生成复杂代码,还能通过MCP框架与外部环境实时互动,具备基础的任务执行与反馈能力。可部署性方面也做得相当完整,已在Hugging Face、ModelScope、Kaggle 等平台上线,支持包括Ollama、vLLM、LMStudio、mlx等多种本地部署工具,最大限度降低了技术门槛。
目前,Qwen3已原生支持119种语言和方言,不少用户反馈其表现已可与OpenAI o1和Google Gemini 2.5 Pro相媲美,甚至在某些任务上超越。
Qwen3的推出不只是一次版本迭代,更是一种范式转移。
这一模型不仅能力强大,而且对企业极为友好。开发者几乎无需改动现有系统,即可在数小时内将原本基于OpenAI接口的服务,平滑迁移到Qwen3上,兼容性之高前所未见。尤其是其主打的MoE架构模型,在大幅提升推理效率的同时,大幅压缩了显存需求,只需20至30B级别的资源,即可实现接近GPT-4的响应能力。
而在用户层面,Qwen3也引发了开源圈的强烈回响。上线后不久,其GitHub页面便收获了近1.8万颗星和上千次Fork。不少用户纷纷表示惊艳于其多语言支持、自然的语义表达、出色的编程与数学处理能力以及令人信赖的响应逻辑。甚至有用户指出,Qwen3的回答“不是快答敷衍,而是真正思考后的结果”,展现出一种更贴近人类思维节奏的智能体验。
不仅如此,阿里还充分考虑了不同算力层级的开发者需求,推出了从0.6B到32B的Dense模型,让用户可以从笔记本单机测试一路平滑扩展至集群部署,全程几乎无需更改提示词。真正做到了模型选型上的“即插即用”。
Qwen3的实际运行效率也让人眼前一亮。苹果工程师在M2 Ultra上测试Qwen3-235B-A22B的运行表现,并表示该模型通过mlx-lm实现了出色的生成速度,仅用132GB内存就达到了每秒28 token的输出性能。对于一款激活参数高达220亿的大模型而言,这一表现极具现实部署意义。
Qwen3系列已在Apache 2.0许可协议下全数开源,并登陆Hugging Face、GitHub以及阿里云平台,供全球开发者自由使用与部署。阿里方面还透露,这些模型具备“思考模式”与“非思考模式”的灵活切换能力,支持不同任务密度与响应要求,尤其适用于生成式AI的多场景调用。
而技术领先的背后,是对细节与长期策略的坚持。据Qwen团队开源负责人透露,团队在训练过程中集中解决了许多被业内忽视的挑战,包括多语言与多领域数据的平衡、RL强化学习在大规模训练下的稳定性等。此外,未来的研究重心将转向具备真实任务执行能力、支持长周期推理的智能体模型,为下一阶段通用人工智能探索奠定基础。
回望这次发布,Qwen3不仅是一次模型的“更新”,更是中国开源AI体系在全球话语权中的关键突破。 在开源合规、性能落地、用户体验与生态扩展等多个层面同时发力,阿里正在用Qwen3向全球展示一个更加务实、高效、具备规模化复制潜力的AI路径。此外,从轻量级边缘设备到云端超大模型,从本地应用到平台集成,Qwen3展现出中国科技企业在开源生态中的自信步伐,也为全球AI技术的发展带来了更多选择与灵感。
全球AI竞争下半场:中国大模型的爆发
自今年年初,中国DeepSeek开源其R1模型以来,中国的人工智能领域受到了巨大震动,各大科技巨头纷纷调整策略,以应对其带来的冲击。在4月25日的百度AI开发者大会上,百度创始人李彦宏直指DeepSeek 的局限性,批评其仅能处理单一文本,缺乏对声音、图片、视频等多模态内容的理解能力,并且存在“慢”和“贵”的问题。他指出,与中国市场上的许多大模型相比,DeepSeek在API价格和响应速度上并不占优势。
李彦宏的评论点明了一个现状:中国的大厂正通过追求更高的性价比来DeepSee 竞争。它们的目标是用更小的模型参数、更低的运营成本,实现更快的响应速度,并拓展DeepSeek所不具备的多模态能力。
如今, 阿里迅速推出了釆用MoE架构和双模式推理设计的Qwen3模型。 MoE架构通过在推理时仅激活部分“专家”参数,显著降低了计算开销。这Qwen仅DeepSeek R1约三分之一的参数量,就在性能上实现了超越,同时有效控制了成本和延迟。
此外,腾讯釆取了类似“双轨”思路。在接入DeepSeek R1后不久,便上线了自研的“强推理深度思考模型”混元T1,并随即推出了号称响应速度更快的Turbo S模型进行测试。 Turbo模型优化了日常对话能力,追求即时响应。而T1则专注于复杂的深度推理。腾讯的AI助手“元宝”便集成了这两种模型,用户可根据需求切换,兼顾速度与深度。
而面对DeepSeek R1频繁出现的“幻觉”问题,百度将重点放在了提升模型的可靠性和多模态能力上。其发布的文心大模型4.5被定义为首个“原生多模态”模型,具备图像、文本、音频的联合理解与生成能力。该模型引入了深度思考能力和自研的iRAG检索增强技术,通过“深度搜索”功能连接外部知识库,显著降低了幻觉现象。在成本方面,百度也发起了攻势,新发布的文心4.5 Turbo模型价格较4.5版本下降80%,其百万token的输入输出成本仅为DeepSeek V3的40%,大幅削弱了DeepSeek的价格优势。百度的策略也经历了从坚持闭源到拥抱开源和免费的重大转变。
字节跳动则将重心放在多模态应用落地。其“豆包”大模型家族自5月亮相以来,便持续在多模态能力上发力。字节并不刻意强调参数规模或基准测试排名,而是突出模型的实际应用效果和低使用门槛。近期上线的豆包1.5深度思考模型,除了在专业推理能力上超越DeepSeek R1,更引入了视觉推理理解能力/Doubao-1.5-thinking-pro-vision,并发布了豆包文生图模型3.0。凭借其“互联网基因”,字节通过多模型并行和极低价格策略,在文本、语音、图像等领域全面布局,迅速扩大用户规模和数据积累。
目前,中国大模型市场的竞争焦点已从单纯比拼参数量和基准测试分数,转向了价格、响应速度、多模态能力和综合应用价值。当基础语言对话能力难以拉开显著差距时,各大厂商开始运用产品思维,寻找差异化的突破口。
有行业观察者认为,目前正进入AI发展的“下半场。AI的重心将从“解决问题”转向“定义问题”,从业者需要具备更强的产品思维。阿里云CTO也指出,开源能加速模型普及,推动产业发展,并已成为大模型创新的重要驱动力。
可以预见,未来中国大模型的竞争将更加贴近实际应用场景,参数效率和推理成本将成为更激烈的竞争领域。尽管面临美国出口管制的压力,中国在开发具有竞争力、创新性的开源模型方面展现出强大能力,中美在AI领域的差距可能正在缩小。
在AI走向通用智能的关键节点上,Qwen3的发布不仅代表着中国技术力量在算法和算力平衡上的一次深刻探索,更是一次以用户价值为核心的范式革新。从混合思考机制到多语言支持,从极致性能调优到全链路部署友好,它所传递的,不只是技术进步的信号,更是“用得起、用得好、值得用”的务实理念。
随着Qwen3的发布和DeepSeek R2的预期推出,这一差距可能将继续缩小。面对全球AI技术生态的深刻重构,Qwen3的出现让人们看到了另一种可能性:开源并非妥协于资源,而是向更广泛智能未来迈出的自主步伐。在这场关乎智能形态、中国大模型厂商正以效率为锚、创新为帆,正以一个重要参与者的身份面临竞争。而Qwen3,或许正是那个掀起方向转变的起点。