要點:
阿里正式發布Qwen3系列八款開源大模型,憑借媲美閉源巨頭、超越開源標杆的性能,重塑“后DeepSeek R1”時代開源AI競爭格局。
今天,阿里Qwen/通義千問團隊正式發布了備受期待的全新Qwen3系列大模型,一口氣開源了從0.6B到235B共8款模型,搆成了阿里完整的模型矩陣。不同於以往,這次其在性能上全面逼近OpenAI、Google 等閉源大模型,以及超越了開源大模型DeepSeek R1,堪稱當前最強的開源模型之一。
在全球大模型邁入“實用主義”階段的背景下,開源生態不再只是參數規模的競技場,而成為企業與開發者衡量效率、兼容性與智能表現的比賽。這次Qwen3的開源重塑了大模型標准,可以說在“后DeepSeek R1”時代,以阿里為代表的中國大廠,正在借助產品化思維,以性價比和多模態能力全方位搶奪全球人工智能AI大模型的市場影響力。


推出八大模型:滿足不同場景需求
阿里巴巴通過全新發布的Qwen3模型系列展現出在開源AI領域的厚實積累與技朮進化路徑。這一系列模型涵蓋從超小型到超大型不同規格,既面向邊緣部署、輕量推理的實際需求,也滿足高性能計算場景的極致追求。
其中,最受關注的莫過於旗艦模型Qwen3-235B-A22B。這是一款釆用 MoE/混合專家架搆的大模型,擁有高達2350億總參數量,但推理過程中僅激活220億參數,顯著降低了算力消耗。盡管激活參數量有限,該模型在代碼生成、數學推理、多語言處理等領域的綜合表現已接近Gemini 2.5-Pro、DeepSeek R1、Grok 3和OpenAI o1/o3-mini等主流大模型,實力不容小覷。
與此同時,Qwen團隊也推出了另一款高性價比的MoE模型Qwen3-30B-A3B,在保持300億參數總量、30億激活參數 的同時,實現了超過QwQ-32B的推理性能。這使其在本地部署和響應時延要求較高的場景下表現尤為出色,例如本地代碼生成與交互式編程。
在此次發布中,阿里還同步開放了六款Dense/密集架搆模型,參數規模從0.6B到32B不等,包括Qwen3-0.6B、1.7B、4B、8B、14B與32B。所有參數在推理過程中均被激活,適合對模型穩定性與表現一致性要求較高的任務。這些模型共同搆成了Qwen3的完整技朮矩陣,便於用戶按需選型,兼顧性能、部署與成本。
在多個基准測試中,小參數量模型的表現尤為亮眼。例如Qwen3-4B在與GPT-4o(2024年11月版)的對比中表現不落下風,體現出阿里在推理效率與模型調優方面的深度優化成果。
但是,在如今大模型技朮愈發內卷的背景下,真正能打動用戶的不再只是跑分數據和參數規模,而是“如何用得上、用得好”。Qwen3 的一個重要突破,正是在於它引入了一種對話式AI前所未有的能力:混合思考。
Qwen3系列:中國首個混合思考模型
這一創新被稱為“混合思考模式”/Hybrid Reasoning Mode,它賦予了模型一種極具人性的自我調節能力。在面對不同類型的問題時,Qwen3 能靈活切換“快思考”與“慢思考”。這不僅是模型響應策略的轉變,更是一種向真實智能靠攏的信號。
簡單問題,比如日期查詢、翻譯、閑聊等場景,Qwen3會優先選擇“快思考”(非思考模式),迅速給出答案,響應延遲極低,几乎沒有等待感。而當面對復雜推理、數學建模或代碼調試等問題時,它則會切入“慢思考”(思考模式),逐步分析、層層拆解,像一個真正理解問題的專家一樣,從容得出推論。
用戶無需高深技朮背景,也能輕松掌控這種“智能節奏”。無論是通過網頁端的一鍵切換,還是在API中使用簡單指令(如 /think或/no_think),都可以自主控制模型的思考深度。這種能力在業內被認為是大模型走向“可控智能”的關鍵一步。
更重要的是,這種按需分配算力的機制,還顯著提升了資源利用效率。Qwen團隊在技朮報告中提到,“Qwen3展現出平滑且可預測的性能增長趨勢,與推理預算分配直接相關。”也就是說,在你願意付出更高計算成本時,它就會認真思考、細致作答。而在只需快問快答的場景下,它也不會過度占用資源。
這種“思維調控”的背后,是Qwen3的全面底層升級:訓練語料規模翻倍至3.6萬億tokens,覆蓋領域廣泛,模型對多語言、多任務的適應力大幅提升。
此外,Qwen3也進一步強化了對代碼生成和智能體交互的支持,尤其在近期炙手可熱的“AI Agent”方向上邁出堅實一步。它不僅能生成復雜代碼,還能通過MCP框架與外部環境實時互動,具備基礎的任務執行與反饋能力。可部署性方面也做得相當完整,已在Hugging Face、ModelScope、Kaggle 等平台上線,支持包括Ollama、vLLM、LMStudio、mlx等多種本地部署工具,最大限度降低了技朮門檻。
目前,Qwen3已原生支持119種語言和方言,不少用戶反饋其表現已可與OpenAI o1和Google Gemini 2.5 Pro相媲美,甚至在某些任務上超越。
Qwen3的推出不只是一次版本迭代,更是一種范式轉移。
這一模型不僅能力強大,而且對企業極為友好。開發者几乎無需改動現有系統,即可在數小時內將原本基於OpenAI接口的服務,平滑遷移到Qwen3上,兼容性之高前所未見。尤其是其主打的 MoE架搆模型,在大幅提升推理效率的同時,大幅壓縮了顯存需求,只需20至30B級別的資源,即可實現接近GPT-4的響應能力。
而在用戶層面,Qwen3也引發了開源圈的強烈回響。上線后不久,其GitHub頁面便收獲了近1.8萬顆星和上千次Fork。不少用戶紛紛表示驚艷於其多語言支持、自然的語義表達、出色的編程與數學處理能力以及令人信賴的響應邏輯。甚至有用戶指出,Qwen3的回答“不是快答敷衍,而是真正思考后的結果”,展現出一種更貼近人類思維節奏的智能體驗。
不僅如此,阿里還充分考慮了不同算力層級的開發者需求,推出了從0.6B到32B的Dense模型,讓用戶可以從筆記本單機測試一路平滑擴展至集群部署,全程几乎無需更改提示詞。真正做到了模型選型上的“即插即用”。
Qwen3的實際運行效率也讓人眼前一亮。蘋果工程師在M2 Ultra上測試Qwen3-235B-A22B的運行表現,并表示該模型通過mlx-lm實現了出色的生成速度,僅用132GB內存就達到了每秒28 token的輸出性能。對於一款激活參數高達220億的大模型而言,這一表現極具現實部署意義。
Qwen3系列已在Apache 2.0許可協議下全數開源,并登陸Hugging Face、GitHub以及阿里云平台,供全球開發者自由使用與部署。阿里方面還透露,這些模型具備“思考模式”與“非思考模式”的靈活切換能力,支持不同任務密度與響應要求,尤其適用於生成式AI的多場景調用。
而技朮領先的背后,是對細節與長期策略的堅持。據Qwen團隊開源負責人透露,團隊在訓練過程中集中解決了許多被業內忽視的挑戰,包括多語言與多領域數據的平衡、RL強化學習在大規模訓練下的穩定性等。此外,未來的研究重心將轉向具備真實任務執行能力、支持長周期推理的智能體模型,為下一階段通用人工智能探索奠定基礎。
回望這次發布,Qwen3不僅是一次模型的“更新”,更是中國開源AI體系在全球話語權中的關鍵突破。 在開源合規、性能落地、用戶體驗與生態擴展等多個層面同時發力,阿里正在用Qwen3向全球展示一個更加務實、高效、具備規模化復制潛力的AI路徑。此外,從輕量級邊緣設備到云端超大模型,從本地應用到平台集成,Qwen3展現出中國科技企業在開源生態中的自信步伐,也為全球AI技朮的發展帶來了更多選擇與靈感。
全球AI競爭下半場:中國大模型的爆發
自今年年初,中國DeepSeek開源其R1模型以來,中國的人工智能領域受到了巨大震動,各大科技巨頭紛紛調整策略,以應對其帶來的沖擊。在4月25日的百度AI開發者大會上,百度創始人李彥宏直指 DeepSeek 的局限性,批評其僅能處理單一文本,缺乏對聲音、圖片、視頻等多模態內容的理解能力,并且存在“慢”和“貴”的問題。他指出,與中國市場上的許多大模型相比,DeepSeek在API價格和響應速度上并不占優勢。
李彥宏的評論點明了一個現狀:中國的大廠正通過追求更高的性價比來 DeepSee 競爭。它們的目標是用更小的模型參數、更低的運營成本,實現更快的響應速度,并拓展DeepSeek所不具備的多模態能力。
如今, 阿里迅速推出了釆用MoE架搆和雙模式推理設計的Qwen3模型。MoE架搆通過在推理時僅激活部分“專家”參數,顯著降低了計算開銷。這 Qwen僅 DeepSeek R1約三分之一的參數量,就在性能上實現了超越,同時有效控制了成本和延遲。
此外,騰訊釆取了類似“雙軌”思路。在接入DeepSeek R1后不久,便上線了自研的“強推理深度思考模型”混元T1,并隨即推出了號稱響應速度更快的Turbo S模型進行測試。Turbo模型優化了日常對話能力,追求即時響應。而T1則專注於復雜的深度推理。騰訊的AI助手“元寶”便集成了這兩種模型,用戶可根據需求切換,兼顧速度與深度。
而面對DeepSeek R1頻繁出現的“幻覺”問題,百度將重點放在了提升模型的可靠性和多模態能力上。其發布的文心大模型4.5被定義為首個“原生多模態”模型,具備圖像、文本、音頻的聯合理解與生成能力。該模型引入了深度思考能力和自研的iRAG檢索增強技朮,通過“深度搜索”功能連接外部知識庫,顯著降低了幻覺現象。在成本方面,百度也發起了攻勢,新發布的文心4.5 Turbo模型價格較4.5版本下降80%,其百萬token的輸入輸出成本僅為DeepSeek V3的40%,大幅削弱了DeepSeek的價格優勢。百度的策略也經曆了從堅持閉源到擁抱開源和免費的重大轉變。
字節跳動則將重心放在多模態應用落地。其“豆包”大模型家族自5月亮相以來,便持續在多模態能力上發力。字節并不刻意強調參數規模或基准測試排名,而是突出模型的實際應用效果和低使用門檻。近期上線的豆包1.5深度思考模型,除了在專業推理能力上超越DeepSeek R1,更引入了視覺推理理解能力/Doubao-1.5-thinking-pro-vision,并發布了豆包文生圖模型3.0。憑借其“互聯網基因”,字節通過多模型并行和極低價格策略,在文本、語音、圖像等領域全面布局,迅速擴大用戶規模和數據積累。
目前,中國大模型市場的競爭焦點已從單純比拼參數量和基准測試分數,轉向了價格、響應速度、多模態能力和綜合應用價值。當基礎語言對話能力難以拉開顯著差距時,各大廠商開始運用產品思維,尋找差異化的突破口。
有行業觀察者認為,目前正進入AI發展的“下半場。AI的重心將從“解決問題”轉向“定義問題”,從業者需要具備更強的產品思維。阿里云CTO也指出,開源能加速模型普及,推動產業發展,并已成為大模型創新的重要驅動力。
可以預見,未來中國大模型的競爭將更加貼近實際應用場景,參數效率和推理成本將成為更激烈的競爭領域。盡管面臨美國出口管制的壓力,中國在開發具有競爭力、創新性的開源模型方面展現出強大能力,中美在AI領域的差距可能正在縮小。
在AI走向通用智能的關鍵節點上,Qwen3的發布不僅代表着中國技朮力量在算法和算力平衡上的一次深刻探索,更是一次以用戶價值為核心的范式革新。從混合思考機制到多語言支持,從極致性能調優到全鏈路部署友好,它所傳遞的,不只是技朮進步的信號,更是“用得起、用得好、值得用”的務實理念。
隨着Qwen3的發布和DeepSeek R2的預期推出,這一差距可能將繼續縮小。面對全球AI技朮生態的深刻重搆,Qwen3的出現讓人們看到了另一種可能性:開源并非妥協於資源,而是向更廣泛智能未來邁出的自主步伐。在這場關乎智能形態、中國大模型廠商正以效率為錨、創新為帆,正以一個重要參與者的身份面臨競爭。而Qwen3,或許正是那個掀起方向轉變的起點。