要點:
中國AI初創公司DeepSeek的崛起震撼全球科技市場,並激發了阿里巴巴等中國科技巨頭的再度關注,推動其股價大幅上漲。
科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。
狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。
狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。
聯系我們 // 相關文章
近日,中國AI初創公司DeepSeek的爆火引起了全球科技行業的巨大震動。然而隨着大眾對DeepSeek的關注逐漸升溫,阿里巴巴等中國科技公司也被再次聚焦。
實際上,早在1月26日,阿里巴巴已發布了其最新的Qwen2.5-1M模型又名“通義千問”,紛紛加入到這場激烈的人工智能競爭之中。受此影響,今天阿里巴巴 (BABA) 的股價在美股市場上大幅上漲,顯示出投資者對其未來發展前景的高度信心。
阿里巴巴全新人工智能模型
近日,阿里巴巴的Qwen團隊推出了全新的人工智能AI模型家族Qwen2.5-VL,這些模型能夠執行多項文字與圖像分析任務,包括檔案解析、影片理解、影像物件識別以及PC控制,功能類似於OpenAI近期發布的“Operator”模型。
根據Qwen團隊的基準測試,Qwen2.5-VL在視頻理解、數學計算、文件分析以及問答評估等多個領域的表現超越了OpenAI的GPT-4、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 Flash等競爭對手。
Qwen2.5-VL是一款多模態模型,旨在將文字提示與圖像或視頻資料結合,轉換為標記,並預測統計上最可能的輸出標記,最終生成響應。與所有大型語言模型/LLM及相關系統類似,Qwen2.5-VL的回應有時可能不會直接與查詢的正確答案相對應。
其創建者宣稱,Qwen2.5-VL具有“直觀理解事物”的能力,雖然實際上並不進行真實理解,而是根據文字、圖表和其他圖形所提供的內容來生成回應,並能處理物件和場景的分析。
相比先前的模型,Qwen2.5-VL的最大升級之一是能處理長度超過一小時的視頻內容,並精確定位影片中的特定事件,通過時間戳來標記。圖像中的物體可以用邊界框進行本地化,並附帶JSON格式的數據,輸出的結果不僅限於純文字,還可以是結構化的數據。更重要的是,Qwen2.5-VL被設計為具備“代理功能”,意味著它不僅能生成回應,還能根據用戶指令主動執行行動,協助完成特定任務。
該模型作為視覺代理,能夠推理並引導工具進行動作。它不僅可以在電腦和手機上操作,還能在多種應用中執行具體任務。舉例來說,Qwen2.5-VL可以在航空公司應用中預訂航班,使用瀏覽器查找天氣預報,利用影像編輯器調整照片的色彩鮮豔度,甚至能安裝Microsoft Visual Studio Code/VS Code擴充功能,展示了它強大的實用性與多樣性。
目前,Qwen2.5-VL模型可在阿里巴巴的Qwen Chat應用程式中測試,並可以從人工智能AI開發平台Hugging Face下載。該模型能夠分析圖表和圖形,從發票和表格掃描中提取數據,並“理解”多小時的長內容。
Qwen團隊對此表示,Qwen2.5-VL能識別電影和電視劇中的知識產權/IP以及各種產品,暗示該模型可能經過受版權保護內容的訓練。儘管如此,Qwen2.5-VL在敏感政治話題上有所限制,當要求該模型討論如“習近平的錯誤”時,它會拋出錯誤訊息,這反映了中國網絡監管機構對本土開發模型的控制,要求其遵守社會主義核心價值觀。
此外,Qwen2.5-VL的另一大亮點是其能與PC及移動裝置上的應用程式互動,進一步拓寬了其應用範圍。一段由Hugging Face技術負責人Philipp Schmid發布的影片顯示,Qwen2.5-VL成功啟動並預訂了Android版Booking.com的機票,顯示了其操作真實世界軟體的能力。
Qwen高級計算機和AI移動代理示例:移動使用
幫助我送我的QQ好友變三,放牧一新春祝福
性能媲美全球領先競爭者
Qwen宣稱其最新的大型模型Qwen2.5-VL-72B-Instruct擁有720億個參數,在各類任務中的表現與Google的Gemini-2 Flash、OpenAI的GPT-4o以及Anthropic的Claude 3.5 Sonnet模型相當,甚至在某些領域(如文件分析)略有優勢。同時,較小的Qwen2.5-VL-7B模型在性能上與GPT-4o-Mini競爭力十足,而參數數量為30億的Qwen2.5-VL-3B模型則能夠匹配或超越Qwen自家最新一代Qwen2-VL-7B參數數量超過兩倍的模型。
Qwen在HuggingFace上發布了三種不同尺寸的新模型,並為每個版本提供了不同的許可證。擁有720億參數的大型模型使用Qwen License,允許免費使用和修改,但商業用途僅限於月活躍用戶/MAU低於1億的服務、擁有30億參數的小型模型則使用Qwen Research許可證,禁止商業用途,而中等規模的70億參數模型則採用了更為寬鬆的Apache License 2.0許可證。
阿里巴巴子公司Qwen在談到其最新模型系列時表示,“我們發布了Qwen2.5-VL,這是Qwen的新旗艦視覺語言模型,也是較之前的Qwen2-VL的重大飛躍。”就旗艦型號Qwen2.5-VL-72B-Instruct而言,它在一系列涵蓋領域和任務的基準測試中取得了具有競爭力的表現,包括大學級問題、數學、文檔理解、一般問答、視頻理解且值得注意的是,Qwen2.5-VL在理解文件和圖表方面具有顯著優勢,並且無需針對特定任務進行微調即可充當視覺代理。
儘管如此,Qwen2.5-VL在操作系統基準測試/OSWorld中的表現較為一般,並未達到預期的高效能。而該系列中的兩個較小型號Qwen2.5-VL-3B和Qwen2.5-VL-7B已可供許可使用,但旗艦型號Qwen2.5-VL-72B則要求獲得阿里巴巴的專門許可,尤其是對於每月活躍用戶超過一億的企業和開發者,需在商業部署前申請許可。
近期DeepSeek的崛起,全球科技界的競爭格局發生了顯著變化,特別是在中國科技公司在人工智能領域的競爭力逐步提升之際。中國的AI企業不僅在技術創新方面取得突破,還成功挑戰了西方科技巨頭的市場領導地位。阿里巴巴最新推出的Qwen2.5-VL模型家族,正是這股技術創新浪潮中的代表之一。
隨著AI技術的日益成熟,企業對於AI的需求已不僅限於提升效率,更多的是將其應用於日常操作中,解決更複雜的問題。阿里巴巴的Qwen2.5-VL就是這種需求的具體體現,它不僅在多個領域的基準測試中表現出色,還能與PC及移動設備的應用程式進行深度交互,拓寬了人工智能技術的邊界。更重要的是,隨著阿里巴巴的這些突破性產品的發布,其在全球AI市場中的影響力正在持續增強,對競爭者構成了前所未有的挑戰。這不僅為中國科技企業提供了更多的發展機會,也讓全球科技生態系統面臨著新的競爭態勢,促使行業快速向前發展。
投資不僅僅是為了創造財富,更是一種洞察宏觀經濟的態度,見證社會演變與科技發展。我們一起,從大變局中看清發展趨勢,希望從不確定中找到確定。
狂呼金融研究所聚焦於新的社會發展形勢下,金融與經濟對當今世界日益凸顯的影響。以全面、理性的投資視角,洞察分析每一個趨勢與機會,為廣大投資者創造更高質量、更獨特的金融投資觀點。
狂呼,比一部分人更快、更准地看清市場,讓大眾洞察金融經濟的核心。
聯系我們 // 相關文章