要点:
中国AI初创公司DeepSeek的崛起震撼全球科技市场,并激发了阿里巴巴等中国科技巨头的再度关注,推动其股价大幅上涨。
科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。
狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。
狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。
联系我们// 相关文章
近日,中国AI初创公司DeepSeek的爆火引起了全球科技行业的巨大震动。然而随着大众对DeepSeek的关注逐渐升温,阿里巴巴等中国科技公司也被再次聚焦。
实际上,早在1月26日,阿里巴巴已发布了其最新的Qwen2.5-1M模型又名“通义千问”,纷纷加入到这场激烈的人工智能竞争之中。受此影响,今天阿里巴巴(BABA)的股价在美股市场上大幅上涨,显示出投资者对其未来发展前景的高度信心。
阿里巴巴全新人工智能模型
近日,阿里巴巴的Qwen团队推出了全新的人工智能AI模型家族Qwen2.5-VL,这些模型能够执行多项文字与图像分析任务,包括档案解析、影片理解、影像物件识别以及PC控制,功能类似于OpenAI近期发布的“Operator”模型。
根据Qwen团队的基准测试,Qwen2.5-VL在视频理解、数学计算、文件分析以及问答评估等多个领域的表现超越了OpenAI的GPT-4、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 Flash等竞争对手。
Qwen2.5-VL是一款多模态模型,旨在将文字提示与图像或视频资料结合,转换为标记,并预测统计上最可能的输出标记,最终生成响应。与所有大型语言模型/LLM及相关系统类似,Qwen2.5-VL的回应有时可能不会直接与查询的正确答案相对应。
其创建者宣称,Qwen2.5-VL具有“直观理解事物”的能力,虽然实际上并不进行真实理解,而是根据文字、图表和其他图形所提供的内容来生成回应,并能处理物件和场景的分析。
相比先前的模型,Qwen2.5-VL的最大升级之一是能处理长度超过一小时的视频内容,并精确定位影片中的特定事件,通过时间戳来标记。图像中的物体可以用边界框进行本地化,并附带JSON格式的数据,输出的结果不仅限于纯文字,还可以是结构化的数据。更重要的是,Qwen2.5-VL被设计为具备“代理功能”,意味着它不仅能生成回应,还能根据用户指令主动执行行动,协助完成特定任务。
该模型作为视觉代理,能够推理并引导工具进行动作。它不仅可以在电脑和手机上操作,还能在多种应用中执行具体任务。举例来说,Qwen2.5-VL可以在航空公司应用中预订航班,使用浏览器查找天气预报,利用影像编辑器调整照片的色彩鲜艳度,甚至能安装Microsoft Visual Studio Code/VS Code扩充功能,展示了它强大的实用性与多样性。
目前,Qwen2.5-VL模型可在阿里巴巴的Qwen Chat应用程式中测试,并可以从人工智能AI开发平台Hugging Face下载。该模型能够分析图表和图形,从发票和表格扫描中提取数据,并“理解”多小时的长内容。
Qwen团队对此表示,Qwen2.5-VL能识别电影和电视剧中的知识产权/IP以及各种产品,暗示该模型可能经过受版权保护内容的训练。尽管如此,Qwen2.5-VL在敏感政治话题上有所限制,当要求该模型讨论如“习近平的错误”时,它会抛出错误讯息,这反映了中国网络监管机构对本土开发模型的控制,要求其遵守社会主义核心价值观。
此外,Qwen2.5-VL的另一大亮点是其能与PC及移动装置上的应用程式互动,进一步拓宽了其应用范围。一段由Hugging Face技术负责人Philipp Schmid发布的影片显示,Qwen2.5-VL成功启动并预订了Android版Booking.com的机票,显示了其操作真实世界软体的能力。
Qwen高级计算机和AI移动代理示例:移动使用帮助我送我的QQ好友变三,放牧一新春祝福
性能媲美全球领先竞争者
Qwen宣称其最新的大型模型Qwen2.5-VL-72B-Instruct拥有720亿个参数,在各类任务中的表现与Google的Gemini-2 Flash、OpenAI的GPT-4o以及Anthropic的Claude 3.5 Sonnet模型相当,甚至在某些领域(如文件分析)略有优势。同时,较小的Qwen2.5-VL-7B模型在性能上与GPT-4o-Mini竞争力十足,而参数数量为30亿的Qwen2.5-VL-3B模型则能够匹配或超越Qwen自家最新一代Qwen2-VL-7B参数数量超过两倍的模型。
Qwen在HuggingFace上发布了三种不同尺寸的新模型,并为每个版本提供了不同的许可证。拥有720亿参数的大型模型使用Qwen License,允许免费使用和修改,但商业用途仅限于月活跃用户/MAU低于1亿的服务、拥有30亿参数的小型模型则使用Qwen Research许可证,禁止商业用途,而中等规模的70亿参数模型则采用了更为宽松的Apache License 2.0许可证。
阿里巴巴子公司Qwen在谈到其最新模型系列时表示,“我们发布了Qwen2.5-VL,这是Qwen的新旗舰视觉语言模型,也是较之前的Qwen2-VL的重大飞跃。”就旗舰型号Qwen2.5-VL-72B-Instruct而言,它在一系列涵盖领域和任务的基准测试中取得了具有竞争力的表现,包括大学级问题、数学、文档理解、一般问答、视频理解且值得注意的是,Qwen2.5-VL在理解文件和图表方面具有显著优势,并且无需针对特定任务进行微调即可充当视觉代理。
尽管如此,Qwen2.5-VL在操作系统基准测试/OSWorld中的表现较为一般,并未达到预期的高效能。而该系列中的两个较小型号Qwen2.5-VL-3B和Qwen2.5-VL-7B已可供许可使用,但旗舰型号Qwen2.5-VL-72B则要求获得阿里巴巴的专门许可,尤其是对于每月活跃用户超过一亿的企业和开发者,需在商业部署前申请许可。
近期DeepSeek的崛起,全球科技界的竞争格局发生了显著变化,特别是在中国科技公司在人工智能领域的竞争力逐步提升之际。中国的AI企业不仅在技术创新方面取得突破,还成功挑战了西方科技巨头的市场领导地位。阿里巴巴最新推出的Qwen2.5-VL模型家族,正是这股技术创新浪潮中的代表之一。
随着AI技术的日益成熟,企业对于AI的需求已不仅限于提升效率,更多的是将其应用于日常操作中,解决更复杂的问题。阿里巴巴的Qwen2.5-VL就是这种需求的具体体现,它不仅在多个领域的基准测试中表现出色,还能与PC及移动设备的应用程式进行深度交互,拓宽了人工智能技术的边界。更重要的是,随着阿里巴巴的这些突破性产品的发布,其在全球AI市场中的影响力正在持续增强,对竞争者构成了前所未有的挑战。这不仅为中国科技企业提供了更多的发展机会,也让全球科技生态系统面临着新的竞争态势,促使行业快速向前发展。
投资不仅仅是为了创造财富,更是一种洞察宏观经济的态度,见证社会演变与科技发展。我们一起,从大变局中看清发展趋势,希望从不确定中找到确定。
狂呼金融研究所聚焦于新的社会发展形势下,金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角,洞察分析每一个趋势与机会,为广大投资者创造更高质量、更独特的金融投资观点。
狂呼,比一部分人更快、更准地看清市场,让大众洞察金融经济的核心。
联系我们// 相关文章