每日經濟新聞 2025-03-28 20:37:52
每經記者 葉曉丹 每經編輯 陳俊杰
近日,來自杭州的三家科技公司發布的大模型拿下全球最大AI開源社區HuggingFace趨勢榜前三。
這三款模型分別是DeepSeek-v3、群核科技SpatialLM、通義千問Qwen2.5-Omni。
《每日經濟新聞》記者從阿里云方面了解到,Qwen2.5-Omni采用了通義團隊全新首創的Thinker-Talker雙核架構,Position Embedding (位置嵌入)融合音視頻技術,位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。
雙核架構Thinker-Talker讓Qwen2.5-Omni擁有了人類的“大腦”和“發聲器”,形成了端到端的統一模型架構,實現了實時語義理解與語音生成的高效協同。
3月27日凌晨,阿里巴巴發布并開源首個端到端全模態大模型通義千問Qwen2.5-Omni-7B,可同時處理文本、圖像、音頻和視頻等多種輸入,并實時生成文本與自然語音合成輸出。
相較于動輒數千億參數的閉源大模型,Qwen2.5-Omni以7B的小尺寸讓全模態大模型在產業上的廣泛應用成為可能。即便在手機上,也能輕松部署和應用Qwen2.5-Omni模型。
而近期群核科技發布的空間理解開源模型SpatialLM,登上全球最大AI開源社區HuggingFace趨勢榜第二位。
公開資料顯示,SpatialLM是群核科技自主研發的一款空間理解模型,該模型僅通過一段視頻即可生成物理正確的3D場景布局。不同于傳統大語言模型,SpatialLM突破了對物理世界幾何與空間關系的理解局限,將在機器類人的空間認知和解析能力上發揮重大作用。
而據《每日經濟新聞》此前報道,3月24日,DeepSeek發布了V3的一個小版本更新,版本號為V3-0324。雖然官方稱這只是“小版本升級”,但實測能力接近V3.5版本,尤其在復雜邏輯和多模態理解上表現突出。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP