- 對話頭部大模型企業:“三力”齊發開新局
- 2025年02月05日來源:中國網
提要:大模型產業的發展離不開“三力”:AI大模型的能力正在日新月異地迭代,算力始終是大模型的一條生命線,產品力則成為市場競爭的新焦點。大模型產業如何圍繞這“三力”作答,如何開創新局面?日前,上海證券報記者采訪了騰訊、阿里、稀宇科技MiniMax等國內頭部大模型公司相關人士。
大模型產業的發展離不開“三力”:AI大模型的能力正在日新月異地迭代,算力始終是大模型的一條生命線,產品力則成為市場競爭的新焦點。大模型產業如何圍繞這“三力”作答,如何開創新局面?日前,上海證券報記者采訪了騰訊、阿里、稀宇科技MiniMax等國內頭部大模型公司相關人士。
大模型能力如何演進?
業內認為,大模型發展有三條路:一是使用更多數據和算力,讓模型具有更大參數;二是多模態,即大模型可以理解和生成文字、圖像、音頻、視頻等多模態內容;三是增添復雜推理和邏輯自我糾正功能,提升準確性。
“這三條路徑并不沖突,可以同時選擇。大模型廠商仍朝著這三個方向進行投入。大模型每季度都有較大的版本更新。”阿里云智能科技研究中心主任安琳說。
參數量大是大模型最突出、最早為人所關注的特點。近兩年來,規模擴張是大模型企業迭代的主要路徑。主流大模型的參數從百億級逐漸迭代至數千億,甚至萬億規模。然而,擴大參數量的瓶頸已開始顯現。國內外權威專家和組織已經有大量報告表示,Scaling Law(縮放定律)開始顯示出邊際效益遞減的現象。這意味著單純增加計算資源、提高參數規模或數據量不再能如以往那樣顯著提升模型性能。
在多模態和全模態方面,文生圖、文生3D和文生視頻等各種模態的模型層出不窮。2024年,騰訊在文生圖領域推出首個中文原生的DiT架構文生圖開源模型,支持中英文雙語輸入及理解,參數量15億。
時至今日,OpenAI遲遲未推出參數量巨大的GPT-5,而是開辟了o1、o3模型系列,聚焦“深度思考”。這些模型可以“思考”(推理)更長的時間來獲得更可靠的響應,在數據科學、編程等領域有更佳表現。
從大模型能力來看,AGI(通用人工智能)代表了業內對于高度智能、通用的追求。“AI不僅能理解世界,而且能創造出全新的文字、圖像甚至是視頻等內容。這對于以知識為生產力的新型生產關系來說,無疑提供了一種變革性的動力。”騰訊混元大模型的負責人說。
如何破解算力緊缺難題?
算力相當于大模型的生命線。在全球算力供不應求的背景下,如何讓算力夠用?專家認為,這并不意味著無限的GPU。大模型的架構、訓練平臺、算力網絡……各環節的創新與迭代,均可以有效提升算力利用效率,降低算力成本。
MoE(混合專家)架構體系已成為主流大模型采用的技術架構,其優勢在于在模型研發成本、訓練與推理效率、整體性能之間實現最佳平衡。MiniMax、騰訊等均在國內率先采用MoE架構。
MiniMax副總裁劉華介紹,MoE為大模型提供了一條降低算力消耗的路徑。在這一架構下,大模型的上萬億參數被分成了若干“專家模型”。在處理任務的時候,大模型只調用相關“專家模型”,減少了不必要的計算。
采用線性注意力機制也是提高計算效率的一種方式。2025年1月中旬,MiniMax發布并開源了MiniMax-01全新系列模型,能夠高效處理全球最長400萬token的上下文,綜合性能比肩海外頂尖模型。
騰訊混元大模型負責人強調,大模型是一個集合了應用、算法、平臺、算力的系統工程,全鏈路自研的能力是競爭的關鍵。騰訊目前擁有萬卡規模的算力集群,并且自研了星脈算力網絡,具備業界最高的3.2T通信帶寬,通信性能提升30%,成本下降70%。
隨著AI應用在全社會的普及,模型應用過程中所需的算力可能將超過模型訓練所需,云計算是高效利用社會算力資源的最佳途徑。
“云計算與大模型的關系可以說是一枚硬幣的兩面。”安琳表示,AI計算有兩個典型特征:一是AI大規模計算的特性,需要幾萬張GPU協同工作,與云計算的本質相契合;二是AI算力價格高,通過云計算共享算力可以有效提高算力利用率,降低算力成本。
產品力如何出圈?
字節跳動的豆包、騰訊元寶、阿里夸克、MiniMax的Talkie、月之暗面的Kimi……或包羅萬象,或小而精美,面向普通用戶的App是大模型公司繞不開的選項。
中信建投證券根據AI產品榜數據統計,2024年12月全球前20的AI產品App端月活合計近8億,同比增長7.35%;國內前20的AI產品App端月活合計達到1.66億,同比增長17.65%。
夸克業務負責人表示,大模型從“寫詩作畫”走向“解決問題”,在這個過程中,AI能力不僅僅存在于某一個場景和功能里,而是要打造“一站式AI服務”和“系統級全場景AI”能力。“我們希望裝上夸克就能讓用戶的電腦立馬升級成AI電腦。用戶能用最自然的交互方式享受到高效的信息服務,告別過去在各軟件應用間反復切換的體驗。”
此外,互聯網大廠本身擁有豐富的數字生活場景。AI大模型在這些場景中落地,有效升級了這些場景的體驗。據騰訊混元大模型負責人介紹,騰訊已在超過700個業務場景中接入了混元大模型,服務了數以億計的用戶。
例如,微信讀書基于騰訊混元大模型推出了“AI問書”“AI大綱”等新功能。用戶在看電子書時,遇到不懂的名詞和概念,如果復制到搜索引擎中去尋找答案,注意力會被分散。AI問書讓用戶可以直接“劃詞提問”,由內嵌在微信讀書的混元大模型提供解答。
與通用性AI工具不同的是,“AI問書”回答的內容是基于多本電子書的數據源,用戶還可以跳轉到其他相關電子書的對應段落。AI回答的內容將多本電子書關聯在一起后,用戶可以按主題閱讀,體系化地進行研究,在學術領域非常有用。
版權及免責聲明:
1. 任何單位或個人認為南方企業新聞網的內容可能涉嫌侵犯其合法權益,應及時向南方企業新聞網書面反饋,并提供相關證明材料和理由,本網站在收到上述文件并審核后,會采取相應處理措施。
2. 南方企業新聞網對于任何包含、經由鏈接、下載或其它途徑所獲得的有關本網站的任何內容、信息或廣告,不聲明或保證其正確性或可靠性。用戶自行承擔使用本網站的風險。
3. 如因版權和其它問題需要同本網聯系的,請在文章刊發后30日內進行。聯系電話:01083834755 郵箱:news@senn.com.cn