從效率工具到生產(chǎn)力重塑 大模型“上新潮”持續(xù)釋放人工智能潛力
隨著人工智能(AI)市場(chǎng)持續(xù)蓬勃發(fā)展,作為人工智能領(lǐng)域炙手可熱的技術(shù)方向,多模態(tài)大模型正迎來“上新潮”——企業(yè)紛紛以多模態(tài)融合、推理效率提升以及成本優(yōu)化為突破口,加速人工智能技術(shù)的商業(yè)化落地。
“通過多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)的技術(shù)突破,形成領(lǐng)先的多模態(tài)推理能力,并突破成本邊界?!痹谏虦萍既涨芭e行的2025技術(shù)交流日活動(dòng)上,商湯科技董事長(zhǎng)兼首席執(zhí)行官徐立在介紹公司推出全新升級(jí)的“日日新V6”大模型體系時(shí)表示,該大模型體系將跨越多模態(tài)邊界,釋放推理與智能的無限可能。
此外,在近日舉行的“2025快手磁力大會(huì)”上,快手也明確表示,在人工智能生成內(nèi)容(AIGC)的內(nèi)容生產(chǎn)方面,基于多模態(tài)大模型,快手的AIGC內(nèi)容生成能力飛速提升。而在稍早前,智元機(jī)器人于3月初發(fā)布通用具身基座大模型GO-1,該大模型借助人類和多種機(jī)器人數(shù)據(jù),讓機(jī)器人獲得了革命性的學(xué)習(xí)能力,可泛化應(yīng)用到各類環(huán)境和物品中,快速適應(yīng)新任務(wù)、學(xué)習(xí)新技能。同時(shí),還支持部署到不同的機(jī)器人本體,高效完成落地,并在實(shí)際的使用中持續(xù)快速進(jìn)化。
縱觀近期業(yè)內(nèi)的一系列動(dòng)作,不僅反映出人工智能領(lǐng)域的技術(shù)躍遷,更是行業(yè)競(jìng)賽加速的縮影。專家認(rèn)為,當(dāng)前,行業(yè)競(jìng)爭(zhēng)焦點(diǎn)已從參數(shù)規(guī)模轉(zhuǎn)向應(yīng)用效能,大模型的價(jià)值也正從實(shí)驗(yàn)室的各類技術(shù)指標(biāo)向能否最終轉(zhuǎn)化為實(shí)際生產(chǎn)力轉(zhuǎn)變。與此同時(shí),多家上市公司也在積極探索將多模態(tài)大模型引入到日常工作中。
大模型頻“上新”
“多模態(tài)正在成為大模型行業(yè)發(fā)展的重要趨勢(shì)?!鄙虦萍悸?lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆在接受中國(guó)證券報(bào)記者采訪時(shí)表示,2025年,行業(yè)頭部企業(yè)愈發(fā)強(qiáng)調(diào)多模態(tài)能力,這是一個(gè)自然的市場(chǎng)趨勢(shì)。因?yàn)槿斯ぶ悄茏罱K會(huì)走向線下,走向物理現(xiàn)實(shí)。在這一過程中,多模態(tài)的處理和思考能力就成為一種必然的趨勢(shì)性需求。
在商湯科技日前舉辦的2025技術(shù)交流日活動(dòng)上,公司推出全新升級(jí)的“日日新V6”大模型。其模型能力顯著提升,在長(zhǎng)思維鏈、推理、數(shù)理、全局記憶方面具備優(yōu)勢(shì),做到高效能與低成本兼具。
值得一提的是,憑借全局記憶能力,“日日新V6”大模型打破了傳統(tǒng)模型僅支持短視頻的限制,可支持10分鐘級(jí)視頻全幀率解析。此外,“日日新V6”大模型還可以對(duì)視頻的精彩內(nèi)容進(jìn)行智能剪輯輸出,幫助用戶保留珍貴瞬間。
徐立告訴記者,全局記憶使得交互更加自然,例如能處理更長(zhǎng)的視頻段,并且能對(duì)視頻有整體的理解和深度推理,從而實(shí)現(xiàn)更好的交互。
不僅是商湯科技,3月10日,智元機(jī)器人發(fā)布首個(gè)通用具身基座大模型——智元啟元大模型(GO-1),其主要是基于2024年底智元機(jī)器人推出的AgiBot World數(shù)據(jù)集。該數(shù)據(jù)集是包含超過100萬條軌跡、涵蓋217個(gè)任務(wù)、涉及五大類場(chǎng)景的大規(guī)模高質(zhì)量真機(jī)數(shù)據(jù)集。
為了有效利用高質(zhì)量的AgiBot World數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù),增強(qiáng)策略的泛化能力,智元機(jī)器人提出了Vision-Language-Latent-Action(ViLLA)這一創(chuàng)新性架構(gòu)。
“該架構(gòu)由VLM(多模態(tài)大模型)+MoE(混合專家)組成,其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作視頻數(shù)據(jù)獲得通用的動(dòng)作理解能力,且MoE中的Action Expert(動(dòng)作專家)借助百萬真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力?!敝窃獧C(jī)器人表示,三者環(huán)環(huán)相扣,實(shí)現(xiàn)了利用人類視頻學(xué)習(xí),完成小樣本快速泛化,降低了具身智能門檻。此外,作為通用機(jī)器人策略模型,其能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體,群體升智。目前,已成功部署到智元多款機(jī)器人本體,將具身智能推上了一個(gè)新臺(tái)階。
據(jù)智元機(jī)器人介紹,通過ViLLA創(chuàng)新性架構(gòu),公司在五種不同復(fù)雜度任務(wù)上測(cè)試GO-1大模型的表現(xiàn)顯示,其平均成功率提高了32%。其中,倒水、清理桌面和補(bǔ)充飲料任務(wù)表現(xiàn)尤為突出。
值得一提的是,在智元機(jī)器人4月初公開發(fā)布的一則招聘公告中,關(guān)鍵崗位就包括多模態(tài)大模型算法研究員/工程師。據(jù)公司透露,今年1月,智元機(jī)器人已累計(jì)量產(chǎn)下線1000臺(tái)通用具身機(jī)器人。
應(yīng)用價(jià)值日益顯現(xiàn)
頭豹研究院研報(bào)顯示,2023年中國(guó)多模態(tài)大模型市場(chǎng)規(guī)模達(dá)到90.9億元,預(yù)計(jì)到2028年將增長(zhǎng)至662.3億元,年復(fù)合增長(zhǎng)率達(dá)48.76%。該研報(bào)認(rèn)為,這一快速增長(zhǎng)主要?dú)w因于技術(shù)創(chuàng)新的持續(xù)驅(qū)動(dòng),以及行業(yè)需求的強(qiáng)勁推動(dòng)。此外,隨著多模態(tài)大模型在圖文生成、跨模態(tài)檢索和視頻內(nèi)容分析等領(lǐng)域的技術(shù)突破,其在各領(lǐng)域的應(yīng)用價(jià)值日益顯現(xiàn)。
“過往人工智能應(yīng)用有非常多的宏大場(chǎng)景構(gòu)想,但真實(shí)環(huán)境存在的復(fù)雜問題更考驗(yàn)大模型對(duì)于混合圖文的理解推理能力?!痹谛炝⒖磥恚珹I之道,在于百姓之日用。每天的高頻日常使用才能從真正意義上輔助人工智能通用模型的大規(guī)模發(fā)展。
“在日常生產(chǎn)生活高頻出現(xiàn)的需求場(chǎng)景中,以保險(xiǎn)理賠為例,傳統(tǒng)方案通常高度依賴事先設(shè)定的規(guī)則,根據(jù)規(guī)則定向去找文檔里面的關(guān)鍵信息,比如總金額、治療開藥日期等?!毙炝⒈硎?,如今通過多模態(tài)數(shù)據(jù)的深度整合與強(qiáng)推理能力,能夠更全面地捕捉全部文檔的全量信息,判斷商業(yè)醫(yī)療保險(xiǎn)理賠材料是否符合理賠要求,并以開放式的方式進(jìn)行推理,檢查諸如是否存在亂開藥、亂檢查、材料缺失或者材料對(duì)不上等問題。
徐立表示,現(xiàn)實(shí)生活中小額理賠的材料審核往往需要3至7天的時(shí)間,而交給人工智能,從測(cè)試情況看,平均時(shí)間可大幅縮減至1分鐘。
除此之外,徐立還介紹了例如在線上購(gòu)物比價(jià)、商鋪運(yùn)營(yíng)、剪輯視頻、題目講解與分析等多個(gè)日常高頻場(chǎng)景中使用大模型進(jìn)行效率提升的案例,進(jìn)一步傳遞出大模型在日常生活中的實(shí)用性。
徐立認(rèn)為,當(dāng)人工智能聚集了人類現(xiàn)有的大量平均水平的知識(shí)后,能夠通過觸類旁通的能力,形成一種對(duì)于開放性問題的確定性應(yīng)對(duì)能力,進(jìn)一步完成從模型到客戶使用的“最后一公里”。
“我們是從視覺智能開始起步的,當(dāng)時(shí)我們的很多場(chǎng)景設(shè)置都非常宏大,包括城市管理、智能工業(yè)、電網(wǎng)、物業(yè)、運(yùn)營(yíng)等,其中一個(gè)比較重要的原因是當(dāng)時(shí)的模型只能針對(duì)單一任務(wù)提供閉環(huán)價(jià)值,通用性不夠強(qiáng)?!毙炝⒈硎荆谌缃竦耐ㄓ萌斯ぶ悄軙r(shí)代,那些“看不見摸不著”的技術(shù)能夠真正走進(jìn)“尋常百姓家”,并且能夠在多個(gè)日常細(xì)分場(chǎng)景中帶來價(jià)值閉環(huán)。
上市公司深度布局
業(yè)界普遍認(rèn)為,大模型的核心競(jìng)爭(zhēng)力已從單一模態(tài)處理逐步轉(zhuǎn)向跨模態(tài)融合與深度推理,并在此過程中使得大模型的價(jià)值不再僅是單點(diǎn)工具,而是有望進(jìn)一步重塑系統(tǒng)性生產(chǎn)力。在此趨勢(shì)下,不少上市公司通過自研、合作等方式加速布局多模態(tài)大模型,并在垂直領(lǐng)域持續(xù)深度優(yōu)化。
企業(yè)安全隱患排查,往往需要工作人員“一天三班倒”持續(xù)現(xiàn)場(chǎng)巡檢。面對(duì)繁雜的排查工作,如何幫助工作人員減負(fù)增效?對(duì)此,??低曊剿骰诤?涤^瀾大模型技術(shù)體系,將多模態(tài)大模型能力應(yīng)用到安全生產(chǎn)管理領(lǐng)域。
“將多模態(tài)大模型引入到日常安全生產(chǎn)管理工作中,對(duì)現(xiàn)場(chǎng)可能存在的隱患問題進(jìn)行智能識(shí)別和快速判斷,結(jié)合安全生產(chǎn)知識(shí)庫,給出詳細(xì)的排查依據(jù)和整改措施,不僅可以讓現(xiàn)場(chǎng)排查工作效率得到提升,還可以通過遠(yuǎn)程巡查快速發(fā)現(xiàn)問題?!焙?低暠硎尽?/p>
據(jù)??低暯榻B,依托企業(yè)安全生產(chǎn)管理平臺(tái),結(jié)合多模態(tài)大模型,可有效實(shí)現(xiàn)遠(yuǎn)程隱患智查。例如針對(duì)生產(chǎn)區(qū)、儲(chǔ)罐區(qū)、倉(cāng)庫區(qū)的跑冒滴漏、油封破損、表計(jì)破損、外觀裂紋、螺栓脫落等隱患,安全員可以將日常點(diǎn)巡檢規(guī)范導(dǎo)入系統(tǒng),并篩選匹配對(duì)應(yīng)的視頻點(diǎn)位,配置完成后一鍵啟動(dòng)排查,自動(dòng)生成隱患分析報(bào)告。
??低暠硎荆?涤^瀾大模型加持安全生產(chǎn),助力企業(yè)構(gòu)建更堅(jiān)實(shí)的安全防線。未來將深入更多業(yè)務(wù)領(lǐng)域,探索新的應(yīng)用場(chǎng)景,助力形成更準(zhǔn)確、更高效的管理模式。
“公司在電力巡檢領(lǐng)域所應(yīng)用的產(chǎn)品包括輪式機(jī)器人、四足機(jī)器人以及無人機(jī)等。”澤宇智能日前在互動(dòng)平臺(tái)上透露,公司已于上月完成了“基于多模態(tài)融合的智能巡檢模型算法”的評(píng)審。目前,公司正在積極參與輪式機(jī)器人的集中檢測(cè)工作。
漢儀股份此前在接受機(jī)構(gòu)調(diào)研時(shí)表示,公司長(zhǎng)期布局人工智能應(yīng)用技術(shù),一直通過自研、投資并購(gòu)等方式,持續(xù)擴(kuò)大研發(fā)團(tuán)隊(duì)尤其是AI技術(shù)團(tuán)隊(duì),加大資源投入進(jìn)行AI技術(shù)的應(yīng)用研究,尤其是多模態(tài)大模型的應(yīng)用研究,探索各種大模型在文字、圖像、視頻等設(shè)計(jì)領(lǐng)域的應(yīng)用創(chuàng)新落地。
據(jù)介紹,針對(duì)服飾類電商客戶,漢儀股份研發(fā)的AI模特商拍和商品圖合成技術(shù),替代了傳統(tǒng)拍攝方式,為品牌營(yíng)銷圖智能換臉、智能合成商品背景圖等功能,降低了客戶商品拍攝與處理成本,提升了商品上架速度和展示效果;針對(duì)視頻電商客戶,其研發(fā)的AI視頻剪輯解決方案,替代傳統(tǒng)人力剪輯方式,可大大降低剪輯處理的成本,提升營(yíng)銷內(nèi)容生產(chǎn)和投放效率。
“結(jié)合文本、圖像和視頻的多模態(tài)內(nèi)容生成技術(shù),公司布局開展了營(yíng)銷海報(bào)生成、虛擬換裝、圖生視頻、視頻混剪等方面的產(chǎn)品規(guī)劃和研發(fā)工作。”漢儀股份表示,上述應(yīng)用已在公司“kreatr”工具平臺(tái)上線,并已和外部企業(yè)展開商業(yè)合作。