首頁 > 公司>公司要聞

商湯科技：“商量SenseChat 2.0”多個評測基準(zhǔn)綜合表現(xiàn)超ChatGPT

王可 中國證券報·中證網(wǎng) 2023-06-22 21:43

中證網(wǎng)訊（記者王可）中國證券報記者6月22日從商湯科技獲悉，公司近日公布了自研中文語言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個權(quán)威大語言模型評測基準(zhǔn)的成績。根據(jù)評測結(jié)果，“商量SenseChat 2.0”在三個測試集中表現(xiàn)均領(lǐng)先ChatGPT，部分已十分接近GPT4的水平。

MMLU是由美國加州大學(xué)伯克利分校、哥倫比亞大學(xué)、芝加哥大學(xué)及伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務(wù)語言理解的評測基準(zhǔn)，涵蓋了科學(xué)、技術(shù)、工程、數(shù)據(jù)，人文、社會科學(xué)等領(lǐng)域的57個科目，難度從初級水平到高級專業(yè)水平，考驗世界知識和解決問題的能力。在該評測中，“商量SenseChat 2.0”綜合得分為68.6，遠超GLM-130B（45.7分）的得分，同時還超過了ChatGPT（67.3分）、LLaMA-65B（63.5分）僅落后GPT-4（86.4分），位居第二。

AGIEval是由微軟研究院發(fā)布的，專門用于評估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力，從而實現(xiàn)模型智能和人類智能的對比。該基準(zhǔn)選取20 種面向普通人類考生的官方、公開、高標(biāo)準(zhǔn)往常和資格考試，包括普通大學(xué)入學(xué)考試（中國高考和美國SAT 考試）、法學(xué)入學(xué)考試、數(shù)學(xué)競賽、律師資格考試、國家公務(wù)員考試等。在該評測中，“商量SenseChat 2.0”測出49.91的分?jǐn)?shù)，遙遙領(lǐng)先GLM-130B（34.2分）、LLaMMA-65B（34.0分），并再次超越ChatGPT（42.9分），僅次于GPT-4的56.4分。在其中的AGIEval（GK）評測子集中，“商量SenseChat 2.0”以58.5分全面領(lǐng)先，僅微弱差距落后GPT-4（58.8分）。

C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集，包含了13948個多項選擇題，涵蓋了52個不同的學(xué)科和四個難度級別。面對C-Eval評測基準(zhǔn)，“商量SenseChat 2.0”拿到了66.1的分?jǐn)?shù)，在參評的18個大模型中，僅次于GPT-4（68.7分），全面領(lǐng)先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一眾海內(nèi)外大模型。其中，C-Eval（Hard）子評測集，是選擇了8個具有挑戰(zhàn)性的數(shù)據(jù)、物理和化學(xué)科目，進一步考核大語言模型的推理能力，“商量SenseChat 2.0”也表現(xiàn)居于前列。

今年4月，商湯正式發(fā)布“商湯日日新SenseNova”大模型體系，以及自研中文語言大模型“商量SenseChat”。截至6月，全球范圍內(nèi)正式發(fā)布的大語言模型已超過40款，其中由中國廠商、高校、科研院所等發(fā)布的大語言模型近20款。目前“商量SenseChat 2.0”實現(xiàn)了對GPT-3.5超越，并且隨著商業(yè)化落地的推進，在眾多行業(yè)、場景中發(fā)揮令人滿意的作用。例如在需要大量文案工作的場景中，“商量SenseChat 2.0”可以協(xié)助處理各類文章、報告、信函、產(chǎn)品信息、IT信息等，進行編輯、重寫、總結(jié)、分類、提取信息、制作Q&A等，有效提高企業(yè)員工的生產(chǎn)效率。在客戶服務(wù)場景中，“商量SenseChat 2.0”還可以扮演許多不同的企業(yè)角色，如銀行客服、給孩子講故事的繪本老師等等，并進行順暢的交流和互動，提升客戶體驗。

此外，“商量SenseChat 2.0”還擁有廣泛的知識儲備，能夠結(jié)合企業(yè)自身所在行業(yè)的專有數(shù)據(jù)，非常高效地打造滿足企業(yè)需要的高階知識庫，幫助實現(xiàn)更智能化的知識庫管理�！吧塘縎enseChat 2.0”還是高水平的AI代碼助手，能夠極大幫助提高開發(fā)效率，實現(xiàn)新的二八定律，即80%的代碼由AI生成，20%則由人工生成。

商湯科技表示，截至目前，已有近千家企業(yè)客戶通過申請，應(yīng)用和體驗“商量SenseChat 2.0”超強的長文本理解、邏輯推理、多輪對話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力，并且“商量SenseChat 2.0”還在服務(wù)客戶過程中，持續(xù)實現(xiàn)著快速迭代和提升，以及知識的實時更新。

商湯科技：“商量SenseChat 2.0”多個評測基準(zhǔn)綜合表現(xiàn)超ChatGPT

傳聞求證

中證看盤

網(wǎng)傳東方通上半年業(yè)績同比下降較多？公司證券部回應(yīng)：目前沒有業(yè)績相關(guān)數(shù)據(jù)，但上半年公司經(jīng)營是正常的

網(wǎng)傳螞蟻集團技術(shù)研發(fā)團隊正在自研語言和多模態(tài)大模型？公司回應(yīng)：情況屬實

滬指失守3200點 AI+大幅退潮 A股整體回升可期

A股市場分化機器人板塊掀漲停潮地產(chǎn)產(chǎn)業(yè)鏈全線下挫

中證路演Live

中水集團遠洋股份有限公司2022年度業(yè)績說明會

北京國際人力資本集團股份有限公司2022年度暨2023年第一季度業(yè)績說明會

廣州禾信儀器股份有限公司2022年度暨2023年第一季度業(yè)績說明會

河北瑞星燃氣設(shè)備股份有限公司向不特定合格投資者公開發(fā)行股票并在北交所上市網(wǎng)上路演

上海元祖夢果子股份有限公司2022年度暨2023年第一季度業(yè)績說明會

上海飛科電器股份有限公司2022年度暨2023年第一季度業(yè)績說明會

金牛生態(tài)圈Golden Bull Awards

2023基金業(yè)投教創(chuàng)新論壇

第二十四屆上市公司金牛獎

2022證券業(yè)高質(zhì)量發(fā)展論壇

2022股權(quán)投資發(fā)展論壇

2022銀行保險業(yè)財富管理論壇

第十三屆私募金牛獎

第十九屆：新格局高質(zhì)量獲得感

投教基地