近來,人工智能大模型風(fēng)云起涌,不少科技企業(yè)加快拓寬應(yīng)用生態(tài)。主流大模型的實際使用感受如何?各大科技企業(yè)有何優(yōu)劣勢?8月12日,新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗報告》(以下簡稱報告)顯示,訊飛星火、百度文心一言、商湯商量和智譜AI-ChatGLM均表現(xiàn)搶眼,AI大模型的發(fā)展為人類工作和生活的提質(zhì)增效均帶來了正向積極的影響。
(相關(guān)資料圖)
今年以來,國內(nèi)科技企業(yè)紛紛布局人工智能大模型。據(jù)不完全統(tǒng)計,在新一輪生成式AI熱潮中,國內(nèi)已經(jīng)出現(xiàn)了上百個大模型。天眼查數(shù)據(jù)顯示,截至2023年上半年,與“大模型”直接相關(guān)的融資事件超20起。
為進(jìn)一步直觀感受我國當(dāng)前主流科技企業(yè)所推出的大模型產(chǎn)品的現(xiàn)狀、優(yōu)勢和特點,新華社研究院中國企業(yè)發(fā)展研究中心于今年7月啟動了本次報告研究。與2023年6月首次發(fā)布的《人工智能大模型體驗報告》相比,本次測評在題目設(shè)計、對標(biāo)Benchmark(人類)、打分權(quán)重、專家測評團隊四大維度進(jìn)行了全面升級。
其中,在題目設(shè)計方面,測評題目由300道擴展至500道,并進(jìn)一步完善了題目分類;在對標(biāo)Benchmark方面,本次測評將接受過高等教育的人類作為對照,來考評大模型真實能力;在打分標(biāo)準(zhǔn)上,本次測評根據(jù)對產(chǎn)業(yè)、生活的實際價值,對基礎(chǔ)能力、智商能力、情商能力和工具提效四大測評維度進(jìn)行了權(quán)重設(shè)計;在測評團隊方面,本次測評特邀北京大學(xué)文化與傳播研究所及其他產(chǎn)界、學(xué)界專家全程參與。
本次研究設(shè)置了用戶體驗項目,抓取了7月31日—8月4日數(shù)據(jù),通過人機互動提問等形式,對國內(nèi)主流大模型進(jìn)行使用體驗評測,旨在為科技企業(yè)調(diào)整努力方向提供參考。
報告顯示,與2023年6月相比,當(dāng)前中國大模型產(chǎn)品進(jìn)步顯著。但與接受過高等教育的人類相比,大模型在智商、情商等方面還存在一定程度差距。具體來看,訊飛星火在工作提效方面優(yōu)勢明顯,百度文心一言基礎(chǔ)能力仍處領(lǐng)軍水準(zhǔn),商湯商量則在情商方面表現(xiàn)優(yōu)秀,智譜AI-ChatGLM整體表現(xiàn)優(yōu)秀。
針對各維度能力測評,該報告還給出了相應(yīng)的案例展示和分析。
在基礎(chǔ)能力方面,人類與AI之間的差距并不顯著。課題組分別從語言能力(35%)、AI向善(10%)、跨模態(tài)(20%)和多輪對話(35%)四大指標(biāo)進(jìn)行測評。測評顯示,科技企業(yè)大模型中,百度文心一言表現(xiàn)最為搶眼,商湯商量、智譜AI-ChatGLM、360智腦表現(xiàn)優(yōu)良。
在智商評估方面,人類在智商方面仍然具有明顯優(yōu)勢。課題組分別從常識知識(20%)、邏輯能力(50%)和專業(yè)知識(30%)方面對科技企業(yè)大模型進(jìn)行考量。結(jié)果顯示,訊飛星火、智譜AI-ChatGLM表現(xiàn)突出,百度文心一言、昆侖萬維天工表現(xiàn)優(yōu)良。
在情商方面,AI與人類之間的差距最為明顯。人類在情緒理解和處理方面通常具有更強的優(yōu)勢,和更靈活的處理能力。通過對處理日常事項(35%)、一語雙關(guān)(30%)、人際關(guān)系(35%)問題進(jìn)行分析發(fā)現(xiàn),科技企業(yè)大模型中,商湯商量表現(xiàn)亮眼,百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM及360智腦均表現(xiàn)優(yōu)良。
在工作效率提升方面,課題組重點在工具提效(50%)和生成創(chuàng)新(50%)方面進(jìn)行考量。結(jié)果顯示,訊飛星火表現(xiàn)最為搶眼,百度文心一言、商湯商量、智譜AI-ChatGLM表現(xiàn)優(yōu)良。不過,盡管AI具有高速度和高效率的優(yōu)勢,但在某些復(fù)雜和具有創(chuàng)新性的任務(wù)中,人類的智慧和想象力仍然具有無法替代的作用。
報告認(rèn)為,雖然在不同領(lǐng)域中,AI和人類表現(xiàn)出不同的優(yōu)劣勢,但在整體上,AI大模型的發(fā)展為人類工作和生活的提質(zhì)增效帶來了重要的積極影響,大模型正在加速走進(jìn)生活、走進(jìn)產(chǎn)業(yè)。在本次體驗測評基礎(chǔ)上,研究團隊將繼續(xù)深耕,加強在大模型安全可解釋性、工作提效能力、實際落地情況、產(chǎn)業(yè)優(yōu)秀案例等維度上的探索與研究。
(文章來源:經(jīng)濟參考網(wǎng))
標(biāo)簽:
- 應(yīng)急管理部派工作組赴西安指導(dǎo)山洪泥石流救援處置 2023-08-12 17:42:58
- 西安高新區(qū)魚化寨街道舉辦廣場舞大賽 2023-08-12 16:31:41
- 《孤注一擲》挺有意思的一部反詐反賭宣傳片 2023-08-12 15:17:18
- 妻子實名舉報醫(yī)生老公每年回扣十幾萬,且婚內(nèi)... 2023-08-12 14:15:02
- 體驗感受哪家強?《人工智能大模型體驗報告2.0... 2023-08-12 18:04:03
- 不再是媒體排名!12萬球迷票選現(xiàn)役第一人,詹... 2023-08-12 17:36:14
- “5+2座科技旗艦SUV”瑞虎8 PRO冠軍版正式全... 2023-08-12 17:36:39
- 應(yīng)急管理部派工作組赴西安指導(dǎo)山洪泥石流救援處置 2023-08-12 17:42:58
- 如何“移動化生存”? 2023-08-12 17:14:11
- 阜康市公安局食藥環(huán)大隊聯(lián)合農(nóng)業(yè)農(nóng)村局對屠宰... 2023-08-12 16:59:24
- 突發(fā)公共事件是指(關(guān)于突發(fā)公共事件是指的基... 2023-08-12 16:53:55
- 都罵特斯拉,都想成為特斯拉 2023-08-12 16:43:02
- 西安高新區(qū)魚化寨街道舉辦廣場舞大賽 2023-08-12 16:31:41
- 鄭州富士康技術(shù)員招聘 2023-08-12 16:24:41
- 2023廣東省伊斯蘭教協(xié)會招聘高校畢業(yè)生名單公示 2023-08-12 15:22:32
- 廣東省文化和旅游廳幼兒園招聘高校畢業(yè)生擬聘... 2023-08-12 15:31:50
- “那么多出版社、學(xué)校支持,我們肯定要干下去!” 2023-08-12 15:22:51
- weight是什么意思翻譯成中文 weight是什么意思 2023-08-12 15:29:02
- 驚喜!杜鋒帶隊出戰(zhàn)村BA,球員達(dá)5人,徐杰領(lǐng)銜... 2023-08-12 15:17:59
- “青”心有約文明實踐活動進(jìn)村居,中醫(yī)康養(yǎng)首... 2023-08-12 15:23:52
- 一類卡一天可以取多少現(xiàn)金 一類卡和二類卡的區(qū)別 2023-08-12 15:15:28
- 《孤注一擲》挺有意思的一部反詐反賭宣傳片 2023-08-12 15:17:18
- 鄭州市農(nóng)購網(wǎng)網(wǎng)上購物節(jié)活動2023年 2023-08-12 14:24:47
- 鄭州市唯品會平臺網(wǎng)上購物節(jié)活動2023年 2023-08-12 14:32:23
- 鄭州市網(wǎng)上購物節(jié)活動2023年 2023-08-12 14:33:50
- 鄭州市抖音平臺網(wǎng)上購物節(jié)活動2023年 2023-08-12 14:22:39
- 奧比島怎么玩詳細(xì)步驟 7k7k奧比島快速進(jìn)入 2023-08-12 14:29:58
- 2023年上半年貴州各市GDP排行榜 遵義增速最快... 2023-08-12 14:21:56
- 為工作社交“做減法”年輕人開始在閑魚上代找... 2023-08-12 14:18:39
- 第19屆亞運會電子競技項目國家集訓(xùn)隊動員大會... 2023-08-12 14:17:51
- 夫妻離婚糾紛孩子如何辦 2023-08-12 14:12:16
- 妻子實名舉報醫(yī)生老公每年回扣十幾萬,且婚內(nèi)... 2023-08-12 14:15:02
- 綠色低碳看煙臺|一頭牛“耕出”種養(yǎng)循環(huán)產(chǎn)業(yè)鏈 2023-08-12 13:10:00
- 茅盾文學(xué)獎·連線|喬葉:女性照耀的絕不僅僅... 2023-08-12 13:01:58