2024年8月,云知聲正式宣布推出其最新研發(fā)成果——山海多模態(tài)大模型,迎接即將到來的人機(jī)交互領(lǐng)域全新“Her時(shí)代”。山海多模態(tài)大模型憑借其突破性的智能交互能力,帶來實(shí)時(shí)多模態(tài)擬人交互體驗(yàn),開啟了通用人工智能(AGI)的新范式。
山海多模態(tài)大模型的最大亮點(diǎn)在于其整合跨模態(tài)信息的能力。它能夠接收文本、音頻、圖像等多種形式作為輸入,并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出。這種多模態(tài)交互的方式使得用戶可以與山海進(jìn)行更加自然、流暢地溝通,無論是通過語音、文字還是圖像,都能得到及時(shí)的回應(yīng)和反饋。
在語音交互方面,山海多模態(tài)大模型表現(xiàn)出了極高的智能水平。它不僅能夠準(zhǔn)確識(shí)別用戶的語音指令,還能通過語音文本判斷用戶的情緒狀態(tài),并給予適當(dāng)?shù)那楦蟹答?。無論是安慰、鼓勵(lì)還是幽默,山海都能與用戶形成情感共鳴,提供貼心的情感支持。此外,山海還支持對(duì)話隨時(shí)打斷,用戶可以在對(duì)話中靈活插話,無需等待,交互過程自然不受阻礙。這種實(shí)時(shí)秒回、自由插話的能力,使得語音交互更加接近現(xiàn)實(shí)對(duì)話中人類的響應(yīng)時(shí)間,為用戶提供了幾乎無感知的流暢體驗(yàn)。
在視覺交互方面,山海多模態(tài)大模型同樣展現(xiàn)出了強(qiáng)大的實(shí)力。通過攝像頭,山海能夠“看見”周圍環(huán)境,實(shí)現(xiàn)所見即所得的精準(zhǔn)識(shí)別。從場景理解分析到物體信息描述,山海都能精準(zhǔn)“拿捏”。特別是對(duì)于目標(biāo)物體上的文字,山海不僅限于基礎(chǔ)的OCR文字識(shí)別,更能夠結(jié)合圖像和文字,提供易于理解的總結(jié),表現(xiàn)出更接近人類的認(rèn)知能力。此外,山海還能根據(jù)用戶指令快速創(chuàng)建視覺內(nèi)容,并深入理解用戶對(duì)背景的日常化要求,提供符合個(gè)性化需求的定制畫面。
自發(fā)布以來,山海多模態(tài)大模型始終保持高速迭代,并在多個(gè)權(quán)威賽事上屢獲佳績。在SuperCLUE中文大模型基準(zhǔn)測評(píng)、MedBench中文醫(yī)療大模型評(píng)測、CCKS 2023醫(yī)療大模型評(píng)測等賽事中,山海都展現(xiàn)出了全面的通用能力和卓越的專業(yè)能力,穩(wěn)居全球大模型第一梯隊(duì)。這些成績的取得,充分證明了山海多模態(tài)大模型在自然語言理解和多模態(tài)交互方面的強(qiáng)大實(shí)力。
云知聲深知,推動(dòng)山海邁進(jìn)AGI的關(guān)鍵在于其多模態(tài)交互能力的發(fā)展。因此,云知聲在不斷提升山海大模型自然語言處理能力的同時(shí),也在積極發(fā)展多模態(tài)能力。在CVPR 2024開放環(huán)境情感行為分析競賽中,云知聲一舉奪得了多個(gè)賽道的季軍,展現(xiàn)出卓越的情感分析能力。
可以預(yù)見,隨著多模態(tài)技術(shù)的深入發(fā)展,山海多模態(tài)大模型將不斷拓展其能力邊界。除了現(xiàn)有的語音和視覺交互能力外,山海還將拓展實(shí)時(shí)語言翻譯、面部情緒分析等更深入的多模態(tài)能力。這些能力的提升將使得山海能夠更好地滿足人們?cè)诠ぷ鳌⑸缃?、娛樂等多樣化的需求,成為生活中不可或缺的一部分。?duì)于山海更高更廣的未來,我們滿懷期待!
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。