在AI技術(shù)深度賦能寵醫(yī)行業(yè)的背景下,寵物智診領(lǐng)域正迎來垂直大模型技術(shù)驅(qū)動(dòng)的重大變革。近日,寵物診斷大語言模型主客觀測評PDEM 2025中期報(bào)告正式發(fā)表,對各類寵物診斷大語言模型的專業(yè)性、交互能力和安全性進(jìn)行綜合評估。
此次測評采用百分制量化評分,數(shù)據(jù)集覆蓋50余種犬貓常見及罕見疾病、400張多模態(tài)圖片,涵蓋品種、情緒、皮膚、嘔吐物、排泄物等7個(gè)維度,測評團(tuán)隊(duì)由專業(yè)獸醫(yī)師、AI測評專家、資深養(yǎng)寵用戶及新手寵主組成,歷經(jīng)800余輪次交叉驗(yàn)證,確保評估結(jié)果的科學(xué)性與行業(yè)參考價(jià)值。
一、測評對象及得分排名:寵醫(yī)垂域模型與通用模型的分野
本次PDEM測評范圍涵蓋寵醫(yī)垂直領(lǐng)域?qū)I(yè)與通用型的大模型,包括百目魔君大模型V3.0與V2.0、寵智靈V4.0大模型(寵生萬象)、ChatGPT-4o及DeepSeek-R1。結(jié)果顯示,寵醫(yī)健康助手汪喵靈靈自研的百目魔君大模型V3.0以絕對優(yōu)勢奪冠,以綜合評分87.81排行第一;其V2.0版本以約10%的診斷能力差距緊隨其后。寵智靈大模型V4.0作為寵醫(yī)垂直領(lǐng)域的另一代表以71.14分排行第三,其結(jié)構(gòu)化診斷模式在特定場景中展現(xiàn)一定的穩(wěn)定性。而ChatGPT-4o與DeepSeek-R1作為通用大模型憑借自然語言處理優(yōu)勢和交互能力分別位列第四、五位。
二、能力解讀:從問診邏輯看技術(shù)路線差異
1.百目魔君V3.0:循證醫(yī)學(xué)的AI實(shí)踐
該模型的核心競爭力在于對臨床路徑的深度復(fù)刻。在PDEM測評案例中,面對"狗狗屁股鼓包"的主訴,其通過“軟硬度”“排便變化”等5輪追問,精準(zhǔn)鎖定會(huì)陰疝診斷,與真人獸醫(yī)結(jié)論完全一致,可見百目魔君大模型的診斷準(zhǔn)確性和專業(yè)度。這種多輪交互能力源于96K超長上下文推理技術(shù),使其能像資深獸醫(yī)般動(dòng)態(tài)排除干擾項(xiàng)。同時(shí)其通過檢索增強(qiáng)生成技術(shù)將模型幻覺率降至近乎為零,可靠性遠(yuǎn)超行業(yè)平均水平。
汪喵靈靈披露團(tuán)隊(duì)在2024年底完成了互聯(lián)網(wǎng)信息服務(wù)算法備案,成為行業(yè)內(nèi)首個(gè)通過國家大模型備案的寵物醫(yī)療大模型,這代表著百目魔君大模型在合規(guī)、數(shù)據(jù)安全和技術(shù)標(biāo)準(zhǔn)上都達(dá)到了國家相關(guān)法律法規(guī)要求。
2.寵智靈V4.0/寵生萬象:結(jié)構(gòu)化診斷的雙刃劍
該模型交互層面設(shè)計(jì)完善,通過預(yù)設(shè)問題路徑能確保覆蓋常見答案,但也犧牲了開放性發(fā)問的交互體驗(yàn)。測評過程顯示,寵智靈大模型將用戶未作答的問題視為默認(rèn)肯定,可能導(dǎo)致“假陽性”判斷;需警惕的是,其用藥推薦機(jī)制未過濾人用藥,顯示出寵智靈大模型的訓(xùn)練數(shù)據(jù)在合規(guī)性校準(zhǔn)方面有待完善。
3.通用大模型:泛化有余,專業(yè)不足
通用大模型ChatGPT-4o和DeepSeek-R1,在理解復(fù)雜上下文和互動(dòng)自然性方面表現(xiàn)出色,但在寵物醫(yī)療專業(yè)性上存在明顯短板。在面對寵物醫(yī)療問題時(shí),難以精準(zhǔn)地捕捉關(guān)鍵癥狀,只能全面地提供可能存在的病因,無法給出準(zhǔn)確的診斷判斷。這表明通用大模型雖然在自然語言處理和交互方面具有優(yōu)勢,但在特定的寵物醫(yī)療領(lǐng)域,仍需經(jīng)過進(jìn)一步的專業(yè)優(yōu)化和訓(xùn)練。
三、寵物醫(yī)療AI大模型的發(fā)展方向:精準(zhǔn)、專業(yè)、安全、自然缺一不可
PDEM測評清晰地指明了寵物醫(yī)療AI大模型未來的競爭核心與發(fā)展路徑,將聚焦于四大關(guān)鍵能力的協(xié)同進(jìn)化:
診斷精準(zhǔn)度:通過高質(zhì)量的模型訓(xùn)練與多模態(tài)信息融合,不斷增強(qiáng)模型在復(fù)雜病情識別和推理能力,持續(xù)提供模型判斷的專業(yè)性和可用性。
專業(yè)知識:構(gòu)建動(dòng)態(tài)更新的獸醫(yī)智腦,深度融入獸醫(yī)學(xué)體系,建立結(jié)構(gòu)化知識庫,并確保通過聯(lián)網(wǎng)及新技術(shù)應(yīng)用等方式實(shí)現(xiàn)知識的實(shí)時(shí)更新與前沿性。
安全可靠:筑牢不可逾越的底線,遵循法規(guī)確保診斷準(zhǔn)確性及用藥安全,杜絕人藥獸用的推薦;徹底消除模型幻覺,保障所有信息輸出真實(shí)可靠、有據(jù)可循。
交互體驗(yàn):具備強(qiáng)大的上下文理解與記憶能力,支持自然、靈活的多輪深度對話,并能提供清晰易懂的解釋。
PDEM最新測評報(bào)告顯示,百目魔君大模型憑借卓越的動(dòng)物診斷能力領(lǐng)跑寵物AI賽道,為養(yǎng)寵家庭及寵業(yè)上下游廠商提供高效智診方案。同時(shí),寵智靈、DeepSeek-R1等模型亦展現(xiàn)出差異化價(jià)值,滿足多元場景需求。隨著技術(shù)演進(jìn),寵物醫(yī)療AI大模型將深度賦能智能診斷、遠(yuǎn)程醫(yī)療及健康管理,驅(qū)動(dòng)行業(yè)向數(shù)智時(shí)代全面轉(zhuǎn)型。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。