隨著8月中下旬中報(bào)披露高峰期的到來,眾多上市公司公布了其2024年上半年度的財(cái)務(wù)業(yè)績,海量的財(cái)報(bào)文件涌現(xiàn),給金融行業(yè)從業(yè)者帶來了巨大的工作挑戰(zhàn)。面對海量的數(shù)據(jù)報(bào)告,部分前瞻性的企業(yè)和個(gè)人開始探索利用大模型進(jìn)行財(cái)務(wù)報(bào)表分析,以提升效率與精準(zhǔn)度。然而,大模型在初始階段常遭遇數(shù)據(jù)讀取錯(cuò)誤、版面理解不足等難題,限制了其分析能力的充分發(fā)揮。
為助力大模型更好地“理解”財(cái)報(bào),合合信息大模型“加速器”方案對PDF文檔解析技術(shù)進(jìn)行了深度優(yōu)化與升級(jí),通過將非結(jié)構(gòu)化的PDF內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),極大提升了大模型在圖表類數(shù)據(jù)提取及版面理解方面的準(zhǔn)確性,實(shí)現(xiàn)了從“泛讀”到“精讀”的質(zhì)的飛躍。
PDF作為財(cái)報(bào)的主要載體,其復(fù)雜多變的版面布局往往成為大模型解析的攔路虎,合合信息PDF文檔解析技術(shù),能夠?qū)崿F(xiàn)將PDF、圖片等多種格式的財(cái)報(bào)文件轉(zhuǎn)換為Markdown或JSON格式,以一種更易于大模型處理的方式呈現(xiàn),有效降低了文檔識(shí)別失敗率,提升了復(fù)雜版面下的解析精度。特別是針對財(cái)報(bào)中常見的無線表、合并單元格、不規(guī)則行距等復(fù)雜元素,該技術(shù)展現(xiàn)出強(qiáng)大的版面分析和元素識(shí)別能力,確保了大模型在提取細(xì)節(jié)信息時(shí)的準(zhǔn)確無誤,避免了回答錯(cuò)誤、段落語義劃分錯(cuò)誤及總結(jié)性偏差等問題。
同時(shí),該技術(shù)還具備模擬人類閱讀順序的能力,能夠依據(jù)PDF文檔的布局和格式,智能判斷閱讀順序,推斷出人類閱讀時(shí)的順序,而非機(jī)械地判定為從左至右排序,避免把完整的段落文字“攔腰斬?cái)唷?,真正做到了“所見即所得”?/p>
據(jù)合合信息技術(shù)團(tuán)隊(duì)成員介紹,上市公司年報(bào)頁數(shù)大多集中在200至300頁的范圍內(nèi),一個(gè)熟練的分析師可能在幾天到一周的時(shí)間內(nèi)完成對年報(bào)的基本分析,PDF文檔解析工具最快能在1.5秒完成百頁文檔的解析,按8小時(shí)為一天工作時(shí)間計(jì)算,解析工具可幫助大模型在一日內(nèi)對數(shù)千家企業(yè)的年報(bào)數(shù)據(jù)進(jìn)行精準(zhǔn)分析。在數(shù)字化、無紙化辦公趨勢日益明顯的今天,這一技術(shù)的應(yīng)用前景無疑更加廣闊,有望為更多領(lǐng)域的文檔處理與分析帶來革命性的變革。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。