在剛剛過去的財報季中,上市公司紛紛披露財務(wù)報告,然而海量的財報文件解讀給金融、投資等用戶帶來了巨大挑戰(zhàn)。財務(wù)報告是了解企業(yè)經(jīng)營狀況的重要信源,但隨著信息量的增加,傳統(tǒng)的分析方法難以滿足高效準(zhǔn)確解讀的需求。
在AI應(yīng)用于財報閱讀的過程中,存在著一些困難。例如,大模型的“理解力”相對薄弱,可能出現(xiàn)數(shù)據(jù)讀取錯誤等問題。具體表現(xiàn)為文檔識別失敗率高,面對復(fù)雜版面無法正確解析,導(dǎo)致關(guān)鍵信息丟失或被誤解,從而影響模型生成答案的精準(zhǔn)度,無法正確回答用戶的查詢。此外,邏輯結(jié)構(gòu)解析不完整也是核心問題之一,段落語義劃分錯誤會使大模型回答不全面或出現(xiàn)總結(jié)性偏差。
合合信息的文檔解析技術(shù)在解決這些問題上展現(xiàn)出了明顯的優(yōu)勢。其PDF文檔解析技術(shù)具備多文檔元素識別和版面分析能力,能夠識別文檔中的段落、公式、頁眉、頁腳等多種元素,并進(jìn)行對應(yīng)的處理。在應(yīng)對財報中常見的無線表、合并單元格、不規(guī)則行距、跨段、跨頁等障礙時,該技術(shù)能準(zhǔn)確還原各類表格結(jié)構(gòu)。同時,該技術(shù)還能對各類學(xué)術(shù)文獻(xiàn)進(jìn)行版面元素的識別及閱讀順序的判定,準(zhǔn)確定位文檔中的關(guān)鍵信息段落,根據(jù)PDF文檔的布局和格式推斷出人類閱讀時的順序,避免出現(xiàn)信息割裂的情況。
此外,合合信息的PDF文檔解析工具效率極高,最快能在1.5秒完成百頁文檔的解析。按8小時工作時間計算,可幫助大模型在一日內(nèi)對數(shù)千家企業(yè)的年報數(shù)據(jù)進(jìn)行精準(zhǔn)分析。
隨著無紙化辦公、數(shù)字化趨勢的發(fā)展,合合信息的文檔解析技術(shù)有望被應(yīng)用于更廣泛的場景。在未來IPO之后,該技術(shù)的商業(yè)化前景廣闊。它可以為金融機(jī)構(gòu)、投資者等提供更加高效準(zhǔn)確的財報分析服務(wù),幫助他們更好地做出決策。同時,合合信息還可以不斷拓展技術(shù)的應(yīng)用領(lǐng)域,進(jìn)一步提升產(chǎn)品的市場競爭力。
相關(guān)稿件