企业财报密集披露，合合信息文档解析技术提升大模型“理解力”

2024-08-27 15:46 互联网

　　财务报告是公众和投资者了解企业经营状况的主要信源之一。步入8月中下旬，上市公司进入了中报披露高峰期。据东方财富Choice数据统计，截至8月中旬，A股有超过1700只个股公布了2024年半年度业绩预告，海量的财报的对于金融行业从业者而言，产生了巨大的工作量。

　　随着人工智能技术的深入发展，部分企业和个人开始尝试用大模型进行财务报表。针对大模型“理解力”薄弱，数据读取错误等问题，合合信息大模型“加速器”方案优化升级了PDF文档技术，将非结构化的PDF内容转换为结构化数据，提高大模型图表类数据提取准确性和版面理解能力，助力大模型实现从“泛读”到“精读”的能力跨越。

　　PDF是主流的电子格式之一。文档技术可将PDF、图片等多种格式的为 Markdown 或 JSON 格式的文档，并以一种对大模型友好的方式呈现。

　　文档技术是大模型理解和处理文档的前提，相关能力的缺失，会导致大模型在理解版面不同区域的内容排列顺序、要点时遇到障碍，影响大模型的“理解力”，财务报表中的关键信息可能会丢失或被误解，使得模型生成的答案不够精准，无法正确回答用户的查询。

　　“人类阅读文章时可以自然地判断版面元素的作用，但机器要经历层层拆解的过程才能‘读懂’文章。”据合合信息技术团队成员介绍，财报、年报多以PDF格式为主，其中包含着各类复杂表格、图表、证照等元素。大模型现阶段存在的文档能力缺陷主要体现如下方面：文档识别失败率高，面对复杂版面，无法正确，获取标题、分块、图表等。在这种情况下，大模型常表现为细节信息提供答案失败或回答错误；逻辑结构不完整也是问题之一，段落语义划分错误，会导致大模型回答不全面或出现总结性偏差的状况。

　　图 1：合合信息PDF文档技术在大模型表格中的效果

　　据了解，合合信息PDF文档技术具备多文档元素识别、版面能力，可以识别文档中的段落、公式、页眉、页脚等多种元素，并进行对应的处理。在应对财报中常见的无线表、合并单元格、不规则行距、跨段、跨页等障碍时，该技术也能做到准确还原各类表格结构。

　　为了让大模型像专业人士一样阅读，PDF文档技术可对各类学术文献进行版面元素的识别及阅读顺序的判定。该技术不仅能够准确定位文档中的关键信息段落，还能根据PDF文档的布和格式，推断出人类阅读时的顺序，而非机械地判定为从左至右排序，避免把完整的段落文字“拦腰斩断”，真正做到了“所见即所得”。

　　图 2：合合信息PDF文档技术对双栏论文的效果

　　合合信息技术团队成员表示，上市公司年报页数大多集中在200至300页的范围内，一个熟练的师可能在几天到一周的时间内完成对年报的基本，PDF文档工具最快能在1.5秒完成百页文档的，按8小时为一天工作时间计算，工具可帮助大模型在一日内对数千家企业的年报数据进行精准。随着无纸化办公、数字化趋势发展，PDF文档技术有望被应用于更广泛的场景。

相关阅读

»延伸阅读: 生物育种概念股十大排行榜：2024年第一季度; 【无线充电概念上市公司】2024年第一季度销; 2024年第一季度：Cybertruck皮卡上市公司管; 高端医疗器械概念股销售费用排行榜来啦！（; 【化妆护肤品概念上市公司】2024年第一季度

»要闻导读: 市场营销渠道包括哪些; 平均固定成本的计算公式; 什么是货币乘数货币乘数的计算公式; 投入预算是什么; 2023海带行业发展现状如何

官方微信

财经专区