表格也能精准识别,合合信息智能文字识别技术解难题

来源:网络 时间:2022-09-29 17:55:40  阅读量:8877   会员投稿

表格是文档中常见的对象。从学生经常填写的报名表,到办公场景中涉及的财务报表、票据,表格识别的需求广泛存在于个人生活、社会生产之中。但表格识别技术一直无法实现高精度处理。日前,合合信息智能文字识别技术让高精度表格识别成为现实。

表格识别主要包括表格检测和表格结构识别两大任务。表格检测主要检测表格主体,即从图片中确认表格区域;表格结构识别是对表格区域进行分析,提取表格中的数据与结构信息,得到表格的行列逻辑结构。

基于分治思想,合合信息引入深度学习技术,将表格识别分为有线表识别和无线表识别两种方案。有线表识别中,合合信息利用语义分割、角点回归等技术方案还原有线表,在财报相关表格识别测试中,有线表识别单元格结构准确率高于98%。

无线表识别是表格识别中的难点,教科书上的部分统计表、药品配方表,都存在框线不完整甚至无框线的情况。无线表缺少表格线,直接套用有线表识别方案无法得到理想的表格结构。合合信息无线表识别采用序列模型、规则匹配等方案,通过自研模型直接预测表格的逻辑结构,再得到表格的物理结构,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。

现阶段,合合信息智能文字识别技术中的表格识别技术已被应用于以“扫描全能王”为代表的C端APP中,通过“文件转换excel”功能服务于大众生活和办公需求。B端领域中,作为合合信息智能文字识别引擎中的重要模块,表格识别技术已落地在保险、银行、证券等行业中,应用于合同、银行流水、物流单据识别等多个场景。

据悉,合合信息专注于智能文档图像处理、复杂场景文档识别、手写字迹擦除等技术,近三年来先后在ICDAR、ICPR等15项人工智能国际竞赛中斩获冠军,学术成果发表于CVPR、AAAI、ACL等顶会。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

206

推荐阅读

  • A股三大指数涨跌不一煤炭与军工板块涨幅居前

    A股三大指数涨跌不一煤炭与军工板块涨幅居前

  • 薄膜电容行业报告:新能源车、光伏、风电驱动薄膜电容市场潜力巨大

    薄膜电容行业报告:新能源车、光伏、风电驱动薄膜电容市场

  • 目前医疗技术条件下近视不能治愈提升视力的说法不靠谱

    目前医疗技术条件下近视不能治愈提升视力的说法不靠谱

  • STEPVR发布元宇宙登入门产品“国承1号”

    STEPVR发布元宇宙登入门产品“国承1号”

  • 苹果汽车项目团队又一高管跳槽:去年11月份加入任职不到7个月

    苹果汽车项目团队又一高管跳槽:去年11月份加入任职不到