独家课程,独家中英文字幕,配套资料齐全,随时随地分享和观看!加入会员,全站资源免费下载!在个人中心每日签到,可白嫖会员!

会员专属,加入会员后,所有内容免费下载,可永久使用!在个人中心每日签到可白嫖会员!在个人中心签到,可白嫖会员!

学术必备!PDF OCR神器Nougat整合包教程

数学公式表格都能识别。Meta AI 推出了一个 OCR 神器Nougat。Nougat 基于 Transformer 模型构建而成,可以轻松的将 PDF 文档转换为 MultiMarkdown,扫描版的 PDF 也能转换,让人头疼的数学公式也不在话下。

Nougat 不但可以识别文本中出现的简单公式,还能较为准确地转换复杂的数学公式。公式中出现的上标、下标等各种数学格式也分的清清楚楚,还能识别表格,不过Nougat 生成的文档中不包含图片。

学术Fun将上述工具制作成一键启动包,点击即可使用,避免大家配置Python环境出现各种问题,下载地址: https://xueshu.fun/2930/

整合包使用教程

  • 在本页面右侧下载压缩包

    ,下载地址: https://xueshu.fun/2930/,解压后,如下图所示,双击bat文件运行

  • 打开软件,浏览器访问http://127.0.0.1:7860/,即可在浏览器里操作啦!

方法概述

本文架构是一个编码器 – 解码器 Transformer 架构,允许端到端的训练,并以 Donut 架构为基础。该模型不需要任何 OCR 相关输入或模块,文本由网络隐式识别。

该研究用到了 2 个 Swin Transformer ,一个参数量为 350M,可处理的序列长度为 4096,另一参数量为 250M,序列长度为 3584。在推理过程中,使用贪婪解码生成文本。

Meta 表示,Nougat 在配备 NVIDIA A10G 显卡和 24GB VRAM 机器上可并行处理 6 个页面,生成速度在很大程度上取决于给定页面上的文本量。在不进行任何推理优化的情况下,基础模型每批次平均生成时间为 19.5s(token 数≈1400),与经典方法(GROBID 10.6 PDF/s )相比速度还是非常慢的,但 Nougat 可以正确解析数学表达式。

会员分体验会员和永久会员,都可以免费下载本站所有课程软件等资源。

体验会员状态的刷新时间为北京时间上午8:00。AI软件下载后可以永久使用,与会员有效期无关。

本站所有资源支持免费更新,具体规则如下:

  • 登录后单独购买的资源,可以永久免费更新,无时间限制
  • 购买体验会员的用户,在会员到期后,下载的内容将无法继续获得更新
  • 购买永久会员的用户,可以永久免费更新,无时间限制

由于商品的特殊性,本站不支持退款,所以在开通会员之前,请确认你的需求。如果不放心,可以开通体验会员体验,满意再升级其他会员套餐。

从2019年开始已经运行3年多时间,诚信经营,会员过万,所有数据均有3级容灾备份,不存在安全问题。

碰到问题可优先查看文章教程。AI软件相关问题,请先检查自己机器是否为N卡,除非特别注明支持A卡或者CPU,一般默认只支持N卡运行,有些软件需要安装 CUDA 才能运行,请参考CUDA安装教程。其他售前售后问题请添加学术Fun公众号,站长每天上午8-9点,晚上7-8点时间段统一回复解决问题,其他时间看到留言也会第一时间解决。