Skip to content

上传PDF

  • 适用系统: windows / 信创

功能说明

功能描述

上传一个文档文件(及配置参数),调用金智维接口启动识别任务,识别PDF文件内容,

上传PDF

配置项说明

常规

指令输入

  • PDF文件string: 输入或选择PDF文件路径

指令输出

  • 结果String: 指定一个变量,用来保存识别结果

高级

  • 语言模型Integer: 加载models目录中的引擎配置文件,可切换不同语言的配置。

  • 纠正文本方向Boolean: 填true时启用方向分类,识别倾斜或倒置的文本。可能降低识别速度。

  • 限制图像边长Integer: 将边长大于该值的图片进行压缩。较低的限制值可以提高识别速度,较高的限制可以提高大图的识别精度。

  • 排版解析Integer: 按什么方式,解析和排序图片中的文字块。

  • 忽略区域string: 处于任意一个忽略区域内的OCR文本块将被舍弃。每个忽略区域用矩形坐标表示。每一项为[[左上角x,y],[右下角x,y]]

  • 起始页码Integer: OCR的页数范围起始。从1开始。

  • 结束页码Integer: OCR的页数范围结束。可以用负数-X表示倒数第X页。

  • 页数列表string: 可指定单个或多个页数。例:[1,2,5]表示仅对第1、2、5页进行OCR。如果与页数范围(起始页码、结束页码)同时填写,则 页数列表 优先。

  • 文档密码string: 若要识别加密的文档,则需填写文档密码。

  • 内容提取模式Integer: 若一页文档既存在图片又存在文本,如何进行处理。可选值的含义依次为:混合OCR/原文本、整页强制OCR、仅OCR图片、仅拷贝原有文本

  • 执行前的延迟(毫秒)Integer: 指令执行前的等待时间

  • 超时时间(毫秒)Integer: 最长等待时间(毫秒)

错误处理

  • 打印错误日志Boolean:当指令运行出错时,打印错误日志到【日志】面板。默认勾选。

  • 处理方式Integer

  • 终止流程:指令运行出错时,终止流程。

  • 忽略异常并继续执行:指令运行出错时,忽略异常,继续执行流程。

  • 重试此指令:指令运行出错时,重试运行指定次数指令,每次重试间隔指定时长。

使用示例

常见错误及处理

常见问题解答