LEADTOOLS Document Analyzer SDK
LEADTOOLS Document Analyzer SDK可以智能地识别基于文本的办公文档(DOC,DOCX,XLS,XLX),PDF和文档图像(JPG,TIFF,PNG PDF)中的文档组件和区域,以实现自动文档处理和智能数据提取。即使文件之间的布局完全不同,文档分析器也会自动在结构化和非结构化文档中查找关键短语。此外,该组件执行深度分析以进一步提高检测效率,确保不遗漏任何内容并找到所有感兴趣的数据。 通过集成此易于使用的API ,.NET(C#,VB),Java和构建应用程序以处理各种类型的表单和文档的Web开发人员将受益匪浅。
智能文档分析器组件
LEAD在AI和机器学习上的投资在Document Analyzer SDK中得以展示,该软件可通过基于规则的简单配置自动检测并从任何类型的结构化或非结构化表单,文档或图像中提取数据。
提供了所有文档分析器功能,而无需其他第三方工具或应用程序。其中一些功能包括:
- 位置搜索,包括相对位置
- 条件搜索以匹配和过滤结果
- 部分和完全匹配的Regex支持
- 一些常见数据类型的预定义规则,例如SSN,ID号,TaxID,地址,电子邮件地址等
- 添加自定义规则集的功能,这些规则集可查找,收集感兴趣的信息并对其进行操作
- 可以对感兴趣的数据进行编辑,突出显示和提取等操作
- 处理各种数据格式,包括表格,文本流,多行数据
智能数据提取
利用LEADTOOLS的表单识别和处理库的功能,文档分析器可以从基于文本的办公文档(DOC,DOCX,XLS,XLX),PDF和文档图像(JPG,TIFF)中智能地提取文本,段落或任何键值,PNG PDF)。即使文件之间的布局完全不同,这种智能数据提取功能也会自动查找结构化和非结构化文档(例如发票,对帐单,提货单和收据)相关的关键短语。此外,该组件执行深度分析以进一步提高检测效率,从而确保找到所有感兴趣的数据并且不会遗漏任何内容。
分析任何输入-甚至混合内容
通过使用专利机器学习算法构建的LEADTOOLS专有OCR技术的无缝集成,文档分析器可处理所有类型的输入,包括基于文本的文件,基于图像的文件或具有混合文本和图像内容的文件。
提供的置信度等级
文档分析器为用户提供置信等级,以接受或拒绝所识别的值开发人员可以使用评级自动接受或拒绝识别出的值,并完全控制工作流程。
在您的文档管理系统中节省空间
考虑到具有敏感数据的所有文档在医疗,金融和保险等各个行业中都定期进行处理,一个共同的痛点是手动数据编辑和文件存储。必须手动编辑文档并将已编辑和未编辑的文件存储在文档管理系统中,这会占用大量时间和空间。通过利用LEADTOOLS Document Analyzer中强大的机器视觉库,用户只需要存储未编辑的文件,并且系统可以在请求文件时即时自动编辑。
任何用户的界面
文档分析器作为配置驱动的应用程序提供,易于使用,并提供.NET和Java接口以提供最大的灵活性。
易于整合
LEADTOOLS可以节约数月的研发工作,同时为您提供了最佳的质量和性能。这使您可以自由地专注于应用程序的其他组件。下载评估版并开始编码, 以了解使用LEADTOOLS将使您的开发更加简化。
Document Analyzer SDK平台和编程接口
使用LEADTOOLS Document Analyzer库的项目可以部署到Web浏览器和Windows设备。
Document Analyzer SDK库可用于:
- .NET
- C#, VB, C++/CLI
- WinForms, ASP.NET
- HTML/JavaScript
- Web Services – JSON, WebAPI, SOAP, RESTful