新闻资讯 | 控件产品 | 技术文章 | 购物车 | 合作伙伴 | 问题解答 | 电子简报 | PDF论坛 | 资源下载
您现在的位置:产品信息>希望PDFlib TET 2.2(for Desktop systems)  

希望PDFlib TET 2.2(for Desktop systems)

   希望PDFlib TET(文本内容提取工具包)是一款可以从任意PDF文档格式中可靠地提取文本信息的软件。
从本站购买商品,可以享受与厂商报价相同或更低的价格,不另外收取手续费,比您直接从厂家购买更方便,更省钱,还能获得本站的免费服务。联系电话:010-82626316010-82626268
产品价格:1716.00(元)     
评定星级: 0人参与了评定 所属类别: 开发工具
出品公司: 中科希望
适用平台: Windows 2000/XP;Apple Mac OS X PPC/Intel 产品规格: 从网上下载
评估下载: 希望PDF之家下载
 
 
 

   

 

(Group A)适用平台

Windows 2000, XP Home/Pro,和Apple Mac OS X

产品介绍

希望PDFlib TET(文本内容提取工具包)是一款可以从任意PDF文档格式中可靠地提取文本信息的软件。它不仅可以作为一种库/控件,还可以一种命令行工具。该工具包可以使得PDF格式的文本内容转换成Unicode(统一的字符编码标准)字符串,并附加详细的字形和字体信息。一旦拥有了TET,你就可以从PDF文档中的文本获取相应的Unicode字符值,以及它在页面的位置。

 



希望PDFlib TET 特征:

除了低水平的文字获取功能外,TET还包含有文本内容分析算法——鉴别单词边界,去除冗余和重复文本(比如文字阴影和字体加粗)。使用辅助的PCOS接口,你就可以从PDF格式文本获取任意格式的对象,比如元数据,超文本等。

  • 一旦拥有希望PDFlib,你就可以实现以下功能:
     
    • 从PDF格式文本中提取内容,然后存储到数据库中
       
    • 执行搜索引擎来处理PDF格式文本
       
    • 将PDF格式的文本页面转换成XML格式文本,以便其他工具处理
       
    • 基于PDF格式的文本内容进行处理
       
  • 支持的PDF文本格式输入
     
    • 版本1.6以下的所有PDF版本(Acrobat7)
       
    • 所有的字体和编码类型:base 14字体,TrueType字体,PostScript字体, CID字体用40-128位密钥加密的PDF(适当的权限密码设置)
       
  • Unicode
     
    • 尽管PDF文档中的文本并不是经常用Unicode进行编码,PDFlib TET将会使PDF文档中的文本统一规格化为Unicode字符。
       
    • TET转换所有的文本内容为Unicode字符。中文文本将会转换成UTF-8或UTF16格式,同样地,其他语言的文本将会转换成本地的Unicode字符串。
       
    • 连字符和其他多字符字形将会分解成一系列的Unicode 字符串。
       
    • 没有适当的Unicode映射的字形可以被识别并且被映射到可配置的替换字符
       
  • 完全支持CJK(中文,日文,韩文)语种
     
    • TET包含有对中文,日文,韩文文本提取功能的全面支持。识别所有预先定义的CJK映射(编码);支持横向和纵向书写模式。

       
  • 内容分析和单词识别

    TET不仅可以获取低水平的字形信息,还包含对内容分析的高级算法:
     
    • 检查单词边界来获得单词而不是字符串。
       
    • 重新组合带有连字符号的单词的各部分。
       
    • 去除重复的文本内容,比如阴影效果文本和加粗效果的文本
       
    • 按照阅读顺序重新整合段落
       
    • 对页面上散乱的文本内容进行重排
       
    • 重建文本行
       
  • 几何功能
    TET对文本提供精确的几何功能,比如页面定位,字形宽度,文字方位。在文字提取过程中,可以指定页面某区域被提取或不被提取,比如忽略头注,脚注或页边空白区域。
     
  • 简单访问PDF对象的pCOS接口
    TET包含有获取任意PDF对象的pCOS(PDFlib综合性对象系统)接口。拥有了pCOS,只要一个简单的查询接口,不需要任何底层编程,你就可以获取PDF元数据,超文本,或是除实际页面描述之外的其他任意信息。
     
  • 编程和性能
    TET是基于轻便性,高性能,健壮性思想进行开发的。TET在多线程服务器应用程序开发部署中保证线程级安全。核心库是由具有高性能和低成本的并且高度优化过的C代码编写的。附加的语言包对COM,C,C++,Java和.NET均有效。TET命令行工具和TET库TET在不同的开发环境中可以作为一种编程库(控件),以及在批处理命令中作为一种命令行工具。两者都提供了相同的基本功能,并且适合不同的部署任务。以下提供选择的参考指南:
     
    • TET编程库可以整合到你的桌面或服务器端应用程序。关于使用包含所有支持的语言包的编程库的实例都包含在TET包中。
       
    • TET命令行工具适合批处理PDF文档。它不需要任何的编程,只需要提供能够整合到复杂的工作流程中的命令行参数。TET命令行工具可以将PDF格式的页面内容转换为Unicode文本格式的XML文档(有或没有字符几何特征)
 
同类型产品
 
希望PDFlib pCos(A组) 希望PDFLib 7 (for Desktop systems)
希望PDFlib TET 2.2(for Windows/Mac/Linux/BSD) 3-Heights™ PDF Analysis & Repair API
希望PDFLib TET 2.2(for Sun/IBM/HP) 希望PDFlib Personalization Server 7(for Desktop systems)
希望PDFlib PLOP 3 (for Desktop systems) Aspose.Pdf for Java(Site OEM)
希望PDFlib PLOP 3 (for Sun/IBM/HP) 3-Heights™ PDF Producer
希望PDFlib FontReporter Aspose.Pdf for .Net(Site)
希望PDFlib Personalization Server 7(for Sun/IBM/HP) 3-Heights™ Image to PDF Converter API
Aspose.Pdf.Kit for .Net(Site) 希望PDFLib+PDI 7(for Desktop systems)
PDCAT COM DLL Aspose.Pdf.Kit for .Net(Dev)
希望PDFlib pCos(B组) Aspose.Pdf for Java(Site)
3-Heights™ PDF to Image Converter API 希望PDFlib pCos(C组)
BCL easyPDF SDK 3-Heights™ PDF Optimization API
希望PDFlib PLOP 3 (for Windows/Mac/Linux) 希望PDFlib+PDI 7(for Sun/IBM/HP)
BCL easyPDF Printer Driver PLOP DS 3.0 (Windows/Mac/Linux)
希望PDFlib TET 2.2(for Desktop systems) 希望PDFLib 7 (for Sun/IBM/HP)
Aspose.Pdf for .Net(Dev) PLOP DS 3.0 (for Desktop systems)
Aspose.Pdf for Java(Dev) 希望PDFlib+PDI 7(for Windows/Mac/Linux/BSD)
希望PDFLib 7 (for Windows/Mac/Linux/BSD) Aspose.Pdf.Kit for Java(Dev)
Aspose.Pdf.Kit for Java(Site OEM) 3-Heights™ PDF Viewer API
希望PDFlib Personalization Server 7(for Windows/Mac/Linux/BSD) 3-Heights™ PDF Extract API
Aspose.Pdf.Kit for .Net(Site OEM) Aspose.Pdf for Java(Dev OEM)
Aspose.Pdf for .Net(Site OEM) PLOP DS 3.0 (for Sun/IBM/HP)
Aspose.Pdf for .Net(Dev OEM) Aspose.Pdf.Kit for Java(Dev OEM)
Aspose.Pdf.Kit for .Net(Dev OEM) Aspose.Pdf.Kit for Java(Site)
     
同厂商产品
希望PDFlib pCos(A组) 希望PDFLib 7 (for Windows/Mac/Linux/BSD)
希望PDFlib TET 2.2(for Windows/Mac/Linux/BSD) 希望PDFlib Personalization Server 7(for Windows/Mac/Linux/BSD)
希望PDFLib TET 2.2(for Sun/IBM/HP) 希望PDFLib 7 (for Desktop systems)
希望PDFlib PLOP 3 (for Desktop systems) PDFlib TET plugin
希望PDFlib PLOP 3 (for Sun/IBM/HP) 希望PDFlib Personalization Server 7(for Desktop systems)
希望PDFlib FontReporter 希望PDFLib+PDI 7(for Desktop systems)
希望PDFlib Personalization Server 7(for Sun/IBM/HP) 希望PDFlib pCos(C组)
希望PDFlib pCos(B组) 希望PDFlib+PDI 7(for Sun/IBM/HP)
希望PDFlib PLOP 3 (for Windows/Mac/Linux) 希望PDFLib 7 (for Sun/IBM/HP)
希望PDFlib TET 2.2(for Desktop systems) 希望PDFlib+PDI 7(for Windows/Mac/Linux/BSD)
 
相关评论 本文现有0 条评论 评分人数:0 平均分:0
您的评论
用户名: 密  码:
说明:输入正确的用户名和密码才能参与评论。如果您不是本站会员,你可以注册为本站会员。
注意:文章中的链接、内容等需要修改的错误,请用报告错误,以利文档及时修改。
注意:请不要在评论中含与内容无关的广告链接,违者封ID
商品搜索
推荐商品
希望PDFlib pCos(A...
希望PDFlib PLOP 3...
希望PDFlib TET 2....
Aspose.Pdf for ...
Aspose.Pdf for ...
希望PDFlib Person...
Aspose.Pdf.Kit ...
希望PDFlib+PDI 7(...
希望PDFLib 7 (for...
Aspose.Pdf.Kit ...
热门商品
BCL easyPDF SDK...(12022)
Aspose.Pdf.Kit ...(10135)
希望PDFLib 7 (for...(9984)
Aspose.Pdf for ...(9742)
3-Heights™...(6469)
希望PDFLib 7 (for...(5682)
LuraDocument PD...(5118)
希望PDFlib TET 2....(5101)
希望PDFlib Person...(4885)
Aspose.Pdf.Kit ...(4745)