新闻资讯 | 控件产品 | 技术文章 | 购物车 | 合作伙伴 | 问题解答 | 电子简报 | PDF论坛 | 资源下载
您现在的位置:技术文章>PDF开发篇 首页|PDF应用篇|PDF开发篇|解决方案

Aspose.OCR for .NE实现从PDF文件中提取文字和图片

发布日期:2011-7-25 作者:zhuhm 出处:http://www.cnblogs.com

 

原文地址:http://www.cnblogs.com/zhuhm/archive/2011/07/21/2112563.html

  从PDF文件中提取文字是开发人员对PDF文件最常见、最普通的需求。Aspose.Pdf for .NET虽然允许你从.net程序的PDF文件中提取文字,但是它也有不完善之处。唯一的限制就是,不能从PDF文件中的图像提取文字。

  然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。

  目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。

  为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:

* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images

  使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:

* Extract Text from PDF using DOM API
* Extract Text from PDF using Facades

  提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情

* Extract Images from PDF using DOM API
* Extract Images from PDF using Facades

  一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:

  //initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);

  //add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;

  //load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);

  //process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}

  有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:Perform OCR on Image

发布人:管理员 【报告错误】·【推荐好友】·【打印文章】
相关评论 本文现有 0 条评论 评分人数: 0 平均分: 0
相关评论
用户名: 密  码:
说明:输入正确的用户名和密码才能参与评论。如果您不是本站会员,你可以注册为本站会员。
注意:文章中的链接、内容等需要修改的错误,请用报告错误,以利文档及时修改。
注意:请不要在评论中含与内容无关的广告链接,违者封ID
文章搜索
推荐文章
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
热门点击
一个简单的PDF文件结构的分析(22562)
PHP的FDF文档支持(16207)
用C#制作PDF文件全攻略(13651)
Word转换PDF格式的C#或(12165)
pdfMaker文章:PDF加(11657)
ITextRenderer学习(11364)
PDF文件加密仿真(11074)
怎样用iReport制作Web(10435)
iText PDF概述(1)(9954)
循序渐进学习iTextShar(9890)
热门评论
从pdf文档中提取出文本(8)
PDFlib开发:创建超文本元(2)
客户端自动打印PDF(Prin(2)
浅谈PDFlib中文输出(一)(2)
xml的转换之pdf 2 ((1)
xml的转换之pdf 1 (x(1)
PDF知识讲座(1)(1)
PDFBox使用简介(1)
使用正则表达式计算PDF文档的(1)
word转pdf(1)