新闻资讯 | 控件产品 | 技术文章 | 购物车 | 合作伙伴 | 问题解答 | 电子简报 | PDF论坛 | 资源下载
您现在的位置:技术文章>PDF开发篇 首页|PDF应用篇|PDF开发篇|解决方案

.NET下读取PDF文本总结

发布日期:2013-1-30 作者:wangqiuyun 出处:http://blog.csdn.net/wangqiuyun/article/details/8548779

在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp。

先说PDFBox,这个类库据说功能很强大,本人在这只是简单介绍一下:

1、下载PDFBox

下载地址:http://sourceforge.net/projects/pdfbox/

2、引用动态链接库

解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
using org.pdfbox.pdmodel;
using org.pdfbox.util;

3、API的使用方法看代码:

  1. using org.pdfbox.pdmodel;
  2. using org.pdfbox.util;
  3. public void pdf2txt(FileInfo file,FileInfo txtfile)
  4. {
  5. PDDocument doc = PDDocument.load(file.FullName);
  6. PDFTextStripper pdfStripper = new PDFTextStripper();
  7. string text = pdfStripper.getText(doc);
  8. StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
  9. swPdfChange.Write(text);
  10. swPdfChange.Close();
  11. }

iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差,使用如下:

1、下载iTextSharp

下载地址:http://sourceforge.net/projects/itextsharp/

2、引用动态链接库

解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可
在文件中需要引入以下3个命名空间:
using iTextSharp;
using iTextSharp.text;
using iTextSharp.text.pdf;

3、API的使用方法看代码:

  1. private string OnCreated(string filepath)
  2. {
  3. try
  4. {
  5. string pdffilename = filepath;
  6. PdfReader pdfReader = new PdfReader(pdffilename);
  7. int numberOfPages = pdfReader.NumberOfPages;
  8. string text = string.Empty;
  9. for (int i = 1; i <= numberOfPages; ++i)
  10. {
  11. byte[] bufferOfPageContent = pdfReader.GetPageContent(i);
  12. text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);
  13. }
  14. pdfReader.Close();
  15. return text;
  16. }
  17. catch (Exception ex)
  18. {
  19. StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");
  20. wlog.WriteLine("出错文件:" + e.FullPath + "原因:" + ex.ToString());
  21. wlog.Flush();
  22. wlog.Close();return null;
  23. }
  24. }

 

发布人:管理员 【报告错误】·【推荐好友】·【打印文章】
相关评论 本文现有 0 条评论 评分人数: 0 平均分: 0
相关评论
用户名: 密  码:
说明:输入正确的用户名和密码才能参与评论。如果您不是本站会员,你可以注册为本站会员。
注意:文章中的链接、内容等需要修改的错误,请用报告错误,以利文档及时修改。
注意:请不要在评论中含与内容无关的广告链接,违者封ID
文章搜索
推荐文章
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
热门点击
一个简单的PDF文件结构的分析(22751)
PHP的FDF文档支持(16274)
用C#制作PDF文件全攻略(13703)
Word转换PDF格式的C#或(12213)
ITextRenderer学习(11749)
pdfMaker文章:PDF加(11696)
PDF文件加密仿真(11114)
怎样用iReport制作Web(10483)
iText PDF概述(1)(10077)
从pdf文档中提取出文本(10016)
热门评论
从pdf文档中提取出文本(8)
PDFlib开发:创建超文本元(2)
客户端自动打印PDF(Prin(2)
浅谈PDFlib中文输出(一)(2)
xml的转换之pdf 2 ((1)
xml的转换之pdf 1 (x(1)
PDF知识讲座(1)(1)
PDFBox使用简介(1)
使用正则表达式计算PDF文档的(1)
word转pdf(1)