新闻资讯 | 控件产品 | 技术文章 | 购物车 | 合作伙伴 | 问题解答 | 电子简报 | PDF论坛 | 资源下载
您现在的位置:技术文章>PDF开发篇 首页|PDF应用篇|PDF开发篇|解决方案

PDFBox使用简介

发布日期:2007-10-17 作者:坏孩子 出处:http://hi.baidu.com

 

这两天写了个从PDF文件抽取文本并且分析文本的小程序。
使用的是PDFBox,翻遍了网上的资料也没发现什么有用的东西(都是有些问题的),而且使用的是PDFBox0.62(已经是很旧的版本了)干脆从官方网站下了个最新的(最新版本是0.72)自己研究。
写出来和大家分享一下,顺便复习一下。
0.72和0.62差别还不少。我只看了下我需要用到的部分。

import java.io.*;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class TestPDF {

    public static final String DEFAULT_ENCODING = null;
    private static final String PASSWORD = "-password";
    private static final String ENCODING = "-encoding";
    private static final String CONSOLE = "-console";
    private static final String START_PAGE = "-startPage";
    private static final String END_PAGE = "-endPage";
    private static final String SORT = "-sort";


    public TestPDF() {
    }

    public static void main(String[] args)
    {
        int startPage = 1;
        int endPage = 1;
        String encoding = DEFAULT_ENCODING;
        String pdfFile = "C:\\test.pdf";
        String textFile = "C:\\test.txt";

        Writer output = null;
        PDDocument document = null;
        try
        {
            document = PDDocument.load( pdfFile );
            output = new OutputStreamWriter(new FileOutputStream(textFile));
            PDFTextStripper stripper = new PDFTextStripper();
            stripper.setSortByPosition(true);
            stripper.setStartPage(startPage);
            stripper.setEndPage(endPage);
            stripper.writeText(document, output);
            String s = stripper.getText(document);
            System.out.println(s);
        }
       catch( IOException e )
       {
           System.out.println("File Read Error");
       }
       finally
        {
            try{
                if (output != null)
  {
                    output.close();
                }
                if (document != null)
  {
                    document.close();
                }
            }
            catch (IOException e)
     {
                System.out.println("A Server Error");
            }
        }
    }
}

以后再写点别的关于这个包的,现在没时间,呵呵。

发布人:管理员 【报告错误】·【推荐好友】·【打印文章】
相关评论 本文现有 1 条评论 评分人数: 0 平均分: 0
weiguochuli   2008-1-16 11:00:29
您写的很好,可是怎样才能把版本是1.5以上的PDF文件转换成txt文件呢?请您帮帮我吧,我的邮箱:chaoju@126.com.在此谢过了!
相关评论
用户名: 密  码:
说明:输入正确的用户名和密码才能参与评论。如果您不是本站会员,你可以注册为本站会员。
注意:文章中的链接、内容等需要修改的错误,请用报告错误,以利文档及时修改。
注意:请不要在评论中含与内容无关的广告链接,违者封ID
文章搜索
推荐文章
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
循序渐进学习iTextShar
热门点击
一个简单的PDF文件结构的分析(22340)
PHP的FDF文档支持(16147)
用C#制作PDF文件全攻略(13578)
Word转换PDF格式的C#或(12119)
pdfMaker文章:PDF加(11627)
ITextRenderer学习(11083)
PDF文件加密仿真(11036)
怎样用iReport制作Web(10384)
iText PDF概述(1)(9888)
循序渐进学习iTextShar(9833)
热门评论
从pdf文档中提取出文本(8)
PDFlib开发:创建超文本元(2)
客户端自动打印PDF(Prin(2)
浅谈PDFlib中文输出(一)(2)
xml的转换之pdf 2 ((1)
xml的转换之pdf 1 (x(1)
PDF知识讲座(1)(1)
PDFBox使用简介(1)
使用正则表达式计算PDF文档的(1)
word转pdf(1)