Det er ikke vanskelig å lese PDF-filer i Java ved hjelp av bibliotekene som er lett tilgjengelig . Lese PDF-filer kan du skrive Java-programmer som kan behandle teksten i disse filene. Ett alternativ for å lese PDF-filer er gratis, open -source PDFBox biblioteket tilgjengelig fra Apache. The Eclipse Java utviklingsplattform gjør denne jobben enklere og forvalter bibliotekene du vil laste ned . Du må være kjent med Java -programmering til å gjøre bruk av disse Java-bibliotekene . Instruksjoner
Samle Needed Biblioteker
en
Last ned Java JDK fra Suns nettsted. Dette er en kjørbar fil som du kan installere på systemet ved å kjøre den. Versjoner er tilgjengelig for Windows , Mac og Linux. Klikk på den røde \\ "Download \\ "-knappen . Lagre en fil kalt \\ " JDK - 6uxx -windows- xxx.exe \\ " når du blir spurt. Lagre denne filen og dobbeltklikk på den for å starte Java installasjonsprogrammet .
2
Last ned Eclipse utvikling system og pakk det inn i en katalog på toppnivå . Velg \\ " Eclipse IDE for Java-utviklere . \\ " Dette vil starte nedlastingen av \\ " eclipse- java -Galileo - SR2 - win32.zip . \\" Dobbeltklikk på filen for å pakke den ut når nedlastingen er fullføre. Velg \\ "C : \\" . Rotkatalogen sted å pakke Eclipse
3
Start- Eclipse ved å dobbeltklikke på \\ " eclipse.exe \\" i katalogen du nettopp opprettet ved utpakking formørkelsen zip-fil. I Eclipse system , opprette et prosjekt som heter \\ " PrintPdf . \\ " Velg \\ "Fil \\ " og deretter \\ "Ny \\ " og deretter \\ " Java -prosjektet. \\" Skriv inn navnet på prosjektet \\ " ; PrintPdf \\ "i dialogboksen som vises . Pass på at radioen er valgt som sier \\ " Lag egne mapper for kilde-og klasse -filer. \\ " Klikk \\ "Fullfør \\".
4
Lag en \\ " lib \\ "-mappen i din \\ " PrintPdf \\ " -prosjektet . Høyreklikk på \\ " PrintPdf \\ "-prosjektet og velg \\ "Ny \\" og deretter \\ "Folder . \\" Skriv inn navnet \\ " lib \\ " og klikk på \\ "Finish . \\ "
5
ned Apache \\" PDFBox.jar \\ "fra Apache området og kopiere den i lib katalogen du nettopp opprettet . På den samme nettsiden , laste ned \\ " fontbox - nn.jar \\" -filen og \\ " jempbox - nn.jar \\ " filen . I hvert fall når du klikker på det jar fil, vil den ta deg til en side der du kan velge en av flere servere som kan gi denne filen. Plukk hver av dem, og hver jar filen vil laste ned. Kopier hver jar filen inn i lib katalogen du nettopp opprettet .
6
Last ned Apache log4j.jar pakken på samme måte og kopiere log4j.jar filen inn i katalogen . The Apache PDFBox biblioteket bruker dette Apache logging bibliotek , så denne filen må være til stede.
7
Last ned Apache Commons Discovery pakken som en zip -fil . Dobbeltklikk på zip -filen , velger du \\ " commons -discovery - nn.jar \\" og pakk den inn i lib .
8
I Eclipse , klikk på \\ " lib \\ " katalog og trykk \\ " F5 . \\ " Sørg for at alle jar -filene du har lagt vises .
9
Høyreklikk på PrintPDF prosjektet og velg \\" Properties . \\ "Velg \\" Java Build Path \\ "og velg \\" Libraries \\ "-kategorien . Klikk på \\ " Legg krukker \\" og gå til lib katalogen du nettopp opprettet , og legge til \\ " commons - logging - nn.jar \\ " \\ " fontbox - nn.jar , \\ " \\ " ; . jempbox - nn.jar , \\ "\\ " log4j - nn.jar , \\ "og \\ " pdfbox - nn.jar \\ "Klikk på \\" OK \\ "
Skriv koden for å lese PDF-filer
10
Høyreklikk på \\ "src \\" mappen på \\ " PrintPDF \\ "-prosjektet og velg \\ "Ny \\ "og \\" Package. \\ "Opprett en pakke med noe meningsfullt navn . For eksempel nevne pakken \\ " com.pdf.util . \\ " Klikk \\ "Fullfør \\".
11
Høyreklikk på pakken navnet du nettopp opprettet , og velg \\ "Ny \\" og deretter \\ " Class. \\" Lag en klasse som heter \\ " PDFTextParser . \\" Husk å klikke i boksen merket \\ " public static void main ... \\ " så at systemet vil skape en \\ "main \\ " metoden.
12
Rediger \\ "main \\ "-metoden i \\ " PDFTextParser \\ " class å inneholde følgende kode :
public static void main ( String args [ ] ) {
PDFTextParser pdf = new PDFTextParser ( \\ " data /javaPDF.pdf \\" ) < br /> GO
//print ut resultatene
System.out.println ( pdf.getParsedText ( ) )
GO
}
;
Merk at filen du ønsker å skrive ut er stavet ut i konstruktøren til PDFTextParser ( \\ " data /JavaPDF.pdf \\" ) . Det kan like gjerne være en kommandolinje argument:
PDFTextParser pdf = new PDFTextParser ( argv [ 0 ] )
GO
eller valgt fra et GUI -grensesnitt .
det skaper en forekomst av PDFTextParser klassen , og deretter kaller sin \\ " getParsedText \\ " metoden.
13
Sett inn følgende kode rett under øverste klasse linje \\ " public class PDFTextParser \\" som ble opprettet for deg.
privat PDFParser parser = null
GO
//Utdrag tekst fra PDF-dokument
offentlig PDFTextParser ( String filnavn ) {
File fil = new File (filnavn )
; ( ! file.isFile ( ) ) GO
hvis {
System.err.println ( \\ "Fil \\ " + filnavn + \\ " . eksisterer ikke \\" )
GO
}
//Sett opp forekomst av PDF parser
try {
parser = ny PDFParser (new FileInputStream (fil ) )
GO
} catch ( IOException e ) {
System.err.println ( \\ "Kan ikke åpne PDF -parser . \\ " + e.getMessage ( ) )
GO
}
}
//--------------------- ----------
public String getParsedText ( ) {
PDDocument pdDoc = null
GO
COSDocument cosDoc = null; < br /> String parsedText = null;
GO
try {
PDFTextStripper pdfStripper = new PDFTextStripper ( )
GO < br /> parser.parse ( )
GO
cosDoc = parser.getDocument ( )
GO
pdDoc = new PDDocument ( cosDoc )
GO
//få liste over alle sider
liste list = pdDoc.getDocumentCatalog ( ) . getAllPages ( )
GO < br />
//oppmerksom på at du kan skrive ut noen sider du vil
//ved å velge forskjellige verdier av starten og slutten side
pdfStripper.setStartPage ( 1 ) //1 - baserte
int lengde = list.size (); //totalt antall sider
pdfStripper.setEndPage (lengde ), //siste side
//få teksten for sider som er valgt
parsedText = pdfStripper.getText ( pdDoc )
GO
} catch ( IOException e ) {
System.err
. println ( \\ " Et unntak oppstod i analyse av PDF-dokument . \\"
+ e.getMessage ( ) )
GO
;} finally {
try {
if ( ! cosDoc = null )
cosDoc.close ( )
GO
if ( pdDoc ! = null )
pdDoc.close ( )
GO
} catch ( IOException e ) {
e.printStackTrace ( )
GÅ
}
}
retur parsedText
GO
}
14 Kjør programmet . Høyreklikk på PDFTextParser klasse og klikk på \\ " Kjør som \\ " og deretter på \\ " Java -program . \\ " Programmet skal kjøre og skrive ut teksten innholdet i PDF-filen du skrev inn i koden.
Undertrykk Log4j Oppstart Feilmelding
15
Opprett en konfigurasjonsfil for å undertrykke Java logging system log4j feilmelding opprettet da den ikke finner en konfigurasjonsfil når den starter opp . Høyreklikk på \\ "src \\" mappen i PrintPDF prosjektet og velg \\ "Ny \\" og deretter \\ "Fil . \\ " Name filen \\ " log4j.properties \\" Eclipse vil vise en tom skjerm for denne nye filen.
16
lim inn følgende linjer i den tomme skjermen representerer \\ " log4j.properties \\ " filen .
; # Sett root logger nivå for å feilsøke og sin eneste Appender til A1
log4j.rootLogger = WARN , A1
# A1 er satt til å være en ConsoleAppender < . . br /> log4j.appender.A1 = org.apache.log4j.ConsoleAppender
# A1 bruker PatternLayout .
log4j.appender.A1.layout = org.apache . log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern =% - 4r [% t ] % - 5p % c% x - % m % n
17
Lagre \\ " log4j.properties \\ " filen . Tilstedeværelsen av denne filen på øverste nivå \\ "src \\" katalog vil undertrykke log4j oppstart meldingen og eventuelle trivielle logging meldinger. Den log4j Systemet vil skrive ut kun faktiske feil .