Hvordan Index & Søk en PDF i Java med Lucene

Apache Lucene er en fullverdig tekst søkemotor bibliotek skrevet i Java. Du kan bruke Lucene å indeksere og søke noen form for tekstdokument. Å konvertere en Portable Document Format (PDF -fil) til et tekstformat som Lucene kan indeks, kan du bruke PDFBox åpen kildekode klasse som har spesielle metoder spesielt for Lucene . Bare gi den PDF -filen navn til PDFBox og få en Lucene Document objekt som kan legges til i indeksen og søkte akkurat som hvilken som helst tekstfil . Instruksjoner
en

Velg et Lucene analysator å bruke i å skape indeksen, for eksempel " StandardAnalyzer . " Lag en " IndexWriter " objekt for å håndtere legge til nye elementer i indeksen, for eksempel : en

IndexWriter myWriter = ny IndexWriter ( "indeks" , ny StandardAnalyzer ( ) , true);
2 < p> Ring " LucenePDFDocument " for å få en Lucene Document objekt av PDF-filen . Legg til andre viktige felt til objektet og legge objektet til Lucene indeksen. For eksempel : en

Document pdfDoc = LucenePDFDocument.getDoument (filename ) ;

pdfDoc.add ( ny Field ( "title" , pdf.getTitle ( ) , Field.Store.YES , Felt . Index.TOKENIZED ));

pdfDoc.add ( ny Field ( "forfatter " , pdf.getAuthor ( ) , Field.Store.YES , Field.Index.TOKENIZED ));

myWriter . addDocument ( pdfDoc ) ;
3

Bruk " SearchEngine " class å søke på Lucene indeksen. " SearchEngine " returnerer en Lucene " Treff " objekt med en liste over " Hit " objekter . For eksempel : en

SearchEngine Mysearch = new SearchEngine ();

Treff myHits = mySearch.performSearch ( searchtext ) ;

System.out.println ( " Dokumenter matchet : " + myHits.length ( ));
4

Iterate gjennom " Hit " objekter for å få mer informasjon om hver kamp . "Hit " objekter er sortert etter relevans til søket , og du kan også få den relative søk stillingen " getScore ( ) . " For eksempel : en

iterator itr = myHits.iterator ();

while ( itr.hasNext ( ) ) {

Hit theHit = itr.next ( ) ;

Document theDoc = theHit.getDocument ();

System.out.println ( theDoc.get ( "title" ) + "-" + theHit.getScore ( ) );

}

früher ： Hvordan finne ord som ikke finnes i PDF- dokumenter med Adobe Professional

Weiter： Hvordan fikse en skadet PDF -fil

Relatert Artike

·	Hvordan endre visningen i en PDF ( Acrobat) Document
·	Hvordan lage en utfyllbare PDF File Form
·	Hvordan Pass på at du har innebygde skrifter i en PDF …
·	Hvordan Meld på en PDF -fil
·	Slik konverterer et MS Word-dokument til PDF
·	Slik konverterer Word-dokumenter til PDF Med Google Dok…
·	Hvordan klippe og lime fra PDF
·	Slik importerer PDF-filer til Word
·	Slik bruker du en PDF Som Presentasjon
·	Hvordan Lagre en PDF som JPG på en Mac

Anbefalte artikler

·	Hvordan koble produktet ID Med Thickbox
·	Hvordan få en Auto -Tune Effect i AVS Audio Editor
·	Hvordan lage et bilde Graffiti - Som i Photoshop
·	Hvordan redigere en MP3 Før Burning
·	Hvordan kombinere fem uavhengige variabler for å kjør…
·	Hvordan Design din egen plakat på A4 Paper
·	Hvordan endre en WMA til MP3 på en Mac
·	Hvordan til Bend Lines i Gimp
·	Slik konverterer mkv til AVI og DVD
·	Hvordan sette opp en partisjon for OS & Then Media