Hoe Tesseract OCR in Java te gebruiken

Video: How to use Tesseract OCR with Java? | Extract text from image

Inhoud

routebeschrijving

Tesseract optische karakterherkenningsbibliotheken bieden ontwikkelaars een manier om documenten en tekst in een afbeelding te scannen. Ze worden gebruikt om afbeeldingen op te slaan van documenten die u niet meer nodig hebt op papier. U kunt ze in Java gebruiken door besturingslussen voor elk teken te maken en elk bestand naar een bestand te schrijven. Om de Tesseract-bibliotheken te gebruiken, moet u de Java "namespace" opnemen voor de OCR-functies.

routebeschrijving

Met Tesseract-bibliotheken kunnen gebruikers hun documenten scannen (John Foxx / Stockbyte / Getty Images)

Klik met de rechtermuisknop op het Java-bestand dat u wilt gebruiken om het OCR-document te maken. Klik op "Openen met" en selecteer de gewenste Java-editor.
Voeg de naamruimte van de OCR-bibliotheek toe aan de bovenkant van het bestand. Kopieer en plak de volgende code in uw bronbestand:

com.tplan.robot.imagecomparison.tesseractocr
Maak de code die verantwoordelijk is voor het scannen van tekens voor een bestand. De volgende code maakt bijvoorbeeld lussen door elk teken in een bestand en schrijft ze naar een afbeeldingsbestand:

(I = 1; {i} <{lines} +1; i = {i}) is een reeks waarden die zijn gedefinieerd als: +1) {Typeline "{_TOCR_LINE {i}}"}
Klik op de knop "Opslaan" van de editor en klik op "Uitvoeren" om de code in een Java-compiler uit te voeren.