Jak wyodrębnić tekst z dokumentu PDF

Wyodrębnij tekst za pomocą Acrobat Reader

Krok 1

Otwórz plik w programie Acrobat Reader. W systemie Windows wybierz „Plik -> Eksportuj dokument tekstowy”, nazwij dokument i zapisz go.

Krok 2

W systemie operacyjnym Mac lub Linux skopiuj tekst, wchodząc do menu „Widok” i wybierz „Ciągłe” lub „Ciągłe orientowanie”. (Pierwsza opcja zapewni tekst w kolumnie, a druga będzie sformatowana jako strony obok siebie). Przejdź do „Edytuj -> Wybierz wszystko”, a następnie „Edytuj -> Kopiuj”.

Krok 3

Użyj narzędzia Wybierz, jeśli chcesz tylko wyodrębnić część tekstu. Kliknij narzędzie „Wybierz tekst”, a następnie wybierz żądane informacje. W dokumencie w formacie wielu kolumn będziesz musiał użyć pierwszego narzędzia „Wybór kolumny”. Przejdź do „Edytuj -> Kopiuj”

Konwertuj pliki PDF na HTML

Krok 1

Użyj Gmaila jako skrótu. Załącz plik PDF do wiadomości e-mail i wyślij go na konto Gmail. Po otwarciu wiadomości e-mail zobaczysz szereg opcji obok załączonego pliku. Wybierz opcję „Wyświetl jako HTML” i zapisz plik, który otwiera się w osobnym oknie. Chociaż nie będzie można zobaczyć grafiki, plik HTML zachowuje format dokumentu tekstowego.

Krok 2

Wyodrębnij i przekonwertuj pliki w wierszu polecenia. Użytkownicy systemu Linux mogą użyć podstawowego polecenia konwersji, które zmieni plik pdf na plik txt: „Pdftotext filename.pdf”. Zmień nazwę pliku na nazwę pliku PDF.

Krok 3

Pobierz program do konwersji tekstu PDF. Dostępnych jest wiele programów typu open source i darmowych, takich jak PDFBox i Easy PDF to Text Converter. Wiele z tych programów może również konwertować pliki PDF na HTML.

Ciekawe Artykuły