Скребок PDF с использованием R

Я успешно использовал пакет xml для извлечения HTML-таблиц, но хочу распространяться на PDF-файлы. Из предыдущих вопросов не представляется, что существует простое решение R, но задавались вопросом, были ли какие-либо недавние разработки

В противном случае, есть какой-то способ в Python (в котором я полный новичок), чтобы получить и манипулировать PDF-файлами, чтобы я мог закончить работу с R-пакета XML

10

4 ответы

Извлечение текста из PDF-файлов сложно, и почти всегда требуется большая осторожность.

Я бы начал с инструментов командной строки, таких как pdftotext, и посмотреть, что они выплюнули. Проблема в том, что PDF-файлы могут хранить текст в любом порядке, могут использовать неудобные кодировки шрифтов и могут делать такие вещи, как использовать символы лигатуры (объединенные «ff» и «ij», которые вы видите в правильной верстки), чтобы бросить вас.

pdftotext устанавливается на любой Linux-системе ...

10
добавлено
Хорошо pdftotext отлично работает в создании чистой текстовой страницы, но ее не в какой-либо форме, чтобы легко создавать то, что я хочу. В любом случае спасибо
добавлено автор pssguy, источник
добавлено автор pssguy, источник
Откомандирован. Выполнение этого в R не стоит усилий для разработки и поддержки, когда есть варианты, которые намного лучше поддерживаются за пределами R. Если вам нужно сделать много файлов, попробуйте использовать find утилита в Unix (или в коллекции GNU для Windows), либо можно отправить команды R в оболочку, зациклив на имена файлов ... Даже у Adobe был ужасный текстовый экстрактор в течение длительного времени (не уверен, что теперь это лучше) , в то время как у Xerox был хороший.
добавлено автор Iterator, источник
Можете ли вы указать нам на представительский файл PDF?
добавлено автор Spacedman, источник
Запуск pdftotext не является блестящим на этой странице, но сначала преобразование в ps или просто запуск ps2txt в PDF дает практически идеальный стол с некоторыми страницами/стопами для удаления.
добавлено автор Spacedman, источник
Мне тоже повезло с pdftotext на окнах
добавлено автор pguardiario, источник

Возможно, вы захотите проверить пакет интеллектуального анализа пакета tm . Я помню, что они реализовали так называемых читателей, а также для PDF-файлов.

5
добавлено
Благодарю. Я проверил документы. Использует pdftotext как-то
добавлено автор pssguy, источник

AFAIK нет простого способа превратить таблицы PDF во что-то полезное для анализа данных. Вы можете использовать утилиту Data Science Toolkit в текстовую утилиту (интерфейс R через RDSTK ), затем проанализируйте полученный текст. Будьте осторожны: разбор часто нетривиален.


EDIT: Существует полезное обсуждение конвертации PDF-файлов в xml на discerning.com . Короткий ответ заключается в том, что вам, вероятно, придется покупать коммерческий инструмент.

4
добавлено
+1 Спасибо за это. я проверил дискуссию и попробовал загрузить продукт ABBYY на пробную версию, но он не настроен должным образом. Думаю, я обречен
добавлено автор pssguy, источник

Сердце приложения tabula , которое может извлекать таблицы из документов PDF, доступно в виде простой командной строки Java-приложения, tabula-extractor .

Это Java-приложение было завернуто в R пакетом tabulizer . Передайте ему путь к файлу PDF, и он попытается извлечь таблицы данных для вас и вернуть их в виде данных.

Например, см. Когда документы становятся базами данных - Tabulizer R Wrapper для Tabula PDF Table Extractor .

1
добавлено
Python
Python
7 654 участник(ов)

Уютный чат для профессионалов, занимающихся поиском питоньих мудростей. Как не получить бан: https://t.me/ru_python/577926

Python beginners
Python beginners
4 449 участник(ов)

Вопросы про Python для чайников. Cпам и троллинг неприемлем. Не злоупотребляйте стикерами. Частозадаваемые вопросы: https://github.com/ru-python-beginners/faq/blob/master/README.md Статистика тут: https://grstats.me/chat/x4qym2k5uvfkr3al6at7

pro.python
pro.python
1 090 участник(ов)

Сообщество разработчиков под Python Создатель: @rodgelius

Rude Python
Rude Python
971 участник(ов)

Python без „девочек”, здесь матерятся и унижают Django. Not gay friendly. Правила: t.me/rudepython/114107 @rudepython | t.me/rudepython

rupython
rupython
509 участник(ов)

Группа создана с целью оперативного получения ответов на возникающие вопросы по разработке на яп python, смежные темы, а также человеческого общения. Приветствую!

Python-programming
Python-programming
266 участник(ов)

Чат группы вконтакте https://vk.com/python_community