Java Utility для преобразования содержимого любого файла в текстовый файл.

Я ищу утилиту java, через которую пользователь может конвертировать любой тип файла (pdf, doc, docx, xls, xlsx, csv, rtf, txt). У нас есть требование, в котором пользователь может загружать файлы любого типа, и нам нужно прочитать содержимое файла (только текст), преобразовать его и сохранить в объекте. Это можно сделать с помощью Apachi poi, но мне интересно, существует ли какая-либо утилита java?

2
nl ja de
Каков ваш вопрос программирования? Такая утилита будет либо очень склонна к ошибкам (недостаточно конкретной), либо очень сложна для разработки (с учетом многих конкретных случаев) и, следовательно, запатентована (например, используется для поисковых систем).
добавлено автор ipavlic, источник
Для разбора PDF вы можете использовать PDFBox: pdfbox.apache.org
добавлено автор Christophe Roussy, источник
Кристоф, Так как javier дал ссылку для apache tikka и ее использование внутри PDFBox. Его не только о pdf, мне также нужно разбирать и другие форматы.
добавлено автор S Jagdeesh, источник

2 ответы

Вы можете быть заинтересованы в Apache Tika , который включает в себя функциональность Apache POI и PDFBox. Из описания проекта инструментарий: « обнаруживает и извлекает метаданные и структурированный текстовый контент из разных документов с использованием существующих библиотек-парсеров. "

4
добавлено
Спасибо, Хавьер, Apache Tika выглядит хорошо и выполняет мои требования.
добавлено автор S Jagdeesh, источник

Я думаю, вы не можете иметь какую-то универсальную функцию для каждого типа файлов. Вам нужно будет реализовать методы преобразования для каждого типа файла. Эта ссылка помогает с файлами PDF, а также даст вам шаблон для работайте с другими файлами.

0
добавлено
Спасибо Крису за комментарий, однако я лично никогда не рекомендовал бы кого-либо использовать roseindia.net. Поверьте мне, это худший сайт, чтобы что-то узнать.
добавлено автор S Jagdeesh, источник
pro.jvm
pro.jvm
3 503 участник(ов)

Сообщество разработчиков Java Scala Kotlin Groovy Clojure Чат для нач-их: @javastart Наш сайт: projvm.com projvm.ru Наш канал: @proJVM Вакансии: @jvmjobs Конфы: @jvmconf

Java & Co
Java & Co
2 370 участник(ов)

Можно обсуждать с матом и без всё, что касается жабы, вплоть до холиваров. НЕ ИМЕЕТ ОТНОШЕНИЯ К САЙТУ JAVARUSH.RU ПРАВИЛА - https://t.me/javarush/75723 Вакансии сюда - https://telegram.me/joinchat/B7IzvUCnfo6d8t3yIxKguQ По вопросам - @thedude

learn.java
learn.java
1 888 участник(ов)

Чат для начинающих и не только Статистика: https://combot.org/chat/-1001083535868 Основной чат - @jvmchat

Java Underground
Java Underground
169 участник(ов)

https://vk.com/javatutorial

Javanese Questions
Javanese Questions
109 участник(ов)

Чат предназначен для обмена знаниями строго в формате в вопрос-ответ. Тема — Java, Kotlin и Android. Вопрос должен быть предварительно прогуглен, понятно и грамотно сформулирован, помечен хэштегами. Ответ — тем более. Куски кода размером в несколько строк можно писать прямо здесь, для больших кусков кода стоит использовать http://gist.github.com/, http://pastebin.com/, https://codeshare.io/ или любой аналогичный сервис. В некоторых случаях можно прикреплять скриншоты. Стикеры и гифки запрещены. Дополнять и уточнять вопросы и ответы — редактированием исходного сообщения. Обсуждения должны приводить к редактированию вопроса/ответа и удаляться. По хештегам можно искать существующие вопросы и овтеты: #вопрос #ответ #git #generics #java #server #awt #javafx #swing #kotlin #anko #tornadofx #ktor #android #recyclerView #performance #arch #network #permissions #storage #async