разобрать pdf с url на java. Могу ли я использовать jsoup?

У меня есть URL: http://pasca. undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500 (он напрямую не связан с PDF, а направляется в файл pdf. Я хочу разобрать этот pdf-файл и получить pdf-текст. i попробуйте использовать jsoup: `

String url = "http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_ep/article/download/380/172";
File in = new File(url);
Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());`

выход:

java.io.FileNotFoundException: http:\pasca.undiksha.ac.id\e-journal\index.php\jurnal_ep\article\download\380\172 (The filename, directory name, or volume label syntax is incorrect)
        at java.io.FileInputStream.open(Native Method)
        at java.io.FileInputStream.(FileInputStream.java:138)
        at org.jsoup.helper.DataUtil.load(DataUtil.java:36)
        at org.jsoup.Jsoup.parse(Jsoup.java:103)

У кого-нибудь есть идея?

1
nl ja de

2 ответы

Используйте URLConnection для подключения pdf читать содержимое, используя:

URL url = 
new URL( "http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500" );

URLConnection connection = url.openConnection();

input = connection.getInputStream();

Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());
3
добавлено
JSOUP можно использовать для этой цели .... stackoverflow.com/questions/22708911/…
добавлено автор Amalgovinus, источник
Jsoup.parse для типа inputStream, ему нужны три параметра. parse (InputStream in, String charsetName, String baseUri)
добавлено автор Haimei, источник

вы не можете использовать File с URL-адресом, отличным от file://, конечно, это будет ошибка. используйте commons-http-client для доступа к вашему файлу в Интернете.

0
добавлено
pro.jvm
pro.jvm
3 503 участник(ов)

Сообщество разработчиков Java Scala Kotlin Groovy Clojure Чат для нач-их: @javastart Наш сайт: projvm.com projvm.ru Наш канал: @proJVM Вакансии: @jvmjobs Конфы: @jvmconf

Java & Co
Java & Co
2 370 участник(ов)

Можно обсуждать с матом и без всё, что касается жабы, вплоть до холиваров. НЕ ИМЕЕТ ОТНОШЕНИЯ К САЙТУ JAVARUSH.RU ПРАВИЛА - https://t.me/javarush/75723 Вакансии сюда - https://telegram.me/joinchat/B7IzvUCnfo6d8t3yIxKguQ По вопросам - @thedude

learn.java
learn.java
1 888 участник(ов)

Чат для начинающих и не только Статистика: https://combot.org/chat/-1001083535868 Основной чат - @jvmchat

Java Underground
Java Underground
169 участник(ов)

https://vk.com/javatutorial

Javanese Questions
Javanese Questions
109 участник(ов)

Чат предназначен для обмена знаниями строго в формате в вопрос-ответ. Тема — Java, Kotlin и Android. Вопрос должен быть предварительно прогуглен, понятно и грамотно сформулирован, помечен хэштегами. Ответ — тем более. Куски кода размером в несколько строк можно писать прямо здесь, для больших кусков кода стоит использовать http://gist.github.com/, http://pastebin.com/, https://codeshare.io/ или любой аналогичный сервис. В некоторых случаях можно прикреплять скриншоты. Стикеры и гифки запрещены. Дополнять и уточнять вопросы и ответы — редактированием исходного сообщения. Обсуждения должны приводить к редактированию вопроса/ответа и удаляться. По хештегам можно искать существующие вопросы и овтеты: #вопрос #ответ #git #generics #java #server #awt #javafx #swing #kotlin #anko #tornadofx #ktor #android #recyclerView #performance #arch #network #permissions #storage #async