Разбирайте разметку Википедии из файлов в каталоге

Я использовал инструмент ExtractWikipedia для lucene, чтобы извлечь дамп bz2 из последних англоязычных страниц вики. В результате в TXT-файлах все еще есть язык разметки wikipedia. Есть ли инструмент или скрипт python, который я могу запустить через каталог, чтобы анализировать содержимое только из каждого файла в каталоге? (т. е. изменить файлы, чтобы они содержали только контент, без разметки)

Кроме того, есть ли библиотека java или пакет, который может это сделать? Я надеюсь интегрировать его в класс Lucene, ExtractWikipedia.

0

1 ответы

вы можете попробовать это wikiprep, это готовый скрипт perl, который (сначала вам нужно установить perl)

  • удаляет язык wikimarkup
  • генерировать иерархические категории
  • удаляет перенаправления
  • генерирует XML-формат, который легко анализировать

http://www.cs.technion.ac.il/~ Gabr/ресурсы/код/​​wikiprep/

это может занять несколько часов, чтобы пробежать по всему wikipedia dumb и может потребоваться большая память около 6 ГБ памяти

0
добавлено
pro.jvm
pro.jvm
3 503 участник(ов)

Сообщество разработчиков Java Scala Kotlin Groovy Clojure Чат для нач-их: @javastart Наш сайт: projvm.com projvm.ru Наш канал: @proJVM Вакансии: @jvmjobs Конфы: @jvmconf

Java & Co
Java & Co
2 370 участник(ов)

Можно обсуждать с матом и без всё, что касается жабы, вплоть до холиваров. НЕ ИМЕЕТ ОТНОШЕНИЯ К САЙТУ JAVARUSH.RU ПРАВИЛА - https://t.me/javarush/75723 Вакансии сюда - https://telegram.me/joinchat/B7IzvUCnfo6d8t3yIxKguQ По вопросам - @thedude

learn.java
learn.java
1 888 участник(ов)

Чат для начинающих и не только Статистика: https://combot.org/chat/-1001083535868 Основной чат - @jvmchat

Java Underground
Java Underground
169 участник(ов)

https://vk.com/javatutorial

Javanese Questions
Javanese Questions
109 участник(ов)

Чат предназначен для обмена знаниями строго в формате в вопрос-ответ. Тема — Java, Kotlin и Android. Вопрос должен быть предварительно прогуглен, понятно и грамотно сформулирован, помечен хэштегами. Ответ — тем более. Куски кода размером в несколько строк можно писать прямо здесь, для больших кусков кода стоит использовать http://gist.github.com/, http://pastebin.com/, https://codeshare.io/ или любой аналогичный сервис. В некоторых случаях можно прикреплять скриншоты. Стикеры и гифки запрещены. Дополнять и уточнять вопросы и ответы — редактированием исходного сообщения. Обсуждения должны приводить к редактированию вопроса/ответа и удаляться. По хештегам можно искать существующие вопросы и овтеты: #вопрос #ответ #git #generics #java #server #awt #javafx #swing #kotlin #anko #tornadofx #ktor #android #recyclerView #performance #arch #network #permissions #storage #async