Извлеките важные признаки в Weka

Это - скорее вопрос о новичке, поэтому, пожалуйста, возьмите его с зерном соли.

Я новый в области анализа данных и пытающийся обернуть мою голову вокруг этой темы. Прямо сейчас я пытаюсь полировать свою существующую модель так, чтобы она классифицировала случаи лучше. Проблема, что у моей модели есть приблизительно 480 признаков. Я знаю наверняка, что не все они релевантны, но это трудно для меня, указывают, которые действительно важны.

The question is: having valid training and test sets, does one can use some sort of data mining algorithm which would throw away attributes that seem to not have any impact on the quality of classification?

Я использую Weka.

3
nl ja de
Это было бы хорошо, но I' ve узнал, что моя проблема была решена, используя R и пакет знака вставки. Но начиная с I' m изучение, которое обмануло бы:-P
добавлено автор ŁukaszBachman, источник
@java_fox, вы могли преобразовать свой комментарий в ответ? Я приму его, поскольку это - то, что я искал.
добавлено автор ŁukaszBachman, источник
Можно попробовать случайный лес ограничением количества признаков или PCA, но я рекомендовал бы использовать пакет знака вставки и R
добавлено автор java_xof, источник
Что я имею в виду "использование случайный лес" - я имею в виду случайный лес в weka - если Вы используете weka 3.6.6 - избранного исследователя модуля->, чем идут во вкладку "Select attributes" и выбирают "Оценщика признака" и "Метод поиска", можно также выбрать между использованием полного набора данных или наборов условной цены, поскольку больше деталей видит forums.pentaho.com/… или weka.wikispaces.com/Performing+attribute+selection
добавлено автор java_xof, источник

4 ответы

Необходимо проверить использование части Классификатора алгоритмы, которые имеет Weka .

Основная идея состоит в том, чтобы использовать <сильную> Перекрестную проверку выбор, таким образом, вы видите, какой алгоритм приводит вам лучшие Правильно Классифицированные Примеры стоимость.

Я могу дать вам пример одного из моего набора данных обучения, используя <сильную> Перекрестную проверку выбор и выбрав Сгибы 10.

Как вы видите, используя J48 классификатор, я буду иметь:

Correctly Classified Instances        4310               83.2207 %
Incorrectly Classified Instances       869               16.7793 %

и если я буду использовать, например, NaiveBayes Алгоритм, я буду иметь:

Correctly Classified Instances        1996               38.5403 %
Incorrectly Classified Instances      3183               61.4597 %

и так далее ценности отличаются в зависимости от алгоритма.

Так, тест как можно больше алгоритмов и видит, какой приводит вам лучшие Правильно Классифицированные Примеры/потребляемое Время.

1
добавлено
Вещь состоит в том, что я выполнил классификацию на своем наборе данных обучения с различными алгоритмами и некоторым даже 100%-м показателем успешности, к которому приводят. Однако я смог достигнуть только приблизительно 55% на наборе данных тестирования. Это принудило меня думать, что, возможно, некоторые признаки ничего не приносят к решению. Но я всегда использовал выбор "Набора данных обучения" на счете классификации, не "Перекрестную проверку". Вы говорите, что Перекрестная проверка могла выручить, достигают лучших результатов?
добавлено автор ŁukaszBachman, источник
Перекрестная проверка используется, чтобы видеть, как точно ваша прогнозирующая модель. В небольшом количестве перекрестная проверка слов берет 9 частей вас учебный тест и использует другую часть в качестве набора тестов, и таким образом, это может проверить, как хороший ваша модель может предсказать, используя только состав. Я предполагаю, что вы получили 100%-й показатель успешности, когда вы использовали те же самые данные для набора данных обучения и для набора тестов.
добавлено автор Mihai M., источник
Следует иметь в виду, что почти невозможно предсказать с 100%-й точностью, когда ваш набор данных обучения отличается от набора тестирования.
добавлено автор Mihai M., источник

Comment converted to answer as OP suggested: If You use weka 3.6.6 - select module explorer -> than go to tab "Select attributes" and choose "Attribute evaluator" and "Search method", you can also choose between using full data set or cv sets, for more details see e.g. http://forums.pentaho.com/showthread.php?68687-Selecting-Attributes-with-Weka or http://weka.wikispaces.com/Performing+attribute+selection

0
добавлено
Спасибо, "Выбирает Признаки", был выбор, который я искал.
добавлено автор ŁukaszBachman, источник
You' приветствие ре!
добавлено автор java_xof, источник

Изучите класс InfoGainAttributeEval. buildEvaluator() и evaluateAttribute (международный индекс) функции должен помочь.

0
добавлено

Читайте по теме группирующихся алгоритмов (только на вашем наборе данных обучения, хотя!)

0
добавлено
pro.jvm
pro.jvm
3 503 участник(ов)

Сообщество разработчиков Java Scala Kotlin Groovy Clojure Чат для нач-их: @javastart Наш сайт: projvm.com projvm.ru Наш канал: @proJVM Вакансии: @jvmjobs Конфы: @jvmconf

Java & Co
Java & Co
2 370 участник(ов)

Можно обсуждать с матом и без всё, что касается жабы, вплоть до холиваров. НЕ ИМЕЕТ ОТНОШЕНИЯ К САЙТУ JAVARUSH.RU ПРАВИЛА - https://t.me/javarush/75723 Вакансии сюда - https://telegram.me/joinchat/B7IzvUCnfo6d8t3yIxKguQ По вопросам - @thedude

learn.java
learn.java
1 888 участник(ов)

Чат для начинающих и не только Статистика: https://combot.org/chat/-1001083535868 Основной чат - @jvmchat

Java Underground
Java Underground
169 участник(ов)

https://vk.com/javatutorial

Javanese Questions
Javanese Questions
109 участник(ов)

Чат предназначен для обмена знаниями строго в формате в вопрос-ответ. Тема — Java, Kotlin и Android. Вопрос должен быть предварительно прогуглен, понятно и грамотно сформулирован, помечен хэштегами. Ответ — тем более. Куски кода размером в несколько строк можно писать прямо здесь, для больших кусков кода стоит использовать http://gist.github.com/, http://pastebin.com/, https://codeshare.io/ или любой аналогичный сервис. В некоторых случаях можно прикреплять скриншоты. Стикеры и гифки запрещены. Дополнять и уточнять вопросы и ответы — редактированием исходного сообщения. Обсуждения должны приводить к редактированию вопроса/ответа и удаляться. По хештегам можно искать существующие вопросы и овтеты: #вопрос #ответ #git #generics #java #server #awt #javafx #swing #kotlin #anko #tornadofx #ktor #android #recyclerView #performance #arch #network #permissions #storage #async