понимание оценки apache solr для не математического фона

I was learning apache solr scoring methods here. Here is said that you should go to this page to understand the scoring formula. As I am not from maths background it is really hard for me to understand high level math. Is there any alternative to understand the basic scoring formula in easy manner?

1

1 ответы

Lucene использует количество функций для оценки документов, но в основном оценка зависит от сходства между документом и вашим запросом. Я объяснил идею подсчет сходства между документами ранее более или менее простыми словами, поэтому позвольте мне объяснить это здесь только кратко.

Если у вас есть словарь всех слов, вы можете организовать их в длинный список. Математики используются для использования термина «вектор» для любых последовательностей, включая списки слов, поэтому назовем его вектором слов:

[abbat, about, bananas, ...]

Мы можем выразить каждый документ в нашей коллекции также как вектор, где каждый элемент обозначает количество вхождений соответствующего слова в этом документе. Например, если в документе есть 1 вхождение слова «бананы», 2 вхождения «около» и отсутствие вхождений «аббат», тогда вектор документа начнется следующим образом:

[0, 2, 1, ...]

Сейчас самая интересная часть. Мы можем предположить, что если в двух документах есть много общих слов, они касаются похожих тем, и если у них очень мало общего, то эти документы очень разные. Поскольку мы уже знаем, что документы могут быть представлены в виде векторов слов, мы можем рассчитать сходство документов как подобие их векторов.

Существует много способов рассчитать, насколько похожи 2 вектора. Lucene использует довольно простое косинусное расстояние. Идея исходит из геометрического представления векторов и угла между ними - если вы нарисуете 2 вектора в 2D-пространстве, вы увидите, что чем больше сходны координаты этих векторов, тем меньше угол между ними. Здесь происходит расстояние от косинуса, но на самом деле вам нужно только заботиться о количестве одинаковых слов в двух документах.

При задании запросов на поисковые системы запросы обрабатываются так же, как и документы: для них создается вектор документов, а затем используется для поиска наиболее похожих (то есть релевантных) документов из коллекции.

1
добавлено