Как добавить вторичный индекс для 0.92.1-cdh4.1.2 HBase?

Я вставил приблизительно 15 миллионов рядов и 32 колонки в hbase столе через MapReduce.

# Key-valued data e.g.
company= ibm ! employee= sw ...

# In hbase it's look like
row =1 column = f1: company time stamp=1123344456 value =ibm ....

И в то время как я запустил вопрос

(scan 'sample_names', {COLUMNS=>"f1:company", FILTER=>SingleColumnValueFilter.new(Bytes.toBytes('f1'), Bytes.toBytes('company'), CompareFilter::CompareOp.valueOf('EQUAL'), SubstringComparator.new("ibm")) })

потребовались о 360.09 секунды, чтобы принести данные. там способ улучшить исполнение этого вопроса? мы можем уменьшить это время выполнения запроса вторичной индексацией? Если да, пожалуйста, предложите, как добавить индексацию для конкретного определителя колонки.

1
nl ja de
Что ваш hbase ключевой? можно сделать название компании как часть ключа и затем отфильтровать на основе самого ключа.
добавлено автор Ravi Bhatt, источник
Насколько я знаю, hbase не поддерживает вторичные индексы. Вы можете ключ, который является комбинацией значений столбцов, таких как id_companyName, и можно отфильтровать отчеты на основе части того ключа. Можно использовать регулярные выражения также.
добавлено автор Ravi Bhatt, источник
привет Рави Бхатт спасибо за ваш быстрый ответ:). мой hbase ключ ряда - "ID РЯДА" fetech от входного файла и сохраненный в hbase столе, каждый Unqique "ROWID" содержит 32 ключа колонки. И я просмотрел для значения ключа колонки, говорят "Компанию = IBM". но потребовалось вполне время, чтобы принести данные, поэтому чему я верю, то, если мы используем вторичную индексацию для той колонки компании тогда, мы можем получить хорошую производительность запросов. пожалуйста, предложите меня, если неправильное в способе функциональности.
добавлено автор MapReddy, источник
можно ли, пожалуйста, предложить меня в написании регулярного выражения для производительности оптимизации вопроса hbase? что было бы лучшим временем выполнения запроса для 5 миллионов отчетов в hbase, как то, когда я управлял единственным вопросом фильтра columnvalue для evendate = 01/5/2010, это дало о ** 36 отчетов из 5 миллионов отчетов, и взятый 154.09 секунды **, поэтому, пожалуйста, предложите, чтобы я улучшил производительность запросов:):)
добавлено автор MapReddy, источник
Эй можно ли, Пожалуйста, изучить эту проблему однажды?->stackoverflow.com/questions/14344220/… [связь] (stackoverflow.com/questions/14344220/…)
добавлено автор MapReddy, источник