Блок 2D GPU для 1D матрицы

Я новичок в программировании cuda. Я хочу добиться векторного добавления больших массивов. Размер массивов составляет 1 миллион. Поскольку я не могу создать 1 миллион 1d блоков. Я думал о создании 1000x1000 блоков с 1 потоком в каждом блоке.

соответствующий основной код

//Copy to GPU
printf( "GPU\n" );
cudaMemcpy( dev_src1, src1, size * sizeof(int), cudaMemcpyHostToDevice );
cudaMemcpy( dev_src2, src2, size * sizeof(int), cudaMemcpyHostToDevice );

//Exec kernel
int nBlocks = ceil(sqrt(size));
int nThreadsPerBlock = 1;
addVector<<>>(dev_src1, dev_src2, dev_dest, size );

//Copy results to CPU
cudaMemcpy( dest, dev_dest, size * sizeof(int), cudaMemcpyDeviceToHost );

Ядро GPU

__global__ void addVector( int * src1, int * src2, int * dest, int size )
{
    int tid = blockIdx.y*blockDim.x + blockIdx.x;
    if( tid

Однако после этого я не получаю правильных результатов. Что может быть моей ошибкой и как ее исправить?

Вот как выглядят мои результаты -

0: 0 + 0 = 0
1: 1 + 2 = 3
2: 2 + 4 = 6
3: 3 + 6 = 9
4: 4 + 8 = 12
5: 5 + 10 = 15
6: 6 + 12 = 18
7: 7 + 14 = 21
8: 8 + 16 = 24
9: 9 + 18 = 27
10: 10 + 20 = 266
11: 11 + 22 = 267
12: 12 + 24 = 268
13: 13 + 26 = 269
14: 14 + 28 = 270
15: 15 + 30 = 271
.
.

86: 86 + 172 = 342
87: 87 + 174 = 343
88: 88 + 176 = 344
89: 89 + 178 = 345
90: 90 + 180 = 346
91: 91 + 182 = 347
92: 92 + 184 = 348
93: 93 + 186 = 349
94: 94 + 188 = 350
95: 95 + 190 = 351
96: 96 + 192 = 352
97: 97 + 194 = 353
98: 98 + 196 = 354
99: 99 + 198 = 355
1
nl ja de
почему один поток на блок? Это отвлекает практически все вычислительные возможности вашего GPU.
добавлено автор talonmies, источник
Что эффективно и почему вы «не получаете правильных результатов» - это два отдельных вопроса. Возможно, сначала сосредоточьтесь на последнем. Можете ли вы изменить свой вопрос, чтобы объяснить, какие результаты вы получите, и включить проверку ошибок в свой код, чтобы убедиться, что ядро ​​фактически запущено?
добавлено автор talonmies, источник
Для проверки ошибок вы, вероятно, захотите прочитать этот вопрос и ответ .
добавлено автор talonmies, источник
хорошо, может быть, я плохой. пожалуйста, вы можете предложить лучшую конфигурацию в моем случае и добиться ее.
добавлено автор mkuse, источник
Я подтвердил, что ядро ​​работает. Я могу успешно запускать примеры cuda.
добавлено автор mkuse, источник

1 ответы

В текущем сценарии вы неправильно вычисляете tid .

Если в блоке есть 1 поток, то blockDim.x будет 1.

tid следует рассчитать как:

int tid = blockIdx.y * gridDim.x + blockIdx.x;

Однако я бы не рекомендовал создавать 1 поток на блок и создавать большое количество блоков. Это неэффективно, так как занятость ядра будет очень малой.

Рекомендуемый подход состоит в том, чтобы создать достаточно большой блок, например 128 или 256 потоков на блок, а затем создать сетку, достаточную для покрытия всех ваших данных.

Например:

int nThreadsPerBlock = 256;
int nBlocks = (size + nThreadsPerBlock - 1)/nThreadsPerBlock;

При таком подходе tid будет рассчитываться как:

int tid = blockIdx.x * blockDim.x + threadIdx.x;
3
добавлено
Лучшим вариантом является тщательное чтение книги CUDA В примере .
добавлено автор sgarizvi, источник
@mkuse ... Другим очень хорошим ресурсом является курс Курса онлайн Неоднородное параллельное программирование . Зарегистрируйте курс и загрузите лекционные слайды и видео-лекции. Этот курс чрезвычайно полезен.
добавлено автор sgarizvi, источник
да, я знаю, что 1 поток на блок - плохой выбор. Я пытаюсь получить доступ к использованию blockDim, threadIdx и т. Д. Можете ли вы также указать мне на ресурс, который дает ясное объяснение этому?
добавлено автор mkuse, источник
да, я читаю то же самое. Но ушел с дороги, чтобы исследовать вещи. В любом случае, спасибо за вашу помощь.
добавлено автор mkuse, источник
pro.cxx
pro.cxx
3 049 участник(ов)

C/C++ chat 0. Простые вопросы, лабы и о IDE — в чат новичков @supapro 1. Не хамим, не переходим на личности, не вбрасываем утверждения без доказательств 2. No Ads, offtop, flood Объявления о вакансиях и евенты - в лс @AlexFails https://t.me/ProCxx/259155

supapro.cxx
supapro.cxx
1 925 участник(ов)

Чат для тех, кто немного знает C++, простые вопросы по реализации, синтаксису и ide – сюда, а для другого есть: /Главный чат по серьезным вопросам — @ProCxx /Чат по обсуждению всего — @fludpac

C++ Russia
C++ Russia
384 участник(ов)

Сообщество разработчиков C++ в Telegram.

cxx.Дискуссионная
cxx.Дискуссионная
298 участник(ов)

это не двач, общайтесь вежливо; разговор на почти любые темы; Не согласны с баном? В лс @AlexFails, @ivario

C++ для маленьких и тупых
C++ для маленьких и тупых
105 участник(ов)

Лоу левел (по среднему IQ участников) чатик ExtremeCode @extremecode Флудилка @extremecode_rest