色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何有效地從內(nèi)核中訪問設(shè)備的全局內(nèi)存

星星科技指導員 ? 來源:NVIDIA ? 作者:Mark Harris ? 2022-04-11 10:07 ? 次閱讀

在前面的兩文章中,我們研究了如何在主機和設(shè)備之間高效地移動數(shù)據(jù)。在我們的 CUDA C / C ++系列的第六篇文章中,我們將討論如何有效地從內(nèi)核中訪問設(shè)備存儲器,特別是全局內(nèi)存

在 CUDA 設(shè)備上有幾種內(nèi)存,每種內(nèi)存的作用域、生存期和緩存行為都不同。到目前為止,在本系列中,我們已經(jīng)使用了駐留在設(shè)備 DRAM 中的全局內(nèi)存,用于主機和設(shè)備之間的傳輸,以及內(nèi)核的數(shù)據(jù)輸入和輸出。這里的名稱global是指作用域,因為它可以從主機和設(shè)備訪問和修改。全局內(nèi)存可以像下面代碼片段的第一行那樣使用__device__de Clara 說明符在全局(變量)范圍內(nèi)聲明,或者使用cudaMalloc()動態(tài)分配并分配給一個常規(guī)的 C 指針變量,如第 7 行所示。全局內(nèi)存分配可以在應(yīng)用程序的生命周期內(nèi)保持。根據(jù)設(shè)備的計算能力,全局內(nèi)存可能被緩存在芯片上,也可能不在芯片上緩存。

__device__ int globalArray[256];

void foo()
{
    ...
    int *myDeviceMemory = 0;
    cudaError_t result = cudaMalloc(&myDeviceMemory, 256 * sizeof(int));
    ...

}在討論全局內(nèi)存訪問性能之前,我們需要改進對 CUDA 執(zhí)行模型的理解。我們已經(jīng)討論了如何將線程被分組為線程塊分配給設(shè)備上的多處理器。在執(zhí)行過程中,有一個更精細的線程分組到warpsGPU 上的多處理器以 SIMD (單指令多數(shù)據(jù))方式為每個扭曲執(zhí)行指令。所有當前支持 CUDA – 的 GPUs 的翹曲尺寸(實際上是 SIMD 寬度)是 32 個線程。

全局內(nèi)存合并

將線程分組為扭曲不僅與計算有關(guān),而且與全局內(nèi)存訪問有關(guān)。設(shè)備coalesces全局內(nèi)存加載并存儲由一個 warp 線程發(fā)出的盡可能少的事務(wù),以最小化 DRAM 帶寬(在計算能力小于 2 . 0 的舊硬件上,事務(wù)合并在 16 個線程的一半扭曲內(nèi),而不是整個扭曲中)。為了弄清楚 CUDA 設(shè)備架構(gòu)中發(fā)生聚結(jié)的條件,我們在三個 Tesla 卡上進行了一些簡單的實驗: a Tesla C870 (計算能力 1 . 0 )、 Tesla C1060 (計算能力 1 . 3 )和 Tesla C2050 (計算能力 2 . 0 )。

我們運行兩個實驗,使用如下代碼(GitHub 上也有)中所示的增量內(nèi)核的變體,一個具有數(shù)組偏移量,這可能導致對輸入數(shù)組的未對齊訪問,另一個是對輸入數(shù)組的跨步訪問。

#include
#include

// Convenience function for checking CUDA runtime API results
// can be wrapped around any runtime API call. No-op in release builds.
inline
cudaError_t checkCuda(cudaError_t result)
{
#if defined(DEBUG) || defined(_DEBUG)
  if (result != cudaSuccess) {
    fprintf(stderr, "CUDA Runtime Error: %sn", cudaGetErrorString(result));
    assert(result == cudaSuccess);
  }
#endif
  return result;
}

template
__global__ void offset(T* a, int s)
{
  int i = blockDim.x * blockIdx.x + threadIdx.x + s;
  a[i] = a[i] + 1;
}

template
__global__ void stride(T* a, int s)
{
  int i = (blockDim.x * blockIdx.x + threadIdx.x) * s;
  a[i] = a[i] + 1;
}

template
void runTest(int deviceId, int nMB)
{
  int blockSize = 256;
  float ms;

  T *d_a;
  cudaEvent_t startEvent, stopEvent;

  int n = nMB*1024*1024/sizeof(T);

  // NB:  d_a(33*nMB) for stride case
  checkCuda( cudaMalloc(&d_a, n * 33 * sizeof(T)) );

  checkCuda( cudaEventCreate(&startEvent) );
  checkCuda( cudaEventCreate(&stopEvent) );

  printf("Offset, Bandwidth (GB/s):n");

  offset<<>>(d_a, 0); // warm up

  for (int i = 0; i <= 32; i++) {
    checkCuda( cudaMemset(d_a, 0.0, n * sizeof(T)) );

    checkCuda( cudaEventRecord(startEvent,0) );
    offset<<>>(d_a, i);
    checkCuda( cudaEventRecord(stopEvent,0) );
    checkCuda( cudaEventSynchronize(stopEvent) );

    checkCuda( cudaEventElapsedTime(&ms, startEvent, stopEvent) );
    printf("%d, %fn", i, 2*nMB/ms);
  }

  printf("n");
  printf("Stride, Bandwidth (GB/s):n");

  stride<<>>(d_a, 1); // warm up
  for (int i = 1; i <= 32; i++) {
    checkCuda( cudaMemset(d_a, 0.0, n * sizeof(T)) );

    checkCuda( cudaEventRecord(startEvent,0) );
    stride<<>>(d_a, i);
    checkCuda( cudaEventRecord(stopEvent,0) );
    checkCuda( cudaEventSynchronize(stopEvent) );

    checkCuda( cudaEventElapsedTime(&ms, startEvent, stopEvent) );
    printf("%d, %fn", i, 2*nMB/ms);
  }

  checkCuda( cudaEventDestroy(startEvent) );
  checkCuda( cudaEventDestroy(stopEvent) );
  cudaFree(d_a);
}

int main(int argc, char **argv)
{
  int nMB = 4;
  int deviceId = 0;
  bool bFp64 = false;

  for (int i = 1; i < argc; i++) {
    if (!strncmp(argv[i], "dev=", 4))
      deviceId = atoi((char*)(&argv[i][4]));
    else if (!strcmp(argv[i], "fp64"))
      bFp64 = true;
  }

  cudaDeviceProp prop;

  checkCuda( cudaSetDevice(deviceId) )
  ;
  checkCuda( cudaGetDeviceProperties(&prop, deviceId) );
  printf("Device: %sn", prop.name);
  printf("Transfer size (MB): %dn", nMB);

  printf("%s Precisionn", bFp64 ? "Double" : "Single");

  if (bFp64) runTest(deviceId, nMB);
  else       runTest(deviceId, nMB);?

}此代碼可以通過傳遞“ fp64 ”命令行選項以單精度(默認值)或雙精度運行偏移量內(nèi)核和跨步內(nèi)核。每個內(nèi)核接受兩個參數(shù),一個輸入數(shù)組和一個表示訪問數(shù)組元素的偏移量或步長的整數(shù)。內(nèi)核在一系列偏移和跨距的循環(huán)中被稱為。

未對齊的數(shù)據(jù)訪問

下圖顯示了 Tesla C870 、 C1060 和 C2050 上的偏移內(nèi)核的結(jié)果。

設(shè)備內(nèi)存中分配的數(shù)組由 CUDA 驅(qū)動程序與 256 字節(jié)內(nèi)存段對齊。該設(shè)備可以通過 32 字節(jié)、 64 字節(jié)或 128 字節(jié)的事務(wù)來訪問全局內(nèi)存。對于 C870 或計算能力為 1 . 0 的任何其他設(shè)備,半線程的任何未對齊訪問(或半扭曲線程不按順序訪問內(nèi)存的對齊訪問)將導致 16 個獨立的 32 字節(jié)事務(wù)。由于每個 32 字節(jié)事務(wù)只請求 4 個字節(jié),因此可以預(yù)期有效帶寬將減少 8 倍,這與上圖(棕色線)中看到的偏移量(不是 16 個元素的倍數(shù))大致相同,對應(yīng)于線程的一半扭曲。

對于計算能力為 1 . 2 或 1 . 3 的 Tesla C1060 或其他設(shè)備,未對準訪問的問題較少。基本上,通過半個線程對連續(xù)數(shù)據(jù)的未對齊訪問在幾個“覆蓋”請求的數(shù)據(jù)的事務(wù)中提供服務(wù)。由于未請求的數(shù)據(jù)正在傳輸,以及不同的半翹曲所請求的數(shù)據(jù)有些重疊,因此相對于對齊的情況仍然存在性能損失,但是這種損失遠遠小于 C870 。

計算能力為 2 . 0 的設(shè)備,如 Tesla C250 ,在每個多處理器中都有一個 L1 緩存,其行大小為 128 字節(jié)。該設(shè)備將線程的訪問合并到盡可能少的緩存線中,從而導致對齊對跨線程順序內(nèi)存訪問吞吐量的影響可以忽略不計。

快速內(nèi)存訪問

步幅內(nèi)核的結(jié)果如下圖所示。

對于快速的全局內(nèi)存訪問,我們有不同的看法。對于大步進,無論架構(gòu)版本如何,有效帶寬都很差。這并不奇怪:當并發(fā)線程同時訪問物理內(nèi)存中相距很遠的內(nèi)存地址時,硬件就沒有機會合并這些訪問。從上圖中可以看出,在 Tesla C870 上,除 1 以外的任何步幅都會導致有效帶寬大幅降低。這是因為 compute capability 1 . 0 和 1 . 1 硬件需要跨線程進行線性、對齊的訪問以進行合并,因此我們在 offset 內(nèi)核中看到了熟悉的 1 / 8 帶寬。 Compute capability 1 . 2 及更高版本的硬件可以將訪問合并為對齊的段( CC 1 . 2 / 1 . 3 上為 32 、 64 或 128 字節(jié)段,在 CC 2 . 0 及更高版本上為 128 字節(jié)緩存線),因此該硬件可以產(chǎn)生平滑的帶寬曲線。

當訪問多維數(shù)組時,線程通常需要索引數(shù)組的更高維,因此快速訪問是不可避免的。我們可以使用一種名為共享內(nèi)存的 CUDA 內(nèi)存來處理這些情況。共享內(nèi)存是一個線程塊中所有線程共享的片上內(nèi)存。共享內(nèi)存的一個用途是將多維數(shù)組的 2D 塊以合并的方式從全局內(nèi)存提取到共享內(nèi)存中,然后讓連續(xù)的線程跨過共享內(nèi)存塊。與全局內(nèi)存不同,對共享內(nèi)存的快速訪問沒有懲罰。我們將在下一篇文章中詳細介紹共享內(nèi)存。

概括

在這篇文章中,我們討論了如何從 CUDA 內(nèi)核代碼中有效地訪問全局內(nèi)存的一些方面。設(shè)備上的全局內(nèi)存訪問與主機上的數(shù)據(jù)訪問具有相同的性能特征,即數(shù)據(jù)局部性非常重要。在早期的 CUDA 硬件中,內(nèi)存訪問對齊和跨線程的局部性一樣重要,但在最近的硬件上,對齊并不是什么大問題。另一方面,快速的內(nèi)存訪問會損害性能,使用片上共享內(nèi)存可以減輕這種影響。在下一篇文章中,我們將詳細探討共享內(nèi)存,之后的文章中,我們將展示如何使用共享內(nèi)存來避免在矩陣轉(zhuǎn)置過程中出現(xiàn)跨步全局內(nèi)存訪問。

關(guān)于作者

Mark Harris 是 NVIDIA 杰出的工程師,致力于 RAPIDS 。 Mark 擁有超過 20 年的 GPUs 軟件開發(fā)經(jīng)驗,從圖形和游戲到基于物理的模擬,到并行算法和高性能計算。當他還是北卡羅來納大學的博士生時,他意識到了一種新生的趨勢,并為此創(chuàng)造了一個名字: GPGPU (圖形處理單元上的通用計算)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲器
    +關(guān)注

    關(guān)注

    38

    文章

    7484

    瀏覽量

    163764
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4978

    瀏覽量

    102988
收藏 人收藏

    評論

    相關(guān)推薦

    如何使用內(nèi)存加速存儲訪問速度

    本篇文章是首爾大學發(fā)表在FAST 2023上的文章。隨著閃存容量的增加,邏輯地址到物理地址的映射表項也相應(yīng)增加。映射表項通常存放在設(shè)備控制器的SRAM來加速訪問。然而由于成本問題SRAM一直無法
    的頭像 發(fā)表于 12-19 10:54 ?132次閱讀
    如何使用<b class='flag-5'>內(nèi)存</b>加速存儲<b class='flag-5'>訪問</b>速度

    內(nèi)存管理的硬件結(jié)構(gòu)

    常見的內(nèi)存分配函數(shù)有malloc,mmap等,但大家有沒有想過,這些函數(shù)在內(nèi)核是怎么實現(xiàn)的?換句話說,Linux內(nèi)核內(nèi)存管理是怎么實現(xiàn)的
    的頭像 發(fā)表于 09-04 14:28 ?296次閱讀
    <b class='flag-5'>內(nèi)存</b>管理的硬件結(jié)構(gòu)

    ESP-IDF內(nèi)核內(nèi)存管理如何驗證?

    請教一下,ESP-IDF 內(nèi)核內(nèi)存管理如何驗證
    發(fā)表于 06-19 06:30

    FPGA開發(fā)過程配置全局時鐘需要注意哪些問題

    的時鐘源。外部時鐘輸入和內(nèi)部時鐘資源都是可選項,需要綜合考慮它們的穩(wěn)定性、精度和成本等因素。 時鐘分配 :全局時鐘資源需要有效地分配到各個邏輯單元。在分配時鐘時,要注意避免時鐘信號的交叉和干擾,以減少
    發(fā)表于 04-28 09:43

    使用 PREEMPT_RT 在 Ubuntu 構(gòu)建實時 Linux 內(nèi)核

    盟通技術(shù)干貨構(gòu)建實時Linux內(nèi)核簡介盟通技術(shù)干貨Motrotech如果需要在Linux實現(xiàn)實時計算性能,進而有效地將Linux轉(zhuǎn)變?yōu)镽TOS,那么大多數(shù)發(fā)行版都可以打上名為PREEMPT_RT
    的頭像 發(fā)表于 04-12 08:36 ?2421次閱讀
    使用 PREEMPT_RT 在 Ubuntu <b class='flag-5'>中</b>構(gòu)建實時 Linux <b class='flag-5'>內(nèi)核</b>

    PSoC? 6的兩個獨立MCU內(nèi)核如何獨立訪問其指令?

    PSoC? 6 的兩個獨立 MCU 內(nèi)核如何獨立訪問其指令? 是否有 DUAL_SENSOR_BOX_KIT 內(nèi)核 PSoC? 6 指令存儲器架構(gòu)的框圖有助于解釋? 在什么條件下,從
    發(fā)表于 03-04 08:09

    TC377如何訪問EMEM內(nèi)存

    我們正在進行一個使用英飛凌 TC377 芯片組的項目。 我們希望就如何訪問 EMEM 內(nèi)存征求意見。 我們正試圖復制數(shù)據(jù),然后 EMEM 內(nèi)存范圍內(nèi)的位置讀取數(shù)據(jù),但無法實現(xiàn)。 此外
    發(fā)表于 03-04 07:10

    CW32L052 DMA直接內(nèi)存訪問

    CW32L052支持DMA(Direct Memory Access),即直接內(nèi)存訪問,無需CPU干預(yù),實現(xiàn)高速數(shù)據(jù)傳輸。數(shù)據(jù)的傳輸可以發(fā)生在: ? 外設(shè)和內(nèi)存之間 :例如ADC采集數(shù)據(jù)到內(nèi)存
    的頭像 發(fā)表于 02-28 16:48 ?933次閱讀
    CW32L052 DMA直接<b class='flag-5'>內(nèi)存</b><b class='flag-5'>訪問</b>

    Linux內(nèi)核內(nèi)存管理之內(nèi)核非連續(xù)物理內(nèi)存分配

    我們已經(jīng)知道,最好將虛擬地址映射到連續(xù)頁幀,從而更好地利用緩存并實現(xiàn)更低的平均內(nèi)存訪問時間。然而,如果對內(nèi)存區(qū)域的請求并不頻繁,那么考慮基于通過連續(xù)線性地址訪問非連續(xù)頁幀的分配方案是有
    的頭像 發(fā)表于 02-23 09:44 ?947次閱讀
    Linux<b class='flag-5'>內(nèi)核</b><b class='flag-5'>內(nèi)存</b>管理之<b class='flag-5'>內(nèi)核</b>非連續(xù)物理<b class='flag-5'>內(nèi)存</b>分配

    數(shù)組和鏈表在內(nèi)存的區(qū)別 數(shù)組和鏈表的優(yōu)缺點

    內(nèi)存的存儲方式: 數(shù)組是一種連續(xù)存儲的數(shù)據(jù)結(jié)構(gòu),它將元素存儲在相鄰的內(nèi)存位置。這使得數(shù)組的訪問效率高,可以通過下標來直接
    的頭像 發(fā)表于 02-21 11:30 ?1022次閱讀

    Linux內(nèi)核內(nèi)存管理之ZONE內(nèi)存分配器

    內(nèi)核中使用ZONE分配器滿足內(nèi)存分配請求。該分配器必須具有足夠的空閑頁幀,以便滿足各種內(nèi)存大小請求。
    的頭像 發(fā)表于 02-21 09:29 ?890次閱讀

    西門子博途示例:設(shè)置優(yōu)化塊訪問

    默認情況下,為 S7 - 1200/1500 的所有新創(chuàng)建的塊啟用優(yōu)化塊訪問。可為 OB、FB 和全局DB設(shè)置塊訪問。對于背景DB,設(shè)置來自各自的 FB。 如果將塊 S7- 300
    的頭像 發(fā)表于 01-15 10:41 ?5668次閱讀
    西門子博途示例:設(shè)置優(yōu)化塊<b class='flag-5'>訪問</b>

    單張圖像揭示全局幾何信息:實現(xiàn)高效視覺定位的新途徑

    我們提出了一種新穎的方法,它可以單個 RGB 圖像進行全局 6 自由度姿態(tài)估計。我們的方法與大多數(shù)現(xiàn)有的姿態(tài)回歸方法有相同的約束條件,即:從一組圖像姿態(tài)對進行訓練,單個圖像估計姿態(tài),僅保存網(wǎng)絡(luò)權(quán)重,并在實時內(nèi)輸出姿態(tài)。
    的頭像 發(fā)表于 01-08 14:58 ?714次閱讀
    <b class='flag-5'>從</b>單張圖像<b class='flag-5'>中</b>揭示<b class='flag-5'>全局</b>幾何信息:實現(xiàn)高效視覺定位的新途徑

    Linux內(nèi)核內(nèi)存管理架構(gòu)解析

    內(nèi)存管理子系統(tǒng)可能是linux內(nèi)核中最為復雜的一個子系統(tǒng),其支持的功能需求眾多,如頁面映射、頁面分配、頁面回收、頁面交換、冷熱頁面、緊急頁面、頁面碎片管理、頁面緩存、頁面統(tǒng)計等,而且對性能也有很高
    的頭像 發(fā)表于 01-04 09:24 ?653次閱讀
    Linux<b class='flag-5'>內(nèi)核</b><b class='flag-5'>內(nèi)存</b>管理架構(gòu)解析

    ug內(nèi)部錯誤,內(nèi)存訪問違例怎么解決

    ug內(nèi)部錯誤,內(nèi)存訪問違例怎么解決 內(nèi)部錯誤和內(nèi)存訪問違例是編程中常見的問題,它們可能會導致應(yīng)用程序崩潰、數(shù)據(jù)丟失或系統(tǒng)不穩(wěn)定。在本文中,我將詳細解釋內(nèi)部錯誤和
    的頭像 發(fā)表于 12-27 16:27 ?6267次閱讀
    主站蜘蛛池模板: 亚洲精品一二三区区别在哪| 九九热在线视频| 国产亚洲欧洲日韩在线三区 | 成人精品视频| 国产婷婷午夜无码A片| 老师洗澡让我吃她胸的视频 | 99久热精品免费观看| 国产成人AV永久免费观看| 久久福利影院| 我们中文在线观看免费完整版| 欧美成人中文字幕在线视频| 呜呜别塞了啊抽插| 18女下面流水不遮网站免费| 热久久视久久精品18| 亚洲 日韩 国产 中文视频| 97视频在线观看免费视频| 国产精品自产拍在线观看中文| 久久九九亚洲精品| 日日久久狠狠8888偷偷色| 一级黄色香蕉视频| 俄罗斯呦呦| 国际老妇高清在线观看| 青娱国产区在线| 又黄又爽又无遮挡在线观看免费| 俄罗斯人与动ZOZ0| 狠狠综合久久综合88亚洲| 挠黑色超薄丝袜脚心vk40分钟| 亚洲精品卡2卡3卡4卡5卡区 | 国产1000部成人免费视频| 露露的性战k8经典| 亚洲 日韩 国产 制服 在线| yellow在线观看免费直播| 九九热国产视频| 午夜免费福利| xlxx美女| 免费伦理片网站| 亚洲欧洲日产国码中学| 国产精品v片在线观看不卡| 欧美精品成人a多人在线观看| 亚洲伊人色综合久久天天伊人| 国产成人无码区免费内射一片色欲|