起因
最近在修改上一個同事加載和預處理數據的代碼,原版的代碼使用tf1.4.1寫的,數據加載也是完全就是for循環讀取+預處理,每讀入并預處理好一個batch就返回丟給模型訓練,如此往復,我覺得速度實在太慢了,而且我新寫的代碼都是基于pytorch,雖然預處理的過程很復雜,我還是下決心自己改寫。
用pytorch加載預處理數據,最常用的就是torch.utils.data.Dataset
和torch.utils.data.DataLoader
組合起來,把數據預處理都在Dataset里寫好,再在DataLoader里設定batch_size, shuffle等參數去加載數據,網上的教程非常多,這里我就不展開講了。
過程
現在我已經獲得了train_loader
和test_loader
,可以從它們里面每次讀取一個batch出來訓練,可照理說加載Dataset時占用了大量內存是正常的,因為數據都預加載好了,就只需要用DataLoader讀取就行了,但在訓練的過程中,內存不應該隨著訓練而逐漸增加。我眼睜睜看著內存占用從8、9個g,逐漸漲到了25個g,程序最終因為占滿內存而崩潰。檢查了半天自己的代碼都沒找出問題所在,后來用memory_profiler
查看內存占用情況,發現問題主要出現在這一行代碼:actual_labels += list(correctness)
,correctness
的類型是torch.FloatTensor
,actual_labels
是python原生的list。
pred
和correctness
是同類型同長度的tensor,在將其轉換為list再添加到已有的list中時,占用的內存相差了約5個Mb,于是我將上面代碼改寫為:
問題解決了!
為什么下面的代碼就沒事,上面直接將Tensor轉為list就會發生這種奇怪的現象?我去github和知乎看到了遇到類似問題的issue與文章,下面是鏈接
- https://github.com/pytorch/pytorch/issues/13246
- https://zhuanlan.zhihu.com/p/86286137
- https://github.com/pytorch/pytorch/issues/17499
結論
目前得到的結論大概是python list的design有問題,導致了這種情況發生,pytorch團隊雖然竭力修復,但他們表示因為這是python設計的缺陷,超出了他們的能力范圍,上面第一個issue主要是針對DataLoader
里num_workers>0
時會導致內存泄漏,里面也提到了list與tensor互轉亦會發生內存泄漏,這個issue已經一年多了還沒能close。
因此,在使用pytorch時,應該盡力避免list的使用,一定不能讓tensor和list直接互相轉換,如果一定要做,應該將tensor從cuda轉到cpu上,轉為numpy.array,最后轉為list,反之亦然。
-
代碼
+關注
關注
30文章
4791瀏覽量
68678 -
for循環
+關注
關注
0文章
61瀏覽量
2503 -
pytorch
+關注
關注
2文章
808瀏覽量
13237
發布評論請先 登錄
相關推薦
評論