同樣的模型與引數，PyTorch實現的效能比Tensorflow低了很多，有可能是什麼原因呢？

1樓：只是看看

手寫影象分割模型，在tensorflow上效果很好，在pytorch上很差。後來發現是損失函式的引數問題，tensorflow中自己寫的多分類focal loss用作分割任務（alpha用0.25），pytorch中重寫了該函式（但是alpha要用1.

5至1.75才有效果），有點懵。

2樓：嬉嬉皮

同樣的模型與引數， tensorflow實現的效能比pytorch低了很多。我認為這也可能存在，取決於模型與引數吧。畢竟兩個框架底層有多少不同講不清楚

3樓：袁進輝

不同框架間怎麼做到嚴格對齊（不僅僅是loss曲線長的差不多，而是保證一樣的輸入一樣的輸出）是乙個極其挑戰和辛苦的事，框架內部的變化太多了，有些小trick 是靠海量使用者量積累起來的。這也是我們在研發oneflow過程中克服的乙個挑戰之一，我們做到了和tensorflow 嚴格對齊，箇中滋味只有嚐過才能理解，我同事近期會寫一篇文章，總結出來對齊過程各種稀奇古怪的坑。

r=x+y+z

和r=x+z+y

結果不一樣，在迭代多次以後就差別很大了。

4樓：qiao

看看資料訓練前有沒有打散(tf和pytorch是不是一樣)，權重引數初始化的方法是不是一樣，優化器學習率等是不是一樣，如果這些條件都滿足，那結果應該相差不大。

同樣的模型與引數，PyTorch實現的效能比Tensorflow低了很多，有可能是什麼原因呢？

如何在pytorch訓練模型的過程中，對於某一層的權重最大最小值進行限制？

Logit模型與logistic模型的聯絡與區別？

GAN的discriminator，與同樣結構的神經網路比，會有更好的效能嗎？

其他用戶還看了：