之前讨论的负载均衡损失可能会导致稳定性问题。我们可以使用许多方法来稳定稀疏模型的训练,但这可能会牺牲模型质量。例如,引入 Dropout 可以提高稳定性,但会导致模型质量下降。 那么一个典型的门控网络是什么呢?一个典型的门控网络通常是一个带有 softmax 函数的简单的网络。这个网络将学习将输入发送给哪个 expert。如下所示: 在论文中,作者提到这个损失函数可能会导致专家网络之间的强烈耦合,因为一个专家网... https://www.blogger.com/u/8/profile/09889890415012625943
Index Aptallar için
Internet 3 hours ago shirine284cul1Web Directory Categories
Web Directory Search
New Site Listings