更高隐藏层的融合,提供更多的训练信号:个人阅读理解给出的解读是高层的空间表征更贴近任务本身,因此融合带来的增益更大 。这也是我之前对为啥文本任务在Encoder之后融合效果效果有时比在输入层融合还要好的强行解释 。。。。
至于Manifold mixup为何比mixup更好,作者做了更多的数学证明,不过 。。。这个大家感兴趣去看下就知道这里为何省略一万字了~以及之后出现的Flow Mixup也挑战过Manifold会导致样本分布飘逸以及训练不稳定的问题,不过我并没有在NLP上尝试过manifold的方案 , 以后要是用了再来comment ~
【小样本利器4. 正则化+数据增强 Mixup Family代码实现】
推荐阅读
-
-
-
86年属虎的三大劫难2022,86年虎女2022年运势如何
-
手机清除数据后怎么恢复 vivo手机清除数据后怎么恢复
-
-
-
-
-
lindor是什么牌子的巧克力价格 这是什么牌子的巧克力,哪里有卖的
-
常说的厚德载物,到底是指什么 厚德载物的意思是什么意思
-
-
-
香茹蒸鸡怎么做又嫩又好吃 香茹蒸鸡怎么做又嫩又好吃窍门
-
-
-
-
-
-
-