特点:通过门控机制控制信息流,增强非线性表达。 优点: 适合序列建模、控制性强。 常用于: Transformer FFN、语言模型。
2.9 SiLU(Swish)
,详情可参考搜狗输入法下载
Copyright © 1997-2026 by www.people.com.cn all rights reserved
Пропавшая 24 года назад женщина нашлась живой и удивилась поискамПропавшая 24 года назад американка заявила, что не знала о поисках
Article InformationAuthor, 鄭佩珊