Decoder padding Mask Transformer Architecture

Anbu · May 15, 2022, 12:51pm

Hi Mentor,

In the Transformer Architecture, why padding mask performed in at the decoder layer ?

dec_padding_mask – Boolean mask for the second multihead attention layer

reinoudbosch · May 17, 2022, 12:13am

Hi Anbu,

The padding mask needs to be applied to the K and V coming from the encoder.

Topic		Replies	Views
Clarification on dec_padding_mask Sequence Models coursera-platform	1	546	April 6, 2022
Transformer Model Decoder Question Sequence Models coursera-platform	1	447	July 15, 2023
C5W4: padding mask in transformer Sequence Models coursera-platform	2	558	March 15, 2025
Parallelism At Decoder Layer In Transformers Sequence Models coursera-platform	6	639	June 24, 2023
Week2 Assignment - can't figure out padding_mask step. Any hints? NLP with Attention Models week-2	2	322	January 28, 2024