혼자공부하는 머신러닝+딥러닝(개정판) 662페이지 멀티헤더 관련 서술 문의

성준영

unread,

Feb 14, 2026, 9:01:50 AM (6 days ago) Feb 14

to 머신러닝/딥러닝 도서 Q&A

혼자공부하는 머신러닝+딥러닝(개정판) 662페이지 멀티헤더 관련 서술에 궁금증이 생겨서 질문 드립니다.

해당 662페이지에서

"(768,) 크기의 임베딩 벡터가 인코더 블록에 입력되면, 12개의 헤드에 나누어 전달됩니다. 따라서 각 헤드에 입력되는 벡터 크기는 (64,)가 됩니다.."

라는 서술에 궁금증이 있습니다.

BART는 아니지만, Attention Is All You Need에서는

head_i = Attention(QW^Q_i, KW^K_i, KW^K_i),

W^Q_i 의 차원은 d_model X d_k 으로 되어 있습니다.

BART의 차원에 대응해 보자면, d_model은 768이며, d_k는 64입니다.

제가 이해하기로는, 우선 W^Q_i는 한 헤더 안에 들어가 있다고 생각했습니다.

그러면 하나의 헤드에서는 (768,)의 입력을 받고, (64,)의 벡터를 출력한다고 이해했습니다.

즉,

"(768,) 크기의 임베딩 벡터가 인코더 블록에 입력되면, 12개의 헤드에 나누어 전달됩니다. 이때 각 헤드에 입력되는 벡터 크기는 (768,)이되, 출력 벡터 크기는 (64,)가 됩니다."

로 해당 논문에서 이해했습니다.

다만, 책에 서술되어 있는 설명은 헤드에 입력 벡터가 들어가기 전 (64,) 벡터로 분리하는 작업이 선행되고, 해당 (64,) 벡터가 하나의 헤드에 입력되는 것처럼 읽힙니다.

또한 661p의 도표에서도 각 헤드에 (64,) 크기의 벡터가 들어가는 듯하게 묘사가 되어있습니다.

만약 이런 상황이라면, W^Q_i 의 차원은 d_k X d_k ( d_k * h == d_model )인 상황이 올 거 같습니다.

혹시 제 이해에 부족한 부분이 있을까 싶어서 문의를 드리게 되었습니다. 감사합니다.

Haesun Park

unread,

Feb 15, 2026, 2:05:26 AM (5 days ago) Feb 15

to 성준영, 머신러닝/딥러닝 도서 Q&A

아이코, 맞습니다.

제가 횡설수설했네요. 처음엔 편집 실수인 줄 알았는데 뒷부분에도 유사한 문장이 있는 걸로 보아 제 잘못일 가능성이 큽니다. ㅠ.ㅠ

662페이지 위에서 세 번째 줄을 "(768,) 크기의 임베딩 벡터가 인코더 블록에 입력되면, 12개의 헤드에 각각 전달됩니다. 각 헤드의 출력 크기는 (64,)가 됩니다"로 수정합니다.

663페이지 위에서 두 번째 줄을 "마스크드 멀티 헤드 어텐션 층에 있는 12개의 헤드에 들어갑니다"로 수정합니다.

688페이지 위 그림에서 (80,)를 쿼리 동그라미 오른쪽으로 이동합니다. 위에서 두 번째 줄에 "32개의 헤드에서 각각 크기가 80인 벡터를 출력합니다."로 수정합니다.

감사합니다!

2026년 2월 14일 (토) PM 11:01, 성준영 <sung...@gmail.com>님이 작성:

--
이 메일은 Google 그룹스 '머신러닝/딥러닝 도서 Q&A' 그룹에 가입한 분들에게 전송되는 메시지입니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 ml-dl-book-qn...@googlegroups.com에 이메일을 보내세요.
이 토론을 보려면 https://groups.google.com/d/msgid/ml-dl-book-qna/7901b9ca-4bce-4d6b-9925-f6b22e838ab9n%40googlegroups.com 페이지로 이동하세요.

성준영

unread,

Feb 15, 2026, 2:40:51 AM (5 days ago) Feb 15

to 머신러닝/딥러닝 도서 Q&A

연휴에도 말씀 감사드립니다.

덕분에 머신러닝과 딥러닝 공부하는 데에 정말 큰 도움이 되었습니다.

좋은 하루 보내시길 바라고, 꼭 건강하시길 기원드립니다.

감사합니다!

2026년 2월 15일 일요일 PM 4시 5분 26초 UTC+9에 Haesun Park님이 작성:

Reply all

Reply to author

Forward