안녕하세요. 트랜스포머 책 잘 읽고 있습니다.4장 개체명 인식 파트를 학습하다가 너무너무 궁금한 점이 생겨 질문을 드립니다.
한 단어가 여러 개의 부분 토큰으로 분해되는 경우, 연속되는 부분 토큰에 대해서는 IGN 라벨을 부여하여 학습 데이터셋에 반영하였습니다.
IGN 라벨이 부여되며 무시된 부분 토큰에 대해서는, "나중에 후처리 단계에서 첫 번째 부분단어의 예측 레이블을 후속 부분단어로 쉽게 전파할 수 있습니다" 라고 하셨습니다.
그런데, 학습 데이터셋에서 일부 연속되는 토큰에 대해 IGN 라벨을 부여하고 별다른 조치 없이 학습을 시켰습니다.
그렇게 학습시킨 모델에서, "Jeff Dean ~~" 문장을 입력하였을 때, "Dean"이 "De"와 "an"으로 분리되었는데, 토큰 "an"에 대해서 모델은 IGN이 아니라 I-PER로 예측을 했습니다.
별다른 후처리가 전혀 없었는데도, 학습 시에 IGN으로 라벨링 된 토큰이 IGN이 아니라 I-PER로 예측된 원리가 궁금합니다.
답변해 주셔서 미리 감사드립니다.
--
이 메일은 Google 그룹스 '머신러닝/딥러닝 도서 Q&A' 그룹에 가입한 분들에게 전송되는 메시지입니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 ml-dl-book-qn...@googlegroups.com에 이메일을 보내세요.
웹에서 이 토론을 보려면 https://groups.google.com/d/msgid/ml-dl-book-qna/8592e7b4-d0b8-48e3-b4a9-9b65c061a0fcn%40googlegroups.com을(를) 방문하세요.