엘라스틱 서치 형새소 분석 offset 에러

543 views
Skip to first unread message

Myeongjoon Kim

unread,
Nov 12, 2018, 12:42:36 AM11/12/18
to 은전한닢 프로젝트
안녕하십니까.
bitbucket에도 해당 이슈를 올리긴 하였으나 구글 그룹을 발견하여 여기도 올려봅니다.


'에스테니끄달팽이크림' 같은 키워드를 넣으니 에러가 발생하였습니다.

ES 버전 : 6.1.2 seunjeon_version: "6.1.1.0"

elasticsearch.helpers.BulkIndexError: 
('1 document(s) failed to index.', 
[{'index': 
    {'_index': 'ad_kwd_mapping_test2', 
    '_type': 'doc', 
    '_id': '2682860', 'status': 400, 
    'error':  
        {'type': 'illegal_argument_exception',
        'reason': "startOffset must be non-negative, and endOffset  must be >= startOffset, and offsets must not go backwards startOffset=6,endOffset=8,lastStartOffset=7 for field 'keyword'"}, 
    'data': 
    {'keyword': '에스테니끄달팽이크림', 'date': '2018-10-18 14:49:10'}}}])

형태소 분석에 돌리면 잘 돌아가는것 같은데, 혹시 해결 방법이 있을 까요?

{
  "tokens": [
    {
      "token": "에스/N",
      "start_offset": 0,
      "end_offset": 2,
      "type": "N",
      "position": 0
    },
    {
      "token": "터/N",
      "start_offset": 2,
      "end_offset": 3,
      "type": "N",
      "position": 1
    },
    {
      "token": "끌/V",
      "start_offset": 4,
      "end_offset": 5,
      "type": "V",
      "position": 2
    },
    {
      "token": "하/V",
      "start_offset": 7,
      "end_offset": 8,
      "type": "V",
      "position": 3
    },
    {
      "token": "팽이/N",
      "start_offset": 6,
      "end_offset": 8,
      "type": "N",
      "position": 4
    },
    {
      "token": "크림/N",
      "start_offset": 8,
      "end_offset": 10,
      "type": "N",
      "position": 5
    }
  ]
}

혹시 에러 처리 방법이라던가 수정 해야할 부분이 있을 까요?


-->

라고 작성하였었는데, 지금 보니까 저기 토큰 부분에 보면 "하/V" 이부분이 없던 토큰이기도 하고, 스타트 엔드 오프셋 부분이 정렬이 안된거 같기도 하네요.

궁금한데 해당 부분을 제가 수정하고 코드 기여 할 수 있는 수준인가요? 아직 코드는 보지 못했습니다..

Reply all
Reply to author
Forward
0 new messages