[ElasticStack] 분석기, 캐릭터 필터, 토크나이저, 토큰 필터, 커스텀 분석기


[ElasticStack] 분석기, 캐릭터 필터, 토크나이저, 토큰 필터, 커스텀 분석기

분석기 엘라스틱서치는 전문 검색을 지원하기 위해 역인덱싱 기술을 사용한다. 전문 검색은 장문의 문자열에서 부분 검색을 수행하는 것 역인덱싱은 장문의 문자열을 분석해서 작은 단위로 쪼개어 인덱싱하는 기술 역인덱싱을 이용해서 전문 검색에서 좋은 결과를 얻기 위해서는 문자열을 나누는 기준이 중요 ES에서는 캐릭터 필터, 토크나이저, 토큰 필터로 구성되어 있는 분석기 모듈을 가지고 있다. 분석기에는 반드시 하나의 토크나이저 포함 캐릭터 필터와 토큰 필터는 옵션이고 여러 개를 함께 사용해도 된다. 토큰과 용어 분석기는 필터를 통해 원문에서 불필요한 문자들을 제거한다. 이 과정까지는 문자열 자체가 분리되지 않는다. 토크나이저를 이용해서 필터링 된 문자열을 자르게 되는데 잘린 단위를 토큰 분석기에서는 하나의 토크나이저를 가진다. 토큰들이 복수의 토큰 필터를 거치며 정제되는데, 정제 후 최종으로 역인덱스에 저장되는 상태의 토큰들을 용어 토큰은 분석기 내부에서 일시적으로 존재하는 상태 인덱싱되어 있...


#ElasticSearch #ElasticStack #tokenizer

원문링크 : [ElasticStack] 분석기, 캐릭터 필터, 토크나이저, 토큰 필터, 커스텀 분석기