검색엔진/ElasticSearch

Lucene 인덱스 파일 형식

ZzangHo 2022. 2. 14. 10:35
728x90

파일 확장자 요약

확장자별 lucene 파일 이름

 

 

이름 확대 설명
Segments File segments_N 커밋 지점에 대한 정보를 저장합니다.
Lock File write.lock 쓰기 잠금은 여러 IndexWriter가 동일한 파일에 쓰는 것을 방지합니다.
Segment Info .si 세그먼트에 대한 메타데이터를 저장합니다.
Compound File .cfs, .cfe 파일 핸들이 자주 부족해지는 시스템의 다른 모든 색인 파일로 구성된 선택적 "가상" 파일입니다.
Fields .fnm 필드에 대한 정보를 저장합니다.
Field Index .fdx 필드 데이터에 대한 포인터를 포함합니다.
Field Data .fdt 문서에 대한 저장 필드
Term Dictionary .tim 용어 사전, 용어 정보저장
Term Index .tip 용어 사전에 대한 색인
Frequencies .doc 빈도와 함께 각 용어를 포함하는 문서 목록을 포함
Positions .pos 색인에서 용어가 발생한 위치에 대한 위치 정보를 저장
Payloads .pay 문자 오프셋 및 사용자 Payload와 같은 추가 위치별 메타데이터 정보 저장
Norms .nvd, .nvm 문서 및 필드의 길이 및 부스트 요소 인코딩
Per-Document Values .dvd, dvm 추가 점수 요소 또는 기타 문서별 정보 인코딩
Term Vector Index .tvx 문서 데이터 파일에 오프셋 저장
Term Vector Data .tvd 용어 벡터 데이터 포함
Live Documents .liv 어떤 문서가 활성 상태인지에 대한 정보
Point values .dii, .dim 인덱싱 된 포인트 보유
Vector values .vec, .vem 인덱싱 된 벡터를 보유. .vec파일에는 원시 벡터 데이터와 .vem벡터 메타데이터가 포함 됩니다.

 

파일 잠금

기본적으로 인덱스 디렉토리에 저장되는 쓰기 잠금의 이름은 "write.lock"입니다. 
잠금 디렉터리가 인덱스 디렉터리와 다른 경우 쓰기 잠금의 이름은 "XXXX-write.lock"이 됩니다. 여기서 XXXX는 인덱스 디렉터리의 전체 경로에서 파생된 고유 접두사입니다. 
이 파일이 있는 경우 작성자는 현재 색인을 수정하고 있습니다(문서 추가 또는 제거). 
이 잠금 파일은 한 번에 한 작성자만 인덱스를 수정하도록 합니다.

 

참고자료

https://lucene.apache.org/core/9_0_0/core/org/apache/lucene/codecs/lucene90/package-summary.html#package.description