Clustering

Published on
July 22, 2024
Taxonomy Completion with Embedding Quantization and an LLM-based Pipeline - A Case Study in Computational Linguistics
llms nlp embeddings quantization clustering topic-modeling deep-dive
The ever-growing volume of research publications necessitates efficient methods for structuring such knowledge. This automated solution uses Machine Learning (UMAP, HDBSCAN), Embedding Quantization, and an LLM pipeline to classify 25,000 arXiv publications under a novel taxonomy.

Taxonomy Completion with Embedding Quantization and an LLM-based Pipeline - A Case Study in Computational Linguistics