espnet2.speechlm.model.speechlm.multimodal_io.audio.KmeansModel

Less than 1 minute

class espnet2.speechlm.model.speechlm.multimodal_io.audio.KmeansModel(km_path: str, device: str = 'cpu')

Bases: Module

Apply k-means clustering to quantize SSL features into discrete tokens.

This class loads a pre-trained k-means model and uses it to convert continuous SSL features into discrete cluster indices (tokens).

Initialize k-means quantizer from saved model.

Parameters:
- km_path – Path to saved k-means model file
- device – Device to place tensors on (default: “cpu”)