Chonkie Documentation

Chonkie provides a variety of embeddings handlers to handle different embedding models in a consistent manner. Embeddings handlers are used in conjunction with chunkers to embed chunks of text. Only few chunkers require embeddings, see the Chunkers Overview for more information.

Installation

Embeddings handlers require additional dependencies. See the Installation Guide for more information.

By default, Chonkie semantic installation includes Model2VecEmbeddings, which is the current default embeddings handler

Available Embeddings

AutoEmbeddings

Automatically select the best embeddings handler for your use case.

CohereEmbeddings

Embed text using Cohere embeddings (requires cohere).

SentenceTransformerEmbeddings

Embed text using SentenceTransformer embeddings (requires sentence-transformers).

OpenAIEmbeddings

Embed text using OpenAI embeddings (requires openai).

Model2VecEmbeddings

Embed text using Model2Vec embeddings (requires model2vec).

GeminiEmbeddings

Embed text using Google Gemini embeddings (requires google-genai).

JinaEmbeddings

Embed text using JinaAI embeddings (requires jina).

AzureOpenAIEmbeddings

Embed text using Azure OpenAI embeddings (requires openai, azure-identity).

VoyageAIEmbeddings

Embed text using VoyageAI embeddings (requires voyageai).

Common Interface

All embeddings handlers share a consistent interface:

# Single text embedding
emb = embeddings.embed(text)

# Batch processing
emb = embeddings.embed_batch(texts)

# Direct calling
emb = embeddings(text)  # or embeddings([text1, text2])

Token Chunker

AutoEmbeddings

​Installation

​Available Embeddings

AutoEmbeddings

CohereEmbeddings

SentenceTransformerEmbeddings

OpenAIEmbeddings

Model2VecEmbeddings

GeminiEmbeddings

JinaEmbeddings

AzureOpenAIEmbeddings

VoyageAIEmbeddings

​Common Interface

Installation

Available Embeddings

Common Interface