Chonkie Documentation

Late Chunker

curl --request POST \
  --url https://api.chonkie.ai/v1/chunk/late

{
  "text": "<string>",
  "start_index": 123,
  "end_index": 123,
  "token_count": 123
}

Late Chunker

curl --request POST \
  --url https://api.chonkie.ai/v1/chunk/late

{
  "text": "<string>",
  "start_index": 123,
  "end_index": 123,
  "token_count": 123
}

The Late Chunker generates contextual embeddings for each token before chunking, enabling more semantically aware chunk boundaries.

Examples

Text Input

from chonkie.cloud import LateChunker

chunker = LateChunker(
    embedding_model="minishlab/potion-base-8M",
    chunk_size=512
)

text = "Your text here..."
chunks = chunker.chunk(text)

File Input

from chonkie.cloud import LateChunker

chunker = LateChunker(
    embedding_model="minishlab/potion-base-8M",
    chunk_size=512
)

# Chunk from file
with open("document.txt", "rb") as f:
    chunks = chunker.chunk(file=f)

Request

Parameters

text

string | string[]

The text to chunk. Can be a single string or an array of strings for batch processing. Either text or file is required.

file

File to chunk. Use multipart/form-data encoding. Either text or file is required.

embedding_model

string

default:"minishlab/potion-base-8M"

The embedding model to use.

Chosen embedding model must return token level embeddings. Request will fail otherwise

chunk_size

integer

default:"512"

Maximum number of tokens per chunk.

recipe

string

default:"default"

Recursive rules recipe to follow. See all recipes on our Hugging Face repo

lang

string

default:"en"

Language of the document to chunk

Response

Returns

Array of Chunk objects, each containing:

text

string

The chunk text content.

start_index

integer

Starting character position in the original text.

end_index

integer

Ending character position in the original text.

token_count

integer

Number of tokens in the chunk.

Semantic Chunker

Code Chunker

⌘I

Getting Started

Chunkers

Refineries

Pipelines

Knowledge Bases

Search

Agents

Parse

Late Chunker

Examples

Text Input

File Input

Request

Parameters

Response

Returns

Getting Started

Chunkers

Refineries

Pipelines

Knowledge Bases

Search

Agents

Parse

​Examples

​Text Input

​File Input

​Request

​Parameters

​Response

​Returns

Examples

Text Input

File Input

Request

Parameters

Response

Returns