Chonkie Documentation

POST

chunk

sentence

curl --request POST \
  --url https://api.chonkie.ai/v1/chunk/sentence \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form tokenizer_or_token_counter=gpt2 \
  --form chunk_size=512 \
  --form chunk_overlap=0 \
  --form min_sentences_per_chunk=1 \
  --form min_characters_per_sentence=12 \
  --form approximate=false \
  --form 'delim=<string>' \
  --form include_delim=prev \
  --form return_type=chunks

[
  {
    "text": "<string>",
    "start_index": 123,
    "end_index": 123,
    "token_count": 123,
    "sentences": [
      {
        "text": "<string>",
        "start_index": 123,
        "end_index": 123,
        "token_count": 123
      }
    ]
  }
]

Authorizations

Authorization

string

header

required

Your API Key from the Chonkie Cloud dashboard

Body

multipart/form-data

Response

200 - application/json

Successful Response: A list of SentenceChunk objects.

A list containing SentenceChunk objects, each detailing a segment of the original text and the sentences within it.

Token Chunker

Recursive Chunker

curl --request POST \
  --url https://api.chonkie.ai/v1/chunk/sentence \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form tokenizer_or_token_counter=gpt2 \
  --form chunk_size=512 \
  --form chunk_overlap=0 \
  --form min_sentences_per_chunk=1 \
  --form min_characters_per_sentence=12 \
  --form approximate=false \
  --form 'delim=<string>' \
  --form include_delim=prev \
  --form return_type=chunks

[
  {
    "text": "<string>",
    "start_index": 123,
    "end_index": 123,
    "token_count": 123,
    "sentences": [
      {
        "text": "<string>",
        "start_index": 123,
        "end_index": 123,
        "token_count": 123
      }
    ]
  }
]

API Reference

Sentence Chunker

Authorizations

Body

Response