Generate - iGent Concert

POST /api/v1/generate

Synchronous inference — sends a request and waits for the complete response.

Headers

Header	Required	Description
`Authorization`	Yes	`Bearer ens_your_api_key`
`X-Session-ID`	No	Session identifier for cache affinity routing
`X-Request-ID`	No	Client-provided correlation ID (auto-generated if omitted)
`Content-Type`	Yes	`application/json`

Request Body

{
  "model": "claude-sonnet-4-20250514",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello, world!"
    }
  ],
  "max_tokens": 4096,
  "temperature": 0.7,
  "tools": [],
  "provider_config": {}
}

Request Fields

Field	Type	Required	Description
`model`	string	Yes	Model name (e.g., `claude-sonnet-4-20250514`, `gpt-5`, `gemini-2.5-pro`)
`messages`	Message[]	Yes	Conversation history
`max_tokens`	int	No	Maximum output tokens
`temperature`	float	No	Sampling temperature (0.0–2.0)
`top_p`	float	No	Nucleus sampling threshold
`stop_sequences`	string[]	No	Stop generation sequences
`tools`	ToolDefinition[]	No	Function calling definitions
`stream`	bool	No	Always `false` for this endpoint
`provider_config`	object	No	Per-request provider overrides

Message Format

{
  "role": "user",
  "content": "text content",
  "content_blocks": [
    {"type": "text", "text": "..."},
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": "..."}},
    {"type": "document", "source": {"type": "base64", "media_type": "application/pdf", "data": "..."}}
  ]
}

Roles: system, user, assistant, tool

Response

{
  "id": "req_abc123",
  "model": "claude-sonnet-4-20250514",
  "provider": "anthropic",
  "endpoint": "anthropic-primary",
  "blocks": [
    {"type": "text", "text": "Hello! How can I help you today?"}
  ],
  "input_tokens": 25,
  "output_tokens": 12,
  "cached_prompt_tokens": 0,
  "cache_creation_tokens": 0,
  "reasoning_tokens": 0,
  "cost": "0.000111",
  "processing_time": "1.234s",
  "finish_reason": "end_turn",
  "performance_metrics": {
    "time_to_first_token": "0.45s",
    "total_latency": "1.234s",
    "tokens_per_second": 9.7
  },
  "rate_limit_info": {
    "requests_remaining": 4999,
    "tokens_remaining": 999975
  }
}

Error Responses

Status	Meaning
400	Invalid request (bad model, missing messages, parameter validation failure)
401	Invalid or missing API key
429	All capacity pools rate-limited
500	Internal server error
502	Provider error (upstream failure)

Ensemble

​POST /api/v1/generate

​Headers

​Request Body

​Request Fields

​Message Format

​Response

​Error Responses

POST /api/v1/generate

Headers

Request Body

Request Fields

Message Format

Response

Error Responses