InferX Catalog | cogito-v1-preview-llama-3B

cogito-v1-preview-llama-3B

Cogito-v1-preview-llama-3B is a high-performance "hybrid reasoning" model released by Deep Cogito. Built on the Llama 3.2 3B architecture

deepcogito text text2text

Log in to deploy

Metadata

Provider

deepcogito

Modality

text

API type

text2text

Source

huggingface / deepcogito/cogito-v1-preview-llama-3B

Created

2026-04-12 14:07:34 UTC

Updated

2026-04-13 01:11:05 UTC

Catalog version

2

Visibility

Published

Specifications

Parameters

3.00B

MoE

No

Max model length

2000

Image

vllm/vllm-openai:v0.16.0

Default Deploy Config

GPU count

1

vRAM

25000 MB

Summary

1xGPU 25000 MB

Recommended Use Cases

—

Model Spec

{
    "image": "vllm/vllm-openai:v0.16.0",
    "commands": [
        "--model",
        "deepcogito/cogito-v1-preview-llama-3B",
        "--trust-remote-code",
        "--gpu-memory-utilization",
        "0.85",
        "--max-model-len",
        "2000"
    ],
    "resources": {
        "GPU": {
            "Count": 1,
            "vRam": 25000
        }
    },
    "envs": [],
    "policy": {
        "Obj": {
            "min_replica": 0,
            "max_replica": 1,
            "standby_per_node": 1,
            "parallel": 50,
            "queue_len": 100,
            "queue_timeout": 30.0,
            "scalein_timeout": 1.0,
            "scaleout_policy": {
                "WaitQueueRatio": {
                    "wait_ratio": 0.1
                }
            },
            "runtime_config": {
                "graph_sync": false
            }
        }
    },
    "sample_query": {
        "body": {
            "stream": "true",
            "max_tokens": "1000",
            "temperature": "0"
        },
        "path": "v1/completions",
        "prompt": "write a quick sort algorithm.",
        "apiType": "text2text",
        "dataUrl": "",
        "prompts": [],
        "loadingTimeout": 90
    }
}