InferX Catalog | InnerVerse-GLM47Flash-v1

InnerVerse-GLM47Flash-v1

A fast, reasoning-focused model optimized for efficient inference and strong instruction following

Jrose620 text text2text coding reasoning

Log in to deploy

Jrose620/InnerVerse-GLM47Flash-v1 is a GLM-based model designed for fast inference and strong reasoning performance, offering solid capabilities in coding, analysis, and conversational tasks, making it suitable for agents, assistants, and production deployments where latency and efficiency matter.

Metadata

Provider

Jrose620

Modality

text

API type

text2text

Source

huggingface / Jrose620/InnerVerse-GLM47Flash-v1

Created

2026-03-31 16:32:26 UTC

Updated

2026-03-31 16:46:49 UTC

Catalog version

1

Visibility

Published

Specifications

Parameters

—

MoE

No

Max model length

32768

Image

vllm/vllm-openai:glm5

Default Deploy Config

GPU count

1

vRAM

70000 MB

Summary

1xGPU 70000 MB

Recommended Use Cases

Coding assistant

Model Spec

{
    "image": "vllm/vllm-openai:glm5",
    "commands": [
        "--model",
        "Jrose620/InnerVerse-GLM47Flash-v1",
        "--disable-custom-all-reduce",
        "--trust-remote-code",
        "--gpu-memory-utilization",
        "0.95",
        "--max-model-len",
        "32768",
        "--tensor-parallel-size=1"
    ],
    "resources": {
        "GPU": {
            "Count": 1,
            "vRam": 70000
        }
    },
    "envs": [],
    "policy": {
        "Obj": {
            "min_replica": 0,
            "max_replica": 1,
            "standby_per_node": 1,
            "parallel": 50,
            "queue_len": 100,
            "queue_timeout": 30.0,
            "scalein_timeout": 1.0,
            "scaleout_policy": {
                "WaitQueueRatio": {
                    "wait_ratio": 0.1
                }
            },
            "runtime_config": {
                "graph_sync": false
            }
        }
    },
    "sample_query": {
        "body": {
            "stream": "true",
            "max_tokens": "1000",
            "temperature": "0"
        },
        "path": "v1/completions",
        "prompt": "write a quick sort algorithm.",
        "apiType": "text2text",
        "dataUrl": "",
        "prompts": [
            "Write a Python function that computes Fibonacci numbers. Explain time complexity.",
            "Translate the following Chinese text to English: \u4eca\u5929\u5929\u6c14\u5f88\u597d\u3002",
            "Explain general relativity in simple language.",
            "Write a legal contract clause about liability and indemnification.",
            "Summarize the plot of a fantasy novel involving dragons.",
            "Solve this calculus integral: \u222b x^3 log(x) dx",
            "Generate a JSON schema describing a user profile.",
            "Explain why emojis like \ud83d\ude00\ud83d\udd25\ud83d\ude80 represent byte-level tokens."
        ],
        "loadingTimeout": 90
    }
}