语言模型 - MyTokenGate

1. 模型核心能力

1.1 基础功能

文本生成：根据上下文生成连贯的自然语言文本，支持多种文体和风格。

语义理解：深入解析用户意图，支持多轮对话管理，确保对话的连贯性和准确性。

知识问答：覆盖广泛的知识领域，包括科学、技术、文化、历史等，提供准确的知识解答。

代码辅助：支持多种主流编程语言（如 Python、Java、C++ 等）的代码生成、解释和调试。

1.2 进阶能力

长文本处理：支持 4k 至 200k Tokens 的上下文窗口，适用于长篇文档生成和复杂对话场景。

指令跟随：精确理解复杂任务指令，如”用 Markdown 表格对比 A/B 方案”。

风格控制：通过系统提示词调整输出风格，支持学术、口语、诗歌等多种风格。

多模态支持：除了文本生成，还支持图像描述、语音转文字等多模态任务。

2. 接口调用规范

2.1 基础请求结构

您可以通过 OpenAI SDK 进行端到端接口请求。

生成对话


from openai import OpenAI
 
client = OpenAI(api_key="YOUR_KEY", base_url="https://gateway.mytokengate.com/v1")
 
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Write a haiku about recursion in programming."}
    ],
    temperature=0.7,
    max_tokens=1024,
    stream=True
)
 
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content)

分析一幅图像


from openai import OpenAI
 
client = OpenAI(api_key="YOUR_KEY", base_url="https://gateway.mytokengate.com/v1")
 
response = client.chat.completions.create(
    model="gemini-2.5-flash-image",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/image.png"
                    }
                },
                {
                    "type": "text",
                    "text": "What's in this image?"
                }
            ]
        }
    ],
    temperature=0.7,
    max_tokens=1024,
    stream=True
)
 
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content)

生成 JSON 数据


import json
from openai import OpenAI
 
client = OpenAI(
    api_key="YOUR_KEY",
    base_url="https://gateway.mytokengate.com/v1"
)
 
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "You are a helpful assistant designed to output JSON."},
        {"role": "user", "content": "2020年奥运会乒乓球男女单打冠军是谁？请用JSON格式回复"}
    ],
    response_format={"type": "json_object"}
)
 
print(response.choices[0].message.content)

2.2 消息体结构说明

消息类型	功能描述	示例内容
system	模型指令，设定 AI 角色，描述模型应一般如何行为和响应	例如：“你是有 10 年经验的儿科医生”
user	用户输入，将最终用户的消息传递给模型	例如：“幼儿持续低烧应如何处理？“
assistant	模型生成的历史回复，为模型提供示例，说明它应该如何回应当前请求	例如：“建议先测量体温…“

3. 模型系列选型指南

可用的模型系列：

Claude 系列

claude-opus-4-6 - 最强推理能力
claude-sonnet-4-6 - 平衡性能与成本
claude-haiku-4-5-20251001 - 快速响应

GPT 系列

gpt-4o - 多模态能力
gpt-4.1 - 增强版本
gpt-5 系列 - 最新模型

Gemini 系列

gemini-2.5-pro - 复杂任务
gemini-2.5-flash - 快速响应
gemini-3.1-pro-preview - 最新预览版

4. 核心参数详解

4.1 创造性控制


# 温度参数（0.0~2.0）
temperature=0.5  # 平衡创造性与可靠性
 
# 核采样（top_p）
top_p=0.9  # 仅考虑概率累积 90% 的词集

4.2 输出限制


max_tokens=1000  # 单词请求最大生成长度
stop=["\n##", "<|end|>"]  # 终止序列
frequency_penalty=0.5  # 抑制重复用词（-2.0~2.0）
stream=True  # 流式输出

4.3 语言模型场景问题汇总

模型输出乱码

可以尝试设置 temperature、top_k、top_p、frequency_penalty 这些参数。


payload = {
    "model": "gpt-4o",
    "messages": [
        {"role": "user", "content": "1+1=?"}
    ],
    "max_tokens": 200,
    "temperature": 0.7,
    "top_k": 50,
    "top_p": 0.7,
    "frequency_penalty": 0
}

关于 max_tokens 说明

建议留出 10k 左右作为输入内容的空间，不要将 max_tokens 设置为最大值。

模型输出截断问题

max_tokens 设置：设置合适的值
设置流式输出请求：防止长输出超时
设置客户端超时时间：防止未输出完成被截断

错误码处理

错误码	常见原因	解决方案
400	参数格式错误	检查请求参数的取值范围
401	API Key 没有正确设置	检查 API Key
403	权限不够	参考报错信息
429	请求频率超限	实施指数退避重试机制
503/504	模型过载	切换备用模型节点

5. 计费与配额管理

5.1 计费公式

总费用 = (输入tokens × 输入单价) + (输出tokens × 输出单价)

6. 应用案例

6.1 技术文档生成


from openai import OpenAI
 
client = OpenAI(api_key="YOUR_KEY", base_url="https://gateway.mytokengate.com/v1")
 
response = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[{
        "role": "user",
        "content": "编写 Python 异步爬虫教程，包含代码示例和注意事项"
    }],
    temperature=0.7,
    max_tokens=4096
)

6.2 数据分析报告


from openai import OpenAI
 
client = OpenAI(api_key="YOUR_KEY", base_url="https://gateway.mytokengate.com/v1")
 
response = client.chat.completions.create(
    model="gemini-2.5-pro",
    messages=[
        {"role": "system", "content": "你是数据分析专家，用 Markdown 输出结果"},
        {"role": "user", "content": "分析 2023 年新能源汽车销售数据趋势"}
    ],
    temperature=0.7,
    max_tokens=4096
)