模型问题 - MyTokenGate

1. 模型输出乱码

目前看到部分模型在不设置参数的情况下，容易出现乱码，遇到上述情况，可以尝试设置temperature，top_k，top_p，frequency_penalty这些参数。

对应的 payload 修改为如下形式，不同语言酌情调整


payload = {
    "model": "gpt-4o",
    "messages": [
        {
            "role": "user",
            "content": "1+1=?",
        }
    ],
    "max_tokens": 200,  # 按需添加
    "temperature": 0.7,  # 按需添加
    "top_k": 50,  # 按需添加
    "top_p": 0.7,  # 按需添加
    "frequency_penalty": 0  # 按需添加
}

2. 关于max_tokens说明

max_tokens 与上下文长度相等，由于部分模型推理服务尚在更新中，请不要在请求时将 max_tokens 设置为最大值（上下文长度），建议留出 10k 左右作为输入内容的空间。

3. 关于context_length说明

不同的 LLM 模型，context_length是有差别的，具体可以在模型广场上搜索对应的模型，查看模型具体信息。

5. 语音模型中，对用户自定义音色有时间音质要求么

cosyvoice2 上传音色必须小于 30s

为保证生成语音效果，建议用户上传音色为：时间 8～10s 左右，发音吐字清晰，没有杂音/背景音。

6. 模型输出截断问题

可以从以下几方面进行问题的排查：

通过 API 请求时候，输出截断问题排查：
- max_tokens 设置：max_token 设置到合适值，输出大于 max_token 的情况下，会被截断。
- 设置流式输出请求：非流式请求时候，输出内容比较长的情况下，容易出现 504 超时。
- 设置客户端超时时间：把客户端超时时间设置大一些，防止未输出完成，达到客户端超时时间被截断。
通过第三方客户端请求，输出截断问题排查：
- CherryStdio 默认的 max_tokens 是 4096，用户可以通过设置，打开”开启消息长度限制”的开关，将 max_token 设置到合适值。

7. 模型使用过程中返回 429 错误排查

可以从以下几方面进行问题的排查：

普通用户：检查用户等级及模型对应的 Rate Limits（速率限制）。如果请求超出 Rate Limits，建议稍后再尝试请求。
专属实例用户：专属实例通常没有 Rate Limits 限制。如果出现 429 错误，首先确认是否调用了专属实例的正确模型名称，并检查使用的 api_key 是否与专属实例匹配。

8. 已充值成功，仍然提示账户余额不足

可以从以下几方面进行问题的排查：

确认使用的 api_key 是否与刚刚充值的账户匹配。
如果 api_key 无误，可能是充值过程中存在网络延迟，建议等待几分钟后再重试。