开源盘古 Ultra-MoE-718B-V1.1-Int8

1. 简介

openPangu-Ultra-MoE-718B-V1.1 是基于昇腾 NPU 训练的大规模混合专家语言模型，总参数量为718B，激活参数量为39B，同一个模型具备快思考和慢思考两种能力。相较 [openPangu-Ultra-MoE-718B-V1.0] 版本，V1.1版本主要提升了Agent工具调用能力，降低了幻觉率，其他综合能力也进一步增强。

openPangu-Ultra-MoE-718B-V1.1-Int8 是 [openPangu-Ultra-MoE-718B-V1.1] 的量化版本，使用动态 per-token 量化方法，能够减少约一半的显存占用，提升20%吞吐，综合精度损失小于1%。

2. 模型架构

openPangu-Ultra-MoE-718B-V1.1-Int8 的模型架构采用了业界主流的 Multi-head Latent Attention (MLA)、Multi-Token Prediction (MTP)、大稀疏比等架构，以及一些特有的设计：

Depth-Scaled Sandwich-Norm 和 TinyInit：通过调整层归一化结构与参数初始化，提升训练稳定性。
基于 EP-Group 的负载均衡策略：通过优化负载均衡损失函数，改善专家特化效果。

3. 推理说明

使用Omni-Infer推理openPangu-Ultra-MoE-718B-V1.1-Int8的方式请参考[Omni-Infer推理部署指南]。

4. Function Call 调用示例

当前开源的 Omni-Infer 推理引擎已支持 Function Call 调用，vllm_ascend 版本将很快更新。

import requests,json

# 定义工具函数，Json列表格式，支持MCP协议规格
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_current_weather",
            "description": "获取指定城市的当前天气信息，包括温度、湿度、风速等数据。",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "城市名称，例如：'北京'、'深圳'。支持中文或拼音输入。"
                    },
                    "date": {
                        "type": "string",
                        "description": "查询日期，格式为 YYYY-MM-DD（遵循 ISO 8601 标准）。例如：'2023-10-01'。"
                    }
                },
                "required": ["location", "date"],
                "additionalProperties": False
            }
        }
    }
]

messages = [
    {"role": "system", "content": "你是华为公司开发的盘古模型。\n现在是2025年10月13日"}, # 自定义system prompt，不需要使用时置空
    {"role": "user", "content": "深圳后天的天气如何？"}
]

headers = {'Content-Type': 'application/json'}
api_url = "xxxxxxxx"

payload = {
    "model": "pangu_ultra_moe",
    "messages": messages,
    "tools": tools,
    "chat_template_kwargs":{
        "think": False, # 控制快慢思考，False快思考，默认True(慢思考)
        "mcp_prompt": True # 控制是否使用默认的工具调用system prompt。默认True(使用)
    }
}

api_response = requests.post(api_url, headers=headers, json=payload)

# 处理模型响应返回值
choice = api_response.json()["choices"][0]
reasoning_response = choice['message']['reasoning_content']
response = choice['message']['content']
tool_calls = choice['message']['tool_calls']

chat_template_kwargs 快慢切换和工具相关参数说明

think: 慢思考模式开关，默认 True，慢思考模式；
mcp_prompt: Function Call 模式是否使用内置的默认工具调用指令，默认 True（使用）。如果为 True 且传入了 tools ，会在自定义 system prompt 之后插入内置的默认工具调用指令。

5. 模型许可证

除文件中对开源许可证另有约定外，openPangu-Ultra-MoE-718B-V1.1-Int8 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 LICENSE 文件。

6. 免责声明

由于 openPangu-Ultra-MoE-718B-V1.1-Int8 （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，华为无法对以下事项做出任何保证：

该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；
无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；
该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

7. 反馈

如果有任何意见和建议，请提交issue或联系openPangu@huawei.com。

Downloads last month: 102

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Collection including FreedomIntelligence/openPangu-Ultra-MoE-718B-V1.1-Int8

openPangu

Collection

A series of openPangu LLMs with different parameters. • 8 items • Updated 6 days ago • 2