2.4K Star 8.2K Fork 4.4K

GVPMindSpore / mindspore

 / 详情

[ST][MS][NET][pangu c3][910B3 8p]Accuracy[50.9%] can not reach 53.56%

TODO
Bug-Report
创建于  
2024-03-25 19:20
name about labels
Bug Report Use this template for reporting a bug kind/bug

Describe the current behavior / 问题描述 (Mandatory / 必填)

pangu_c3网络在910B3上8p推理,精度50.9%达不到53.56%
模型仓地址:https://gitee.com/mindspore/models/tree/master/official/nlp/Pangu_alpha

Environment / 环境信息 (Mandatory / 必填)

  • Hardware Environment(Ascend/GPU/CPU) / 硬件环境:

Please delete the backend not involved / 请删除不涉及的后端:
/device ascend910B3

  • Software Environment / 软件环境 (Mandatory / 必填):
    -- MindSpore version (e.g., 1.7.0.Bxxx) :
    -- Python version (e.g., Python 3.7.5) :
    -- OS platform and distribution (e.g., Linux Ubuntu 16.04):
    -- GCC/Compiler version (if compiled from source):
    失败版本:
    run包:Milan_C17/20240321
    mindspore:r2.3.q1_20240322204955_5a94f41a4670

  • Excute Mode / 执行模式 (Mandatory / 必填)(PyNative/Graph):

Please delete the mode not involved / 请删除不涉及的模式:
/mode graph

Related testcase / 关联用例 (Mandatory / 必填)

用例路径:MindFormers_Test/cases/pangu/train
关联用例:test_mf_pangu_2_6b_infer_check_accruacy_910_c8_8p_0001.py

Steps to reproduce the issue / 重现步骤 (Mandatory / 必填)

  1. get code from models
  2. cd scripts;bash -x run_distribute_eval.sh 8 [HCCL_JSON] strategy.ckpt tokenizer checkpoint_file 2.6B fp32 c3 [C3_DATA]
  3. 验证网络是否训练成功
  4. 推理精度能达到53.56%

Describe the expected behavior / 预期结果 (Mandatory / 必填)

网络训练成功,推理精度能达到53.56%

Related log / screenshot / 日志 / 截图 (Mandatory / 必填)

不涉及

Special notes for this issue/备注 (Optional / 选填)

走给唐慧康

评论 (5)

zhongjicheng 创建了Bug-Report
zhongjicheng 添加了
 
sig/parallel
标签
zhongjicheng 添加了
 
attr/function
标签
zhongjicheng 添加了
 
stage/func-debug
标签
zhongjicheng 添加了
 
kind/bug
标签
zhongjicheng 添加了
 
v2.3.0
标签
zhongjicheng 添加了
 
v2.3.0.alpha
标签
zhongjicheng 添加了
 
device/ascend
标签
展开全部操作日志

Please assign maintainer to check this issue.
请为此issue分配处理人。
@zhongjicheng

感谢您的提问,您可以评论//mindspore-assistant更快获取帮助:

  1. 如果您刚刚接触MindSpore,或许您可以在教程找到答案
  2. 如果您是资深Pytorch用户,您或许需要:
  1. 如果您遇到动态图问题,可以设置set_context(pynative_synchronize=True)查看报错栈协助定位
  2. 模型精度调优问题可参考官网调优指南
  3. 如果您反馈的是框架BUG,请确认您在ISSUE中提供了MindSpore版本、使用的后端类型(CPU、GPU、Ascend)、环境、训练的代码官方链接以及可以复现报错的代码的启动方式等必要的定位信息
  4. 如果您已经定位出问题根因,欢迎提交PR参与MindSpore开源社区,我们会尽快review
zhongjicheng 负责人设置为tanghuikang
tanghuikang 添加协作者tanghuikang
tanghuikang 负责人tanghuikang 修改为xfan233

Appearance & Root Cause
问题:大模型编译时需要添加进度条或打印关键日志
输入图片说明
3月27日mindspore2.3 8卡达到53.56%精度
输入图片说明

i-robot 添加了
 
foruda
标签
xfan233 任务状态TODO 修改为VALIDATION
xfan233 里程碑B-SIG-Parallel 修改为B-SolutionTest
xfan233 移除了
 
sig/parallel
标签
xfan233 移除了
 
sig/parallel
标签
xfan233 移除了
 
stage/func-debug
标签
xfan233 移除了
 
stage/func-debug
标签
xfan233 移除了
 
kind/bug
标签
xfan233 移除了
 
kind/bug
标签
xfan233 移除了
 
v2.3.0
标签
xfan233 移除了
 
v2.3.0
标签
xfan233 移除了
 
attr/function
标签
xfan233 移除了
 
attr/function
标签
xfan233 添加了
 
sig/parallel
标签
xfan233 添加了
 
stage/func-debug
标签
xfan233 添加了
 
kind/bug
标签
xfan233 添加了
 
attr/function
标签
xfan233 添加了
 
rca/others
标签
xfan233 添加了
 
ctl/solutiontest
标签
xfan233 添加了
 
rct/oldrelease
标签
xfan233 添加协作者xfan233
xfan233 负责人xfan233 修改为zhongjicheng

回归版本:
runpkg_version:Milan_C17/20240321

mindspore:r2.3.q1_20240329061516_c99698ba26958c

mindformers:r1.1.tr5_20240329061516_6cd5b33a72

回归步骤:参考issue复现步骤
基本功能:问题未解决
输入图片说明
测试结论:回归不通过
回归人员:zhongjicheng
回归时间: 2024-03-30

zhongjicheng 移除了
 
rct/oldrelease
标签
zhongjicheng 移除了
 
rct/oldrelease
标签
zhongjicheng 移除了
 
ctl/solutiontest
标签
zhongjicheng 移除了
 
ctl/solutiontest
标签
zhongjicheng 添加了
 
ctl/solutiontest
标签
zhongjicheng 移除了
 
rca/others
标签
zhongjicheng 移除了
 
rca/others
标签
zhongjicheng 移除了
 
ctl/solutiontest
标签
zhongjicheng 添加了
 
ctl/solutiontest
标签
zhongjicheng 任务状态VALIDATION 修改为TODO
zhongjicheng 负责人zhongjicheng 修改为xfan233
zhongjicheng 取消协作者xfan233
zhongjicheng 修改了描述
tanghuikang 移除了
 
v2.3.0.alpha
标签
tanghuikang 移除了
 
v2.3.0.alpha
标签
tanghuikang 添加了
 
v2.3.0
标签
tanghuikang 添加了
 
v2.3.0.alpha
标签
xfan233 添加协作者xfan233
xfan233 负责人xfan233 修改为tanghuikang
xfan233 取消协作者tanghuikang

DTS2024040204454
BatchMatMul2MulFusionPass 引入问题,用修复后的CANN包验证用例pass

tanghuikang 添加了
 
rct/cann
标签

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(4)
6574048 hulktang 1584443870
Python
1
https://gitee.com/mindspore/mindspore.git
git@gitee.com:mindspore/mindspore.git
mindspore
mindspore
mindspore

搜索帮助