tensorflow离线跑批跑千万级需要的训练时间

 
DATA_FORMAT = 'NHWC'然后就可以开始训练了刚开始嘚loss值有一百多,接着出现了loss为nan的情况程序开始报错。
 

checkpoint错误出现这个问题的原因大概是因为训练时用的是上一次训练过程中保存的模型,保存在
的路径找到问题后我又将161的路径改为了None默认路径,同时将学习率调低到0.0001batch_size由原来的32改为了16。目前正在训练还没有出现nan的情况,就是loss值有点大......如果有路过看到的大神求提供改进意见啊

参考资料

 

随机推荐