关于 MoE 版本的辅助损失函数. #110

Leiyi-Hu · 2025-01-09T02:46:48Z

您好，这里的 aux_loss 看起来并没有被使用？还是通过其他的方式参与了训练呢？

jingyaogong · 2025-01-09T03:58:58Z

是的，简单起见这部分loss并没有加入训练😊

Leiyi-Hu · 2025-01-09T05:38:52Z

是的，简单起见这部分loss并没有加入训练😊

谢谢！如果需要加入训练，其实现是不是应该将每层的 loss 都存下来和最后的 ce loss 一起进行梯度计算呢？

jingyaogong · 2025-01-09T06:03:15Z

是的，简单起见这部分loss并没有加入训练😊

谢谢！如果需要加入训练，其实现是不是应该将每层的 loss 都存下来和最后的 ce loss 一起进行梯度计算呢？

是的，只需要把每一层的 aux_loss 累加，最后和 logits分类交叉熵loss 相加即可。

Leiyi-Hu · 2025-01-09T06:31:59Z

是的，简单起见这部分loss并没有加入训练😊

谢谢！如果需要加入训练，其实现是不是应该将每层的 loss 都存下来和最后的 ce loss 一起进行梯度计算呢？

是的，只需要把每一层的 aux_loss 累加，最后和 logits分类交叉熵loss 相加即可。

明白了，谢谢！另外有一个关于数据预处理问题想请教，

这里的 history 为什么截断为 max_length的一半？同时比较疑惑的是 max_length应该是以 token 为单位，这里的 history 看起来是字符串？

jingyaogong · 2025-01-09T06:46:14Z

是的，简单起见这部分loss并没有加入训练😊

谢谢！如果需要加入训练，其实现是不是应该将每层的 loss 都存下来和最后的 ce loss 一起进行梯度计算呢？

是的，只需要把每一层的 aux_loss 累加，最后和 logits分类交叉熵loss 相加即可。

明白了，谢谢！另外有一个关于数据预处理问题想请教，这里的 history 为什么截断为 max_length的一半？同时比较疑惑的是 max_length应该是以 token 为单位，这里的 history 看起来是字符串？

也是简单起见
如果在这里用tokenzier去严格统计token数量会增加不必要的时间（当然对后面的input_id做统计也行，只不过更麻烦）
考虑到M的字符串中的token数量一定是 < M 的

为什么是一半？
单轮对话的时候希望Q、A至多各占一半字符，超过部分直接简单粗暴的截断

Leiyi-Hu · 2025-01-09T07:04:32Z

是的，简单起见这部分loss并没有加入训练😊

谢谢！如果需要加入训练，其实现是不是应该将每层的 loss 都存下来和最后的 ce loss 一起进行梯度计算呢？

是的，只需要把每一层的 aux_loss 累加，最后和 logits分类交叉熵loss 相加即可。

明白了，谢谢！另外有一个关于数据预处理问题想请教，这里的 history 为什么截断为 max_length的一半？同时比较疑惑的是 max_length应该是以 token 为单位，这里的 history 看起来是字符串？

也是简单起见如果在这里用tokenzier去严格统计token数量会增加不必要的时间（当然对后面的input_id做统计也行，只不过更麻烦）考虑到M的字符串中的token数量一定是 < M 的

感谢您的解答！🙏

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于 MoE 版本的辅助损失函数. #110

关于 MoE 版本的辅助损失函数. #110

Leiyi-Hu commented Jan 9, 2025

jingyaogong commented Jan 9, 2025

Leiyi-Hu commented Jan 9, 2025

jingyaogong commented Jan 9, 2025

Leiyi-Hu commented Jan 9, 2025

jingyaogong commented Jan 9, 2025 •

edited

Loading

Leiyi-Hu commented Jan 9, 2025

关于 MoE 版本的辅助损失函数. #110

关于 MoE 版本的辅助损失函数. #110

Comments

Leiyi-Hu commented Jan 9, 2025

jingyaogong commented Jan 9, 2025

Leiyi-Hu commented Jan 9, 2025

jingyaogong commented Jan 9, 2025

Leiyi-Hu commented Jan 9, 2025

jingyaogong commented Jan 9, 2025 • edited Loading

Leiyi-Hu commented Jan 9, 2025

jingyaogong commented Jan 9, 2025 •

edited

Loading