/images/avatar.png

RLHF算法

背景 PPO(Proximal Policy Optimization)近端策略优化算法 它属于策略梯度方法的一种,旨在通过限制新策略和旧策略之间的差异来稳定训练过程。PPO通过引

大模型自部署调查

自部署并发调查 由于我们的模型可能需要用到自己的第三方模型,因此需要自己部署。 一个是自己部署,自己维护可靠性,在一站式不成熟的情况下,避免和第

go测试

背景 正在编写go的测试用例case,但是对基本流程不熟。 建议还是用goland开发,用vscode有点难受 方法 在Go语言中,编写测试函数和设