RLHF算法

kenger 发布于 2024-07-23 收录于学术

背景 PPO(Proximal Policy Optimization)近端策略优化算法它属于策略梯度方法的一种，旨在通过限制新策略和旧策略之间的差异来稳定训练过程。PPO通过引

大模型system Prompt为什么重要

kenger 发布于 2024-07-23 收录于学术

背景一直知道这玩意儿，也知道一部分其底层原理，但是没有实际深究过，决定mark一下。大模型的记忆原理从计算机科学的角度来看，最好将LLM的推

kenger 发布于 2024-07-23 收录于学术

背景有些东西，名词，经常听见，也大概知道是什么意思，但是就是总记不住，列个case。幻觉 **如果AI模型所生成输出没有任何已知事实的支持，幻

kenger 发布于 2024-07-23 收录于学术

自部署并发调查由于我们的模型可能需要用到自己的第三方模型，因此需要自己部署。一个是自己部署，自己维护可靠性，在一站式不成熟的情况下，避免和第

kenger 发布于 2024-07-22 收录于 Find JOB

背景正在编写go的测试用例case，但是对基本流程不熟。建议还是用goland开发，用vscode有点难受方法在Go语言中，编写测试函数和设

kenger 发布于 2024-07-18 收录于综合

背景 python包管理是一个非常抽象的问题，尤其是设计cuda登显卡环境的时候更加如此。 cu的问题我解决不了，但是普通工程的依赖问题需要解决