背景 PPO(Proximal Policy Optimization)近端策略优化算法 它属于策略梯度方法的一种,旨在通过限制新策略和旧策略之间的差异来稳定训练过程。PPO通过引
背景 一直知道这玩意儿,也知道一部分其底层原理,但是没有实际深究过,决定mark一下。 大模型的记忆原理 从计算机科学的角度来看,最好将LLM的推
背景 有些东西,名词,经常听见,也大概知道是什么意思,但是就是总记不住,列个case。 幻觉 **如果AI模型所生成输出没有任何已知事实的支持,幻
自部署并发调查 由于我们的模型可能需要用到自己的第三方模型,因此需要自己部署。 一个是自己部署,自己维护可靠性,在一站式不成熟的情况下,避免和第
背景 正在编写go的测试用例case,但是对基本流程不熟。 建议还是用goland开发,用vscode有点难受 方法 在Go语言中,编写测试函数和设
背景 python包管理是一个非常抽象的问题,尤其是设计cuda登显卡环境的时候更加如此。 cu的问题我解决不了,但是普通工程的依赖问题需要解决