背景 最近需要用到这玩意儿,但是我目前只知道langchain等框架,对市场缺乏一个调研。 需要做一个技术选型。 实际上:agent,本质上就是一
背景 PPO(Proximal Policy Optimization)近端策略优化算法 它属于策略梯度方法的一种,旨在通过限制新策略和旧策略之间的差异来稳定训练过程。PPO通过引
背景 一直知道这玩意儿,也知道一部分其底层原理,但是没有实际深究过,决定mark一下。 大模型的记忆原理 从计算机科学的角度来看,最好将LLM的推
背景 有些东西,名词,经常听见,也大概知道是什么意思,但是就是总记不住,列个case。 幻觉 **如果AI模型所生成输出没有任何已知事实的支持,幻
自部署并发调查 由于我们的模型可能需要用到自己的第三方模型,因此需要自己部署。 一个是自己部署,自己维护可靠性,在一站式不成熟的情况下,避免和第
背景 正在编写go的测试用例case,但是对基本流程不熟。 建议还是用goland开发,用vscode有点难受 方法 在Go语言中,编写测试函数和设