大模型自部署调查

kenger 收录于学术

2024-07-23 约 1403 字预计阅读 3 分钟

自部署并发调查

由于我们的模型可能需要用到自己的第三方模型，因此需要自己部署。

一个是自己部署，自己维护可靠性，在一站式不成熟的情况下，避免和第三方公用资源。

优点如下：

无审核
纯自用，私密性
当主模型宕机，可以部分顶上

短期测试

Ollama进行了v0.1.33版本更新，为本地部署的开源大型语言模型（LLMs）带来了重大改进。现在，多用户可以在同一台宿主机上与LLMs进行互动，实现同时聊天对话。

Linux为例

通过调用编辑 systemd 服务systemctleditollama.service 这将打开一个编辑器。
Environment对于每个环境变量，在部分下添加一行[Service]：

1

#示例[Service]Environment="OLLAMA_HOST=0.0.0.0" #设置服务监听的主机地址Environment="OLLAMA_NUM_PARALLEL=4" #并行处理请求的数量Environment="OLLAMA_MAX_LOADED_MODELS=4" #同时加载的模型数量

保存并退出。
重新加载systemd并重新启动 Olama：

1

sudo systemctl daemon-reloadsudo systemctl restart ollama

tips：以上的变量值官方给出为4，并没有详细说明最大可以设置到多少

业界

前已经有不少框架支持了大模型的分布式部署，可以并行的提高推理速度。不光可以单机多卡，还可以多机多卡。我自己没啥使用经验，简单罗列下给自己备查。不足之处，欢迎在评论区指出。

框架名称	出品方	开源地址
FasterTranaformer	英伟达	FasterTransformer github
TGI	huggingface	huggingface/text-generation-inference
vLLM	伯克利大学 LMSYS 组织	github-vllm
deepspeed	微软	github.com/microsoft/DeepSpeed
lmdeploy	open-mmlab	InternLM/lmdeploy
TurboTransformers	腾讯	Tencent/TurboTransformers