成长

colab编译llama.cpp部署llama大模型总结

作者Frank 19 11 月, 202519 11 月, 2025

llama.cpp提供的http server不太好用，虽然可以使用cloudflare穿透，但是还是没调通
为了节省计算单元，build、模型转换、模型压缩时间不要连接GPU实例
下面研究怎么修改llama.cpp的量化（借助colab）
怎么简单调用llama
build之后怎么报错结果？除了bin还需要报错什么？
使用chatbox连接colab上的推理服务

colab可以用来做什么：

可以当做高RAM，高性能的linux主机，同时可以按需求调整硬件为GPU模式

发表回复取消回复

要发表评论，您必须先登录。