colab编译llama.cpp部署llama大模型总结
- llama.cpp提供的http server不太好用,虽然可以使用cloudflare穿透,但是还是没调通
- 为了节省计算单元,build、模型转换、模型压缩时间不要连接GPU实例
- 下面研究怎么修改llama.cpp的量化(借助colab)
- 怎么简单调用llama
- build之后怎么报错结果?除了bin还需要报错什么?
- 使用chatbox连接colab上的推理服务
colab可以用来做什么:
可以当做高RAM,高性能的linux主机,同时可以按需求调整硬件为GPU模式