colab编译llama.cpp部署llama大模型总结

  1. llama.cpp提供的http server不太好用,虽然可以使用cloudflare穿透,但是还是没调通
  2. 为了节省计算单元,build、模型转换、模型压缩时间不要连接GPU实例
  3. 下面研究怎么修改llama.cpp的量化(借助colab)
  4. 怎么简单调用llama
  5. build之后怎么报错结果?除了bin还需要报错什么?
  6. 使用chatbox连接colab上的推理服务

colab可以用来做什么:

可以当做高RAM,高性能的linux主机,同时可以按需求调整硬件为GPU模式

类似文章

发表回复