
LoRA 微调的云上漂流
写在前面 Serverless + 大模型推理,有什么难的? 在传统的serverless架构中(如 AWS Lambda、Google Cloud Functions),系统设计的核心诉求是: 快速启动、短暂执行、高并发调度,主要针对 CPU-bound 轻量计算任务。 比如调用一个图像压缩函数、一个用户注册校验、一个数据库查询包装器等,这类请求大多数只需几百毫秒甚至几十毫秒,CPU 足够胜任。 但当我们把同样的「serverless」理念搬到大模型推理场景时,立刻面临三重冲击: ...

