为什么顶尖AI团队都在用TensorRT做模型推理优化?
2025/12/28 2:10:02
先看最顶层的代码,输入包含(提示词,生成参数),传入generate函数中:
断言:首先会进行一系列的断言。
请求构建:如果我们有多个 Prompt,这会将这些请求通过 for 循环封装到一个请求里面,也就是 _add_request()。
启动模型引擎:通过类对象调用 _run_engine 函数完成请求。
重点:generate 函数中最重要的就是 _add_request 函数和 _run_engine 函数。