ONNX Runtime generate() API
注意:此 API 處於預覽階段,未來可能會有更改。
使用 ONNX Runtime 執行生成式 AI 模型。
在此處檢視原始碼:https://github.com/microsoft/onnxruntime-genai
此庫為 ONNX 模型提供生成式 AI 迴圈,包括使用 ONNX Runtime 進行推理、logits 處理、搜尋和取樣以及 KV 快取管理。
使用者可以呼叫高階 generate() 方法,也可以在迴圈中執行模型的每次迭代,每次生成一個 token,並可選擇在迴圈內更新生成引數。
它支援貪婪搜尋/束搜尋以及 TopP、TopK 取樣以生成 token 序列,並內建了 logits 處理功能,例如重複懲罰。您還可以輕鬆新增自定義評分。