ONNX Runtime generate() API

注意:此 API 處於預覽階段,可能會發生變化。

使用 ONNX Runtime 執行生成式 AI 模型。

檢視原始碼:https://github.com/microsoft/onnxruntime-genai

該庫為 ONNX 模型提供了生成式 AI 迴圈,包括分詞(tokenization)及其他預處理、使用 ONNX Runtime 進行推理、Logits 處理、搜尋與取樣,以及 KV 快取管理。

使用者可以呼叫高階的 generate() 方法,也可以在迴圈中執行模型的每次迭代,一次生成一個 token,並可選擇在迴圈內更新生成引數。

它支援貪婪搜尋(greedy search)/集束搜尋(beam search),以及用於生成 token 序列的 TopP 和 TopK 取樣,並內建瞭如重複懲罰(repetition penalties)等 Logits 處理功能。你還可以輕鬆新增自定義評分邏輯。

其他支援的功能包括應用聊天模板(chat templates)和結構化輸出(用於工具呼叫)。


目錄