Prometheus-Eval Prometheus-Eval Prometheus-Eval 简介 Prometheus-Eval 是一个专门用于评估生成任务中大型语言模型（LLMs）的工具库。该工具库集成了对语言模型进行训练、评估和应用的多种功能，并提供简便的Python接口来评估指令和响应对。Prometheus-Eval 的独特之处在于其开源的特性，提供了

Prometheus-Eval

Prometheus-Eval 简介

Prometheus-Eval 是一个专门用于评估生成任务中大型语言模型（LLMs）的工具库。该工具库集成了对语言模型进行训练、评估和应用的多种功能，并提供简便的Python接口来评估指令和响应对。Prometheus-Eval 的独特之处在于其开源的特性，提供了更高的公平性、可控性和经济性，不依赖于封闭源代码的评估模型。

使用场景

评估指令和响应对：Prometheus-Eval 可以通过绝对评分（absolute grading）和相对评分（relative grading）两种方式评估模型的响应质量。绝对评分为每个响应打分，范围为1到5；相对评分则在两个响应中选择更好的一个。
本地推理和API推理：该库支持通过vllm在本地运行评估模型，同时也支持使用API（如GPT-4）进行模型推理。
模型训练和微调：Prometheus-Eval 提供了训练和微调语言模型的脚本，用户可以利用自定义数据集来训练Prometheus模型。
大规模批量评估：对于需要评估大量数据集的场景，Prometheus-Eval 也提供了批量评估功能，比单独评估每个响应更为高效。
高品质评估数据集：Prometheus 2 (7B & 8x7B) 模型基于BiGGen-Bench的数据集进行训练和评估，支持多种能力和任务，并提供详细的评估准则。
可视化和报告生成：Prometheus-Eval 允许用户生成交互式报告和可视化评分结果，便于分析评估结果。

安装和使用

安装：
```
pip install prometheus-eval
```
本地推理与API推理：
- 本地推理需要安装vllm：
```
pip install vllm
```
- API推理可参考litellm提供的安装细节。

快速开始：

from prometheus_eval.vllm import VLLM
from prometheus_eval import PrometheusEval

model = VLLM(model="prometheus-eval/prometheus-7b-v2.0")
judge = PrometheusEval(model=model)

instruction = "输入指令..."
response = "模型响应..."
reference_answer = "参考答案..."
rubric = "评分准则..."

feedback, score = judge.single_absolute_grade(
    instruction=instruction,
    response=response,
    rubric=rubric,
    reference_answer=reference_answer
)

print("反馈:", feedback)
print("评分:", score)

总结来说，Prometheus-Eval 为研究者和开发者提供了一个强大的工具来公平、可控且经济地评估大型语言模型的生成任务性能。同时，它提供了丰富的功能来支持多种评估方式，适用于学术研究、工业应用和数据分析等多种场景。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621

Prometheus-Eval

介绍：

Prometheus-Eval