LLM评估测试框架DeepEval 可离线评估大模型性能
DeepEval是一个用于对语言模型(LLM)应用进行评估和单元测试的框架。它提供了各种指标,可以测试语言模型应用生成的回复在相关性、一致性、无偏见性和无毒性等方面的表现。DeepEval使得机器学习工程师可以通过持续集成/持续交付(CI/CD)流程快速评估语言模型应用的性能。
项目地址:https://github.com/confident-ai/deepeval
DeepEval提供了Python友好的离线评估方法,确保你的流水线准备上线。它就像是流水线的“Pytest”,使得流水线的生产化和评估过程变得简单明了,就像通过所有的测试一样。
DeepEval的Web UI允许工程师分析和查看他们的评估结果。
DeepEval的特色功能包括:
- 测试回复的相关性、事实一致性、有毒性、偏见性等
- Web UI查看测试、实现、比较结果
- 通过合成问题-回答自动评估
安装使用DeepEval非常简单,只需要通过pip安装:
```
pip install deepeval
```
然后按照快速入门文档,你可以在1分钟内上手使用。
对个别测试用例,定义只需要几行代码。例如:
```python
from deepeval.metrics.factual_consistency import FactualConsistencyMetric
from deepeval.test_case import LLMTestCase
from deepeval.run_test import assert_test
# 定义测试用例
test_case = LLMTestCase(
query="What is the capital of France?",
expected_output="The capital of France is Paris."
)
# 定义使用的指标
metric = FactualConsistencyMetric()
# 执行测试
assert_test(test_case, metrics=[metric])
```
这样就可以构建一个简单的测试,测试语言模型对问题"What is the capital of France?"的回复是否符合事实。
DeepEval内置了各种指标,也支持自定义指标。它可以非常方便地集成到现有的流水线和框架中,比如Langchain、LLAMA等。同时,DeepEval也提供了合成问题生成功能,可以快速针对特定领域评估语言模型。
总之,DeepEval目的是让编写、运行、自动化语言模型的测试变得如同编写Python中的单元测试一样简单直观。它很好地满足了机器学习工程中对结构化反馈的需求,可以显著提高工程师的迭代速度。
如果你在开发聊天机器人、语言模型应用,DeepEval绝对是一个提高工程效率的好帮手。
核心功能:
- 测试回复的相关性、一致性、无偏见性、无毒性
- 多个内置评估指标
- 支持自定义评估指标
- 一键集成到现有机器学习流水线
- 合成问题自动评估
- 提供Web UI分析和展示结果
- Python友好,编写测试用例像写单元测试
AI输出是否受到言论保护?法律专家警告称这是危险的提议
**划重点:**1.🗣️一些美国法律专家认为大型语言模型(LLM)的输出受到第一修正案的保护,但法律专家PeterSalib表示这将带来灾难性后果。2.🤯Salib担心,如果GPT-5等模型的输出被视为受到保护的言论,将难以监管这些系统,可能导致严重后果。3.🚫他提倡对AI输出进行合理监管,强调法规应该关注输出内容本身,而不是过程,以规避潜在的危险。站长网2024-03-06 15:37:540000小红书在IOS端上线旁白功能
为了帮助视障用户更好地使用和融入小红书社区,该平台于今年5月初在iOS端的更新版中适配了苹果系统的“旁白”辅助功能。据介绍,视障用户在进入小红书社区、刷笔记时,旁白功能会提示每个按钮的具体功能;在搜索场景时,视障用户能够通过语音提示了解整个页面的结构,接收到双列里每一篇笔记的内容,并进入到自己感兴趣的一篇笔记中去浏览内容。站长网2023-05-22 11:35:230002苹果公司未能阻止Watch Series 9和 Ultra 2的进口和销售禁令
苹果公司未能推迟对WatchSeries9和WatchUltra2的进口和销售禁令。美国国际贸易委员会(ITC)驳回了苹果公司在等待上诉期间暂缓实施禁令的动议。该禁令将于12月26日正式生效。苹果公司已宣布将在12月24日之前将这两款手表从其商店下架。目前该禁令仅在美国有效,百思买等第三方零售商仍然可以销售这对手表,直到供应耗尽。站长网2023-12-21 10:39:030000从卖房还债到月销4000万!衢州小伙带00后们创业,靠它逆境翻盘
妙界创始人金远亮向来少眠。因此,手头没有其他工作的时候,早上六七点他就会出现在公司客服群盯着客户问题及反馈,一直到晚上12点甚至凌晨——哪怕是当天的值班客服,至少也比他早半小时“下班”。“这样有一个最直接的好处,就是客服们在整个上班时间都能找到我。”每个月他还会冒充“客服”:问同事要来联系方式,与十多位顾客直接对话,再把收集到的问题交给整个团队去改进。这与妙界的“年轻”有关。站长网2024-01-28 10:16:330000iPhone用户中招!苹果App Store应用商店崩了无法连接
快科技4月4日消息,今早,大量苹果iPhone用户反馈,称苹果AppStore应用商店崩了,出现无法连接AppStore,请重试”的提示。有网友吐槽,一大早发什么疯,下个软件搞了半天我以为我账号出问题了”我以为我网坏了”重启也没用”等等。值得注意的是,快科技发现不仅是AppStore打不开,连苹果自带的音乐App也提示发生错误”。站长网2024-04-08 12:42:390000