上海市网站建设_网站建设公司_会员系统_seo优化
2026/1/20 10:37:04 网站建设 项目流程

Changelog · Prodigy

此页面列出了 Prodigy 的历史变更。每当有新的更新可用时,都会向购买时指定的邮箱地址发送邮件通知。然后您可以通过个人下载链接下载新版本。如果您的免费升级已过期,您现在可以通过我们的在线商店为您的许可证添加 12 个月的更新。请注意,您的许可证密钥为新版本激活最多可能需要 24 小时。

插件更新

我们发布了一个新插件:用于将 DSPy 编程式提示工程与 Prodigy UI 集成的 Prodigy-DSPy。该插件支持一种迭代式工作流程,其中人工反馈直接指导 DSPy 的自动提示优化。有关工作流程和可用配方的详细信息,请参阅文档,并查看我们的博客文章和教程代码以获取端到端示例。

  • new添加dspy.annotate配方,用于使用 DSPy 程序预测标注数据。
  • new添加dspy.ner.annotate配方,用于使用内置的 DSPy NER 程序进行命名实体识别标注。
  • new添加dspy.evaluate配方,用于评估 DSPy 程序并收集关于指标性能的人工反馈。
  • new添加dspy.feedback命令,用于使用 LLM 将人工反馈合成为可操作的见解。
  • new添加dspy.optimize命令,用于在优化循环中集成人工反馈来优化 DSPy 程序。
  • doc添加包含工作流程概述、配置指南和端到端示例的 Prodigy-DSPy 文档。

v1.18.4 (2025-11-24)

  • fix修复首次加载任务时prodigyupdate事件未触发的问题。
  • fix确保prodigysave在所有保存方法(UI 按钮、键盘快捷键和save()JavaScript 函数)中一致地触发。
  • new为内联嵌入的 JavaScript(URL 详情为inline)触发prodigyscriptload事件。

v1.18.3 (2025-11-07)

  • fix启用在pages上下文中text_input块的自动对焦功能。
  • fix优化database drop命令使用的数据库查询,以提升大型数据集上的性能。

v1.18.2 (2025-06-04)

  • fyi将 spaCy 依赖版本提升至< 3.9.0
  • new添加对 Python 3.13 的支持。

v1.18.1 (2025-04-09)

  • fyi将 fastapi 依赖版本提升至< 0.116.0

v1.18.0 (2025-02-24)

此版本包含用于在跨度标注期间编辑文本以及自定义单个 UI 消息和翻译的新功能。我们还通过额外的辅助函数和事件监听器改进了对自定义 JavaScript 的支持。

  • new为跨度标注添加文本编辑功能,以及在ner.manualspans.manual中添加可配置事件钩子的--edit-text设置,以便在后端重新生成和重新分词示例。
  • new通过ui_lang_locale配置设置支持自定义 UI 消息和本地化。
  • new在 JavaScript 中暴露window.prodigy.save以编程方式保存进度。
  • new添加prodigyloadJavaScript 事件(当应用挂载且自定义 JavaScript 和/或 CSS 已加载时触发)和prodigysave事件(当用户手动保存答案时触发)。
  • new即使未提供自定义 JavaScript,也始终暴露window.prodigy
  • new添加tokenize_example辅助函数,用于为单个示例添加分词。
  • newfetch_media预处理器添加exclude_urls参数,以保留 URL 并仅获取本地路径的 base64 数据。
  • fix通过更改 UUID 生成方式修复前端可能出现的crypto.randomUUID错误。
  • fix修复自定义 JavaScript 和 CSS 的加载,确保即使没有可用任务时也能添加。
  • doc命名实体识别和跨度分类的文本编辑文档。
  • doc用于配方开发和调试的“检查 Web 应用所见内容”文档。
  • doc记录用于从任务迭代器创建 Stream 对象的Stream.from_iterable类方法。

v1.17.5 (2025-02-04)

  • fyi将 uvicorn 依赖版本提升至允许< 0.35

v1.17.4 (2025-01-07)

  • fix确保pages在加载时间较长(针对大型 PDF 文件和/或较慢的机器)时不会抛出类型错误或回退到text

v1.17.3 (2024-12-18)

  • fix在 Server loaders 的任务中添加文件名作为文本,确保其出现在历史记录侧边栏中。
  • 插件更新
    • fyi将 prodigy-company-plugins 包固定为 Prodigy >= 1.15.0。

v1.17.2 (2024-11-26)

  • fix修复了版本 1.17.0 中引入的一个回归问题,即当在choice块配置中指定text: None时会抛出验证错误。

v1.17.1 (2024-11-25)

  • fix修复pagesUI 缩略图渲染和滚动行为。
  • 插件更新
    • newProdigy-PDF 插件中新增pdf.spans.manualpdf.layout.fetch配方,用于标注从 PDF 提取的文本,由 spacy-layout 和 Docling 提供支持。

v1.17.0 (2024-11-18)

此更新推出了全新的分页容器界面pages,可将单个标注任务拆分为多个部分,甚至可以组合不同的界面,同时保持 Prodigy 基于卡片设计的简洁性和高效性。分页数据可以直接从 JSON 或简单文件格式加载,并且已经在所有相关的内置标注配方以及 Prodigy-PDF 插件中得到支持。

  • new用于处理长文档、PDF 或图像集合等多页任务的pages界面。
  • new用于加载分页文件的 Pages loader,并在相关内置配方中支持--loader pages和分页输入数据。
  • new添加split_pagesmerge_pages预处理器,并在traindata-to-spacy中支持pages
  • fix增强任务数据的前端验证,在 UI 中提供更有用的错误消息。
  • doc更新有关自定义界面、PDF 计算机视觉以及长文本 NER 的文档。
  • fyiblocks中使用的choice配置中,现在必须将"video"内容显式设置为None,以防止其被渲染两次。
  • fyi"pages""page_titles"现在在 JSON 数据中是受保护的键(类似于"text"),您应避免将它们用于任何非分页示例的内容。
  • fyiJSON 任务的"meta"中以_开头的属性现在被视为内部属性,不会显示在标注界面中。
  • 插件更新
    • newProdigy-PDF 插件中支持pages和 PDF 的分页加载。

v1.16.0 (2024-10-22)

在此版本中,我们移除了所有 Cython 编译的源代码,现在以跨平台 Python wheel 包的形式分发 Prodigy,这使得开发自定义配方更容易,并改善了类型检查和 IDE 支持。此更新还包括几个前端修复,例如恢复了audio界面的时间轴功能,并启用了review中版本的包装。在后端,我们重构了drop以缓解与SQLITE_MAX_VARIABLE_NUMBER相关的问题。

  • fyiProdigy 现在作为纯 Python wheel 包分发,不包含编译的 Cython。
  • fix恢复audio界面的时间轴功能。
  • fix启用review界面中的版本包装功能。
  • fix通过添加默认accept答案来改进llm.fetch系列配方。
  • fix改进drop逻辑以缓解潜在的SQLITE_MAX_VARIABLE_NUMBER问题。
  • 插件更新
    • 我们新增了一个高级插件:用于在 Modal 的无服务器云中部署 Prodigy 的 Prodigy Modal。有关详情和示例工作流程,请参阅文档。另请查看我们最新的博客文章,了解如何构建完全自定义的信息提取管道,无需基础设施或 GPU 设置。
    • new添加 Prodigy Modal 插件。

v1.15.8 (2024-10-03)

此补丁版本恢复了从配方返回 Controller 对象实例的可能性。

  • fix重新启用从配方返回 Controller 对象。

v1.15.7 (2024-07-30)

此补丁版本修复了默认 textcat 和 textcat-multilabel spaCy 组件训练配置生成中的一个错误。

  • fix修复 textcat 和 textcat-multilabel 的训练配置生成。

v1.15.6 (2024-06-19)

此补丁版本将 numpy 版本固定为<2.0.0,以避免因 numpy 2.0.0 中引入的向后不兼容更改导致的安装问题。

  • fix将 numpy 固定为<2.0.0

v1.15.5 (2024-06-13)

此补丁版本更新了 wavesurfer.js 依赖的版本,修复了audio.manual中的一个回归问题,该问题曾阻止在光标左侧标记区域。

  • fix恢复在 audio.manual 中向光标左侧标记区域的功能。
  • fyi更新 wavesurfer.js 至^7.7.15

v1.15.4 (2024-05-23)

此补丁版本修复了reviewrel.manualmetrics.iaa.doc配方中的一些错误。

  • fixmetric.iaa.doc中支持非字符串标签。
  • fix修复relations中通过_属性模式禁用分词的问题。
  • fix修复review中的流生成,使得仅在顺序上不同的关系标注不会显示为不同。

v1.15.3 (2024-04-24)

此版本添加了对 fastapi 最高 0.111.0 版本的支持。

  • new允许 fastapi<0.111.0
  • fix修复reviewaccept_single标志未正确过滤由单个标注者标注的任务的问题。
  • fyi使“无任务可用”屏幕信息更丰富。
  • 插件更新
    • fyiProdigy-SSO v0.2.1:更新内部结构以使其与 fastapi<0.111兼容。

v1.15.2 (2024-03-26)

此补丁版本将ab.llm.tournament配方更新至 spacy-llm>= 0.7.0

  • fixab.llm.tournament中模型响应的处理更新至 spacy-llm>= 0.7.0
  • fyi支持 prodigy-evaluate 插件的数据集处理内部重构。
  • 插件更新
    • Prodigy 1.15.2 版本还附带了一个新的开源插件,为您的 QA 工具集增添功能。prodigy-evaluate 提供了使用多种指标评估 spaCy 管道整体或逐例评估的命令。
    • new用于 spaCy 管道评估的 prodigy-evaluate 插件。
    • 我们更新了 Prodigy 公司 SSO 插件,在范围定义上提供更多灵活性,使 profile 范围变为可选。如果 profile 导致网络负载过大,这会很有帮助。
    • new使 prodigy-sso 插件的 profile 范围变为可选。

v1.15.1 (2024-02-23)

此版本通过修复一个先前阻止使用 transformer spaCy 管道作为基础模型的错误,改进了由traintrain-curvedata-to-spacy使用的训练配置生成。此外,分词器从基础模型的来源现在已自动化。我们还将 uvicorn 依赖版本提升至允许<0.27

  • new自动从基础模型获取分词器来源。
  • new允许 uvicorn<0.27
  • fix允许将 transformer 作为 spaCy 基础模型的嵌入层。

v1.15.0 (2024-02-15)

此版本添加了对新的 Prodigy 公司插件包的支持,该包可通过公司许可证下载。这第一个用于 SSO(单点登录)的高级插件支持跨多种提供商(包括 Auth0、Okta、Google、Microsoft Entra 等)的 OIDC 身份验证。有关新公司功能的更多详情,请参阅 OIDC 文档。

  • new添加对 prodigy-company-license 0.1.0 的支持。

v1.14.14 (2024-01-30)

此更新允许 Prodigy 使用 spacy-llm<1.0.0,其最近新增了实体链接和翻译等新任务,以及对任意长度文档的支持。

  • new允许 spacy-llm<1.0.0

v1.14.13 (2024-01-25)

此更新修复了从任务级别覆盖配方配置的问题,以便可以更新view_id属性。现在可以设计具有不同view_id的数据流,而无需重新启动服务器。

  • fix现在可以从任务级别覆盖view_id(以及其他配置属性)。
  • newmetric.iaa.span结果表中添加了一个“Support”列,表示计算该指标所基于的示例数量。

v1.14.12 (2023-12-13)

此补丁版本恢复了audio_rate设置的功能。我们还把 wavesurfer.js 依赖升级到了 7.4.4,这与show_audio_timeline设置的弃用以及 UI 中声波渲染方式的轻微变化有关。我们也很兴奋地宣布一个新的利用 Meta 的 Segment Anything 模型进行图像分割的插件。

  • new将 wavesurfer.js 依赖更新至 7.4.4。
  • new在前端添加了一个新的window.prodigy.resetQueue方法,旨在与自定义事件一起使用。
  • fix修复了音频配方的audio_rate设置。
  • fyi由于 wavesurfer.js 升级,show_audio_timeline设置已被弃用。
  • doc更新自定义配方部分,包含利用 radicli 的示例。
  • 插件更新
    • 在此版本期间,我们还发布了一个新插件:Prodigy-Segment!这使您能够利用 Meta 的 segment-anything 模型从图像中选择像素。
    • 我们还为 Prodigy-ANN 和 Prodigy-LUNR 引入了新功能,允许您从 UI 重置流。
    • new添加用于使用 Meta 的 Segment Anything 模型进行图像分割的 Prodigy-Segment 插件。
    • new许多 Prodigy-ANN 和 Prodigy-LUNR 配方现在带有--allow-reset标志,允许用户从 UI 重置流。
    • doc更新插件部分以反映新增内容。

v1.14.11 (2023-11-30)

此补丁版本添加了对 Python 3.12 的支持,并修复了与向 radicli 过渡期间引入的prodigy.serve功能相关的回归问题。此外,它恢复了使用 stdin 作为源的功能。

  • new添加对 Python 3.12 的支持。
  • new添加Controller.reset_stream方法,允许自定义配方重置流。
  • fix修复prodigy.serve中的 CLI 参数处理,使其与 radicli 兼容。
  • fix恢复使用 stdin 作为源。

v1.14.10 (2023-11-16)

此补丁版本修复了从 spaCy textcat 模型推断互斥标签的问题。

  • fix修复了 spaCy textcat 模型中检查互斥标签的问题。

v1.14.9 (2023-11-14)

此补丁版本将 Prodigy 更新为使用 spacy-llm<0.7.0

  • new允许 spacy-llm<0.7.0

v1.14.8 (2023-11-09)

此补丁版本修复了从字符串加载自定义 JavaScript 时的一个错误。

  • fix修复了与注入内联 JavaScript 相关的错误。
  • 插件更新
    • 此版本与一个新的 prodigy-whisper 插件配对发布,该插件通过循环使用 OpenAI 的 Whisper 模型来帮助进行音频转录。文档包含了如何使用此新功能的全部详细信息。
    • new添加whisper.audio.transcribe配方,用于在循环中使用模型进行音频转录。
    • newwhisper.audio.transcribe添加--segment功能,以自动将音频分割成片段。

v1.14.7 (2023-11-07)

此版本为一些 textcat 配方添加了额外的验证步骤,以确保不会将空标注写入数据库。如果用户偏好原始行为,可以通过标志关闭此行为。

  • newtextcat.manualtextcat.correct中为互斥 textcat 模型添加空标注验证。
  • newtextcat.manualtextcat.correct添加--accept_empty标志以关闭新验证。
  • fix修复texcat.correct中将互斥 textcat 模型误认为非互斥模型的一个错误。
  • fix修复在 textcat 配方中将 PatternMatcher 与 nlp 模型结合时出现的运行时错误。
  • fix纠正stats命令输出中 spaCy 的拼写。
  • 插件更新
    • 此版本通过 Prodigy Hugging Face 插件与新功能配对发布。从 v0.2.0 起,添加了用于文本分类以及模型在循环中使用的配方。此插件的文档也已更新。
    • new添加用于训练文本分类 transformer 模型的hf.train.nerhf.train.textcat配方。
    • new添加在使用 transformer 模型时标注新数据的hf.correct.nerhf.correct.textcat配方。
    • new添加将您的标注上传到 Hugging Face Hub 的hf.upload配方。
    • doc在文档中为该插件添加新部分。

v1.14.6 (2023-11-02)

此版本更新 Prodigy,使其兼容 spaCy>=3.1.1,<3.8.0和 Pydantic>=1.10.8,<3.0

  • new更新 spacy 和 pydantic 依赖。

v1.14.5 (2023-10-24)

此版本为ner_manualspans_manual添加了改进的字符高亮功能,允许在标注时从 UI 在字符和分词高亮之间切换。我们还通过添加从本地目录和远程 URL 挂载 css 和 javascript 文件的支持,简化了使用自定义 css 和 javascript 的开发过程。

  • newner_manualspans_manualUI 中添加在字符和分词高亮之间切换的开关。
  • new支持从本地目录和远程 URL 挂载 CSS 和 JS 代码。
  • fix修复 IAA 配方中的标注者过滤。

v1.14.4 (2023-10-12)

此补丁版本改进了错误消息,并修复了 spacy-config 中一个阻止配置正确保存到磁盘的错误。

  • fix改进 iaa 和 stream 模块的错误消息。
  • fix修复了将配置文件保存到磁盘时的一个问题。
  • 插件更新
    • 此版本与一些 Prodigy 插件的新功能配对发布。
    • Prodigy-PDF 从 v0.2.0 起,现在支持pdf.image.ocr配方。此配方为来自pdf.image.manual配方的标注片段添加 OCR,并提供一个文本框进行校正。此配方底层使用 pytessaract。
    • Prodigy-ANN 从 v0.2.0 起,现在支持处理图像检索的配方,除了通过ann.image.indexann.image.fetchimage.ann.manual的文本。
    • new添加pdf.image.ocr配方。
    • new添加ann.image.indexann.image.fetchimage.ann.manual配方。
    • fix确保pdf.image.manual存储 OCR 所需的所有信息。
    • fix修复了ner.ann.manualspans.ann.manualner.lunr.manualspans.lunr.manual配方中阻止服务器启动的错误。
    • fyipdf.image.manual中的第一个默认颜色更改为更深的颜色以确保高对比度。

v1.14.3 (2023-10-06)

此版本添加了两个用于计算文档级别和分词级别标注的标注者间一致性的新命令。我们还引入了 Prodigy 插件:Prodigy-PDF、Prodigy-ANN 和 Prodigy-LUNR。Prodigy 插件是使用第三方库扩展 Prodigy 功能的附加组件。它们是开源的,可以单独安装以与 1.14.3 及以上版本一起使用。

  • new文档级别和分词级别标注的标注者间一致性。
  • fyi用于 PDF 处理和数据相关子集选择的 Prodigy 插件。
  • fix修复侧边栏中历史记录的显示。
  • fix修复由prodigy命令输出的可用配方的截断显示。
  • doc新增关于标注者间一致性指标的部分。
  • doc新增关于 Prodigy 插件的部分。

v1.14.2 (2023-09-29)

此补丁更新解决了版本 1.14.0 中引入的一个向后兼容性问题,即移除了get_labels辅助函数,可能影响自定义配方。

  • fix为向后兼容性恢复get_label函数。

v1.14.1 (2023-09-29)

此版本添加了对自定义配方事件钩子的支持,以允许在自定义 Prodigy 配方中进行基本的交互。它向可用于自定义配方 JavaScript 中的window.prodigy对象添加了一个新的window.prodigy.event函数。这完成了一项我们已使用一段时间但未记录的初始功能。

  • new通过自定义事件钩子添加对基本界面交互性的支持。

v1.14.0 (2023-09-21)

此版本专注于改进 Prodigy 内部结构。我们用 radicli 替代了 plac 用于 CLI 开发,这带来了开发体验的改进,例如使用类型提示进行参数解析,包括对自定义类型的支持以及自定义 CLI 错误。请查看 radicli 文档以获取完整的好处概述。
现在支持更高版本的 pydantic(<3.0)、fastapi(<0.103.0)和 spacy-llm(<0.6.0)依赖。由于 spacy-llm 0.5.0 添加了对思维链提示的支持,文档中现在有一个带有示例的相应部分。
我们还改进了整个 Prodigy 的类型提示和错误处理。
最后,一些较旧的、已弃用的辅助函数不再可用:
Reddit 数据集加载器、read_jsonlwrite_jsonlread_jsonb64_uri_to_bytespretty_print_nerpretty_print_tc

  • new通过用 radicli 替代 plac 来改进 CLI。
  • new允许使用最新版本的 pydantic、fastapi 和 spacy-llm。
  • doc添加 LLM 部分,包含用于 NER 和 spancat 的思维链提示的解释器。
  • fyi弃用 Reddit 加载器和较旧的辅助函数:read_jsonlwrite_jsonlread_jsonb64_uri_to_bytespretty_print_nerpretty_print_tc

v1.13.3 (2023-09-20)

此补丁版本修复了review配方中的一个错误,该错误阻止了在 CLI 上覆盖 view-id 属性。这在将带有blocksview-id 的数据集作为review的输入时尤其相关,包括*.llm.correct配方的输出。

  • fix修复了review中不允许为blocks界面覆盖 view-id 属性的错误。

v1.13.2 (2023-09-07)

此版本引入了terms.openai.fetchab.openai.tournament配方的 spacy-llm 变体。terms.llm.fetch配方可以使用 LLM 生成术语和短语。ab.llm.tournament配方可用于提示工程和/或比较不同的 LLM 后端。这意味着我们现在有了所有*.openai.*配方的替代品,这就是为什么它们现在都带有弃用通知。
我们还添加了一个新的标注界面llm-io以方便编写自定义 LLM 配方,并修复了与服务器重启相关的任务路由器错误。

  • new添加terms.llm.fetch,可以使用 spacy-llm 获取相关短语和术语。
  • new添加ab.llm.tournament,可用于提示工程和比较 LLM 后端。
  • new添加llm-io界面以显示来自 LLM 的提示/响应。
  • fix修复了在处理多次服务器重启时导致任务路由器不一致的错误。
  • fyi所有*.openai.*配方现在都带有弃用警告,因为有 spacy-llm 变体可以替代它们。

v1.13.1 (2023-08-23)

此版本引入了允许 spaCy 管道自动标注示例的配方。当您将这些配方与review配方结合使用时,您能够专注于模型不一致的示例。
这种模式很强大,因为这些示例通常为您的模型携带大量信息。但考虑到 v1.13.0 中引入的 spaCy-LLM 集成,它也很有用,这使得将您自己的模型与 LLM 管道进行比较变得相对容易。

  • new添加ner.model-annotatetextcat.model-annotatespans.model-annotate配方以使用模型自动标注数据集。
  • new添加make_ner_suggestionsmake_spancat_suggestionsmake_textcat_suggestions辅助函数,以便更轻松地将 spaCy 输出转换为标注示例。
  • new添加filter_seen_before辅助函数,以便更轻松地从自定义配方中的流中删除特定重复项。
  • fix修复导致重复日志行出现的错误。
  • fix修复与image.manual配方的配置验证相关的错误。
  • fyi如果标注界面不受支持,review配方现在在立即退出时更加明确和严格。
  • doc新增关于审查标注的部分。

v1.13.0 (2023-08-15)

此版本引入对 spacy-llm 的支持,这为 NER、textcat 和 spancat 标注提供了更广泛的大语言模型支持。未来利用大语言模型的配方也将使用 spaCy-LLM 后端,OpenAI 配方将被弃用。

  • new添加基于 spacy-llm 的 NER 和 Textcat 的 OpenAI 工作流替代品,包括ner.llm.correctner.llm.fetchtextcat.llm.correcttextcat.llm.fetch配方。
  • new通过spans.llm.correctspans.llm.fetch配方为 Spancat 任务引入 LLM 支持。
  • fyiProdigy 未来将弃用*.openai.*配方,因为 OpenAI 端存在弃用。这些配方都将被使用 spaCy LLM 作为后端的*.llm.*变体替代。
  • doc更新大语言模型部分。

v1.12.7 (2023-08-10)

此版本修复了DatasetSourceGeneratorSourceListSource由于位置重置不正确而在迭代结束时可能处于错误状态的问题。这也会导致进度条更新异常。

  • fix在关闭DatasetSourceGeneratorSourceListSource时移除位置重置。

v1.12.6 (2023-08-08)

此版本修复了批量数据库操作期间间歇性的 MySQL 完整性错误。

  • fix移除批量插入数据库操作,使操作更稳定。

v1.12.5 (2023-07-28)

此版本在新的get_stream实用程序中添加了对旧版(1.12.X 之前)加载器的临时支持。它还修复了一些小的 CLI 和配置处理错误。我们还改进了缺少数据库驱动程序时的错误消息。

  • fixget_stream实用程序中添加对旧版(1.12.X 之前)加载器的支持。
  • fix修复数据集源 CLI 中:ignore:accept:reject后缀的处理。
  • fix改进缺少数据库驱动程序时的错误消息。
  • fix修复旧版 CSV 加载器中delimiter参数的支持。
  • fix修复rel.manual配方中hide_arrow_headshide_true_newline_token配置设置的处理。

v1.12.4 (2023-07-19)

此版本包含针对前端的一个额外错误修复。

  • fix修复image_manual视图中无法选择单个图像跨度的问题(适用于多边形和自由手绘工具)。这建立在 v1.12.3 中仅修复了使用矩形工具标注的图像跨度选择的修复之上。

v1.12.3 (2023-07-17)

此版本包含针对前端的重大错误修复,以及一个关于任务路由的额外视频文档:

  • fix修复image_manual视图中无法选择单个图像跨度的问题。
  • fix修复“保存”按钮可能被点击两次并将重复答案保存到数据库的问题。
  • fix修复前端可能渲染br元素的问题。
  • doc添加关于Database.get_hashesDatabase.count_dataset数据库方法的文档。
  • doc添加一个关于任务路由的新视频,深入探讨如何构建自己的任务路由器。

v1.12.2 (2023-07-13)

修复了在使用 Prodigy 数据集作为音频或图像配方源时,使用dataset:my_dataset_name语法时出现的错误。

  • fix修复将数据集用作音频或图像配方源时的FileNotFoundError
  • doc修复与会话 ID 相关的不一致。

v1.12.1 (2023-07-12)

此更新添加了对最新 spaCy 版本的支持。

  • new将 spaCy 支持扩展到最新的 v3.6。

v1.12.0 (2023-07-05)

对于此版本,我们完全重构了 Prodigy 的内部结构,以使标注流程更易于追踪和定制。我们重新实现了 Controller,并添加了新的抽象来更好地表示任务流和输入源。这使我们能够交付一系列新的、令人兴奋的功能,例如部分可配置的反馈重叠、自定义任务路由器、自定义会话工厂、基于源的进度估计、对 Parquet 输入文件的支持、在train中训练 coref 组件的实验性支持、新的filter-by-patterns配方以及开发体验改进。
v1.12 还为数据标注和提示工程提供了 LLM 辅助工作流的支持。我们提供了 4 个用于引导 NER 和 Textcat 标注的新配方,1 个用于术语生成,2 个用于提示工程,包括一个非常有创意的ab.openai.tournament配方。从这个版本开始,我们支持 python 3.11,并放弃了对 python 3.7 的支持。
感谢所有通过测试 alpha 版本帮助我们的人。有关新功能的完整列表,请参阅下面的变更日志。

  • new添加新的 Controller 以方便标注工作流程定制。
  • new添加对任务路由的支持,允许您自定义谁标注每个示例。
  • new添加annotations_per_task设置,以轻松配置部分标注者重叠的任务路由器。
  • new将一系列任务路由器添加到公共 API,可在自定义配方中使用。
  • new为自定义配方添加session_factory回调,让您可以控制会话的创建方式。
  • new添加对 spacy-experimental coref 组件在traintrain-curve配方中的支持。
  • new所有 Prodigy 的内部配方现在都支持 .parquet 文件格式作为数据源。
  • new在 prodigy.json 中添加allow_work_stealing设置,允许您关闭工作窃取。
  • new添加PRODIGY_LOG_LOCALS环境变量,以便在调试 Prodigy 错误消息时提供局部变量。
  • new向数据库类添加get_hash_countget_hashes_min_cardinality方法,这在自定义任务路由器中很有用。
  • newreview配方现在提供--accept-single标志,以便在同时打开--auto-accept时也自动接受来自单个标注者的标注。
  • new添加一个新的filter-by-patterns配方,可以使用匹配模式为下游任务生成相关子集。
  • new通过ner.openai.correctner.openai.fetchtextcat.openai.correcttextcat.openai.fetch配方添加对使用 OpenAI 的大语言模型作为循环中的模型进行标注工作流的支持。
  • new通过terms.openai.fetch配方添加对使用 OpenAI 的大语言模型生成模式文件的支持。
  • new通过ab.openai.promptsab.openai.tournament配方添加对提示工程配方的支持。
  • new添加基于源对象中相对位置的新进度计算。
  • new在 UI 中区分目标进度和源进度。
  • fix修复 NER 配方中与allow_newline_highlight设置相关的错误。
  • fix修复mark配方中与多标签相关的错误。
  • fix修复choice界面中与多标签相关的错误。
  • fix修复与会话名称中尾部斜杠相关的错误。Prodigy 现在将忽略尾部斜杠。
  • fix当用户需要通过 URL 提供/?session=时,添加更有帮助的错误消息。
  • fyi移除auto_count_stream
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询