Jina AI现在是 Elastic 的一部分,将其高性能多语言和多模态搜索 AI 带入 Elasticsearch 强大的数据存储、检索和索引能力。Jina AI 模型可以通过公共 API 与 Elasticsearch 集成,测试可获得 1000 万个免费 tokens。
jina-embeddings-v4是一个多语言、多模态嵌入模型,支持 30 种主要语言的文本和图像。它有 38 亿参数,在同规模模型中实现了最先进的性能,不仅擅长文本到图像检索,也擅长文本到文本任务。它在视觉文档检索方面表现特别出色,可处理常见图像类型,如图表、幻灯片、地图、截图、扫描件和图示,而大多数计算机视觉模型在这些场景下表现不足。
该模型支持最多 32,768 tokens 的文本输入和最高 2000 万像素的图像输入。其关键创新之一是两种输出模式:
单向向量嵌入(Single-vector embeddings)— 将文本和图像嵌入到一个通用语义空间中,紧凑型文档嵌入。用户可选择 2048 到 128 维的嵌入向量尺寸,精度损失最小。较短的嵌入节省存储空间,并加快索引和检索速度,但精度略低,用户可根据速度、计算资源和检索精度自行权衡。
多向量嵌入(Multi-vector embeddings)— 嵌入与输入大小一致(每个文本 token 128 维,图像按比例),适用于 “后期交互” 相似度计算。嵌入更大,计算成本高于单向量嵌入,但匹配精度更高。
Jina AI 为多个任务优化了该模型,并提供紧凑且可选择的 LoRA 扩展模块,支持三种不同用途:
非对称检索(Asymmetric Retrieval)— 当文档和查询文本编码方式不同,基于嵌入的检索效果更好。Jina Embeddings v4 通过两个单独的 LoRA 扩展支持:一个用于被索引文档,一个用于查询文本。
语义相似度(Semantic Similarity)— 测量两段文本在意义或主题上的相似度。常用于相关文档发现、去重和翻译对齐。
代码特定任务(Code-Specific Tasks)— 针对计算机技术和编程语言相似性进行了特殊训练和行为优化。
jina-embeddings-v3是一个多语言、多用途纯文本嵌入模型,支持最多 8192 tokens 文本输入,输出用户可选长度的嵌入(64 到 1024 维)。该紧凑模型参数不足 6 亿,尽管于 2024 年发布,但在其规模内表现出色。
Jina AI 已训练五个 LoRA 扩展模块以支持四类任务:语义相似度、两类非对称检索以及另外两个:
分类(Classification)— 将文本分入类别,可用于情感分析、垃圾邮件过滤、内容审核和欺诈识别等。
聚类(Clustering)— 根据文本分布确定类别,常用于推荐系统、新闻聚合等任务。
jina-code-embeddings (0.5b & 1.5b)是两个专门的嵌入模型(一个 5 亿参数,一个 15 亿参数),用于编程语言和框架。两者可对自然语言文本和 15 种编程语言生成嵌入,输入最多 32,768 tokens。用户可选择输出嵌入维度:小模型 64 到 896 维,大模型 128 到 1536 维。
五种任务特定检索模式:
Code to Code— 跨编程语言检索相似代码,用于代码对齐、去重及迁移和重构支持。
Natural Language to Code— 检索与自然语言查询、注释、描述或文档匹配的代码。
Code to Natural Language— 将代码与文档或其他自然语言文本匹配。
Code to Code Completion— 建议相关代码以完成或增强现有代码。
技术问答(Technical Q&A)— 查找信息技术相关问题的自然语言答案,适合技术支持任务。
jina-clip-v2是多模态嵌入模型,支持文本和图像。训练时确保文本描述图像内容时生成相似嵌入,使得多模态匹配成为可能。已有文本嵌入支持的数据库可直接使用该模型进行图像检索。
该模型也可作为高性能文本嵌入模型,支持广泛的多语言文本和 8192 tokens 输入上下文,降低了用户成本,无需为文本到文本和文本到图像检索使用不同模型。图像输入缩放至 512x512 像素。
jina-reranker-m0是多语言、多模态文本对文档重排序模型,使用更细粒度的“后期交互”分析提高检索精度。接受文本查询和两个候选项(文本、图像或各一个),返回匹配查询更好的候选项。训练覆盖幻灯片、截图、图示等多种材料。图像边长至少 56 像素,大图会调整大小至不超过 768 个 28x28 像素 patch。查询文本和候选文档总输入不超过 10,240 tokens。
jina-reranker-v3是列表式多语言文本文档重排序模型,使用与jina-reranker-m0相同的 “后期交互” 方法,对整列文档按匹配度排序。适用于任何产生有限候选列表的搜索方案,并可作为现有搜索方案的增强。总输入 131,000 tokens,包括查询和所有候选文档。
ReaderLM-v2是小型生成语言模型,可将 HTML(包括网页 DOM 树 dump)转换为 Markdown 或 JSON,遵循用户提供的输出 schema 和自然语言指令,智能处理混乱的网页爬取数据。在其针对的狭窄数据转换任务上性能超越 GPT-4。
入门
访问 Jina AI 官网获取模型及使用 Web API 或下载使用的说明。
教程和笔记本
这些教程参考了旧版 Jina AI 模型,新教程正在制作中。
使用 Jina Embeddings v2 在 Elasticsearch 中进行后期 chunking
Elasticsearch Open Inference API 新增对 Jina AI Embeddings 和 Rerank 模型的支持
原文:https://www.elastic.co/search-labs/integrations/jina