作者:来自 Elastic Sean Handley 及 Ranjana Devaji
亲身体验 Elasticsearch:深入了解我们的示例 notebooks,开始免费的 cloud 试用,或立即在本地机器上试用 Elastic。
今天,我们很高兴在 Elastic Inference Service( EIS )上推出 jina-embeddings-v3,使快速的多语言 dense retrieval 能够直接集成到 Elasticsearch 中。jina-embeddings-v3 是首个在 EIS 上可用的 Jina AI 模型,后续还将推出更多模型。
Jina AI 近期通过收购加入 Elastic,是开源多语言和多模态 embeddings、rerankers 以及 small language models 领域的领导者。Jina 在 search foundation models 方面拥有深厚的专业能力,帮助开发者在 text、images、code 以及长篇多语言内容上构建高质量的检索 和 RAG 系统。
Elastic Inference Service( EIS )让开发者能够以可预测、基于使用量的定价方式,轻松为 search、RAG 和 agentic 应用添加快速、高质量且可靠的 semantic retrieval。EIS 提供完全托管的 GPU 推理和开箱即用的 models,无需额外的设置或 hosting 复杂度。
jina-embeddings-v3 支持高质量的多语言 retrieval,具备长上下文推理,并提供针对 RAG 和 agents 的 task-tuned 模式。它为开发者在多种语言中提供快速的 dense embeddings,同时无需承担运维开销。
为什么选择 jina-embeddings-v3?
jina-embeddings-v3 是一个 text embedding 模型,支持 32 种语言和最高 8192-token 的上下文,在更低成本下提供高相关性,并通过 EIS 提供 GPU 驱动的推理。
关键能力
- 多语言能力:弥合语言差距,在 32 种语言之间对齐语义,包括阿拉伯语、孟加拉语、中文、丹麦语、荷兰语、英语、芬兰语、法语、格鲁吉亚语、德语、希腊语、印地语、印尼语、意大利语、日语、韩语、拉脱维亚语、挪威语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语、乌尔都语和越南语。
- 参数效率:仅使用 570M 参数即可提供更高性能,在更低成本下实现与更大规模、基于 LLM 的 embeddings 相当的效果。
- 维度控制:默认 1024 维,并支持 Matryoshka 表示法,允许开发者将 embedding 维度一路调低到 32 维,从而根据你的需求在准确率、延迟和存储之间灵活平衡。
- 任务特定优化:提供任务特定的 Low-Rank Adaptation( LoRA )适配器,使其能够为多种任务生成高质量 embeddings,包括 query-document retrieval、聚类、分类和文本匹配。
开始使用
POST _inference/text_embedding/.jina-embeddings-v3 { "input": ["Rocky Mountain National Park"], "input_type": "ingest" }该响应:
{ "text_embedding": [ { "embedding": [ -0.06678891, -0.0073341704, 0.011903269, -0.041797, ... ] } ] }接下来是什么
在这些新 models 的同时,EIS 将持续演进,以支持更多用户,并简化跨环境的 semantic search。
用于EIS 的 Cloud Connect:用于 EIS 的 Cloud Connect 即将把 EIS 带到自托管环境中,降低运维开销,并支持 hybrid 架构和按你最合适方式进行的扩展。
semantic_text 在 EIS 上默认使用 jina-embeddings-v3:semantic_text 目前在后台使用 ELSER 作为 embeddings 模型,但在不久的将来将默认使用 EIS 上的 jina-embeddings-v3 endpoint。这一变化将在数据写入时提供内置推理,使在无需额外配置的情况下更容易采用多语言 search。
更多 models:我们正在扩展 EIS 的 model 目录,以满足客户不断增长的 inference 需求。在接下来的几个月中,我们将推出支持更广泛 search 和 inference 工作负载的新 models。紧随 jina-embeddings-v3 之后,下一个推出的 models 是 jina-reranker-v2-base-multilingual 和 jina-reranker-v3。这两个 Jina AI models 通过多语言 reranking,大幅提升 RAG 和 AI agents 的精度。
总结
通过在 EIS 上使用 jina-embeddings-v3,你可以在无需管理 models、GPUs 或基础设施的情况下,构建多语言、高精度的 retrieval pipelines。你可以获得快速的 dense retrieval,并与 Elasticsearch 的 relevance stack 紧密集成,全部集中在一个平台中。
无论你是在构建全球化的 RAG 系统、search,还是需要可靠 context 的 agentic workflows,Elastic 现在都为你提供了开箱即用的高性能 model,以及从 prototype 顺利走向 production 的运维简化能力。
所有 Elastic Cloud 试用都可以访问 Elastic Inference Service。现在就在 Elastic Cloud Serverless 和 Elastic Cloud Hosted 上试用。
原文:https://www.elastic.co/search-labs/blog/jina-embeddings-v3-elastic-inference-service