Embedding Models

Create vector representations of text for semantic search, clustering, recommendations, and RAG applications.

Available Models

BGE-M3 (Recommended)

BAAI’s state-of-the-art multilingual embedding model supporting 100+ languages. FREE via HuggingFace.

Specification	Value
Provider	BAAI (via HuggingFace)
Dimensions	1024
Max Tokens	8192
Price	FREE
Similarity Metric	Cosine

Best for:

Multilingual semantic search
Production RAG systems
Cross-lingual retrieval
Cost-free deployment

response = client.embeddings.create(
    model="bge-m3",
    input="The quick brown fox jumps over the lazy dog"
)
# Returns 1024-dimensional vector

Free Model: BGE-M3 is our recommended model for all embedding use cases. It offers superior multilingual support and quality at zero cost.

E5-large-v2

Microsoft’s flagship text embedding model with state-of-the-art performance.

Specification	Value
Provider	Microsoft
Dimensions	1024
Max Tokens	512
Price	$0.01 / million tokens
Similarity Metric	Cosine

Best for:

Semantic search
Document retrieval
Question answering
High-accuracy requirements

response = client.embeddings.create(
    model="e5-large-v2",
    input="The quick brown fox jumps over the lazy dog"
)
# Returns 1024-dimensional vector

BGE-base-en

BAAI’s balanced embedding model with excellent English performance.

Specification	Value
Provider	BAAI
Dimensions	768
Max Tokens	512
Price	$0.01 / million tokens
Similarity Metric	Cosine

Best for:

Cost-effective search
English-only applications
RAG systems
Production deployments

response = client.embeddings.create(
    model="bge-base-en",
    input="Machine learning is transforming industries"
)
# Returns 768-dimensional vector

Jina Embeddings v2

Jina AI’s long-context embedding model for entire documents.

Specification	Value
Provider	Jina AI
Dimensions	768
Max Tokens	8192
Price	$0.02 / million tokens
Similarity Metric	Cosine

Best for:

Long documents
Full-page embeddings
Reduced chunking needs
Document comparison

response = client.embeddings.create(
    model="jina-embeddings-v2",
    input=long_document  # Up to 8192 tokens
)
# Returns 768-dimensional vector

Nomic Embed Text

Nomic AI’s efficient embedding model with long context support.

Specification	Value
Provider	Nomic AI
Dimensions	768
Max Tokens	8192
Price	$0.01 / million tokens
Similarity Metric	Cosine

Best for:

Long-context on budget
Open-source preference
General-purpose search
Academic applications

response = client.embeddings.create(
    model="nomic-embed-text",
    input="Analyze this research paper..."
)
# Returns 768-dimensional vector

GTE-large

Alibaba’s general text embeddings model with high dimensionality.

Specification	Value
Provider	Alibaba
Dimensions	1024
Max Tokens	512
Price	$0.01 / million tokens
Similarity Metric	Cosine

Best for:

High-dimensional search
Multilingual content
Cross-lingual retrieval
Asian language content

response = client.embeddings.create(
    model="gte-large",
    input="这是一个中文文本示例"
)
# Returns 1024-dimensional vector

Model Comparison

Model	Dimensions	Max Tokens	Quality	Price
`bge-m3`	1024	8192	★★★★★	FREE
`e5-large-v2`	1024	512	★★★★★	$0.01/M
`bge-base-en`	768	512	★★★★☆	$0.01/M
`jina-embeddings-v2`	768	8192	★★★★☆	$0.02/M
`nomic-embed-text`	768	8192	★★★☆☆	$0.01/M
`gte-large`	1024	512	★★★★☆	$0.01/M

Benchmark Results

MTEB (Massive Text Embedding Benchmark)

Model	Average Score	Retrieval	STS	Price
`bge-m3`	66.1	58.2	86.4	FREE
`e5-large-v2`	64.2	56.8	85.6	$0.01/M
`bge-base-en`	63.4	55.2	84.1	$0.01/M
`gte-large`	63.1	54.9	83.7	$0.01/M
`jina-embeddings-v2`	62.8	54.3	82.9	$0.02/M
`nomic-embed-text`	61.5	53.1	81.4	$0.01/M

Use Cases

Semantic Search

Find documents by meaning, not just keywords:

# Index documents
doc_embeddings = []
for doc in documents:
    response = client.embeddings.create(
        model="e5-large-v2",
        input=doc
    )
    doc_embeddings.append(response.data[0].embedding)

# Search
query_response = client.embeddings.create(
    model="e5-large-v2",
    input="user query"
)
query_embedding = query_response.data[0].embedding

# Find similar (using cosine similarity)
similarities = [cosine_sim(query_embedding, de) for de in doc_embeddings]

RAG (Retrieval-Augmented Generation)

Retrieve relevant context for LLM responses:

# 1. Embed the question
q_embedding = embed("What is the return policy?")

# 2. Find relevant docs from vector DB
relevant_docs = vector_db.search(q_embedding, top_k=5)

# 3. Generate answer with context
response = client.chat.completions.create(
    model="llama-3.1-8b",
    messages=[
        {"role": "system", "content": f"Context: {relevant_docs}"},
        {"role": "user", "content": "What is the return policy?"}
    ]
)

Clustering

Group similar content together:

from sklearn.cluster import KMeans

# Embed all documents
embeddings = [embed(doc) for doc in documents]

# Cluster
kmeans = KMeans(n_clusters=5)
clusters = kmeans.fit_predict(embeddings)

# Group documents by cluster
for i, (doc, cluster) in enumerate(zip(documents, clusters)):
    print(f"Cluster {cluster}: {doc[:50]}...")

Deduplication

Find and remove duplicate content:

threshold = 0.95

def find_duplicates(documents):
    embeddings = [embed(doc) for doc in documents]
    duplicates = []

    for i in range(len(embeddings)):
        for j in range(i + 1, len(embeddings)):
            sim = cosine_similarity(embeddings[i], embeddings[j])
            if sim > threshold:
                duplicates.append((i, j, sim))

    return duplicates

Best Practices

Batch Requests

Embed multiple texts in one request for better throughput

Cache Embeddings

Store embeddings to avoid recomputing for the same text

Normalize Vectors

Most models output normalized vectors; verify for your use case

Match Query/Doc Models

Use the same model for queries and documents

Vector Databases

Store and search embeddings efficiently:

Database	Type	Features
Pinecone	Managed	Fast, scalable, serverless
Weaviate	Self-hosted	Open-source, hybrid search
Qdrant	Self-hosted	Rust-based, efficient
Milvus	Self-hosted	Distributed, GPU support
pgvector	Extension	PostgreSQL integration

Choosing a Model

Recommendation: Start with bge-m3 for most use cases. It’s free, supports 100+ languages, handles long documents (8192 tokens), and offers top-tier quality.

Model Catalog

​Embedding Models

​Available Models

​BGE-M3 (Recommended)

​E5-large-v2

​BGE-base-en

​Jina Embeddings v2

​Nomic Embed Text

​GTE-large

​Model Comparison

​Benchmark Results

​MTEB (Massive Text Embedding Benchmark)

​Use Cases

​Best Practices

Batch Requests

Cache Embeddings

Normalize Vectors

Match Query/Doc Models

​Vector Databases

​Choosing a Model

Embedding Models

Available Models

BGE-M3 (Recommended)

E5-large-v2

BGE-base-en

Jina Embeddings v2

Nomic Embed Text

GTE-large

Model Comparison

Benchmark Results

MTEB (Massive Text Embedding Benchmark)

Use Cases

Best Practices

Vector Databases

Choosing a Model