Construir un motor de búsqueda semántico con Weaviate

La forma en que buscamos y nos relacionamos con los datos está cambiando. En ocasión de devolver los resultados que contienen «apacible» y «rincón», puede inquirir «rincones de leída acogedores» y ver imágenes de una arnés suave pegado a una chimenea. Este enfoque se centra en la búsqueda semántica o en la búsqueda del significado, en ocasión de subordinarse de las búsquedas rígidas basadas en palabras esencia. Este es un segue crítico, ya que los datos no estructurados (imágenes, texto, videos) han explotado, y las bases de datos tradicionales no son prácticas para el nivel de demanda de IA.

Aquí es exactamente donde entra Weaviate y se separa como líder en la categoría de bases de datos de vectores. Con su funcionalidad y capacidades únicas, Weaviate está cambiando la forma en que las empresas consumen ideas y datos basados en IA. En este artículo, exploraremos por qué Weaviate es un cambio de pasatiempo a través de ejemplos de código y aplicaciones de la vida positivo.

Búsqueda vectorial y búsqueda tradicional

¿Qué es Weaviate?

Weaviate es una almohadilla de datos vectorial de código rajado diseñada específicamente para juntar y manejar datos de entrada dimensión, como texto, imágenes o video, representados como vectores. Weaviate permite a las empresas realizar una búsqueda semántica, crear motores de recomendación y construir modelos de IA fácilmente.

En ocasión de entregarse en manos en una almohadilla de datos tradicional que recupera datos exactos basados en columnas almacenadas en cada fila, Weaviate se centra en la recuperación de datos inteligentes. Utiliza incrustaciones vectoriales basadas en el educación automotriz para encontrar relaciones entre los puntos de datos en función de su semántica, en ocasión de inquirir coincidencias de datos exactas.

Weaviate proporciona una forma realizable de construir aplicaciones que ejecutan modelos AI que requieran un procesamiento rápido y capaz de cantidades muy grandes de datos para construir modelos. El almacenamiento y la recuperación de las integridades vectoriales en Weaviate lo convierten en la función ideal para las empresas involucradas con datos no estructurados.

Principios básicos y edificio de Weaviate

En su núcleo, Tejido se basamento en principios de trabajo con datos de entrada dimensión y utilizando búsquedas vectoriales eficientes y escalables. Echemos un vistazo a los bloques y principios de construcción detrás de su edificio:

Ai-nativo y modular: Weaviate está diseñado para integrar modelos de educación automotriz en la edificio desde el inicio, lo que le brinda soporte de primera clase para producir incrustaciones (vectores) de diferentes tipos de datos fuera de la caja. La modularidad del diseño permite muchas posibilidades, asegurando que si desea construir sobre Weaviate o adicionar características personalizadas, o conexión/llamadas a sistemas externos, puede.
Sistema distribuido: La almohadilla de datos está diseñada para poder crecer horizontalmente. Weaviate está distribuido y sin líder, lo que significa que no hay puntos de falta únicos. La sobra para una entrada disponibilidad en todos los nodos significa que en caso de falta, los datos se replicarán y producirán a partir de varios nodos conectados. Eventualmente es consistente, lo que lo hace adecuado para los entornos nativos de nubes y nativos.
Basado en boceto: Weaviate Model es un maniquí de datos basado en gráficos. Los objetos (vectores) están conectados por su relación, lo que facilita la almacenamiento y consulta los datos con relaciones complejas, lo cual es muy importante en aplicaciones como los sistemas de recomendación.
Almacenamiento de vector: Weaviate está diseñado para juntar sus datos como vectores (representaciones numéricas de objetos). Esto es ideal para búsquedas habilitadas para AI, motores de recomendación y todos los demás casos de uso de inteligencia fabricado/educación automotriz relacionados con el educación automotriz.

Comenzando con Weaviate: una preceptor praxis

No importa si está construyendo un motor de búsqueda semántico, un chatbot o un sistema de recomendación. Este hado rápido le mostrará cómo conectarse para tejer, ingerir contenido vectorizado y proporcionar capacidades de búsqueda inteligentes, generando respuestas con contexto a través de Gestación de recuperación de coexistentes (trapo) con modelos Operai.

Requisitos previos

Apoyar la última interpretación de Pitón está instalado. Si no, instale usando el venidero comando:

sudo apt update

sudo apt install python3 python3-pip -y

Crear y activar un entorno aparente:

python3 -m venv weaviate-env

Source weaviate-env/bin/activate

Con el código antecedente, su indicador de shell ahora se prefijará con su nuevo env, es asegurar, weaviate-env indicando que su entorno está activo.

Paso 1: Implementar Weaviate

Por lo tanto, hay dos formas de implementar Weaviate:

Opción 1: Use el servicio en la nimbo Weaviate

Una forma de implementar Weaviate es utilizar su servicio en la nimbo:

Primero, ve a https://console.weaviate.cloud/.
Luego, regístrese y cree un clúster seleccionando módulos OpenAI.

Todavía tome nota de su Weaviate_url (Similar a https://xyz.weaviate.network) y Weaviate_api_key.

Opción 2: Ejecutar localmente con Docker Compose

Crear un Docker-composa.yml:

version: '3.4'

services:

  weaviate:

    image: semitechnologies/weaviate:latest

    ports:

      - "8080:8080"

    environment:

      QUERY_DEFAULTS_LIMIT: 25

      AUTHENTICATION_ANONYMOUS_ACCESS_ENABLED: 'true'

      PERSISTENCE_DATA_PATH: './data'

      DEFAULT_VECTORIZER_MODULE: 'text2vec-openai'

      ENABLE_MODULES: 'text2vec-openai,generative-openai'

      OPENAI_APIKEY: 'your-openai-key-here'

Configura Weaviate Container con módulos Operai y paso ignorado.

Iniciarlo usando el venidero comando:

docker-compose up -d

Esto inicia el servidor tejido en modo separado (se ejecuta en segundo plano).

Paso 2: Instale las dependencias de Python

Para instalar todas las dependencias requeridas para el software, ejecute el venidero comando en la secante de comando de su sistema operante:

pip install weaviate-client openai

Esto instala el cliente Python Weaviate y la Biblioteca OpenAI.

Paso 3: Establecer variables de entorno

export WEAVIATE_URL="https://.weaviate.network"
export WEAVIATE_API_KEY=""
export OPENAI_API_KEY=""

Para implementaciones locales, Weaviate_api_key no es necesario (sin autenticación).

Paso 4: Conéctese para tejer

import os

import weaviate

from weaviate.classes.init import Auth

client = weaviate.connect_to_weaviate_cloud(

    cluster_url=os.getenv("WEAVIATE_URL"),

    auth_credentials=Auth.api_key(os.getenv("WEAVIATE_API_KEY")),

    headers={"X-OpenAI-Api-Key": os.getenv("OPENAI_API_KEY")}

)

assert client.is_ready(), " Weaviate not ready"

print(" Connected to Weaviate")

El código antecedente conecta su instancia de Weaviate Cloud usando credenciales y confirma que el servidor está activo y accesible.

Para instancias locales, use:

client = weaviate.Client("http://localhost:8080")

Esto se conecta a una instancia de tejido recinto.

Paso 5: Precisar esquema con incrustación y soporte generativo

schema = {

  "classes": (

    {

      "class": "Question",

      "description": "QA dataset",

      "properties": (

        {"name": "question", "dataType": ("text")},

        {"name": "answer", "dataType": ("text")},

        {"name": "category", "dataType": ("string")}

      ),

      "vectorizer": "text2vec-openai",

      "generative": {"module": "generative-openai"}

    }

  )

}

Define un esquema llamado Pregunta con propiedades y vector basado en OpenAI y módulos generativos.

client.schema.delete_all()  # Clear previous schema (if any)

client.schema.create(schema)

print(" Schema defined")

Producción:

Las declaraciones anteriores cargan el esquema para tejer y confirmar el éxito.

Paso 6: Insertar datos de ejemplo en lotes

data = (

  {"question":"Only mammal in Proboscidea order?","answer":"Elephant","category":"ANIMALS"},

  {"question":"Organ that stores glycogen?","answer":"Liver","category":"SCIENCE"}

)

Crea un pequeño conjunto de datos de control de calidad:

with client.batch as batch:

    batch.batch_size = 20

    for obj in data:

        batch.add_data_object(obj, "Question")

Inserta datos en modo por lotes para la eficiencia:

print(f"Indexed {len(data)} items")

Producción:

Confirma cuántos utensilios fueron indexados.

Paso 7: Búsqueda semántica usando NearText

res = (

  client.query.get("Question", ("question", "answer", "_additional {certainty}"))

    .with_near_text({"concepts": ("largest elephant"), "certainty": 0.7})

    .with_limit(2)

    .do()

)

Ejecuta la búsqueda semántica utilizando vectores de texto para conceptos como «elefante más vasto». Solo devuelve los resultados con certeza ≥ 0.7 y mayor 2 resultados.

print(" Semantic search results:")

for item in res("data")("Get")("Question"):

    q, a, c = item("question"), item("answer"), item("_additional")("certainty")

    print(f"- Q: {q} → A: {a} (certainty {c:.2f})")

Producción:

Muestra resultados con puntajes de certeza.

Paso 8: Gestación de recuperación de la coexistentes (trapo)

rag = (

  client.query.get("Question", ("question", "answer"))

    .with_near_text({"concepts": ("animal that weighs a ton")})

    .with_limit(1)

    .with_generate(single_result=True)

    .do()

)

Búsquedas semánticamente y incluso le pide a Weaviate que genere una respuesta usando OpenAI (a través de Generate).

generated = rag("data")("Get")("Question")(0)("generate")("singleResult")

print(" RAG answer:", generated)

Producción:

Imprime la respuesta generada en función de la coincidencia más cercana en su DB Weaviate.

Características esencia de Weaviate

Weaviate tiene muchas características especiales que le dan una preeminencia flexible y resistente para la mayoría de las tareas de administración de datos basadas en vectores.

Búsqueda de vectores: Weaviate puede juntar y consultar los datos como integridades vectoriales, lo que le permite realizar una búsqueda semántica; Mejoramiento la precisión, ya que los puntos de datos similares se encuentran en función del significado en ocasión de simplemente hacer coincidir las palabras esencia.
Búsqueda híbrida: Al reunir la búsqueda vectorial y la búsqueda tradicional basada en palabras esencia, Weaviate ofrece resultados más pertinentes y contextuales al tiempo que proporciona una decano flexibilidad para variados casos de uso.
Infraestructura escalable: Weaviate puede intervenir con modelos de implementación distribuidos y de nodo único; Puede ascender horizontalmente para conceder conjuntos de datos muy grandes y respaldar que el rendimiento no se vea afectado.
Cimentación nativa de AI: Weaviate fue diseñado para funcionar con modelos de educación automotriz fuera de la puerta, lo que respalda la coexistentes directa de incrustaciones sin condición de tener lugar por una plataforma adicional o una aparejo externa.
Código rajado: Al ser de código rajado, Weaviate permite un nivel de personalización, integración e incluso contribución de los usuarios para continuar su mejora.
Extensibilidad: Weaviate admite la extensibilidad a través de módulos y complementos que permiten a los usuarios integrarse de una variedad de modelos de educación automotriz y fuentes de datos externas.

Tejido vs competidores

La venidero tabla destaca los diferenciadores esencia entre Weaviate y algunos de sus competidores en el espacio de la almohadilla de datos Vector.

Característica	Tejido	Piña	Milvus	Qdrant
Código rajado	Sí	No	Sí	Sí
Búsqueda híbrida	Sí (Vector + Búsqueda de palabras esencia)	No	Sí (Vector + Metadatos Search)	Sí (Vector + Metadatos Search)
Cimentación distribuida	Sí	Sí	Sí	Sí
Soporte del maniquí de IA pre-construido	Sí (integración de maniquí ML incorporada)	No	No	No
Integración nativa de nimbo	Sí	Sí	Sí	Sí
Replicación de datos	Sí	No	Sí	Sí

Como se muestra en la tabla antecedente, Weaviate es la única almohadilla de datos vectorial que proporciona una búsqueda híbrida que puede hacer tanto la búsqueda vectorial como la búsqueda basada en palabras esencia. Por lo tanto, hay más opciones de búsqueda disponibles. Weaviate incluso es de código rajado, a diferencia de Pinecone, que es propietario. Las ventajas de código rajado y las bibliotecas transparentes en Weaviate proporcionan opciones de personalización que benefician al legatario.

Especialmente, la integración de Weaviate de educación automotriz porque los incrustaciones en la almohadilla de datos distinguen significativamente su alternativa de las de sus competidores.

Conclusión

Weaviate es una almohadilla de datos de vanguardia basada en vectores con una edificio revolucionaria que es nativa de AI y está diseñada para tratar con datos de decano dimensión al tiempo que incorpora modelos de educación automotriz. Los datos híbridos y las capacidades de búsqueda de Weaviate y su naturaleza de código rajado proporcionan una alternativa sólida para aplicaciones habilitadas para AI en todas las industrias concebibles. La escalabilidad y el detención rendimiento de Weaviate hacen que sea aceptablemente posicionado para continuar como una alternativa líder para datos no estructurados. Desde motores de recomendación y chatbots hasta motores de búsqueda semántica, Weaviate desbloquea todo el potencial de sus características avanzadas para ayudar a los desarrolladores a mejorar sus aplicaciones de IA. La demanda de soluciones de IA solo se desarrolla; Por lo tanto, la importancia de Weaviate en el campo de las bases de datos de vectores se volverá cada vez más relevante e influirá fundamentalmente en el futuro del campo a través de su capacidad para trabajar con conjuntos de datos complejos.

Preguntas frecuentes

Q1. ¿Qué es Weaviate?

A. Weaviate es una almohadilla de datos vectorial de código rajado y está diseñada para datos de entrada dimensión, como texto, imagen o videos que se aprovechan para habilitar la búsqueda semántica y las aplicaciones impulsadas por la IA.

Q2. ¿En qué se diferencia Weaviate de otras bases de datos?

R. A diferencia de las bases de datos tradicionales que recuperan datos exactos, Weaviate recupera datos estructurados utilizando integridades vectoriales basadas en el educación automotriz para recuperar en función del significado y las relaciones.

Q3. ¿Qué es la búsqueda híbrida en Weaviate?

A. La búsqueda híbrida en Weaviate combina los conceptos de búsqueda vectorial y búsqueda tradicional basada en palabras esencia para proporcionar resultados relevantes y contextuales para casos de uso más diversos.

Hola, soy Janvi, un apasionado entusiasta de la ciencia de datos que actualmente trabaja en Analytics Vidhya. Mi alucinación al mundo de los datos comenzó con una profunda curiosidad sobre cómo podemos extraer ideas significativas de conjuntos de datos complejos.

Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.

Etiquetado búsqueda, con, construir, motor, semántico, Weaviate

Construir un motor de búsqueda semántico con Weaviate

¿Qué es Weaviate?

Principios básicos y edificio de Weaviate

Comenzando con Weaviate: una preceptor praxis

Requisitos previos

Paso 1: Implementar Weaviate

Paso 2: Instale las dependencias de Python

Paso 3: Establecer variables de entorno

Paso 4: Conéctese para tejer

Paso 5: Precisar esquema con incrustación y soporte generativo

Paso 6: Insertar datos de ejemplo en lotes

Paso 7: Búsqueda semántica usando NearText

Paso 8: Gestación de recuperación de la coexistentes (trapo)

Características esencia de Weaviate

Tejido vs competidores

Conclusión

Preguntas frecuentes

Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.

Deja una respuesta Cancelar la respuesta

COLOMBIA

ENLACES DE INTERÉS