RAG sobre datos corporativos: arquitectura y errores comunes

Por qué tu chatbot interno responde mal y cómo arreglarlo. El cuello de botella casi nunca es el modelo — es la calidad del retrieval.

Un chatbot interno con RAG que responde mal casi nunca es por culpa del LLM. Es por culpa del retrieval. Los modelos modernos (Claude, GPT-4) ya son lo suficientemente buenos como para que el cuello de botella sea otro: qué documentos llegan al contexto y en qué forma.

Error 1: chunks demasiado grandes o demasiado pequeños

Chunks de 2000 tokens diluyen la señal — el modelo recibe mucho ruido. Chunks de 200 tokens pierden el contexto que el lector necesita. El sweet spot que vemos funcionar: 400–800 tokens, con overlap del 10–15% entre chunks vecinos. Pero más importante que el tamaño: chunks que respeten estructura semántica (no cortar a la mitad de una sección).

Error 2: solo embedding search

Embeddings capturan similitud semántica pero pierden términos exactos. Si tu usuario pregunta por “Resolución 4505 del Ministerio” y el embedding lo aproxima a “regulación del sector salud”, fallaste. Híbrido siempre: BM25 (keyword) + embedding (semántico) + re-ranking. Es trabajo extra pero la calidad sube 30–40%.

Error 3: no incluir metadata

Cada chunk debería tener: fuente, fecha de actualización, autor, sección del documento original. Esto permite al modelo decir “según la política de RRHH actualizada en marzo 2026” en lugar de inventar la fecha. Y filtra el ruido (descarta documentos vencidos).

Error 4: ignorar la pregunta del usuario

Antes de retrieval, reescribe la query. “¿Cuánto pago de prima?” es una mala query para retrieval — es ambigua. Reformularla a “política de prima de servicios primer semestre 2026 empleados” mejora hits dramáticamente. Esto se hace con una llamada extra al LLM antes del search.

Error 5: no evaluar la calidad de retrieval

Antes de medir si el modelo responde bien, mide si el retrieval trae los documentos correctos. Crea un dataset: “para esta pregunta, estos son los chunks que deberían venir”. Mide precision@k y recall@k. Si tu retrieval no trae el chunk correcto, ningún prompt va a salvar la respuesta.

Stack que vemos funcionar en LATAM

Para empresas medianas: pgvector sobre Postgres (porque ya lo tienes), embeddings con OpenAI o Voyage AI (mejores para español), generación con Claude Sonnet o GPT-4o-mini, hybrid search con BM25 (lo da pgvector), re-ranking opcional con Cohere o Voyage. Stack completo bajo 0.001 USD por query a escala mediana.

El siguiente nivel: contextual retrieval

Anthropic publicó una técnica simple: antes de embeddar un chunk, agregarle un párrafo de contexto generado por el LLM (“este chunk viene del documento X sobre Y”). Mejora retrieval ~35% con costo mínimo si usas prompt caching.

Cómo te ayudamos en Athrun Data Intelligence

Construimos sistemas RAG productivos sobre datos corporativos. Llamada de 30 min para auditar tu caso si ya tienes algo en marcha, o diseñar arquitectura desde cero.

RAG sobre datos corporativos: arquitectura y errores comunes

Error 1: chunks demasiado grandes o demasiado pequeños

Error 2: solo embedding search

Error 3: no incluir metadata

Error 4: ignorar la pregunta del usuario

Error 5: no evaluar la calidad de retrieval

Stack que vemos funcionar en LATAM

El siguiente nivel: contextual retrieval

Cómo te ayudamos en Athrun Data Intelligence

Fuentes

¿Esto te resuena? Hablemos.

Artículos relacionados

Agentes IA en producción: guardrails, evals y cuándo NO usarlos