Asistente RAG desplegado en Cloud Run — ingestion PDF segura, caching avanzado y autenticación zero-trust
El asistente RAG está completamente desplegado y operativo en Google Cloud Run. Autenticación mediante JWT, procesamiento de PDFs en tiempo real, y respuestas optimizadas con caching inteligente.
Video demostrando ingestion de PDFs, búsqueda semántica y generación de respuestas
Arquitectura de microservicios en la nube
Sistema RAG de nivel producción implementado con arquitectura de microservicios. La solución separa responsabilidades en tres servicios principales: UI (interfaz de usuario), Auth (autenticación y sesiones) y RAG (procesamiento de documentos y generación aumentada). Todos los servicios están desplegados en Google Cloud Run con escalado automático y balanceo de carga inteligente.
El pipeline de ingestion de PDFs implementa seguridad multi-capa: escaneo de malware, conversión segura a Markdown, chunking inteligente con markdownHeaderSplitter, y almacenamiento vectorial en ChromaDB Cloud. Redis Cloud proporciona caching distribuido para embeddings, resultados de búsqueda ANN y reranking, reduciendo latencia en 50%. CloudSQL (PostgreSQL) gestiona conversaciones y sesiones.
Flujo de autenticación y pipeline de procesamiento
Arquitectura de cache multi-nivel
Los embeddings se calculan una vez y se cachean en Redis con TTL sincronizado. Modelo de embeddings incluido en la imagen Docker elimina cold starts.
Resultados de búsqueda vectorial se cachean para queries frecuentes, reduciendo carga en ChromaDB y mejorando throughput.
Resultados de reranking se almacenan para evitar recomputación. Invalidación inteligente cuando se actualiza el Ãndice vectorial.
Arquitectura zero-trust con múltiples capas de protección
Autenticación mediante JWT cookies HttpOnly. Cada request valida token contra Redis para revocación instantánea. Zero-trust entre microservicios.
Todo PDF se escanea antes de procesamiento: validación de formato, detección de malware, lÃmites de tamaño y verificación de estructura.
Implementado con fastapi-limiter + Redis: lÃmites por IP, por usuario, por endpoint. Prevención de DDoS y abuso de recursos.
Monitoreo en tiempo real de performance
CPU Time Avoided by Caching (ANN / Emebddings / Rerank)
Cache Performance & Hit Rates