DocuMind
Sistema RAG inteligente con agentes conversacionales para consultas semánticas sobre documentos empresariales.
Logros Destacados
Sobre el Proyecto
Como fundador de DocuMind, estoy desarrollando un sistema avanzado de Retrieval-Augmented Generation que permite realizar consultas inteligentes sobre documentación corporativa mediante procesamiento de lenguaje natural y modelos de IA locales.
El Desafío
Las organizaciones manejan grandes volúmenes de documentación dispersa en múltiples formatos y ubicaciones. Encontrar información relevante requiere horas de búsqueda manual. DocuMind resuelve esto proporcionando búsqueda semántica que entiende el significado, no solo palabras clave, y genera respuestas contextualizadas citando las fuentes originales.
Mi Rol
Lidero el diseño y desarrollo completo del sistema, que incluye:
- Arquitectura Híbrida: Diseño de arquitectura local-cloud que combina modelos LLM locales (LM Studio) con bases de datos vectoriales en la nube (Qdrant), ofreciendo una solución escalable y eficiente para la gestión del conocimiento corporativo.
- Pipeline RAG: Implementación de pipeline RAG completo con LangChain que incluye ingesta de documentos, chunking semántico, generación de embeddings y generación de respuestas con trazabilidad de fuentes.
- Procesamiento Multi-formato: Desarrollo de procesadores para 25+ formatos de documento incluyendo Office, PDF, OpenDocument, emails e imágenes con OCR usando Tesseract para documentos escaneados.
- Monitoreo en Tiempo Real: Implementación de file watchers con detección automática de nuevos documentos, deduplicación inteligente y soporte para múltiples carpetas y rutas de red.
- Interfaz Interactiva: Creación de dashboard completo con Streamlit que incluye búsqueda semántica, navegación de documentos, configuración del sistema y estadísticas en tiempo real.
Buscando Inversión
El proyecto está en fase de desarrollo activo buscando inversores para escalar la solución. La arquitectura modular y containerizada permite adaptarse a diferentes necesidades empresariales manteniendo la calidad y trazabilidad.
Arquitectura Técnica
El sistema utiliza Docker Compose para orquestar múltiples servicios: Qdrant para vectores, FastAPI para API REST, Streamlit para UI, n8n para automatización de workflows, PostgreSQL para persistencia y Redis para caché. Los modelos LLM locales corren en LM Studio para privacidad y control.
Responsabilidades
- Diseño completo de arquitectura del sistema RAG
- Implementación de pipeline RAG con LangChain
- Integración con modelos locales (LM Studio)
- Desarrollo de procesadores de documentos multi-formato
- Implementación de OCR para imágenes y PDFs escaneados
- Dashboard interactivo con Streamlit
- Orquestación de servicios con Docker Compose
- Automatización de workflows con n8n
- Optimización de base de datos vectorial con Qdrant
Infraestructura
- Orquestación multi-servicio con Docker Compose
- Base de datos vectorial Qdrant
- API REST con FastAPI
- Interfaz web con Streamlit
- LM Studio para LLMs locales
- n8n para automatización
- PostgreSQL + Redis
Productos Desarrollados
- DocuMind Core - Motor RAG con búsqueda semántica
- Document Ingestor - Procesador multi-formato con OCR
- Query API - Endpoints REST para integración
- Dashboard - Interfaz web interactiva
¿Interesado en trabajar juntos?
Contactar