Proyecto Principal

DocuMind

Founder & Lead Developer

2025 - Present

Sistema RAG inteligente con agentes conversacionales para consultas semánticas sobre documentos empresariales.

PythonFastAPILangChainQdrantDockerStreamlitLM Studion8nPostgreSQLRedisRAGOCR

Logros Destacados

Soporte para 25+ formatos de documento

Latencia de consulta < 2 segundos

100% trazabilidad de respuestas con fuentes

Arquitectura híbrida local-cloud

OCR para imágenes y PDFs escaneados

Sobre el Proyecto

Como fundador de DocuMind, estoy desarrollando un sistema avanzado de Retrieval-Augmented Generation que permite realizar consultas inteligentes sobre documentación corporativa mediante procesamiento de lenguaje natural y modelos de IA locales.

El Desafío

Las organizaciones manejan grandes volúmenes de documentación dispersa en múltiples formatos y ubicaciones. Encontrar información relevante requiere horas de búsqueda manual. DocuMind resuelve esto proporcionando búsqueda semántica que entiende el significado, no solo palabras clave, y genera respuestas contextualizadas citando las fuentes originales.

Mi Rol

Lidero el diseño y desarrollo completo del sistema, que incluye:

Arquitectura Híbrida: Diseño de arquitectura local-cloud que combina modelos LLM locales (LM Studio) con bases de datos vectoriales en la nube (Qdrant), ofreciendo una solución escalable y eficiente para la gestión del conocimiento corporativo.
Pipeline RAG: Implementación de pipeline RAG completo con LangChain que incluye ingesta de documentos, chunking semántico, generación de embeddings y generación de respuestas con trazabilidad de fuentes.
Procesamiento Multi-formato: Desarrollo de procesadores para 25+ formatos de documento incluyendo Office, PDF, OpenDocument, emails e imágenes con OCR usando Tesseract para documentos escaneados.
Monitoreo en Tiempo Real: Implementación de file watchers con detección automática de nuevos documentos, deduplicación inteligente y soporte para múltiples carpetas y rutas de red.
Interfaz Interactiva: Creación de dashboard completo con Streamlit que incluye búsqueda semántica, navegación de documentos, configuración del sistema y estadísticas en tiempo real.

Buscando Inversión

El proyecto está en fase de desarrollo activo buscando inversores para escalar la solución. La arquitectura modular y containerizada permite adaptarse a diferentes necesidades empresariales manteniendo la calidad y trazabilidad.

Arquitectura Técnica

El sistema utiliza Docker Compose para orquestar múltiples servicios: Qdrant para vectores, FastAPI para API REST, Streamlit para UI, n8n para automatización de workflows, PostgreSQL para persistencia y Redis para caché. Los modelos LLM locales corren en LM Studio para privacidad y control.

Responsabilidades

Diseño completo de arquitectura del sistema RAG
Implementación de pipeline RAG con LangChain
Integración con modelos locales (LM Studio)
Desarrollo de procesadores de documentos multi-formato
Implementación de OCR para imágenes y PDFs escaneados
Dashboard interactivo con Streamlit
Orquestación de servicios con Docker Compose
Automatización de workflows con n8n
Optimización de base de datos vectorial con Qdrant

Infraestructura

Orquestación multi-servicio con Docker Compose
Base de datos vectorial Qdrant
API REST con FastAPI
Interfaz web con Streamlit
LM Studio para LLMs locales
n8n para automatización
PostgreSQL + Redis

Productos Desarrollados

DocuMind Core - Motor RAG con búsqueda semántica
Document Ingestor - Procesador multi-formato con OCR
Query API - Endpoints REST para integración
Dashboard - Interfaz web interactiva

¿Interesado en trabajar juntos?

Contactar