IA local con Ollama y Cerewro: datos confidenciales sin salir del equipo
Ollama permite ejecutar modelos de lenguaje de gran tamaño (LLMs) localmente en Windows sin conexión a Internet. Al conectar Ollama con Cerewro, puedes procesar documentos confidenciales con toda la potencia de la IA sin que ningún dato abandone tu red.
Por qué usar IA local en tu empresa
| Situación | Problema con IA en la nube | Solución con IA local |
|---|---|---|
| Despacho de abogados | El secreto profesional prohíbe enviar documentos del cliente a terceros | Los datos nunca salen del servidor del despacho |
| Consulta médica | Datos de salud (categoría especial RGPD) no pueden procesarse sin consentimiento explícito | Procesamiento on-premise cumple HIPAA y RGPD |
| Datos bancarios | PCI-DSS prohíbe enviar datos de tarjetas a terceros | Modelo local para análisis de fraude |
| Propiedad intelectual | Riesgo de que el modelo de la nube aprenda de tus datos secretos | El modelo local no se actualiza con tus datos |
Instalar Ollama en Windows
Instalación y modelos recomendados
# Descargar e instalar Ollama para Windows
winget install Ollama.Ollama
# Descargar modelos (se ejecutan localmente)
ollama pull llama3.2 # 3B parámetros, 2GB RAM, muy rápido
ollama pull llama3.1:8b # 8B parámetros, 8GB RAM, muy capaz
ollama pull mistral # 7B parámetros, equilibrio calidad/velocidad
ollama pull phi3:mini # 3.8B, ideal para documentos en inglés
ollama pull qwen2.5:7b # 7B, excelente en código y análisis
ollama pull nomic-embed-text # Para búsqueda semántica local
# Verificar que Ollama está corriendo
ollama list
curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Hola"}'
Cerewro Chat — Usar modelo local
Conéctate al modelo Llama 3.1 que tengo corriendo en localhost:11434 y analiza el contrato
de C:\juridico\contrato-confidencial.pdf. Extrae: partes, objeto, duración, penalizaciones
y riesgos legales. Este documento es confidencial y no debe salir del equipo.
Modelos recomendados por caso de uso
| Modelo | RAM | Mejor para |
|---|---|---|
| llama3.2:3b | 4 GB | Equipos con poca RAM, tareas simples |
| llama3.1:8b | 8 GB | Análisis de documentos, redacción |
| mistral:7b | 8 GB | Idiomas europeos, razonamiento |
| llama3.1:70b | 40 GB | Máxima calidad, servidor dedicado |
| qwen2.5:7b | 8 GB | Código, matemáticas, análisis |
GPU acelera x10: Si tu equipo tiene una tarjeta gráfica NVIDIA con 8GB+ VRAM, Ollama la usa automáticamente para acelerar la inferencia hasta 10 veces. Ideal para servidores con GPU dedicada en entornos empresariales.