IA local con Ollama y Cerewro: datos confidenciales sin salir del equipo

Ollama permite ejecutar modelos de lenguaje de gran tamaño (LLMs) localmente en Windows sin conexión a Internet. Al conectar Ollama con Cerewro, puedes procesar documentos confidenciales con toda la potencia de la IA sin que ningún dato abandone tu red.

Por qué usar IA local en tu empresa

SituaciónProblema con IA en la nubeSolución con IA local
Despacho de abogadosEl secreto profesional prohíbe enviar documentos del cliente a tercerosLos datos nunca salen del servidor del despacho
Consulta médicaDatos de salud (categoría especial RGPD) no pueden procesarse sin consentimiento explícitoProcesamiento on-premise cumple HIPAA y RGPD
Datos bancariosPCI-DSS prohíbe enviar datos de tarjetas a tercerosModelo local para análisis de fraude
Propiedad intelectualRiesgo de que el modelo de la nube aprenda de tus datos secretosEl modelo local no se actualiza con tus datos

Instalar Ollama en Windows

Instalación y modelos recomendados
# Descargar e instalar Ollama para Windows
winget install Ollama.Ollama

# Descargar modelos (se ejecutan localmente)
ollama pull llama3.2        # 3B parámetros, 2GB RAM, muy rápido
ollama pull llama3.1:8b     # 8B parámetros, 8GB RAM, muy capaz
ollama pull mistral         # 7B parámetros, equilibrio calidad/velocidad
ollama pull phi3:mini       # 3.8B, ideal para documentos en inglés
ollama pull qwen2.5:7b      # 7B, excelente en código y análisis
ollama pull nomic-embed-text # Para búsqueda semántica local

# Verificar que Ollama está corriendo
ollama list
curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Hola"}'
Cerewro Chat — Usar modelo local
Conéctate al modelo Llama 3.1 que tengo corriendo en localhost:11434 y analiza el contrato
de C:\juridico\contrato-confidencial.pdf. Extrae: partes, objeto, duración, penalizaciones
y riesgos legales. Este documento es confidencial y no debe salir del equipo.

Modelos recomendados por caso de uso

ModeloRAMMejor para
llama3.2:3b4 GBEquipos con poca RAM, tareas simples
llama3.1:8b8 GBAnálisis de documentos, redacción
mistral:7b8 GBIdiomas europeos, razonamiento
llama3.1:70b40 GBMáxima calidad, servidor dedicado
qwen2.5:7b8 GBCódigo, matemáticas, análisis
GPU acelera x10: Si tu equipo tiene una tarjeta gráfica NVIDIA con 8GB+ VRAM, Ollama la usa automáticamente para acelerar la inferencia hasta 10 veces. Ideal para servidores con GPU dedicada en entornos empresariales.