Ollama permite ejecutar modelos de lenguaje de gran tamaño (LLMs) localmente en Windows sin conexión a Internet. Al conectar Ollama con Cerewro, puedes procesar documentos confidenciales con toda la potencia de la IA sin que ningún dato abandone tu red.

Por qué usar IA local en tu empresa

Situación	Problema con IA en la nube	Solución con IA local
Despacho de abogados	El secreto profesional prohíbe enviar documentos del cliente a terceros	Los datos nunca salen del servidor del despacho
Consulta médica	Datos de salud (categoría especial RGPD) no pueden procesarse sin consentimiento explícito	Procesamiento on-premise cumple HIPAA y RGPD
Datos bancarios	PCI-DSS prohíbe enviar datos de tarjetas a terceros	Modelo local para análisis de fraude
Propiedad intelectual	Riesgo de que el modelo de la nube aprenda de tus datos secretos	El modelo local no se actualiza con tus datos

Instalar Ollama en Windows

Instalación y modelos recomendados

# Descargar e instalar Ollama para Windows
winget install Ollama.Ollama

# Descargar modelos (se ejecutan localmente)
ollama pull llama3.2        # 3B parámetros, 2GB RAM, muy rápido
ollama pull llama3.1:8b     # 8B parámetros, 8GB RAM, muy capaz
ollama pull mistral         # 7B parámetros, equilibrio calidad/velocidad
ollama pull phi3:mini       # 3.8B, ideal para documentos en inglés
ollama pull qwen2.5:7b      # 7B, excelente en código y análisis
ollama pull nomic-embed-text # Para búsqueda semántica local

# Verificar que Ollama está corriendo
ollama list
curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Hola"}'

Cerewro Chat — Usar modelo local

Conéctate al modelo Llama 3.1 que tengo corriendo en localhost:11434 y analiza el contrato
de C:\juridico\contrato-confidencial.pdf. Extrae: partes, objeto, duración, penalizaciones
y riesgos legales. Este documento es confidencial y no debe salir del equipo.

Modelos recomendados por caso de uso

Modelo	RAM	Mejor para
llama3.2:3b	4 GB	Equipos con poca RAM, tareas simples
llama3.1:8b	8 GB	Análisis de documentos, redacción
mistral:7b	8 GB	Idiomas europeos, razonamiento
llama3.1:70b	40 GB	Máxima calidad, servidor dedicado
qwen2.5:7b	8 GB	Código, matemáticas, análisis

GPU acelera x10: Si tu equipo tiene una tarjeta gráfica NVIDIA con 8GB+ VRAM, Ollama la usa automáticamente para acelerar la inferencia hasta 10 veces. Ideal para servidores con GPU dedicada en entornos empresariales.

IA local con Ollama y Cerewro: datos confidenciales sin salir del equipo

Por qué usar IA local en tu empresa

Instalar Ollama en Windows

Modelos recomendados por caso de uso