Agents de IA

Ollama en producció: com desplegar IA local a la teva pime

2026-06-30 • 7 min de lectura

Moltes pimes han provat ja Ollama en un portàtil: instal·les, descarregues un model, executes un parell de prompts i la IA corre localment sense enviar res al núvol. El veritable repte comença quan vols passar això a producció: que respongui a tot l'equip, que no es caigui, que sigui ràpid, segur i integrat. Aquest salt és el que anem a desgranar.

L'objectiu és que una pime real pugui tenir IA local funcionant 24/7 amb un cost raonable i sense dependre de tercers.

Què és Ollama i per què interessa a una pime

Ollama és una eina de codi obert que simplifica executar models de llenguatge grans (LLM) al teu propi maquinari. Descarregues models compatibles —Llama, Mistral, Qwen, Gemma i molts més— i els serveixes a través d'una API local. No cal saber de PyTorch, ni de CUDA, ni de contenidors complexos. Amb un parell de comandes ja tens un model corrent.

Per a una pime, això canvia les regles del joc:

Soberania de dades. Les teves converses, documents i consultes no surten de la teva xarxa.
Cost previsible. Pagues el maquinari una vegada; després no pagues per token ni per usuari.
Sense dependència de proveïdors. No depens que OpenAI, Anthropic o Google canviïn preus, polítiques o disponibilitat.
Integració senzilla. L'API REST d'Ollama es connecta fàcilment a n8n, a les teves aplicacions o a agents interns.

Ollama no és el model en si: és el motor que el posa a funcionar al teu entorn.

De la prova al desplegament en producció

La diferència entre "tinc Ollama al meu portàtil" i "Ollama en producció" és la mateixa que entre un cotxe de proves i un vehicle de flota. En producció necessites:

Disponibilitat. El servei ha d'arrencar sol, sobreviure a reinicis i recuperar-se d'errors.
Concurrència. Varios empleats o processos poden consultar el model a la vegada.
Rendiment estable. Que el temps de resposta sigui previsible, no que a vegades tardi 2 segons i altres 30.
Monitorització. Saber si el servei està caigut, si la GPU està al 100 % o si hi ha errors.
Gestió de models. Poder actualitzar, canviar o afegir models sense parar tot.
Seguretat. Que no qualsevol pugui accedir a la teva API local des de fora.

Tot això es pot muntar amb maquinari modest i eines de codi obert. El important és dissenyar-ho abans que els usuaris comencin a dependre'n.

Requisits de maquinari realistes

No cal un superordinador. Cal saber quin model vas a córrer i quants usuaris el faran servir.

Perfil	Ús	Maquinari recomanat	Models viables
Entrada	Proves, 1-2 usuaris, tasques lleugeres	CPU moderna, 16 GB RAM, SSD	Gemma 2B, Qwen 2.5 3B, Llama 3.2 1B
Estàndard	Equip de 3-10 persones, RAG, automatitzacions	GPU RTX 3060/4060 (12 GB VRAM), 32 GB RAM	Llama 3.1 8B, Mistral 7B, Qwen 2.5 7B
Avançat	Ús intensiu, múltiples agents, grans contextos	RTX 4090 (24 GB VRAM) o A6000, 64 GB RAM	Llama 3.1 70B (quantitzat), Mixtral 8x7B, models de 13B-32B

La VRAM és el coll d'ampolla. Un model de 7B a 4 bits sol ocupar uns 4-5 GB de VRAM, però el context llarg pot duplicar aquest consum. Si vas a processar documents extensos o mantenir converses llargues, apunta a 12 GB de VRAM com a mínim. Sense GPU, tot funciona en CPU, però la velocitat baixa entre 5 i 20 vegades: usable per a proves, frustrant per a producció.

L'emmagatzematge també importa. Els models pesen entre 2 GB i 50 GB. Un disc SSD de 500 GB és suficient per començar; 1 TB et dóna marge per a diversos models, bases vectorials i logs.

Models recomanats segons el cas d'ús

Ollama permet descarregar desenes de models, però no tots serveixen per al mateix. Aquests són els que solem recomanar a Neurosint:

Llama 3.1 / 3.2 (8B). Equilibri entre qualitat i velocitat. Ideal per a xat intern, classificació de correus i agents que segueixen instruccions estructurades.
Mistral 7B / Mixtral 8x7B. Mistral 7B és ràpid i raona bé en espanyol. Mixtral ofereix qualitat propera a models molt més grans, però necessita més VRAM.
Qwen 2.5 (7B-14B). Excel·lent per a tasques multilingües, inclòs l'espanyol. Útil si la teva pime opera en diversos idiomes.
Gemma 2 (9B). Bona opció per a resumir textos llargs i respondre preguntes sobre documents si disposes de prou VRAM.
Models especialitzats. Per a codi, Code Llama o DeepSeek Coder; per a embeddings, nomic-embed-text o all-minilm; per a visió, Llava si necessites analitzar imatges.

La clau no és usar el model més gran, sinó l'adequat. Un model de 7B ben configurat resol la majoria de necessitats d'una pime. Si necessites més precisió, puja de mida; si necessites velocitat, baixa de quantització.

Arquitectura de desplegament típica

La forma més sòlida de desplegar Ollama en una pime és amb Docker en un servidor dedicat o en una màquina virtual. Una arquitectura bàsica seria:

Servidor físic o virtual amb GPU (si és possible) dins de la teva xarxa local o DMZ.
Docker i Docker Compose per aixecar Ollama de forma reproduïble.
Volum persistent per a models, de manera que no es descarreguin cada vegada.
Reverse proxy (nginx, Traefik o Caddy) que termini HTTPS i redirigeixi cap a Ollama.
Autenticació al proxy: clau API, OAuth intern o restricció per IP/VPN.
Monitorització bàsica amb logs centralitzats i alertes de disponibilitat.
Còpies de seguretat del volum de models i configuració.

No és necessari exposar Ollama a internet. En la majoria dels casos, n'hi ha prou amb que sigui accessible des de la teva xarxa local o des de la teva VPN. Si vols que empleats en remot el facin servir, es connecten primer a la VPN; no obres el port al món.

Per a alta disponibilitat modesta, pots tenir un segon servidor amb un model més petit com a reserva, o configurar un pla de contingència que, davant d'una caiguda, encamini les peticions crítiques a un altre model o a una cua diferida.

API REST i integració amb n8n i agents

Ollama exposa una API REST que és el pont cap als teus fluxos de treball. Els endpoints més útils són:

/api/generate: per a una única resposta a partir d'un prompt.
/api/chat: per a converses amb historial.
/api/embeddings: per a convertir textos en vectors i alimentar una base de dades vectorial en un sistema RAG.

Una trucada bàsica amb curl es veu així:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "Resumeix aquest text en tres punts: ...",
  "stream": false
}'

A n8n, uses el node HTTP Request apuntant al teu Ollama intern. Des d'allà pots construir fluxos com:

Classificar correus d'atenció al client i respondre esborranys.
Resumir documents adjunts i guardar el resum al teu CRM.
Generar descripcions de productes a partir de fitxes tècniques.
Alimentar un agent que consulta la teva base de coneixement local.

Si uses frameworks d'agents com LangChain, LlamaIndex o CrewAI, la majoria permeten apuntar a l'endpoint d'Ollama com si fos OpenAI. Només canvies la URL base i el nom del model. Així els teus agents corren completament a la teva infraestructura.

Seguretat: no és només per ser local

Córrer IA local és un gran pas per a la privadesa, però no és suficient. En producció, aplica aquestes capes:

Aïlla la xarxa. Ollama no necessita sortir a internet per generar text. Tallar el seu accés sortint excepte per a descarregar models, i fes aquestes descàrregues des d'una màquina de gestió.
Controla l'accés. Mai exposis el port 11434 directament. Usa un proxy amb HTTPS i autenticació. Limita per IP o VPN.
Principi de mínim privilegi. Els agents que només llegeixen no han d'escriure. Els que escriuen no han de suprimir. Cada integració, la seva pròpia clau.
Sandbox. Si un agent pot executar accions (enviar correus, modificar bases de dades), executa aquestes accions dins d'un entorn controlat amb permisos estrictes.
Logs i auditoria. Registra qui consulta què, quan i amb quin resultat. Serveix per detectar problemes i per complir amb el RGPD.
Actualitzacions. Tant Ollama com el sistema operatiu i els models s'han d' actualitzar. Els models també reben pegats de seguretat i millores.

Recorda: un model local amb accés descontrolat al teu correu o ERP pot ser tan perillós com una API externa mal configurada.

Errors comuns que frenen el desplegament

A Neurosint hem vist els mateixos esculls una vegada i una altra. Evita'ls:

Esperar velocitat de núvol amb CPU. Ollama en CPU funciona, però no per a producció amb usuaris reals. Si hi ha pressupost, inverteix en GPU.
Triar un model massa gran. Un 70B en una GPU de 12 GB alenteix tot o directament no entra. Millor un 7B-8B quantitzat que flueixi.
Deixar l'API pública. El port 11434 sense protecció és un risc innecessari.
Ignorar la mida del context. Prompts enormes alenteixen la generació i consumeixen VRAM. Retalla o resumeix el context abans d'enviar-lo.
No validar sortides. La IA pot inventar dades. Si el resultat va a un ERP, CRM o base de dades, afegeix una capa de validació.
Oblidar el backup. Un dia falla el disc i et dones compte que no tenies còpia dels models ni de la configuració.
Prompt injection. Un usuari o un correu maliciós pot redirigir el model. Limita el que pot fer i valida les instruccions.

La majoria d'aquests errors es resolen amb bones pràctiques, no amb més maquinari.

Conclusió: la IA local ja està a l'abast de la teva pime

Ollama no és només una eina per fer proves. Amb el maquinari adequat i una arquitectura segura, es pot convertir en el motor d'IA de la teva pime: atenció al client, automatització de documents, agents interns, assistents de coneixement.

L'avantatge és també estratègica: controles les teves dades, redueixes la dependència del núvol i amortitzes una inversió inicial en mesos, en lloc d'una subscripció que creix amb cada usuari.

Comença petit: un cas d'ús, un model 7B en GPU, n8n, i mesura l'estalvi. Escalar després és qüestió de repetir la fórmula.

A Neurosint ajudem pimes de Bilbao i de l'entorn a dissenyar, desplegar i assegurar infraestructures de IA local amb Ollama, n8n i models de codi obert. Si vols passar de les proves a producció sense dependre del núvol, parlem.

Preparat per al salt tecnològic?

No deixis que la teva pime quedi obsoleta. Implementem la infraestructura d'IA que et donarà l'avantatge competitiva.

Reserva la teva Auditoria Gratuïta

Tornar al Blog

Segueix explorant

Agent de IA autònom per a pimes: més enllà del chatbot

7 min de lectura