AA agenteak

Ollama ekoizpenean: nola desplegatu IA lokala zure ETEan

2026-06-30 • 7 min irakurketa

ETE askok dagoeneko probatu dute Ollama ordenagailu eramangarri batean: instalatu, eredu bat jaitsi, prompt pare bat exekutatu eta IA lokalean exekutatzen da, ezer bidali gabe hodeira. Benetako erronka hasten da hori ekoizpenera pasatu nahi duzunean: talde osoari erantzun, ez erortzea, azkarra izan, segurua izan eta integratuta egotea. Salto hori da zatikatuko duguna.

Helburua ETE erreala batek IA lokala izatea da, 24/7 funtzionatzen, kostu arrazoizkoarekin eta hirugarrenen menpe egon gabe.

Zer den Ollama eta zergatik interesatzen zaion ETE bati

Ollama kode irekiko tresna bat da, hizkuntza-eredu handiak (LLM) zure hardware propioan exekutatzea sinplifikatzen duena. Eredu bateragarriak jaisten dituzu —Llama, Mistral, Qwen, Gemma eta beste asko— eta API lokal baten bidez zerbitzatzen dituzu. Ez da beharrezkoa PyTorch, CUDA edo edukiontzi konplexuak ezagutzea. Komando pare batekin eredu bat exekutatzen duzu.

ETE batentzat, honek arauak aldatzen ditu:

Datuen subiranotasuna. Zure elkarrizketak, dokumentuak eta kontsultak ez dira zure saretik irteten.
Kostu iragargarria. Behin ordaintzen duzu hardwarea; gero ez duzu tokenik edo erabiltzaile bakoitzeko ordaintzen.
Hornitzailearekiko mendetasunik gabe. Ez zaude OpenAI, Anthropic edo Googlek prezioak, politikak edo erabilgarritasuna aldatzearen menpe.
Integrazio erraza. Ollamaren REST APIa erraz konektatzen da n8n-ra, zure aplikazioetara edo barne agenteetara.

Ollama ez da eredua berariaz: zure ingurunean martxan jartzen duen motorra da.

Probatik ekoizpen-despliegura

"Ollama nire ordenagailu eramangarrian daukat" eta "Ollama ekoizpenean" arteko diferentzia proba-auto bat eta flota-ibilgailu baten arteko diferentzia bera da. Ekoizpenean hau behar duzu:

Eskuragarritasuna. Zerbitzuak bere kabuz abiarazi, berrabiarazketak gainditu eta erroreetatik berreskuratu behar du.
Konkurrentzia. Hainbat langile edo prozesu aldi berean galdera ditzakete ereduari.
Egonkorra den errendimendua. Erantzun-denbora iragargarria izatea, batzuetan 2 segunduko eta besteetan 30 segundoko ez izatea.
Monitorizazioa. Zerbitzua erorita dagoen, GPU %100ean dagoen edo erroreak dauden jakitea.
Ereduen kudeaketa. Ereduak eguneratu, aldatu edo gehitu gelditu gabe ahal izatea.
Segurtasuna. Edonork ezin dezala zure API lokalera kanpotik sartu.

Guztia hardware apalekin eta kode irekiko tresnekin munta daiteke. Garrantzitsua da erabiltzaileek menpe jarri baina diseinatzea.

Hardware eskakizun realistak

Ez da superordenagailurik behar. Beharrak dira zer eredu exekutatuko duzun eta zenbat erabiltzaile erabiliko duten jakitea.

Profila	Erabilera	Hardware gomendatua	Eredu bideragarriak
Sarrera	Probak, 1-2 erabiltzaile, zeregin arinak	CPU modernoa, 16 GB RAM, SSD	Gemma 2B, Qwen 2.5 3B, Llama 3.2 1B
Estandarra	3-10 pertsonako taldea, RAG, automatizazioak	GPU RTX 3060/4060 (12 GB VRAM), 32 GB RAM	Llama 3.1 8B, Mistral 7B, Qwen 2.5 7B
Aurreratua	Erabilera intentsiboa, agente anitz, kontestu handiak	RTX 4090 (24 GB VRAM) edo A6000, 64 GB RAM	Llama 3.1 70B (kuantizatua), Mixtral 8x7B, 13B-32B ereduak

VRAMa lepo-boterea da. 7B-ko eredu bat 4 bitekin 4-5 GB VRAM inguru hartzen du, baina kontestu luzeak kontsumo hori bikoiztu dezake. Dokumentu luzeak prozesatuko badituzu edo elkarrizketa luzeak mantendu nahi badituzu, gutxienez 12 GB VRAM-eko GPU batekin joan. GPUrik gabe, dena CPUan funtzionatzen da, baina abiadura 5 eta 20 arte jaitsi daiteke: probak egiteko erabilgarria, ekoizpenerako frustantea.

Biltegiratzeak ere garrantzia du. Ereduak 2 GB eta 50 GB artean pisatzen dute. 500 GB-ko SSD bat nahikoa da hasteko; 1 TB-koak hainbat eredu, datu-base bektorial eta logentzako margenua ematen du.

Gomendatutako ereduak erabilera-kasuaren arabera

Ollamak dozenaka eredu jaisteko aukera ematen du, baina ez dira guztiak berdin baliagarriak. Hauek dira Neurosint-en gomendatzen ditugunak:

Llama 3.1 / 3.2 (8B). Kalitate eta abiadura arteko oreka. Barne txaterako, posta elektronikoen sailkapenerako eta agindu egituratuei jarraitzen dieten agenteetarako egokia.
Mistral 7B / Mixtral 8x7B. Mistral 7B azkarra da eta gaztelaniaz ondo arrazoitzen du. Mixtral askoz ere eredu handiagoen antzeko kalitatea eskaintzen du, baina VRAM gehiago behar du.
Qwen 2.5 (7B-14B). Hizkuntza anitzeko zereginetarako bikaina, gaztelania barne. Baliagarria zure ETE hainbat hizkuntzatan jarduten bada.
Gemma 2 (9B). Testu luzeak laburtzeko eta dokumentuei buruzko galderak erantzuteko aukera ona, VRAM nahikoa baduzu.
Eredu espezializatuak. Koderako, Code Llama edo DeepSeek Coder; embeddingentzako, nomic-embed-text edo all-minilm; ikusmenarentzako, Llava irudiak aztertu behar badituzu.

Gakoa ez da eredu handiena erabiltzea, baizik egokiena. Ondo konfiguratutako 7B-ko eredu batek ETE baten beharrien gehiengoa betetzen du. Zehaztasun gehiago behar baduzu, igo neurrian; abiadura gehiago behar baduzu, jaitsi kuantizazioan.

Despliegue-arkitektura tipikoa

ETE batean Ollama modu egonkorrenean desplegatzea Docker erabiliz egiten da, zerbitzari espezializatu batean edo makina birtual batean. Arkitektura oinarrizkoa honako hau litzateke:

Fisiko edo birtual zerbitzaria GPUarekin (baldin badago) zure sare lokal barruan edo DMZ batean.
Docker eta Docker Compose Ollama modu errepikakorrean jartzeko.
Bolumen iraunkorra ereduentzako, berriro jaitsi ez daitezen.
Proxy alderantzizkoa (nginx, Traefik edo Caddy) HTTPS amaitu eta Ollamara bideratzeko.
Autentifikazioa proxyan: API gakoa, barne OAuth edo IP/VPN murrizketa.
Monitorizazio oinarrizkoa logak zentralizatuta eta eskuragarritasun-alertekin.
Segurtasun kopiak ereduen bolumenaren eta konfigurazioaren.

Ez da beharrezkoa Ollama internetera irekitzea. Kasu gehienetan, zure sare lokaletik edo zure VPNetik eskuragarri egotea nahikoa da. Langile urrunek erabili nahi badute, lehenik VPNera konektatzen dira; ez duzu atea munduari ireki behar.

Eskuragarritasun apal baterako, bigarren zerbitzari bat izan dezakezu eredu txikiago batekin babes gisa, edo kontingentzia-plan bat konfigura dezakezu: erorita dagoenean, eskaera garrantzitsuak beste eredu batera edo atzeratutako ilara batera bideratu.

REST APIa eta n8n eta agenteekin integrazioa

Ollamak REST API bat eskaintzen du, eta hori da zure lan-fluxuen zubia. Endpoint erabilgarrienak hauek dira:

/api/generate: prompt batetik erantzun bakarra lortzeko.
/api/chat: historiadun elkarrizketetarako.
/api/embeddings: testuak bektore bihurtzeko eta RAG sisteman datu-base bektoriala elikatzeko.

curl-ekin dei oinarrizko bat hauxe da:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "Laburtu testu hau hiru puntutan: ...",
  "stream": false
}'

n8n-en, HTTP Request nodoa erabiltzen duzu zure barne Ollamera zuzenduta. Hortik fluxu hauek eraiki ditzakezu:

Bezeroarentzako arretako postak sailkatu eta zirriborroak erantzun.
Dokumentu erantsiak laburtu eta laburpena zure CRM-ean gorde.
Ficha teknikoetatik produktu-deskribapenak sortu.
Zure ezagutza-base lokalera kontsultatzen duen agente bat elikatu.

LangChain, LlamaIndex edo CrewAI bezalako agente-frameworkak erabiltzen badituzu, gehienek Ollamaren endpointa OpenAI balitz bezala erabiltzeko aukera ematen dute. Soilik aldatu URL oinarria eta ereduaren izena. Horrela zure agenteak zure azpiegitura osoan exekutatzen dira.

Segurtasuna: ez da lokala izateagatik soilik

IA lokala exekutatzea pribatutasunerako urrats handia da, baina ez da nahikoa. Ekoizpenean, gerza hauek aplikatu:

Isolatu sarea. Ollamak ez du internetera irteten beharrik testua sortzeko. Moztu irteera-sarbidea, ereduak jaisteko izan ezik, eta jaitsierak kudeaketa-makina batetik egin.
Kontrolatu sarbidea. Inoiz ez ireki 11434 ataka zuzenean. Erabili proxy bat HTTPS eta autentifikazioarekin. Murriztu IP edo VPNaren arabera.
Baimen minimoko printzipioa. Irakurtzen duten agenteek ez dute idatzi behar. Idazten dutenek ez dute ezabatu behar. Integrazio bakoitzak, bere gako propioa.
Sandbox. Agente batek ekintzak exekuta ditzakeenek (postak bidali, datu-baseak aldatu), ekintza horiek inguru kontrolatuan exekutatu, baimen zorrotzekin.
Logak eta ikuskapena. Erregistratu nor kontsultatzen duen zer, noiz eta zer emaitzarekin. Honek arazoak detektatzeko eta DBAO betetzeko balio du.
Eguneraketak. Ollama, sistema eragilea eta ereduak eguneratu behar dira. Ereduek ere segurtasun adabakiak eta hobekuntzak jasotzen dituzte.

Gogoan izan: posta elektroniko edo ERP baterako sarbide kontrolatu gabeko eredu lokal bat API kanpo bat gaizki konfiguratuta bezain arriskutsua izan daiteke.

Ohiko erroreak despliegua trabatzen dutenak

Neurosint-en berriro eta berriro ikusi ditugu oztopo berberak. Saihestu:

Hodeiaren abiadura itxarotea CPUarekin. Ollama CPUan funtzionatzen du, baina ez erabiltzaile errealekin ekoizpenean. Aurrekontua badago, inbertitu GPUan.
Eredu handiegia aukeratzea. 70B bat 12 GB-ko GPU batean dena moteldu edo sartu ere ez da egiten. Hobe 7B-8B kuantizatua eta fluidea.
APIa publiko uztea. Babesik gabeko 11434 ataka arrisku ezinbestekoa da.
Kontestu-tamaina ez kontuan hartzea. Prompt erraldoiak generazioa moteldu eta VRAM kontsumitzen dute. Laburtu edo laburbildu kontestua bidali aurretik.
Irteerak baliozkotu ez. IAk datuak asma ditzake. Emaitza ERP, CRM edo datu-base batera doanean, baliozkotze-gerza bat gehitu.
Backupa ahaztea. Egun batean diskoak huts egiten du eta konturatzen zara ez zenuela ereduen edo konfigurazioaren kopiarik.
Prompt injection. Erabiltzaile edo posta maltzurrek eredua birbidera dezakete. Mugatu egin dezakeena eta baliozkotu instrukzioak.

Errore gehienak praktika onekin konpontzen dira, hardware gehiago erabili beharrik gabe.

Ondorioa: zure ETEaren eskura dagoeneko dago IA lokala

Ollama ez da soilik probak egiteko tresna. Hardware egokiarekin eta arkitektura segurua rekin, zure ETEaren IA motorra bihur daiteke: bezeroarentzako arreta, dokumentuen automazioa, barne agenteak, ezagutza-laguntzaileak.

Abantaila estrategikoa ere bada: zure datuak kontrolatzen dituzu, hodeiarekiko mendetasuna murrizten duzu eta hasierako inbertsioa hilabeteetan amortizatzen duzu, erabiltzaile bakoitzeko hazten den harpidetza baten ordez.

Hasi txikia: erabilera-kasu bat, 7B-ko eredu bat GPUan, n8n, eta neurri aurrezkia. Gero eskalatzea er formul errepikatzea da.

Neurosint-en Bilboko eta inguruko ETEei laguntzen diegu Ollama, n8n eta kode irekiko ereduekin IA lokalaren azpiegiturak diseinatu, desplegatu eta segurtatzeko. Probatik ekoizpenera pasatu nahi baduzu hodeiarekiko menpe egon gabe, hitz egin dezagun.

Prest salto teknologikorako?

Ez utzi zure ETE zaharkitua geratzen. AA azpiegitura ezartzen dugu lehiakortasun abantaila emango dizuna.

Eskatu Zure Doako Auditoria

Itzuli Blogara

Jarraitu arakatzen

AI agente autonomoa ETEentzat: txatbotetik harago

7 min irakurketa

OpenClaw, OpenFang eta Hermes — Agenteen eraikuntzarako hiru bide irekiak

7 min irakurketa