Wróć do bloga

Lokalne LLM w firmie — jak zacząć z Ollama w 2026

Twoje dane nigdy nie opuszczają serwera. Ollama + Llama 3 / Mistral / Bielik — praktyczny przewodnik po lokalnym AI w polskiej firmie.

Zespół VITA

ChatGPT i Claude są świetne, ale mają wadę: Twoje dane wysyłane są do USA. W branżach regulowanych (prawo, medycyna, finanse, administracja) to problem — RODO, tajemnica zawodowa, umowy poufności. Rozwiązaniem są lokalne modele językowe (LLM) uruchamiane na Twoim serwerze. Ollama czyni to prostym.

Co to jest lokalne LLM?

Lokalne LLM to model AI działający na Twoim komputerze / serwerze / w Twojej chmurze prywatnej. Dane:

  • Nie opuszczają infrastruktury
  • Nie są używane do trenowania
  • Nie są zapisywane u dostawcy
  • Są zgodne z RODO bez DPA

Kiedy warto lokalne LLM?

Zalety

  • Pełna prywatność — dane nigdzie nie wychodzą
  • Brak subskrypcji — jednorazowy koszt sprzętu
  • Brak limitów — używasz ile chcesz
  • Offline — działa bez internetu
  • Customizacja — fine-tuning na własnych danych

Wady

  • Niższa jakość niż GPT-5/Claude Opus (ale wystarczająca dla 80% zadań)
  • Wymaga sprzętu (RAM 32GB+, GPU zalecane)
  • Wolniejsze (kilka tokenów/sek vs 50+/sek w chmurze)
  • Złożoność wdrożenia (choć Ollama bardzo upraszcza)
  • Bez multimodalności (tekst głównie)

Co to jest Ollama?

Ollama to darmowe narzędzie do uruchamiania LLM lokalnie. Wspiera:

  • macOS / Linux / Windows
  • CPU only (wolno) + GPU (NVIDIA/AMD/Apple M)
  • 200+ modeli open-source
  • API OpenAI-compatible (podstawia się w miejsce OpenAI w każdej aplikacji)

Instalacja (10 minut)

macOS / Linux

bash
curl -fsSL https://ollama.com/install.sh | sh

Windows

Pobierz instalator z ollama.com/download.

Weryfikacja

bash
ollama --version

Pierwsze uruchomienie modelu

bash
ollama run llama3

Pierwszy start pobiera model (~4-10 GB). Potem uruchamia interaktywny chat.

Modele — który wybrać?

Llama 3 (Meta, 8B/70B parametrów)

  • Ogólnego przeznaczenia, dobrze po polsku
  • 8B: laptop, 16GB RAM wystarczy
  • 70B: serwer z 64GB+ RAM i GPU

Mistral 7B / Mixtral 8x7B

  • Szybszy i skuteczniejszy przy mniejszej wielkości
  • Świetny do programowania

Bielik 7B / 11B (polski)

  • Polski model trenowany na polskim kontekście
  • Najlepszy do polskich aktów prawnych, biznesu, kultury
  • Trenowany przez SpeakLeash

Llama 3.3 70B

  • Najbliższy GPT-4 jakością
  • Wymaga 64GB RAM

Code Llama / DeepSeek Coder

  • Dedykowane do programowania
  • Alternatywa dla GitHub Copilot

Rekomendacja dla polskich firm

  • Laptop (16GB RAM): Bielik 7B + Mistral 7B
  • Workstation (32-64GB): Llama 3 8B + Bielik 11B + Code Llama
  • Serwer (128GB+ RAM + GPU): Llama 3.3 70B + Mixtral + customowe

Wymagania sprzętowe

ModelMinimum RAMZalecane GPU
7B parametrów8GBOptional
13B parametrów16GBRTX 3060
30B parametrów32GBRTX 4080
70B parametrów64GBRTX 4090 / A100

Apple Silicon (M1-M4): unified memory + Neural Engine = świetna wydajność bez dedykowanego GPU.

Integracja z aplikacjami

Open WebUI (interfejs jak ChatGPT)

bash
docker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui ghcr.io/open-webui/open-webui:main

Otwórz http://localhost:3000 — ChatGPT-like interfejs z lokalnymi modelami.

API

Ollama wystawia API OpenAI-compatible pod http://localhost:11434/v1/chat/completions. Podmieniasz URL w każdej aplikacji używającej OpenAI SDK.

python
from openai import OpenAI client = OpenAI( base_url='http://localhost:11434/v1', api_key='ollama' # wymagane, ale nieużywane ) response = client.chat.completions.create( model='llama3', messages=[{"role": "user", "content": "Cześć!"}] )

VS Code / Claude Code

Claude Code i GitHub Copilot można skonfigurować do używania lokalnego modelu — świetne dla firm z NDA.

Bezpieczeństwo i RODO

Lokalne LLM automatycznie spełniają większość wymogów RODO:

  • Minimalizacja danych — wybierasz co wysyłasz
  • Zasada lokalizacji — dane w UE/w firmie
  • Brak procesora — nie potrzebujesz DPA z dostawcą
  • Prawo do bycia zapomnianym — łatwo usunąć dane

Wymogi, które nadal musisz spełnić:

  • Podstawa prawna przetwarzania
  • Informacja dla osoby, której dane dotyczą
  • Zabezpieczenie fizyczne serwera

Koszty

Laptop (własny sprzęt)

  • 0 zł subskrypcji
  • Koszt energii: ~50-100 zł/mies przy intensywnym użyciu

Workstation dedykowana

  • 8 000-15 000 zł jednorazowo (RTX 4080 + 64GB RAM + CPU)
  • Koszt energii: 100-300 zł/mies

Serwer firmowy

  • 20 000-80 000 zł jednorazowo (serwer z A100)
  • Koszt hostingu + energii: 500-2000 zł/mies
  • Ale obsługuje 10-50 pracowników

Chmura prywatna (Azure OpenAI, AWS Bedrock)

  • 500-3000$/mies dla średniej firmy
  • Dane w kontrolowanej chmurze, ale nie "lokalnie"

Break-even vs ChatGPT Team (30$/user/mies, 10 osób): po 6-9 miesiącach workstation się spłaca.

Typowe zastosowania w firmie

1. Prawo

  • Analiza umów (Bielik 11B + retrieval)
  • Streszczenia aktów prawnych
  • Research orzecznictwa (z RAG na LEX)

2. Medycyna

  • Dokumentacja pacjentów
  • Streszczenia wywiadów
  • Research medyczny

3. Finanse

  • Analiza sprawozdań
  • Detekcja anomalii
  • Raporty compliance

4. Administracja

  • Odpowiedzi na zapytania urzędowe
  • Streszczenia dokumentów
  • Tłumaczenia wewnętrzne

5. HR

  • Screening CV (bez ryzyka RODO)
  • Analiza feedbacku 360
  • Polityki wewnętrzne

Alternatywy dla Ollama

  • LM Studio — GUI dla początkujących
  • llama.cpp — niskopoziomowe, dla zaawansowanych
  • vLLM — serwer produkcyjny, wysokiej wydajności
  • Text Generation WebUI — najwięcej opcji

FAQ

Czy lokalny Llama 3 70B dorówna GPT-5? W 70-80% zadań tak. W kreatywnym pisaniu i multimodalności — ChatGPT/Claude wciąż lepsi.

Czy potrzebuję doświadczenia IT? Podstawowe — instalacja Ollama + model to 10 minut. Integracja z aplikacjami — dzień pracy.

Co z multimodalnością (obrazy, wideo)? Modele LLaVA, MiniCPM-V obsługują obrazy. Wideo — wciąż słabo w open source.

Czy mogę trenować model na moich danych? Tak, technika: LoRA fine-tuning. Koszt: 100-500 zł za małą customizację.

Jakie modele po polsku są najlepsze? Bielik (SpeakLeash), PLLuM (NASK), Llama 3.3 (zaskakująco dobre).

Podsumowanie

Lokalne LLM w 2026 to dojrzała technologia dla firm regulowanych. Inwestycja w sprzęt się zwraca, a prywatność i zgodność z RODO są bonusami. Jeśli chcesz systematycznie zrozumieć AI w kontekście RODO i compliance, sprawdź kurs RODO i AI.

Udostępnij artykuł