UUID vs ULID vs identyfikatory sekwencyjne — jak wybrać identyfikator dla swojej bazy danych

Q: When is a serial bigint primary key the best choice?

Serial to dobry wybór, gdy masz jedną bazę danych, duże natężenie zapisów i ID pozostają wewnętrzne. Jest kompaktowy, szybki dla indeksów B-tree i łatwy do czytania w logach. Główną wadą jest trudność w scalaniu danych później (kolizje) oraz ujawnianie liczby rekordów, jeśli ID są publiczne.

Zaloguj się Rozpocznij

UUID vs ULID vs identyfikatory sekwencyjne — jak wybrać identyfikator dla swojej bazy danych | Koder.ai

Prawdziwy problem: wybór ID, którego później nie pożałujesz

Wybór ID wydaje się nudny w pierwszym tygodniu. Potem wypuszczasz produkt, dane rosną, i ta "prosta" decyzja pojawia się wszędzie: indeksy, URL-e, logi, eksporty i integracje.

Prawdziwe pytanie nie brzmi "co jest najlepsze?" lecz "jakiego bólu chcę uniknąć później?" ID trudno zmienić, bo trafiają do innych tabel, cache'owane są przez klientów i zależą od nich inne systemy.

Gdy ID nie pasuje do rozwoju produktu, zwykle widać to w kilku miejscach:

Wstawki i zapytania zwalniają, bo indeks PK rośnie w niekorzystny sposób.
Paginacja robi się kłopotliwa, gdy sortowanie po ID nie odzwierciedla czasu utworzenia.
Migracje stają się ryzykowne, gdy inne systemy zależą od formatu ID.
Debugowanie zajmuje więcej czasu, gdy ID są trudne do odczytania lub porównania.
Importy kolidują, gdy łączysz dane z wielu źródeł.

Zawsze jest kompromis między wygodą teraz a elastycznością później. Liczby sekwencyjne są łatwe do czytania i często szybkie, ale ujawniają liczbę rekordów i utrudniają scalanie datasetów. Losowe UUID-y świetnie nadają się do unikalności między systemami, ale obciążają indeksy i są mniej przyjazne dla ludzi. ULID-y dążą do globalnej unikalności z porządkowaniem czasowym, ale też mają swoje koszty w przechowywaniu i narzędziach.

Przydatny sposób myślenia: dla kogo głównie jest ID?

Jeśli ID jest głównie dla ludzi (support, debugging, ops), krótsze i łatwiejsze do odczytu zwykle wygrywają. Jeśli jest dla maszyn (zapis rozproszony, klienci offline, multi-region), ważniejsza jest unikalność globalna i unikanie kolizji.

Szybkie definicje prostym językiem

Gdy ludzie debatują "UUID vs ULID vs serial IDs", wybierają sposób nadawania unikalnej etykiety wierszom. Ta etykieta wpływa na łatwość wstawiania, sortowania, scalania i przenoszenia danych.

Identyfikatory sekwencyjne (serial / integer / bigint)

Serial to licznik. Baza daje 1, potem 2, potem 3 itd. (zwykle jako integer lub bigint). Łatwo je odczytać, są tanie w przechowywaniu i zwykle szybkie, bo nowe wiersze trafiają na koniec indeksu.

UUID

UUID to 128-bitowy identyfikator, który wygląda losowo, np. 3f8a.... W większości konfiguracji można go wygenerować bez pytania bazy o następny numer, więc różne systemy mogą tworzyć ID niezależnie. W zamian za to losowe wstawki mogą obciążać indeksy i zajmować więcej miejsca niż prosty bigint.

ULID

ULID też ma 128 bitów, ale jest zaprojektowany tak, aby był mniej więcej uporządkowany czasowo. Nowe ULID-y zwykle sortują się po starszych, zachowując globalną unikalność. Dajesz sobie część korzyści "generowane wszędzie" jak w UUID, z przyjaźniejszym zachowaniem przy sortowaniu.

Proste podsumowanie:

Serial: najmniejsze i domyślnie uporządkowane.
UUID: najprostsze do generowania niezależnie, mniej przyjazne dla ludzi, zwykle w losowej kolejności.
ULID: niezależne jak UUID, ale mniej więcej uporządkowane czasowo.

Seriale są powszechne w aplikacjach z jedną bazą i w narzędziach wewnętrznych. UUID pojawiają się, gdy dane tworzone są w wielu serwisach, urządzeniach lub regionach. ULID są popularne, gdy zespół chce generować ID rozproszenie, ale zależy mu też na porządku sortowania i zapytaniach "ostatnie najpierw".

Indeksowanie i wydajność: co zmienia się w praktyce

Klucz główny zwykle wspierany jest indeksem (często B-tree). Wyobraź sobie indeks jak posortowaną książkę telefoniczną: każdy nowy wiersz potrzebuje wpisu w odpowiednim miejscu, żeby wyszukiwanie było szybkie.

W przypadku losowych ID (klasyczny UUIDv4) nowe wpisy trafiają w różne miejsca indeksu. To powoduje dotykanie wielu stron indeksu, częstsze dzielenie stron i dodatkowe zapisy. Z czasem indeks „chodzi na boki”: więcej pracy przy wstawianiu, więcej cache missów i większe indeksy niż oczekiwano.

Przy ID rosnących (serial/bigint lub ID czasowo uporządkowane jak wiele ULID-ów) baza zwykle może dopisywać nowe wpisy blisko końca indeksu. To jest bardziej cache-friendly, bo ostatnie strony pozostają gorące, a wstawki są płynniejsze przy dużych szybkościach zapisu.

Wielkość klucza ma znaczenie, bo wpisy indeksu nie są darmowe:

serial bigint: 8 bajtów
UUID: 16 bajtów
ULID: 16 bajtów, jeśli przechowywany jako binarny, znacznie więcej jeśli jako 26-znakowy string

Większe klucze oznaczają mniej wpisów na stronę indeksu. To często prowadzi do głębszych indeksów, większej liczby odczytywanych stron na zapytanie i większych wymagań pamięciowych, by utrzymać szybkość.

Jeśli masz tabelę "events" z intensywnymi wstawkami, losowy UUID jako PK może szybciej zacząć wpływać na wydajność niż bigint, nawet jeśli pojedyncze odczyty wciąż wyglądają dobrze. Przy dużych zapisach koszt indeksowania zwykle jest pierwszą zauważalną różnicą.

Sortowanie, paginacja i porządek czasowy

Jeśli budowałeś "Load more" albo infinite scroll, już czułeś ból ID, które słabo się sortują. ID "dobrze się sortuje", gdy uporządkowanie po nim daje stabilny, znaczący porządek (często według czasu utworzenia), więc paginacja jest przewidywalna.

Przy losowych ID (jak UUIDv4) nowe wiersze są porozrzucane. Sortowanie po id nie odpowiada czasowi, a paginacja kursorem typu "pokaż elementy po tym id" staje się zawodna. Zwykle wracasz do created_at, co jest ok, ale trzeba to robić ostrożnie.

ULID są zaprojektowane tak, by były mniej więcej uporządkowane czasowo. Jeśli sortujesz po ULID (jako string lub w formie binarnej), nowsze elementy zwykle pojawiają się później. To upraszcza paginację kursorem, bo kursorem może być ostatni widziany ULID.

Co daje ULID (a czego nie daje)

ULID pomaga z naturalnym porządkiem czasowym dla feedów, prostszymi kursorami i mniejszą losowością wstawiania niż UUIDv4.

Ale ULID nie gwarantuje idealnego porządku czasu, gdy wiele ID generowanych jest w tej samej millisekundzie na wielu maszynach. Jeśli potrzebujesz dokładnego porządku, wciąż chcesz prawdziwego znacznika czasu.

Kiedy `created_at` jest lepsze

Sortowanie po created_at jest często bezpieczniejsze przy backfillach, imporcie historycznych rekordów lub gdy potrzebujesz jednoznacznego rozstrzygacza. Praktyczny wzorzec to sortowanie po (created_at, id), gdzie id służy tylko jako rozstrzygacz.

Sharding w przyszłości: unikanie kolizji ID

Zdecyduj o ID zanim wyślesz

Ustal domyślny wzorzec identyfikatorów w trybie planowania, zanim schemat rozrośnie się wszędzie.

Rozpocznij za darmo

Sharding to podział jednej bazy na kilka mniejszych, gdzie każdy shard trzyma część danych. Zespoły zwykle robią to później, gdy pojedyncza baza przestaje wystarczać lub staje się zbyt ryzykownym pojedynczym punktem awarii.

Wybór ID może uczynić sharding albo łatwym, albo bolesnym.

Przy sekwencyjnych ID (auto-increment serial lub bigint) każdy shard będzie generował 1, 2, 3.... To samo ID może istnieć na wielu shardach. Gdy będziesz musiał łączyć dane, przenosić wiersze lub budować funkcje cross-shard, pojawią się kolizje.

Można ich uniknąć przez koordynację (centralny serwis ID albo przydziały zakresów na shard), ale to dodaje elementy operacyjne i może stać się wąskim gardłem.

UUID i ULID redukują potrzebę koordynacji, bo każdy shard może generować ID niezależnie z bardzo niskim ryzykiem duplikatów. Jeśli myślisz, że kiedykolwiek podzielisz dane między bazy, to jeden z najsilniejszych argumentów przeciw czystym sekwencjom.

Prosty plan, który działa (i jego koszt)

Częstym kompromisem jest dodanie prefiksu sharda, a potem użycie lokalnej sekwencji na każdym shardarze. Można to trzymać w dwóch kolumnach albo zapakować w jedno pole.

Działa, ale tworzy niestandardowy format ID. Każda integracja musi go rozumieć, sortowanie przestaje mieć globalny porządek czasowy bez dodatkowej logiki, a przenoszenie danych między shardami może wymagać przepisania ID (co psuje referencje, jeśli ID są udostępniane).

Zadaj jedno pytanie wcześnie: czy kiedykolwiek będziesz łączyć dane z wielu baz i chcesz zachować stabilne referencje? Jeśli tak, zaplanuj globalnie unikalne ID od początku albo zaplanuj budżet na migrację później.

Eksport i import danych — tu wybór ID przestaje być teoretyczny

Eksport/import to moment, w którym wybór ID przestaje być teoretyczny. Gdy klonujesz prod do stagingu, przywracasz backup albo łączysz dane z dwóch systemów, dowiesz się, czy Twoje ID są stabilne i przenośne.

Przy serialnych (auto-increment) ID zwykle nie możesz bezpiecznie odtworzyć wstawek w innej bazie i oczekiwać, że referencje zostaną zachowane, chyba że zachowasz oryginalne numery. Jeśli importujesz tylko podzbiór wierszy (np. 200 klientów i ich zamówienia), musisz ładować tabele we właściwej kolejności i zachować dokładnie te same PK. Jeśli cokolwiek zostanie przenumerowane, klucze obce się zepsują.

UUID i ULID generowane poza sekwencją bazy są łatwiejsze do przenoszenia między środowiskami. Możesz skopiować wiersze, zachować ID i powiązania nadal będą poprawne. To pomaga przy przywracaniu z backupów, częściowych eksportach czy scalaniu zbiorów.

Przykład: eksport 50 kont z produkcji, żeby debugować problem na stagingu. Przy UUID/ULID możesz zaimportować te konta oraz powiązane wiersze (projekty, faktury, logi) i wszystko będzie wskazywać na właściwego rodzica. Przy serialach zwykle budujesz tabelę mapowania (old_id -> new_id) i przepisujesz klucze obce podczas importu.

Dla masowych importów bardziej liczą się podstawy niż sam typ ID:

Upewnij się, że importer nie generuje nowych ID domyślnie.
Importuj rodziców przed dziećmi i waliduj klucze obce po załadowaniu.
Jeśli używasz seriali, zresetuj sekwencje albo następny insert może kolidować.
Dla ULID-ów eksportuj je i przechowuj spójnie (string vs binarne).

Jak wybrać w 10 minut

Możesz podjąć solidną decyzję szybko, jeśli skupisz się na tym, co będzie boleć później.

Wypisz największe ryzyka na przyszłość. Konkretne zdarzenia pomagają: podział na wiele baz, łączenie danych z innego systemu, zapisy offline, częste kopiowanie danych między środowiskami.
Zdecyduj, czy porządek ID musi odpowiadać czasowi. Jeśli chcesz "najnowsze pierwsze" bez dodatkowych kolumn, ULID (lub UUIDv7) jest dobrym wyborem. Jeśli możesz sortować po created_at, UUID i serial też działają.
Oszacuj wolumen zapisów i wrażliwość indeksu. Przy dużej liczbie wstawek i intensywnym obciążeniu indeksu PK, serial BIGINT zwykle najbardziej oszczędza B-tree. Losowe UUID-y zwykle powodują więcej churnu.
Wybierz domyślnie, a potem udokumentuj wyjątki. Uprość: jeden domyślny typ dla większości tabel i jasna reguła, kiedy się od niego odbiegá (np. publiczne ID vs wewnętrzne ID).
Zostaw miejsce na zmianę. Nie koduj znaczenia w ID, zdecyduj, gdzie ID są generowane (DB vs aplikacja) i trzymaj ograniczenia jawne.

Częste błędy i pułapki

Buduj i zarabiaj kredyty

Zyskaj kredyty, dzieląc się tym, co zbudujesz w Koder.ai lub polecając współpracownika.

Zdobądź kredyty

Największa pułapka to wybór ID, bo jest modny, a potem odkrycie, że koliduje z tym jak zapytujesz, skalujesz lub dzielisz dane. Większość problemów pojawia się miesiące później.

Typowe porażki:

Używanie UUID wszędzie bez sprawdzenia kosztów. UUIDv4 może napuchnąć indeksy i pogorszyć cache-friendliness. Aplikacja nadal działa, ale możesz zapłacić wolniejszymi zapisami i większymi backupami.
Poleganie na serialach, a potem potrzeba scalenia danych z wielu systemów, regionów czy shardów. Kolizje pojawiają się przy imporcie lub synchronizacji, a szybkie poprawki, jak offsety czy prefiksy, przeciekają do integracji.
Zakładanie, że ULID rozwiąże wszystko. Pomaga z porządkiem wstawek i sortowaniem czasowym, ale nie naprawi wolnych joinów, brakujących indeksów czy szerokich wierszy. Niektóre generatory nie są też ściśle monotoniczne przy dużej współbieżności.
Udostępnianie sekwencyjnych ID publicznie. Jeśli Twoje URL-e używają 123, 124, 125, ludzie mogą zgadywać sąsiednie rekordy i sondować system.
Zmiana typu ID w trakcie projektu bez planu migracji. Klucze obce, cache, logi i zewnętrzne payloady mogą przez długi czas odwoływać się do starych ID.

Ostrzegawcze sygnały, które warto rozwiązać wcześnie:

Spodziewasz się importów od partnerów lub regularnego scalania danych z różnych środowisk.
Potrzebujesz paginacji w porządku czasowym bez polegania na osobnym znaczniku czasu.
Planujesz udostępniać ID poza systemem (URL-e, webhooki, aplikacje mobilne).
Nie możesz sobie pozwolić na przestój związany z dużą migracją ID.
Oczekujesz bardzo dużych tabel, gdzie rozmiar indeksu i szybkość zapisu mają znaczenie.

Szybka lista kontrolna przed ostatecznym wyborem

Rzeczywistość bazy danych i zapytań

Wybierz jeden typ klucza głównego i trzymaj się go w większości tabel. Mieszanie typów (bigint w jednym miejscu, UUID w innym) utrudnia joiny, API i migracje.

Os szacuj rozmiar indeksu przy przewidywanej skali. Szersze klucze = większe indeksy = większe potrzeby pamięci i IO.

Zdecyduj, jak będziesz paginować. Jeśli paginujesz po ID, upewnij się, że ID ma przewidywalne uporządkowanie (albo zaakceptuj, że nie). Jeśli paginujesz po znaczniku czasu, indeksuj created_at i rób to konsekwentnie.

Sprawdzenie przyszłościowe

Przetestuj plan importu na danych podobnych do produkcyjnych. Sprawdź, czy możesz odtworzyć rekordy bez łamania kluczy obcych i czy ponowne importy nie generują nowych ID.

Zapisz strategię na wypadek kolizji. Kto generuje ID (DB czy aplikacja) i co się dzieje, gdy dwa systemy tworzą rekordy offline i później synchronizują?

Upewnij się, że publiczne URL-e i logi nie ujawniają wzorców, na których Ci zależy (liczba rekordów, tempo tworzenia, wskazówki o shardach). Jeśli używasz seriali, przyjmij, że ludzie mogą zgadywać sąsiednie ID.

Realistyczny przykład: od MVP do danych w wielu systemach

Eksperymentuj ze snapshotami

Testuj zmiany ID wcześnie i przywracaj, jeśli nowa strategia sprawia problemy.

Uruchom snapshot

Samotny założyciel uruchamia prosty CRM: kontakty, transakcje, notatki. Jedna baza Postgresa, jedna aplikacja webowa, cel to wypuszczenie produktu.

Na początku serial bigint jako PK wydaje się idealny. Wstawki są szybkie, indeksy schludne, łatwo czytać w logach.

Po roku klient prosi o kwartalne eksporty do audytu, a założyciel zaczyna importować leady z narzędzia marketingowego. ID, które były tylko wewnętrzne, zaczynają pojawiać się w CSV, mailach i ticketach. Jeśli dwa systemy używają 1, 2, 3..., scalanie staje się uciążliwe. Kończy się na dodawaniu kolumn źródłowych, tabel mapowania lub przepisywaniu ID przy imporcie.

W drugim roku pojawia się aplikacja mobilna. Musi tworzyć rekordy offline, potem synchronizować. Teraz potrzebujesz ID generowanych po stronie klienta bez kontaktu z bazą i niskiego ryzyka kolizji po synchronizacji.

Komfortowy kompromis, który często się sprawdza:

Zachowaj bigint PK dla wewnętrznych joinów i efektywności przechowywania.
Dodaj osobne, niezmienne publiczne ID (ULID albo UUIDv7, jeśli dostępne) do udostępniania, synchronizacji i importów.
Używaj publicznego ID w plikach eksportu i jako klucza do scalania między systemami.

Praktyczne następne kroki dla Twojego projektu

Jeśli wahasz się między UUID, ULID i serial, wybierz na podstawie tego, jak dane będą się przemieszczać i rosnąć.

Jednozdaniowe wybory dla typowych przypadków:

Narzędzie wewnętrzne z jedną bazą i niskim ryzykiem integracji: użyj bigint serial jako PK.
Aplikacja publiczna z udostępnianymi URL-ami lub tworzeniem po stronie klienta: użyj UUID (trudniejsze do odgadnięcia, bezpieczne między systemami).
SaaS, który może się dzielić według tenantów lub regionów później: użyj ULID (lub UUIDv7), żeby nowe wiersze miały tendencję do trafiania blisko siebie w indeksach.
Dużo importów od partnerów i urządzeń offline: unikaj czystych seriali dla encji zewnętrznych.

Mieszanie często jest najlepsze. Używaj serial bigint dla wewnętrznych tabel, które nie opuszczają bazy (tabele joinów, zadania backgroundowe), i UUID/ULID dla publicznych encji jak users, orgs, invoices i wszystkiego, co możesz eksportować, synchronizować lub odnosić z innego serwisu.

Jeśli budujesz w Koder.ai (koder.ai), warto zdecydować o wzorcu ID zanim wygenerujesz dużo tabel i API. Tryb planowania platformy oraz snapshoty/przywracanie ułatwiają zastosowanie i walidację zmian schematu wcześnie, gdy system jest jeszcze na tyle mały, że można go bezpiecznie zmienić.

Często zadawane pytania

How do I choose between serial IDs, UUIDs, and ULIDs without overthinking it?

Zacznij od bólu, którego chcesz uniknąć w przyszłości: wolnych wstawek spowodowanych losowym zapisem do indeksu, problemów z paginacją, ryzykownych migracji albo kolizji ID przy importach i scalaniu. Jeśli spodziewasz się, że dane będą się przemieszczać między systemami lub będą tworzone w wielu miejscach, domyślnie wybierz globalnie unikalne ID (UUID/ULID) i traktuj kwestie sortowania czasowego oddzielnie.

When is a serial bigint primary key the best choice?

Serial bigint to dobry wybór, gdy masz jedną bazę danych, duże natężenie zapisów i ID pozostają wewnętrzne. Jest kompaktowy, szybki dla indeksów B-tree i łatwy do czytania w logach. Główną wadą jest trudność w scalaniu danych później (kolizje) oraz ujawnianie liczby rekordów, jeśli ID są publiczne.

When should I use UUIDs as my primary key?

Wybierz UUID, gdy rekordy mogą powstawać w wielu serwisach, regionach, urządzeniach lub offline i chcesz minimalnego ryzyka kolizji bez centralnej koordynacji. UUID dobrze sprawdza się też jako publiczne ID, bo trudno je zgadnąć. Kosztem są większe indeksy i bardziej losowy wzorzec zapisów w porównaniu z sekwencyjnymi kluczami.

What’s the practical advantage of ULIDs over UUIDs?

ULID ma sens, gdy chcesz ID generowane z dowolnego miejsca i jednocześnie zależy Ci, żeby w większości przypadków sortowały się w porządku czasowym. Ułatwia to kursory i zmniejsza losowość zapisów w porównaniu z UUIDv4. Nadal nie traktuj ULID jako dokładnego znacznika czasu — jeśli potrzebujesz ścisłego porządku, użyj rzeczywistego znacznika created_at.

Do random UUID primary keys really hurt performance in Postgres?

Tak — szczególnie UUIDv4 o losowej treści może wpływać na wydajność w tabelach o dużej liczbie zapisów. Losowe inserty rozrzucają wpisy po indeksie, powodując częstsze dzielenie stron, większe zużycie cache i większe rozmiary indeksów z czasem. Zwykle zauważysz to jako wolniejsze utrzymywalne tempo zapisów i większe potrzeby pamięci/IO, niekoniecznie jako wolniejsze pojedyncze zapytania.

Why does pagination get weird when I sort by UUID?

Sortowanie po losowym ID (np. UUIDv4) nie będzie odzwierciedlać czasu tworzenia, więc kursory typu "after this id" nie dadzą stabilnej chronologii. Rozwiązaniem jest paginacja po created_at i użycie ID jako rozstrzygacza w razie remisu, np. (created_at, id). Jeśli chcesz paginować tylko po ID, prostszym wyborem jest ID sortowalne czasowo, jak ULID.

How does my ID choice affect sharding later?

Sekwencyjne ID kolidują między shardami, bo każdy shard będzie generował 1, 2, 3... niezależnie. Można tego uniknąć przez koordynację (zakresy per shard albo centralny serwis ID), ale to dodaje złożoności i może stać się wąskim gardłem. UUID/ULID redukują potrzebę koordynacji, bo każdy shard może bezpiecznie generować ID samodzielnie.

Which ID type is safest for exports, imports, and merging datasets?

UUID/ULID są bezpieczniejsze do eksportów/importów, bo możesz skopiować wiersze, zachować ID i relacje pozostaną poprawne. Przy serialnych ID częściowe importy zwykle wymagają tabeli tłumaczeń (old_id -> new_id) i przepisywania kluczy obcych, co łatwo zepsuć. Jeśli często klonujesz środowiska lub scalasz zewnętrzne zbiory, globalnie unikalne ID oszczędzą dużo pracy.

Should I use one ID for everything, or have both internal and public IDs?

Często stosuje się dwa ID: kompaktowy wewnętrzny klucz główny (serial bigint) dla wydajnych joinów i przechowywania, oraz niezmienny publiczny ID (ULID lub UUID) do URL, API, eksportów i odwołań między systemami. Dzięki temu baza zostaje szybka, a integracje i migracje stają się mniej bolesne. Kluczowe jest traktowanie publicznego ID jako stabilnego — nie nadpisuj go ani nie recyklinguj.

What’s the safest way to commit to an ID strategy when building with Koder.ai?

Zaplanuj to wcześnie i konsekwentnie stosuj w tabelach oraz API. W Koder.ai (koder.ai) wybierz domyślną strategię ID w trybie planowania zanim wygenerujesz dużo schematu i endpointów, a potem użyj snapshotów/przywróceń, żeby zweryfikować zmiany, gdy projekt jest jeszcze mały. Najtrudniejsze nie jest generowanie nowych ID — to aktualizacja kluczy obcych, cache'y, logów i zewnętrznych payloadów, które wciąż odwołują się do starych wartości.