Pooling de conexões PostgreSQL: pool no app vs PgBouncer

Pooling de conexões PostgreSQL: pool no app vs PgBouncer | Koder.ai

Por que picos de latência costumam começar com conexões

Uma conexão com o banco é como uma linha telefônica entre seu app e o Postgres. Abrir uma custa tempo e trabalho em ambos os lados: setup de TCP/TLS, autenticação, uso de memória e um processo backend no lado do Postgres. Um pool de conexões mantém um pequeno conjunto dessas “linhas” abertas para que seu app possa reutilizá-las em vez de discar toda vez.

Quando o pooling está desligado ou dimensionado de forma errada, raramente você vê um erro limpo primeiro. Você vê lentidão aleatória. Requisições que normalmente levam 20–50 ms de repente levam 500 ms ou 5 segundos, e o p95 dispara. Depois aparecem timeouts, “too many connections”, ou uma fila dentro do app enquanto ele espera por uma conexão livre.

Limites de conexão importam mesmo para apps pequenos porque o tráfego é irregular. Um email de marketing, um cron job ou alguns endpoints lentos podem fazer dezenas de requisições baterem no banco ao mesmo tempo. Se cada requisição abre uma conexão nova, o Postgres pode gastar muito de sua capacidade apenas aceitando e gerenciando conexões em vez de executar queries. Se você já tem um pool, mas ele é grande demais, pode sobrecarregar o Postgres com muitos backends ativos e causar troca de contexto e pressão de memória.

Fique atento a sintomas iniciais como:

p95/p99 subindo enquanto a latência média parece normal
timeouts que se agrupam durante rajadas de tráfego
aumento do “waiting for connection” no app
conexões frequentes de conectar/desconectar ou saturação de conexões no Postgres

Pooling reduz churn de conexão e ajuda o Postgres a lidar com picos. Não corrige SQL lento. Se uma query faz full table scan ou espera por locks, o pooling muda principalmente como o sistema falha (enfileiramento mais cedo, timeouts mais tarde), não se fica mais rápido.

App pooling vs PgBouncer: qual problema cada um resolve

Pooling de conexões trata de controlar quantas conexões existem ao mesmo tempo e como elas são reutilizadas. Você pode fazer isso dentro do app (pool no nível do app) ou com um serviço separado na frente do Postgres (PgBouncer). Eles resolvem problemas relacionados, mas diferentes.

O pooling no app (em Go, normalmente o database/sql) gerencia conexões por processo. Ele decide quando abrir uma nova conexão, quando reutilizar uma e quando fechar inativas. Isso evita pagar o custo de setup em toda requisição. O que ele não faz é coordenar entre múltiplas instâncias do app. Se você roda 10 réplicas, você tem efetivamente 10 pools separados.

O PgBouncer fica entre seu app e o Postgres e faz pooling em nome de muitos clientes. É mais útil quando você tem muitas requisições de curta duração, muitas instâncias do app ou tráfego em rajadas. Ele limita o número de conexões servidor para o Postgres mesmo que centenas de conexões cliente cheguem ao mesmo tempo.

Uma divisão simples de responsabilidades:

O pool no app molda a concorrência dentro de uma instância e evita reconexões por requisição.
O PgBouncer limita as conexões totais ao Postgres entre todas as instâncias e suaviza picos.
O Postgres continua com limites reais de CPU, IO e memória. Pooling não cria capacidade.

Eles podem trabalhar juntos sem “double pooling” se cada camada tiver um propósito claro: um database/sql com limites razoáveis por processo Go, mais PgBouncer para impor um orçamento global de conexões.

Uma confusão comum é pensar “mais pools = mais capacidade.” Normalmente é o oposto. Se cada serviço, worker e réplica tem seu próprio pool grande, o número total de conexões pode explodir e causar enfileiramento, troca de contexto e picos de latência repentinos.

Como o pooling do `database/sql` em Go realmente se comporta

Em Go, sql.DB é um gerenciador de pool de conexões, não uma única conexão. Quando você chama db.Query ou db.Exec, o database/sql tenta reutilizar uma conexão ociosa. Se não conseguir, pode abrir uma nova (até seu limite) ou fazer a requisição esperar.

Essa espera é de onde vem muita “latência misteriosa”. Quando o pool está saturado, requisições enfileiram dentro do app. Do lado de fora, parece que o Postgres ficou lento, mas o tempo é gasto esperando uma conexão livre.

Os ajustes que importam

A maior parte do tuning se resume a quatro configurações:

MaxOpenConns: limite rígido de conexões abertas (ociosas + em uso). Quando atinge, as chamadas bloqueiam.
MaxIdleConns: quantas conexões podem ficar prontas para reutilização. Muito baixo causa reconexões frequentes.
ConnMaxLifetime: força reciclagem periódica de conexões. Útil para balanceadores e timeouts de NAT, mas muito baixo causa churn.
ConnMaxIdleTime: fecha conexões que ficam sem uso por muito tempo.

A reutilização de conexões normalmente reduz latência e CPU do banco porque evita setup repetido (TCP/TLS, auth, inicialização de sessão). Mas um pool superdimensionado pode fazer o contrário: permitir mais consultas concorrentes do que o Postgres lida bem, aumentando contenção e overhead.

Pense em totais, não por processo. Se cada instância Go permite 50 conexões abertas e você escala para 20 instâncias, você efetivamente permitiu 1.000 conexões. Compare esse número com o que seu servidor Postgres consegue rodar de forma estável.

Um ponto de partida prático é ligar MaxOpenConns à concorrência esperada por instância, depois validar com métricas do pool (in-use, idle e wait time) antes de aumentar.

Noções básicas do PgBouncer e modos de pooling

PgBouncer é um pequeno proxy entre seu app e o PostgreSQL. Seu serviço se conecta ao PgBouncer, e o PgBouncer mantém um número limitado de conexões reais ao Postgres. Durante picos, o PgBouncer enfileira trabalho cliente em vez de criar mais backends no Postgres imediatamente. Essa fila pode ser a diferença entre uma desaceleração controlada e um banco que tomba.

Os três modos de pooling

O PgBouncer tem três modos de pooling:

Session pooling: um cliente mantém a mesma conexão servidor enquanto ficar conectado.
Transaction pooling: um cliente pega emprestada uma conexão servidor durante uma transação e depois a devolve.
Statement pooling: um cliente pega emprestada uma conexão servidor para um único statement.

O session pooling se comporta mais como conexões diretas ao Postgres. É o menos surpreendente, mas economiza menos conexões servidor durante cargas com picos.

O que normalmente se encaixa em APIs HTTP Go

Para APIs HTTP típicas em Go, o transaction pooling costuma ser um bom padrão. A maioria das requisições faz uma query pequena ou uma transação curta e pronto. O transaction pooling permite que muitas conexões cliente compartilhem um orçamento menor de conexões Postgres.

A troca é o estado de sessão. No modo transaction, qualquer coisa que assuma que uma conexão servidor única permanece pode quebrar ou se comportar de forma estranha, incluindo:

prepared statements criados uma vez e reutilizados depois
configurações de sessão que você espera que persistam (SET, SET ROLE, search_path)
tabelas temporárias e advisory locks usadas entre statements

Se seu app depende desse tipo de estado, o session pooling é mais seguro. O statement pooling é o mais restritivo e raramente serve para web apps.

Uma regra útil: se cada requisição consegue configurar o que precisa dentro de uma única transação, o transaction pooling tende a manter a latência mais estável sob carga. Se você precisa de comportamento de sessão de longa duração, use session pooling e foque em limites mais restritos no app.

Como escolher a estratégia certa para um backend Go

Envie com acesso ao código-fonte

Mantenha a propriedade total exportando o código-fonte sempre que quiser.

Exportar Código

Se você roda um serviço Go com database/sql, já tem pooling no app. Para muitas equipes isso basta: poucas instâncias, tráfego estável e queries que não são extremamente voláteis. Nesse cenário, a escolha mais simples e segura é ajustar o pool do Go, manter o limite do banco realista e parar por aí.

O PgBouncer ajuda mais quando o banco está sendo atingido por muitas conexões cliente ao mesmo tempo. Isso aparece com muitas instâncias do app (ou escala serverless), tráfego em rajadas e muitas queries curtas.

O PgBouncer também pode atrapalhar se usado no modo errado. Se seu código depende de estado de sessão (tabelas temporárias, prepared statements mantidos entre requisições, advisory locks ou configurações de sessão), o transaction pooling pode causar falhas confusas. Se você realmente precisa de comportamento de sessão, use session pooling ou evite o PgBouncer e dimensione os pools do app com cuidado.

Regra simples de decisão

Use esta regra prática:

Se você tem 1 a 3 instâncias do app e as conexões abertas totais ficam confortavelmente abaixo do limite do banco, use apenas pooling no app.
Se você tem muitas instâncias ou autoscaling, e a soma dos max open connections poderia exceder o que o Postgres aguenta, adicione PgBouncer.
Se a maioria das requisições é curta (leitura rápida, writes pequenos), o PgBouncer geralmente vale a pena.
Se as requisições seguram conexões por muito tempo (relatórios lentos, transações longas), corrija as queries primeiro e seja conservador com os tamanhos de pool.

Passo a passo: dimensionando e implantando pooling com segurança

Limites de conexão são um orçamento. Se você gastar tudo de uma vez, cada nova requisição espera e a latência das caudas salta. O objetivo é limitar a concorrência de forma controlada enquanto mantém o throughput.

Sequência prática de rollout

Meça os picos de hoje e a latência das caudas. Grave conexões ativas no pico (não médias), além de p50/p95/p99 para requisições e queries-chave. Anote erros de conexão ou timeouts.
Defina um orçamento seguro de conexões Postgres para o app. Comece a partir de max_connections e reserve espaço para acesso admin, migrações, jobs em background e picos. Se vários serviços compartilham o banco, divida o orçamento intencionalmente.
Mapeie o orçamento para limites Go por instância. Divida o orçamento do app pelo número de instâncias e ajuste MaxOpenConns para esse valor (ou um pouco menor). Configure MaxIdleConns alto o suficiente para evitar reconnects constantes e defina lifetimes para que conexões se reciclem ocasionalmente sem churn.
Adicione PgBouncer só se precisar e escolha um modo. Use session pooling se precisar de estado de sessão. Use transaction pooling quando quiser a maior redução de conexões servidor e seu app for compatível.
Faça rollout gradualmente e compare antes/depois. Mude uma coisa por vez, canarize, e compare latência das caudas, tempo de espera no pool e CPU do banco.

Exemplo: se o Postgres pode dar seguramente 200 conexões ao seu serviço e você roda 10 instâncias Go, comece com MaxOpenConns=15–18 por instância. Isso deixa folga para rajadas e reduz a chance de todas as instâncias baterem no teto ao mesmo tempo.

Métricas para monitorar e detectar problemas cedo

Problemas de pooling raramente aparecem primeiro como “muitas conexões”. Mais frequentemente você vê uma subida lenta no tempo de espera e depois um salto repentino no p95 e p99.

Comece com o que seu app Go reporta. Com database/sql, monitore conexões abertas, em uso, ociosas, wait count e wait time. Se o wait count sobe enquanto o tráfego está estável, seu pool está subdimensionado ou conexões estão sendo seguradas por muito tempo.

No banco, acompanhe conexões ativas vs max, CPU e atividade de locks. Se a CPU está baixa mas a latência alta, muitas vezes é enfileiramento ou locks, não computação bruta.

Se você roda PgBouncer, adicione uma terceira visão: conexões cliente, conexões servidor ao Postgres e profundidade da fila. Uma fila crescendo com conexões servidor estáveis é sinal claro de orçamento saturado.

Sinais de alerta úteis:

p95/p99 subindo enquanto p50 fica normal
aumento do tempo de espera por conexão (lado app), especialmente antes de timeouts
fila do PgBouncer crescendo mais rápido do que drena
taxa de erros e timeouts subindo juntos
aumento de locks junto com queries de longa duração

Misconfigurações comuns que causam picos

Lance no seu domínio

Coloque sua API ou dashboard em um domínio customizado quando estiver pronto para lançar.

Adicionar Domínio

Problemas de pooling costumam aparecer durante rajadas: requisições se acumulam esperando por uma conexão e depois tudo volta ao normal. A causa raiz costuma ser uma configuração razoável em uma instância, mas perigosa quando você roda muitas cópias do serviço.

Causas comuns:

MaxOpenConns definido por instância sem um orçamento global. 100 conexões por instância em 20 instâncias = 2.000 conexões potenciais.
Muitas conexões ociosas. Backends ociosos ainda usam memória e podem competir por recursos.
ConnMaxLifetime / ConnMaxIdleTime muito baixos. Isso pode disparar tempestades de reconexão quando muitas conexões reciclam ao mesmo tempo.
PgBouncer em transaction pooling com código dependente de sessão. Temp tables, advisory locks e configurações de sessão podem falhar de forma sutil.
Jobs em background e health checks criando rajadas. Pings em intervalo curto ou padrão “abrir e fechar por requisição” podem criar ondas de novas conexões.

Uma forma simples de reduzir picos é tratar pooling como um limite compartilhado, não um padrão local do app: limite conexões totais entre instâncias, mantenha um pool ocioso modesto e use lifetimes longos o suficiente para evitar reconnects sincronizados.

O que fazer quando a demanda excede seu orçamento de conexões

Quando o tráfego sobe, normalmente você vê três resultados: requisições enfileiram esperando uma conexão livre, requisições dão timeout, ou tudo fica tão lento que retries se acumulam.

O enfileiramento é o sneaky. Seu handler continua rodando, mas está parado esperando uma conexão. Essa espera entra no tempo de resposta, então um pool pequeno pode transformar uma query de 50 ms em um endpoint de vários segundos sob carga.

Um modelo mental útil: se seu pool tem 30 conexões utilizáveis e de repente chegam 300 requisições concorrentes que todas precisam do banco, 270 delas terão de esperar. Se cada requisição segura uma conexão por 100 ms, a latência das caudas rapidamente vai para segundos.

Defina um orçamento de timeout claro e cumpra-o. O timeout do app deve ser um pouco menor que o timeout do banco para que você falhe rápido e reduza pressão em vez de deixar trabalho preso.

App: deadline por requisição, mais um deadline mais curto ao redor da chamada ao DB
DB: statement_timeout para que uma query ruim não segure conexões para sempre
Pooler (se usado): timeout de espera no pool, para receber recusa em vez de enfileiramento infinito

Depois, acrescente backpressure para não sobrecarregar o pool. Escolha um ou dois mecanismos previsíveis, como limitar concorrência por endpoint, rejeitar carga com erros claros (429) ou separar jobs em background do tráfego de usuários.

Por fim, corrija queries lentas primeiro. Sob pressão de pooling, queries lentas seguram conexões por mais tempo, o que aumenta esperas, timeouts e retries. Esse loop é como “um pouco lento” vira “tudo está lento”.

Teste de carga e planejamento de capacidade sem achismos

Reduza seus custos de build

Ganhe créditos compartilhando o que construiu no Koder.ai ou convidando outros a experimentar.

Ganhe Créditos

Trate testes de carga como uma forma de validar seu orçamento de conexões, não só throughput. O objetivo é confirmar que o pooling se comporta sob pressão como no staging.

Teste com tráfego realista: mesma mistura de endpoints, padrões de rajada e mesmo número de instâncias que você usa em produção. Benchmarks de “um endpoint” frequentemente escondem problemas de pool até o dia do lançamento.

Inclua um aquecimento para não medir caches frios e efeitos de ramp-up. Deixe os pools atingirem o tamanho normal e então comece a coletar números.

Se você estiver comparando estratégias, mantenha a carga idêntica e execute:

apenas pooling no app (database/sql ajustado, sem PgBouncer)
PgBouncer na frente (apps mantêm pools pequenos, PgBouncer limita conexões servidor)
ambos juntos (pools pequenos no app + PgBouncer)

Após cada execução, registre um pequeno scorecard que você possa reutilizar depois de cada release:

p95 e p99 durante steady state e durante uma rajada
máximo de conexões totais (lado cliente e servidor)
sinais de tempo de fila (waiting for a free connection)
taxa de erro e contagem de timeouts
throughput no ponto em que a latência começa a subir rápido

Com o tempo, isso transforma planejamento de capacidade em algo repetível em vez de palpite.

Checklist rápido e próximos passos

Antes de mexer nos tamanhos de pool, escreva um número: seu orçamento de conexões. Esse é o número máximo seguro de conexões ativas do Postgres para esse ambiente (dev, staging, prod), incluindo jobs em background e acesso admin. Se você não consegue nomeá-lo, está chutando.

Checklist rápido:

Defina um máximo explícito no Go e garanta que (instâncias × MaxOpenConns) caiba no orçamento (ou no cap do PgBouncer).
Defina timeouts para que “esperar para sempre” não esconda problemas até um pico.
Se usar PgBouncer, escolha um modo de pooling que combine com seu uso de estado de sessão.
Evite tempos de vida de conexão muito curtos que causem reconexões constantes.
Confirme que max_connections e quaisquer conexões reservadas batem com seu plano.

Plano de rollout que facilita rollback:

Aplique mudanças em staging sob um teste de carga que combine com a concorrência e o mix de leitura/escrita da produção.
Faça rollout para produção em passos pequenos (um subconjunto de instâncias ou um serviço por vez).
Monitore p95, tempo de espera do pool, erros e contagens de conexão do Postgres por pelo menos uma janela de pico.
Se p95 subir ou o wait do pool disparar, faça rollback e reduza a concorrência ou os limites de pool.

Se você está desenvolvendo e hospedando um app Go + PostgreSQL no Koder.ai (koder.ai), o Planning Mode pode ajudar a mapear a mudança e o que você vai medir, e snapshots + rollback facilitam reverter caso a latência das caudas piore.

Próximo passo: adicione uma métrica antes da próxima grande variação de tráfego. “Tempo gasto esperando por uma conexão” no app costuma ser a mais útil, porque mostra pressão no pooling antes dos usuários sentirem.

Perguntas frequentes

O que é pooling de conexões no Postgres, em termos simples?

Um pool mantém um pequeno conjunto de conexões PostgreSQL abertas e as reutiliza entre requisições. Isso evita pagar o custo de criação repetida (TCP/TLS, autenticação, criação do backend), o que ajuda a manter a latência das caudas estável durante picos.

Por que picos de latência aparecem antes de eu ver erros de “muitas conexões"?

Quando o pool está saturado, as requisições ficam esperando dentro do app por uma conexão livre, e esse tempo de espera aparece como respostas lentas. Isso costuma parecer “lentidão aleatória”, porque as médias podem continuar normais enquanto p95/p99 disparam durante picos de tráfego.

O pooling vai consertar queries SQL lentas?

Não. Pooling muda principalmente o comportamento sob carga, reduzindo churn de reconexão e controlando concorrência. Se uma query é lenta por varreduras, locks ou indexação ruim, pooling não a deixa mais rápida; só limita quantas queries lentas podem rodar ao mesmo tempo.

Qual é a diferença entre pooling no nível do app e PgBouncer?

O pooling no app gerencia conexões por processo, então cada instância do app tem seu próprio pool e limites. O PgBouncer fica na frente do Postgres e aplica um orçamento global de conexões entre muitos clientes — útil quando há muitas réplicas ou tráfego em rajadas.

Quando devo usar apenas o pooling do Go `database/sql` e quando devo adicionar PgBouncer?

Se você roda poucas instâncias e o total de conexões abertas fica bem abaixo do limite do banco, ajustar o pool do database/sql geralmente basta. Adicione o PgBouncer quando muitas instâncias, autoscaling ou picos de tráfego puderem empurrar as conexões totais além do que o Postgres suporta.

Como escolho um `MaxOpenConns` sensato para um serviço Go?

Uma boa prática é definir um orçamento total de conexões para o serviço, dividir pelo número de instâncias e configurar MaxOpenConns um pouco abaixo desse valor por instância. Comece pequeno, monitore tempo de espera e p95/p99, e só aumente se houver certeza de que o banco tem capacidade.

Qual modo de pooling do PgBouncer devo escolher para uma API HTTP Go?

Para APIs HTTP em Go, o pooling por transação costuma ser um bom padrão porque permite que muitas conexões cliente compartilhem menos conexões servidor e se mantém estável durante picos. Use session pooling se seu código depende de estado de sessão persistente entre statements.

O que pode quebrar quando o PgBouncer está em transaction pooling?

Prepared statements reaproveitados, tabelas temporárias, advisory locks e configurações de sessão podem se comportar diferente porque o cliente pode não pegar a mesma conexão servidor na próxima vez. Se você precisa desses recursos, garanta que tudo aconteça dentro de uma única transação ou use session pooling.

Quais métricas revelam problemas de pooling cedo?

Monitore p95/p99 junto com o tempo de espera do pool no app — o tempo de espera costuma subir antes que os usuários reclamem. No Postgres, acompanhe conexões ativas, CPU e locks; no PgBouncer, acompanhe conexões cliente, conexões servidor e profundidade da fila para ver se o orçamento está saturado.

O que devo fazer se o tráfego exceder meu orçamento de conexões?

Primeiro, pare espera ilimitada definindo deadlines nas requisições e um statement_timeout no DB para evitar que uma query lenta segure conexões pra sempre. Depois, aplique backpressure limitando concorrência em endpoints pesados, rejeitando carga com 429 quando necessário, e evite ciclos de reconexão curtos que causam tempestades de reconnect.