Fix segfault in a child process.
authorTatsuo Ishii <ishii@sraoss.co.jp>
Tue, 11 Jun 2024 11:15:08 +0000 (20:15 +0900)
committerTatsuo Ishii <ishii@sraoss.co.jp>
Wed, 12 Jun 2024 10:34:25 +0000 (19:34 +0900)
commit8c1889950decfafc3e758b4d77a9bc2c6e2376bb
treef746af7a7bc7a65cabedcdc18899a5cf34e2e797
parent93ba28b0f2fa4890924f616ffcf5c7b08448a044
Fix segfault in a child process.

It is reported that pgpool child segfaulted [1].

[snip]

In the down thread it is reported that despite VALID_BACKEND(i)
returns true, backend->slots[i] is NULL, which should have been filled
by new_connection().

It seems there's a race condition. In new_connection(), there's a code
fragment:
/*
 * Make sure that the global backend status in the shared memory
 * agrees the local status checked by VALID_BACKEND. It is possible
 * that the local status is up, while the global status has been
 * changed to down by failover.
 */
A--> if (BACKEND_INFO(i).backend_status != CON_UP &&
BACKEND_INFO(i).backend_status != CON_CONNECT_WAIT)
{
ereport(DEBUG1,
(errmsg("creating new connection to backend"),
 errdetail("skipping backend slot %d because global backend_status = %d",
   i, BACKEND_INFO(i).backend_status)));

/* sync local status with global status */
B--> *(my_backend_status[i]) = BACKEND_INFO(i).backend_status;
continue;
}

It is possible that at A backend_status in the shared memory is down
but by the time it reaches B the status has been changed to up. And
new_connection() skipped to create a backend connection. This seems to
explain why the connection slot is NULL while VALID_BACKEND returns
true. To prevent the race condtion, backend_status in shared memory is
copied to a local variable and evaluate it.  Also the VALID_BACKEND
just before:

pool_set_db_node_id(CONNECTION(backend, i), i);

is changed to:
if (VALID_BACKEND(i) && CONNECTION_SLOT(backend, i))

so that it prevents crash just in case.

[1] [pgpool-general: 9104] Another segmentation fault
src/protocol/child.c
src/protocol/pool_connection_pool.c