기본 콘텐츠로 건너뛰기

Audit Hooks Can Leak: Socket Fix

thumbnail

감사(audit) 훅이 소켓을 느리게 죽인다: PR #146248이 보여준 관측 코드의 메모리 누수 패턴

meta_description: CPython PR #146248은 socket 모듈에서 audit hook을 통해 참조(reference)와 버퍼(buffer)가 새는 문제를 수정했다. 보안/관측을 위해 sys.addaudithook를 붙였는데, 의도치 않게 객체 수명을 늘려 메모리 누수처럼 보일 수 있다. 운영 코드에서 audit hook를 안전하게 쓰는 패턴(최소 정보만 복사, 객체 저장 금지, 버퍼 처리, 샘플링/비동기화)을 정리한다. meta_keywords: python, socket, audit hook, sys.addaudithook, CPython, memory leak, reference leak, buffer leak, observability, security, GC, tracemalloc, weakref, logging, sampling, asyncio, 운영, 메모리 meta_robots: index,follow

운영에서 메모리가 서서히 오르는 서비스를 잡다 보면, 진짜 원인이 비즈니스 로직이 아닌 경우가 꽤 많다.

  • 디버그 로그
  • 트레이싱/계측(telemetry)
  • 보안/감사(audit)

즉, 관측 코드가 시스템을 갉아먹는 케이스.

CPython PR #146248(gh-146245)은 이걸 아주 교과서적으로 보여준다. socket 모듈이 audit hook과 엮이는 과정에서 reference/buffer leak이 생길 수 있었고, 그걸 고쳤다.

이 글은 PR을 번역하려는 글이 아니다. 실무에서 바로 쓰는 관점으로 정리한다.

  • audit hook가 왜 메모리 누수처럼 보일 수 있는지
  • sys.addaudithook를 붙일 때 뭘 저장하면 위험한지
  • 로그를 남기면서도 객체 수명을 늘리지 않는 방법

developer /></p>

<hr />

<h2>1) PR #146248 한 줄 요약: 감사 훅이 데이터를 잡고 있었다</h2>

<p>PR 제목부터가 직설적이다.</p>

<ul>
<li><strong>Fix reference and buffer leaks via audit hook in socket module</strong></li>
</ul>

<p>여기서 포인트는 socket이 누수했다가 아니라, <strong>audit hook을 거치는 경로에서 참조/버퍼가 의도치 않게 오래 살아남을 수 있었다</strong>는 점이다.</p>

<p>audit hook은 원래 의도가 선하다.</p>

<ul>
<li>보안 이벤트를 기록하고</li>
<li>정책 위반을 감지하고</li>
<li>어떤 코드가 어떤 동작을 했는지 추적한다</li>
</ul>

<p>그런데 그 과정에서, 이벤트에 딸려오는 인자(args)나 버퍼를 그대로 잡아두면 결과가 바뀐다.</p>

<ul>
<li>훅이 객체를 참조한다</li>
<li>참조가 남는 동안 GC가 회수하지 못한다</li>
<li>시간이 지나면 점진적 증가로 관측된다</li>
</ul>

<p>이게 바로 운영에서 흔히 보는 누수 형태다.</p>

<hr />

<h2>2) sys.addaudithook를 실무에서 쓸 때 가장 흔한 실수</h2>

<p>감사 훅은 이렇게 붙는다.</p>

<pre><code class=import sys def hook(event, args): # event: 문자열 # args: 튜플(이벤트별로 다양한 객체가 들어올 수 있음) pass sys.addaudithook(hook)

여기서 흔한 실수는 로그를 더 잘 남기기 위해 args를 통째로 저장하는 것이다.

# 안 좋은 예: args를 그대로 쌓아두기
seen = []

def hook(event, args):
    seen.append((event, args))

이 코드는 작은 테스트에선 멀쩡해 보이는데, 운영에서 터진다.

  • args 안에 socket 객체가 들어올 수 있고
  • args 안에 버퍼/데이터 조각이 들어올 수 있고
  • 심지어 args 안에 다른 큰 객체로 이어지는 참조가 들어올 수 있다

결과적으로 훅이 이벤트를 기록하는 게 아니라, 객체 수명을 연장한다.

PR #146248이 다루는 것도 결국 같은 계열이다. audit hook 경로에서 참조/버퍼가 새면, 사용자 입장에서는 socket이 메모리를 먹는 것처럼 보인다.


3) 안전한 audit hook의 기본 원칙: 객체를 저장하지 말고 값을 저장하라

운영에서 내가 지키는 원칙은 하나다.

훅이 보관하는 건 객체(object)가 아니라 값(value)만.

예를 들어 로깅이 목적이라면, 보통 이 정도면 충분하다.

  • event 이름
  • 필요한 필드 몇 개(정수/문자열)
  • 크기(길이)
  • 에러 코드
import sys
import time

def hook(event, args):
    # 최소 정보만 추출(문자열/숫자)
    # args 자체는 저장하지 않는다
    record = {
        "ts": time.time(),
        "event": str(event),
        "argc": len(args),
    }

    # args 중 일부가 문자열화 과정에서 커질 수 있으니,
    # repr()도 길이 제한을 둔다
    # (그리고 args 원본은 버린다)
    # record["args"] = (repr(args)[:200])

    emit(record)

sys.addaudithook(hook)

여기서 emit()은 파일/소켓/OTel 등 무엇이든 될 수 있다. 중요한 건 hook 내부에서 큰 것을 만들지 않는 것.

버퍼/바이너리가 args로 올 때

버퍼가 딸려온다고 의심되면, 내용이 아니라 길이만 남긴다.

def safe_len(x):
    try:
        return len(x)
    except Exception:
        return None


def hook(event, args):
    sizes = [safe_len(a) for a in args]
    emit({"event": event, "sizes": sizes})

이 방식은 무슨 데이터가 오갔는지까지는 모르지만, 운영에서 필요한 건 대개 그게 아니다.

  • 터졌다(스파이크가 있다)
  • 얼마나 컸다
  • 어느 이벤트에서 잦다

이 정도가 대부분의 원인 규명에 충분하다.


4) 메모리 누수인지 관측 부하인지 구분하는 체크리스트

audit hook로 의심되는 상황에서, 나는 이렇게 본다.

1) 훅을 잠깐 끄면(또는 샘플링을 0으로 하면) 메모리 증가가 꺾이나? 2) tracemalloc 상위 스택이 훅/로깅/직렬화 쪽으로 몰리나? 3) 이벤트당 처리 시간이 길어졌나? (로그 I/O, JSON dumps 등)

여기서 1)만으로도 거의 결론이 난다. 관측 코드가 원인이면, 관측을 줄이면 증상이 즉시 완화된다.

그래서 운영 훅은 처음부터 줄일 수 있게 설계해야 한다.

  • 샘플링 비율
  • 이벤트 화이트리스트
  • 비동기 큐(백프레셔)
  • 레이트 리밋

5) 실전 패턴: 샘플링 + 큐 + 백프레셔(훅은 얇게)

audit hook에서 모든 걸 다 하면 실패한다. 훅은 얇게, 밖에서 처리한다.

import queue
import random
import sys
import time

q = queue.Queue(maxsize=10_000)

def hook(event, args):
    # 1% 샘플링
    if random.random() > 0.01:
        return

    # 얇은 레코드만
    rec = {
        "ts": time.time(),
        "event": str(event),
        "argc": len(args),
    }

    # 큐가 꽉 차면 드롭 (백프레셔)
    try:
        q.put_nowait(rec)
    except queue.Full:
        return

sys.addaudithook(hook)

이렇게 하면 훅이 기록 장치가 아니라 신호 생성기가 된다.

그리고 진짜 직렬화/전송은 별도 스레드나 별도 프로세스에서 한다.

이 패턴을 쓰면 PR #146248 같은 사고(훅 경로에서 참조/버퍼가 잡히는 문제)를 운영 코드에서도 상당 부분 피할 수 있다.


6) 결론: audit는 강력하지만, 관측이므로 비용을 가진다

PR #146248은 개발자 입장에서 보면 CPython 내부 수정이지만, 운영자 입장에선 메시지가 선명하다.

  • audit hook는 강력한 관측 장치다
  • 관측 장치는 코드 경로에 끼어들며, 잘못 쓰면 객체 수명을 바꾼다
  • 그래서 훅은 값만 남기고, 객체/버퍼는 잡지 않는 게 안전하다

요약 체크리스트(운영용):

  • [ ] args 원본 저장 금지
  • [ ] repr/str 길이 제한
  • [ ] 내용 대신 길이/카운트 중심
  • [ ] 샘플링/화이트리스트
  • [ ] 큐 + 드롭(백프레셔)

Keywords

python,socket,audit,sys.addaudithook,observability,security,refleak,buffer,leak,memory,GC,tracemalloc,logging,sampling,queue,backpressure,production,debug,event

References

  • CPython PR #146248
    • https://github.com/python/cpython/pull/146248
  • Diff
    • https://github.com/python/cpython/pull/146248.diff

이미지 크레딧/라이선스

  • Mobile developer at work (Unsplash).jpg — Parker Byrd / CC0
    • https://commons.wikimedia.org/wiki/File:Mobile_developer_at_work_(Unsplash).jpg
    • http://creativecommons.org/publicdomain/zero/1.0/deed.en

댓글

이 블로그의 인기 게시물

Django에서 트랜잭션 관리하기

Django에서 트랜잭션 관리하기 안녕하세요! 오늘은 Django에서 데이터베이스 트랜잭션을 효과적으로 관리하는 방법에 대해 알아보겠습니다. 1. 트랜잭션의 중요성 트랜잭션은 데이터베이스의 일관성과 무결성을 보장하는 중요한 개념입니다. Django에서는 여러 가지 방법으로 트랜잭션을 관리할 수 있습니다. 1.1 기본 개념 원자성(Atomicity) : 트랜잭션은 모두 실행되거나 모두 실행되지 않아야 합니다. 일관성(Consistency) : 트랜잭션 전후로 데이터베이스의 일관성이 유지되어야 합니다. 격리성(Isolation) : 동시에 실행되는 트랜잭션들이 서로 영향을 주지 않아야 합니다. 지속성(Durability) : 완료된 트랜잭션의 결과는 영구적으로 저장되어야 합니다. 2. Django의 트랜잭션 관리 2.1 기본 설정 # settings.py DATABASES = { 'default': { 'ENGINE': 'django.db.backends.postgresql', 'NAME': 'mydatabase', 'USER': 'myuser', 'PASSWORD': 'mypassword', 'HOST': 'localhost', 'PORT': '5432', 'ATOMIC_REQUESTS': True, # 모든 뷰를 트랜잭션으로 래핑 } } 2.2 데코레이터 사용 from django.db import transaction @transaction.atomic def create_order(user, items): order = Order.objects.create(user=...

AWS S3 + CloudFront로 정적 파일 서빙 완전 가이드

AWS S3 + CloudFront로 정적 파일 서빙 완전 가이드 안녕하세요! 오늘은 AWS S3와 CloudFront를 사용하여 정적 파일을 효율적으로 서빙하는 방법에 대해 알아보겠습니다. 왜 S3와 CloudFront를 사용할까요? 높은 가용성 : AWS의 글로벌 인프라를 활용 빠른 전송 속도 : CloudFront의 CDN 기능으로 전 세계 사용자에게 빠른 전송 비용 효율성 : 사용한 만큼만 지불 보안 : AWS의 보안 기능 활용 확장성 : 트래픽 증가에 자동 대응 1. S3 버킷 설정 1.1 버킷 생성 및 설정 import boto3 def create_s3_bucket(): s3 = boto3.client('s3') # 버킷 생성 bucket_name = 'your-static-files-bucket' s3.create_bucket( Bucket=bucket_name, CreateBucketConfiguration={ 'LocationConstraint': 'ap-northeast-2' } ) # 버킷 정책 설정 bucket_policy = { "Version": "2012-10-17", "Statement": [ { "Sid": "PublicReadGetObject", "Effect": "Allow", "Principal": "*", "Action": "s3:GetObje...

Python에서 asyncio 완전 정복 (await, async, gather 등)

어휴, 요즘 파이썬으로 비동기 프로그래밍 하는 재미에 푹 빠졌어요! 특히 asyncio 는 정말 마법 같더라고요. 처음엔 좀 낯설었는데, 익숙해지니까 속도 향상이 눈에 띄게 느껴져서 완전 반해버렸습니다. 이 글에선 제가 asyncio 를 배우면서 깨달은 점들을 풀어놓을게요. 혹시 비동기 프로그래밍이 뭔지 잘 모르시겠다면, 간단히 말해 여러 작업을 동시에 처리해서 프로그램 속도를 엄청나게 높이는 기술이라고 생각하시면 돼요. 마치 여러 요리사가 동시에 음식을 만들어서 손님에게 빨리 제공하는 것과 비슷하죠! 일단 async 와 await 라는 녀석들이 핵심인데요, async 는 함수 앞에 붙여서 "얘는 비동기 함수야!"라고 선언하는 거예요. 그리고 await 는 다른 비동기 함수가 끝날 때까지 기다리라고 지시하는 역할을 하죠. 예를 들어, 네트워크에서 데이터를 가져오는 함수가 있다면, await 를 사용해서 데이터가 다 가져올 때까지 기다렸다가 다음 작업을 진행할 수 있어요. 그 동안 다른 작업을 처리할 수 있으니, 마치 멀티태스킹을 하는 것처럼 느껴져요. 신기하지 않나요? 그리고 asyncio.gather 는 여러 비동기 함수를 동시에 실행하고 결과를 모아주는 아주 유용한 친구입니다. 제가 웹사이트 여러 개에서 데이터를 동시에 가져와야 할 때 정말 요긴하게 썼어요. 하나씩 순서대로 가져오는 것보다 훨씬 빠르더라고요! 마치 여러 개의 탭을 동시에 열어놓고 작업하는 것과 같다고 생각하시면 될 것 같아요. 실제로 제가 썼던 코드를 보여드릴게요. 세 개의 웹사이트에서 데이터를 가져오는 예제인데요. (아래 코드 삽입) 이 코드를 보시면, fetch_data 함수가 각 웹사이트에서 데이터를 가져오는 역할을 하고, asyncio.gather 가 이 함수들을 동시에 실행하도록 도와주는 것을 볼 수 있을 거예요. asyncio.sleep(2) 는 네트워크 지연을 시뮬레이션하기 위해 넣...