PDF 압축이 생각보다 복잡한 이유
PDF를 압축한다는 것은 단일 작업이 아닙니다. PDF 파일에는 텍스트, 벡터 그래픽, 래스터 이미지, 글꼴, 구조 메타데이터 등 여러 유형의 콘텐츠가 섞여 있고, 각각에 맞는 압축 전략이 따로 필요합니다. 대부분의 도구에서 "PDF 압축" 버튼 하나를 누르면 이런 기법들이 한꺼번에 적용됩니다. 각각의 원리를 이해하면 더 나은 선택을 할 수 있습니다.
가장 큰 영향을 미치는 요소는 거의 항상 래스터 이미지입니다. 고해상도 사진 한 장이 PDF 용량의 90%를 차지할 수도 있습니다. 텍스트와 벡터 그래픽은 매우 효율적으로 압축되고, 글꼴은 서브세팅으로 잘 처리됩니다.
무손실 압축
무손실 압축은 어떤 데이터도 버리지 않고 파일 크기를 줄입니다. 압축된 파일에서 원본을 완벽하게 복원할 수 있습니다. PDF에서는 텍스트 스트림, 벡터 그래픽, 특정 이미지 유형에 Flate(ZIP/DEFLATE와 동일), LZW 같은 알고리즘을 사용합니다.
텍스트 콘텐츠에는 무손실 압축이 항상 적절합니다. 텍스트 스트림을 손실 압축해도 용량 감소 효과가 미미하고, 데이터를 버릴 이유가 없습니다.
PDF 내 PNG 이미지는 기본적으로 무손실 압축을 사용합니다. 스크린샷, 다이어그램, 차트처럼 선명한 경계와 단색 면이 있는 그래픽은 무손실이 적합합니다. 손실 알고리즘은 고대비 경계 주변에 눈에 띄는 아티팩트를 만들기 때문입니다.
무손실 압축의 한계는 압축률의 상한선입니다. JPEG 이미지가 이미 압축된 상태라면, 무손실 재압축을 해도 크기가 거의 줄지 않습니다.
손실 압축
손실 압축은 훨씬 높은 압축률을 위해 일부 데이터를 영구적으로 버립니다. 한 번 적용하면 원본을 완벽히 복원할 수 없습니다. 이미지의 경우 색상 정밀도 감소, 세부 묘사 흐릿함, 블록 아티팩트 등의 형태로 나타납니다.
JPEG는 사진 이미지에 가장 널리 쓰이는 손실 압축입니다. 이미지 데이터를 주파수 성분으로 변환한 뒤, 인간 눈이 가장 덜 민감한 고주파 성분을 버립니다. 품질 80 설정에서 JPEG는 PNG 대비 60~70% 이상 용량을 줄이면서도 자연 사진에서는 거의 눈에 띄지 않는 수준의 품질 손실을 보입니다.
문제는 선명한 경계, 텍스트, 단색이 있는 이미지입니다. JPEG 압축은 이미지 내 텍스트 주변에 링잉 아티팩트를 만들고 단색 경계를 뭉개 버립니다. 이런 이미지에는 무손실 압축이나 WebP가 더 적합합니다.
품질 레벨과 실제 의미
PDF 압축 도구는 일반적으로 품질 프리셋을 제공합니다. 각 프리셋이 실제로 무엇을 하는지 이해하면 기대치를 올바르게 설정할 수 있습니다.
**화면/저품질(72~96 DPI):** 이미지를 화면 해상도로 다운샘플링하고 JPEG 품질을 50~65 정도로 압축합니다. 용량 감소 효과가 크며 70~90%까지 줄어들 수 있습니다. 화면 전용으로만 볼 PDF에 적합합니다. 텍스트는 벡터 데이터이므로 여전히 선명합니다.
**전자책/중간 품질(150 DPI):** 대부분의 용도에 균형이 잘 맞습니다. 이미지를 150 DPI로 압축하고 JPEG 품질을 75~80으로 설정합니다. 50~70% 감소가 일반적입니다. 디지털 공유가 주목적이고 A4 크기 인쇄도 가끔 하는 문서에 적합합니다.
**인쇄/고품질(300 DPI):** 인쇄 해상도를 유지하고 가벼운 압축(JPEG 품질 85~90)만 적용합니다. 용량 감소는 20~40% 수준이지만 일반적인 출력 크기에서 원본과 구분하기 어렵습니다.
**프리프레스/최고 품질:** 이미지 압축을 최소화하거나 없앱니다. 색상 정확도가 중요한 전문 인쇄 워크플로에 적합하며 파일 크기는 크게 유지됩니다.
화질 손상이 눈에 보이는 경우
화질 손상의 가시성은 세 가지 요소에 달려 있습니다. 원본 이미지의 성질, 적용된 압축 레벨, 출력물의 사용 방식입니다.
자연 사진은 관대합니다. 인간의 시각은 특히 완만한 색조 변화 영역에서 픽셀 값 차이에 그리 민감하지 않습니다. 자연 사진에 적용한 강한 JPEG 압축은 보통 일상적인 시청 크기에서 눈에 띄지 않습니다.
텍스트, 세밀한 선, 선명한 경계가 있는 이미지는 엄격합니다. 스캔 문서나 텍스트가 이미지로 렌더링된 프레젠테이션이 포함된 PDF는 중간 정도 압축에서도 선명하게 품질 저하가 나타납니다. 스캔 페이지가 있다면 먼저 OCR을 적용하는 것이 좋습니다. 그러면 텍스트 레이어는 벡터가 되어 손실 없이 압축되고, 배경 이미지만 압축 대상이 됩니다.
실용 가이드
일반적인 프레젠테이션, 보고서, 브로셔라면 150 DPI 중간 품질 프리셋이 좋은 출발점입니다. 화면 표시와 가벼운 인쇄 모두 만족할 수 있는 품질을 유지하면서 50~70% 압축이 가능합니다.
항상 원본 파일을 보관하세요. 압축은 대부분 되돌릴 수 없고, 최적 설정은 용도에 따라 다릅니다. 복사본을 압축하고 100% 줌에서 원본과 시각적으로 비교한 뒤, 품질이 만족스러울 때만 배포하세요.
법적·컴플라이언스 목적으로 보관할 PDF라면 파일 크기보다 품질을 우선하세요. 몇 메가바이트의 차이는 수년 후 문서가 읽을 수 없다는 문제에 비하면 아무것도 아닙니다.