데이터의 미래: 400g 광학 모듈
Dec 22, 2025|
그만큼400G 광 모듈이는 단순히 100G 이전 제품에 비해 대역폭이 점진적으로 향상되는 것이 아니라 데이터 센터 아키텍처의 근본적인 변곡점을 나타냅니다. 이 기술의 핵심은 각각 50Gbps의 8개 전기 레인에서 PAM4(4-레벨 펄스 진폭 변조) 신호를 활용하여 최신 AI/ML 클러스터 및 대규모 환경의 계산 밀도 요구 사항을 해결하는 총 처리량을 달성하는 것입니다. NRZ 바이너리 인코딩에서 다중-레벨 진폭 변조로 전환하면 고유한 SNR 페널티가 발생합니다.-이론적으로 약 9.5dB 저하가 발생하므로 생산 링크 전체에서 허용 가능한 비트 오류율을 유지하기 위해 정교한 DSP 구현과 RS(544,514)와 같은 필수 순방향 오류 수정 방식이 필요합니다.

아무도 솔직하게 이야기하지 않는 폼 팩터 전쟁
광 네트워킹 컨퍼런스에 입장하면 기술 비교로 구성된 QSFP-DD 대 OSFP 토론을 듣게 됩니다. 그렇지 않습니다. 스펙시트를 차려입은 정치적 싸움이다.
QSFP-DD는 첫 번째 400G 스위치가 출시되기 전에 볼륨 전쟁에서 승리했습니다. QSFP28 케이지와의 하위 호환성은 모든 네트워크 운영자가 이론적으로 기존 인프라를 제거하지 않고도 업그레이드할 수 있음을 의미했습니다. "이론적으로" 이는 큰 작업을 수행하는 것입니다.-저는 엔지니어들이 물리적으로는 적합하지만 전기적으로는 오작동하는 이중 밀도 모듈을 인식하도록 레거시 스위치 펌웨어를 만들기 위해 주말 내내 노력하는 것을 보았습니다.-
OSFP는 Arista의 진영에서 간단한 피치로 나왔습니다. 즉, 더 큰 모듈, 더 나은 발열, 4개용 케이지에 8개 레인을 강제로 적용하는 대신 처음부터 400G용으로 설계되었습니다. 통합 방열판은 땀 한 방울 흘리지 않고 15{4}}20와트를 처리합니다. 12와트에서 QSFP-DD? 이미 고밀도 배포에서 열 한계를 뛰어넘고 있습니다.
어쨌든 업계에서는 QSFP-DD를 선택했습니다. 호환성이 승리합니다. 항상 그렇습니다.
그러나 폼 팩터 비교 기사에서 결코 언급되지 않은 내용은 다음과 같습니다. 열 용량 차이는 규모에 따라 극적으로 복합됩니다. QSFP-DD 모듈로 완전히 채워진 32-포트 400G 스위치는 광학 장치에서만 약 640와트를 소비합니다. 이는 스위치 ASIC, 제어 평면, 팬, 전원 공급 장치 이전입니다. 1RU 섀시의 총 전력은 1.5-2kW입니다. 해당 모듈을 접합 온도 제한 이하로 유지하는 데 필요한 공기 흐름 엔지니어링은 항공우주 설계에 적용됩니다.
PAM4는 모든 것을 더욱 어렵게 만들었습니다.
스펙트럼 효율성이 두 배로 향상된 PAM4를 모두가 축하합니다. 누구도 그것이 만들어낸 공학적 악몽에 대해 언급하지 않습니다.
NRZ는 간단했습니다. 두 가지 전압 레벨. 신호는 1 또는 0을 나타냅니다. 아이 다이어그램에는 하나의 개구부가 있습니다. 깨끗하면 금상첨화입니다.
PAM4는 4개의 진폭 레벨을 사용하여 기호당 2비트를 전송합니다. 세 개의 쌓인 눈 구멍. 각 눈의 높이는 대략 NRZ 눈 높이의 1/3입니다. 노이즈 마진이 무너집니다. 갑자기 PCB 추적의 모든 밀리미터가 중요해졌습니다. 모든 비아는 반사를 생성합니다. 호스트 ASIC과 광 모듈 케이지 사이의 모든 임피던스 불연속성은 신뢰성 문제가 됩니다.
나는 특정 포트에 무작위 CRC 오류가 나타나는 400G 배포를 디버깅하는 데 6개월을 보냈습니다. 근본 원인은? 호스트 보드의 사양에 약간-부족한-커넥터로 인해 가장 낮은 PAM4 아이가 손상될 만큼 충분한 반사 손실이 발생했습니다. 100G 트래픽에는 완벽하게 적합합니다. 400G에는 치명적입니다.
업계의 반응은 FEC 의무화였습니다. 순방향 오류 수정 없이는 400G PAM4 광학 장치를 실행할 수 없습니다.-원시 BER은 단순히 사용 가능한 임계값을 초과합니다. RS(544,514)는 약 300나노초의 대기 시간을 추가합니다. 크지는 않습니다. 그러나 꼬리 대기 시간의 모든 마이크로초가 작업 완료 시간에 영향을 미치는 MPI 작업을 실행하는 HPC 클러스터에 이를 알립니다.

실리콘 포토닉스는 우리를 구해야 했습니다
실리콘 포토닉스의 피치는 종이 위에서는 완벽하게 들립니다. 수십 년간의 CMOS 팹 투자를 활용하십시오. 변조기, 광검출기 및 도파관을 단일 칩에 통합합니다. 개별 InP 및 GaAs 구성 요소는 결코 달성할 수 없는 규모의 경제를 달성합니다. 소비전력이 20~30% 감소합니다. 비용은 결국 동등한 수준에 도달한 후 기존 접근 방식을 약화시킵니다.
인텔은 3백만 개가 넘는 100G 실리콘 광자 송수신기를 출하했습니다. Alibaba는 2020년부터 클라우드 네트워크 전반에 걸쳐 400G DR4 실리콘 포토닉 모듈을 배포했습니다. 이 기술은 작동합니다.
그러나 실리콘 포토닉스에는 더러운 비밀이 있습니다. 광원은 여전히 실리콘일 수 없습니다.
실리콘 PIC에 결합되거나 광섬유를 통해 결합된 외부 레이저-일반적으로 인듐 인화물 다이-가 필요합니다. 이러한 하이브리드 통합은 제조 복잡성을 추가합니다. 수확량은 어려움을 겪습니다. 모두가 약속한 비용 이점은 계속해서 다른 세대를 밀어내고 있습니다.
400G용 실리콘 포토닉스를 두 배로 늘리는 회사에는 매우 비싼 베팅을 하는 매우 똑똑한 사람들도 포함됩니다. Cisco가 Luxtera와 Acacia를 인수한 금액은 총 32억 6천만 달러입니다. 그것은 R&D 예산이 아닙니다. 이것이 바로 전략적 인프라 투자입니다.
시장 점유율 데이터는 더 복잡한 이야기를 말해줍니다. LightCounting에 따르면 실리콘 포토닉 모듈은 수년간의 과대광고에도 불구하고 여전히 전체 400G 출하량의 10% 미만을 차지하고 있습니다. 기존 EML- 기반 트랜시버는 DR4 및 FR4 애플리케이션을 지배합니다. 기술 전환은 보도 자료에서 제안한 것보다 느리게 진행되고 있습니다.
사양 시트에서 도달 범위에 대해 숨기는 내용
400G 광학에 대한 IEEE 명명 규칙은 실제로 모듈을 구입하기 전까지는 도움이 될 것 같습니다.
400G-SR8: 다중 모드 광섬유를 통해 100미터. 850nm에서 8개의 평행 레인. 내부-랙 연결에 적합합니다. 다른 어떤 것에도 끔찍합니다.
400G-DR4: 단일-모드 광섬유를 통해 500미터. 1310nm에서 4개의 평행 레인. 대부분의 데이터 센터 상호 연결을 위한 주력 제품입니다.
400G-FR4: 2km, 단일{4}}모드, CWDM 파장이 하나의 광섬유 쌍에 다중화됩니다. 고가의 외부 변조 레이저를 사용합니다.
400G-LR4: 10킬로미터. FR4와 동일한 파장 방식이지만 도달 범위를 확장하기 위한 광학 증폭 기능이 있습니다.
충분히 간단합니다. 제조업체가 이러한 명칭을 지속적으로 빠르고 느슨하게 사용하는 것을 제외하면.
실험실 조건에서 500미터에 도달하고 커넥터 손실이 약간 증가한 실제 광섬유 플랜트에서는 300미터에서 작동하지 않는 "DR4 호환" 모듈을 본 적이 있습니다. 사양에는 7dB 링크 예산으로 500미터가 표시됩니다. 수학은 모든 곳에서 깨끗한 연결을 가정하여 완벽하게 작동합니다. 현실에는 표시된 케이블 관리 도면보다 천장을 통과하는 약간 더 긴 경로를 사용하는 더러운 커넥터, 불완전한 스플라이스 및 광섬유 연결이 포함됩니다.
캠퍼스의 건물을 연결하고 광섬유 경로가 2.3km라는 것을 발견할 때까지는 2km FR4 도달 거리가 적절하다고 들립니다. 이제 3배의 비용이 드는 LR4 모듈이 필요하거나, 증폭을 통해 창의력을 발휘하거나, 이 링크가 실제로 작동하지 않는다는 것을 받아들이게 됩니다.
DR4 대 FR4 결정
이것은 실제로 실제 배포에 중요하며 아무도 이에 대해 잘 설명하지 않습니다.
DR4는 전송에 4개의 병렬 광섬유를 사용하고 수신에 4개의 광섬유를 사용합니다. 총 8개의 섬유. 4개의 미사용 위치가 있는 MPO-12 커넥터. 최대 도달 거리는 500미터입니다. 전력 소비는 일반적으로 8-10와트입니다. 모듈 비용은 동급 FR4의 약 60%입니다.
FR4는 파장 분할 다중화를 사용하여 4개 레인을 모두 단일 광섬유 쌍에 배치합니다. 이중 LC 커넥터. 최대 도달 거리는 2km입니다. 전력 소비는 일반적으로 10-12와트입니다. EML 레이저는 저렴하지 않기 때문에 프리미엄 가격입니다.
파이버 토폴로지가 모든 것을 결정합니다.
귀하가 지정하는 구조화된 케이블링을 갖춘 그린필드 데이터 센터가 있습니까? 평행 섬유가 의미가 있습니다. 행 사이에 MPO 트렁크 케이블을 연결합니다. 어디서나 DR4를 사용하세요. 낮은 광학 비용으로 인해 추가 광섬유가 상쇄됩니다.
기존 이중섬유 공장이 있는 브라운필드 환경이요? FR4 또는 새 케이블을 당기는 중입니다.
일부 병렬 실행 및 일부 이중 레거시 플랜트가 혼합된 환경이 있습니까? 호환성의 악몽에 오신 것을 환영합니다. 두 가지 모듈 유형, 서로 다른 커넥터 스타일, 그리고 누군가가 잘못된 패치 코드를 사용하고 "링크 다운" 경고 문제를 해결하는 데 4시간을 소비한 적어도 하나의 캐비닛이 생길 것입니다.
브레이크아웃 질문
400G-DR4 모듈에는 4개의 100G 레인이 포함되어 있습니다. 각 레인은 광학 레이어에서 독립적으로 작동합니다. 이를 통해 브레이크아웃 광섬유 어셈블리를 사용하여 400G 스위치 포트 1개를 별도의 100G 장치 4개에 연결하는 브레이크아웃{6}}이 가능해집니다.
경제학은 설득력이 있는 것처럼 들립니다. 400G 포트 1개. 100G 서버 4개. 추가 스위치 포트가 필요하지 않습니다.
현실은 더 복잡합니다.
스위치 ASIC은 항상 임의의 브레이크아웃 구성을 지원하지 않습니다. 일부 플랫폼에는 특정 펌웨어가 필요합니다. 다른 것들은 특정 포트 그룹에서만 브레이크아웃을 허용합니다. 일부는 하드웨어에서 브레이크아웃을 구현하지만 소프트웨어 스택은 구성 옵션을 노출하지 않습니다.
더 나쁜 점은 브레이크아웃 케이블이 지원에 악몽을 낳는다는 것입니다. 400G 모듈, 브레이크아웃 어셈블리 또는 4개의 100G 장치 포트 중 하나에 문제가 있습니까? 문제를 해결하려면 케이블을 교체하고, 각 다리를 독립적으로 테스트하고, 문제가 재현 가능하도록 기도해야 합니다.
저는 특히 엄청난 복잡성을 피하기 위해 모든 곳에서 네이티브 100G로 표준화하는 조직을 보았습니다. 광학 비용이 더 비쌉니다. 스위치 포트 밀도가 저하됩니다. 그러나 운영 단순성이 승리합니다.

전력소비 현실
모든 400G 모듈 데이터 시트에는 전력 소비가 나열되어 있습니다. 숫자는 기술적으로 정확하고 실질적으로 쓸모가 없습니다.
QSFP-DD DR4의 사양은 일반적으로 8.5와트일 수 있습니다. 이는 정상적인 작동 조건에서 스위치의 3.3V 레일에서 나오는 모듈입니다. 여기에는 스위치 ASIC이 8개의 50G PAM4 레인을 구동하는 데 소비하는 추가 전력은 포함되지 않습니다. 열 관리 오버헤드-더 강력한 팬, 추가 공기 흐름, 추가 냉각을 고려하지 않습니다.
스위치당 32개 포트에서 8와트와 12와트 모듈의 차이는 128와트가 됩니다. 전체 랙 행에 대한 전력 분배를 계획할 때 이는 사소한 일이 아닙니다.
100G에서 400G로 전환해도 포트당 전력 소비가 4배로 늘어나지는 않습니다.{2}}통합으로 인한 효율성 향상과 DSP 개선이 도움이 됩니다. 그러나 스위치당 총 전력은 절대적으로 증가했습니다. 약 100G 밀도의 전기 및 냉각 인프라를 계획한 데이터 센터는 전체 인구를 400G로 업그레이드할 때 용량 제약을 발견하고 있습니다.
호환성은 바이너리가 아닙니다
공급업체는 "모든 주요 스위치 플랫폼과 호환 가능"하다고 주장하는 것을 좋아합니다. 이 진술은 기술적으로 방어 가능하며 실제로는 오해의 소지가 있습니다.
광 모듈 호환성은 물리적 적합성과 전기 신호 이상의 것에 따라 달라집니다. DOM(디지털 광학 모니터링) 프로토콜은 공급업체에 따라 다릅니다. CMIS(공통 관리 인터페이스 사양) 구현에는 두 개의 "호환" 구현이 완벽하게 상호 운용되지 않을 수 있을 만큼 충분한 유연성이 있습니다. 일부 스위치는 공급업체 ID 코드를 확인하고 인식되지 않는 모듈의 조명을 완전히 거부합니다.
"호환 가능한" 400G 광학 장치의 회색 시장이 폭발적으로 증가한 이유는 유명 브랜드 모듈의 가격이 타사 제품보다 3-5배 더 비싸기 때문입니다. 이러한 대안 중 일부는 완벽하게 작동합니다. 다른 것들은 특정 트래픽 패턴 하에서나 몇 주 동안 실행한 후에만 나타나는 미묘한 문제를 야기합니다.
저는 실험실에서 모든 단일 적합성 측정을 통과한 후 프로덕션 로드 시 트래픽의 2%에서 수정 불가능한 FEC 오류가 발생하는 타사 400G DR4 모듈을 직접 테스트했습니다.{0} 지속적인 높은-대역폭 작동 시 모듈 내부 온도가 광학 부품이 처리할 수 있는 온도를 초과했습니다. 모듈이 작동했습니다. 그렇지 않을 때까지.
400G에 대한 800G의 의미
800G 전환은 이미 진행 중이다. 하이퍼스케일러는 현재 800G를 배포하고 있습니다. 나머지 업계도 18~24개월 내에 뒤따를 것입니다.
이것이 400G를 쓸모없게 만드는 것은 아니지만-모듈은 수년 동안 출시될 것입니다-하지만 경제성을 변화시킵니다.
800G는 400G의 8개 50G 레인 대신 8개의 100G 레인을 사용합니다. 동일한 PAM4 변조, 레인당 더 높은 기호 속도. 물리학이 더 어려워집니다. 열 봉투는 모듈당 20-25W를 향해 나아갑니다. OSFP의 열 헤드룸 이점은 이러한 전력 수준에서 더욱 중요해집니다.
더 중요한 것은 800G 모듈이 듀얼 400G 구성으로 분리될 수 있다는 것입니다. 하나의 800G-2xDR4 모듈은 두 개의 독립적인 400G 링크를 제공합니다. 400G와 800G 요구 사항이 혼합된 환경의 경우 이 브레이크아웃 기능을 통해 재고 관리가 단순화됩니다.
제가 대화를 나눈 데이터 센터 운영자는 대부분 리프{1}}스파인 연결을 위해 400G를 유지하는 동시에 대역폭 밀도가 가장 중요한 GPU 클러스터 상호 연결을 위해 800G를 평가하고 있습니다. 모든{4}}대-통신 패턴을 갖춘 AI 교육 워크로드는 기존의 North{7}}트래픽이 결코 수행하지 못했던 방식으로 400G 링크를 실제로 강조합니다.
공동-패키지 광학 지평선
업계의 모든 사람들은 CPO가 다가오고 있다는 것을 알고 있습니다. 스위치 ASIC과 직접 통합된 광 트랜시버입니다. 플러그형 모듈이 전혀 없습니다. 전력 소비는 비트당 15피코줄에서 5피코줄로 감소하며, 기술이 발전함에 따라 잠재적으로 1피코줄 미만이 될 수도 있습니다.
NVIDIA는 2025/2026 하드웨어에 대한 CPO 계획을 발표했습니다. Meta와 Microsoft는 프로토타입을 시연했습니다. OIF는 인터페이스를 표준화하고 있습니다.
문제는 CPO가 발생하는지 여부가 아닙니다. 이는 현재 계획 주기에 문제가 될 만큼 빠르게 발생하는지 여부입니다.
내가 읽은 내용: 플러그형 광학 장치는 대부분의 배포에서 최소 2028년까지 지배적입니다. CPO는 하이퍼스케일러 사용자 지정 빌드에 더 일찍 나타날 수 있습니다. 핫{3}}스왑 가능 모듈의 운영 유연성-스위치를 종료하지 않고 장애가 발생한 광학 장치를 교체할 수 있는 기능은-전반적으로 N+1 중복이 없는 환경에서 매우 중요합니다.
지금 플러그형 400G 및 800G를 계획하세요. 3년 후 CPO 평가 예산. 공급업체 로드맵 슬라이드가 제조 현실이 지원할 수 없는 일정을 가속화하도록 하지 마십시오.
실제로 도움이 되는 실용적인 지침
새로운 빌드의 경우: 병렬 파이버 인프라를 갖춘 DR4에서 표준화하세요. 수천 개의 모듈에서 FR4 컴파운드에 비해 비용이 절감됩니다. 사양서에 8와트가 약속되어 있더라도 모듈당 10와트로 전원 및 냉각을 계획하세요.
업그레이드를 위해서는 기존 섬유 공장을 집중적으로 감사하십시오. 모든 세그먼트에서 실제 측정된 손실을 파악합니다. 광학 장치가 도착하기 전에 400미터 DR4 제한 위반을 발견하십시오.
AI 클러스터의 경우: 800G는 이미 정답입니다. 대역폭 수요는 프리미엄을 정당화합니다. 18개월 안에 워크로드가 400G를 초과할 경우 400G로 한 단계 더 나아가지 마세요.
모든 사람을 위해: 대량 배포 전에 타사{0}}광학 장치를 광범위하게 테스트하세요. 비용 절감은 현실입니다. 실패도 마찬가지다. 재고 비용을 투입하기 전에 현실적인 로드 하에서 특정 스위치 플랫폼을 검증하십시오.
기술이 작동합니다. 2024년에 2천만 개의 400G 및 800G 모듈이 출하된 데는 이유가 있습니다. 그러나 100G에서 전환하려면 사양 시트와 마케팅 자료에서 쉽게 생략되는 세부 사항에 주의가 필요합니다. 물리학은 배포 일정에 관심이 없습니다.


