최신 네트워크의 400G 광 모듈
Dec 17, 2025|
그만큼400G 광 모듈엔지니어링 실용주의의 승리이자 지속적인 운영 문제의 원인을 나타냅니다. 핵심적으로는 간단한 작업을 수행합니다. 빛을 사용하여 유리를 통해 초당 4,000억 비트를 밀어냅니다. 구현은 여러 폼 팩터, 변조 방식, 파장 구성 및 "호환성"이 실제로 의미하는 바에 대한 공급업체 해석에 걸쳐 확장됩니다. PAM4 변조는 기호당 1비트가 아닌 2비트를 인코딩하여 전송 속도를 두 배로 늘리지 않고도 처리량을 효과적으로 두 배로 늘려 업계에 이러한 속도 임계값을 가져왔습니다.-그러나 이러한 결정은 모듈 내부에서 12와트를 소모하는 DSP 실리콘부터 PAM4가 본질적으로 생성하는 증가된 비트 오류를 수정하기 위해 스크램블하는 호스트 플랫폼의 FEC 엔진에 이르기까지 배포 스택의 모든 계층에 파급 효과를 가져옵니다.

폼 팩터 전쟁에서는 아무도 이기지 못했습니다.
QSFP-DD와 OSFP는 둘 다 400G를 원한다는 것 외에는 아무 것도 동의할 수 없는 두 형제처럼 표준 프로세스에서 나타났습니다. 업계에는 각각 50Gbps의 8개 전기 레인이 필요했고, 두 개의 서로 다른 컨소시엄이 두 가지 다른 방식으로 이 문제를 해결하기로 결정했습니다.
QSFP-DD가 호환성 논쟁에서 승리했습니다. 충분히 세게 눈을 가늘게 뜨고 핀의 두 번째 줄에 신경 쓰지 않는다면 기존 QSFP28 케이지에 맞습니다. 수만 개의 배포 포트가 있고 고립된 자산에 대해 날카로운 질문을 하는 CFO가 있는 경우 하위 호환성이 중요합니다.
OSFP가 열 논쟁에서 승리했습니다. 약간 더 큰 하우징과 통합 방열판은 인접한 포트를 요리하지 않고도 이러한 모듈이 소비하는 15{3}}20와트를 실제로 소비할 수 있음을 의미합니다. 공기 흐름 설계에서 100G 전력 엔벨로프를 가정했기 때문에 모서리 QSFP-DD 포트가 중앙 포트보다 지속적으로 8도 더 뜨겁게 실행되는 라인 카드를 본 적이 있습니다.
둘 다 실제로 이기지 못했습니다. 대부분의 하이퍼스케일러는 재고 단순화를 위해 QSFP-DD로 전환했습니다. 대부분의 통신 배포는 일관성 있는 모듈에 열 헤드룸이 필요했기 때문에 OSFP로 전환되었습니다. 다른 사람들은 스위치 공급업체가 제공한 제품을 모두 선택하고 계속 진행했습니다.
QSFP112 변종은 모든 사람을 혼란스럽게 하기 때문에 언급할 가치가 있습니다. 각각 100G의 4개 레인-동일한 400G 집계, 더 적은 수의 레인, 최신 SerDes. DSP 기어박스의 복잡성 없이 서버---TOR 링크를 원하는 경우 NIC 연결이 중요합니다. 이는 공급업체가 다른 곳에서 주장하는 것보다 덜 중요합니다.
PAM4는 모든 것을 변화시켰습니다(그리고 몇 가지를 망쳤습니다)
400G를 판매할 때 누구도 적절하게 설명하지 못하는 내용은 다음과 같습니다. PAM4 신호는 대역폭 효율성을 위해 잡음 내성을 교환하며 그 교환은 무료가 아닙니다.
NRZ 인코딩은 두 가지 신호 레벨을 사용했습니다. 높거나 낮습니다. 1 또는 0. 수신기는 이 두 상태를 구별하기만 하면 되었으며 아이 다이어그램은 편안한 여유를 제공했습니다. PAM4는 4가지 레벨-00, 01, 10, 11-을 사용합니다. 이는 이제 수신기가 1/3의 전압 분리로 3개의 임계값 교차를 구별해야 함을 의미합니다. 이론적인 9.54dB SNR 페널티는 전혀 이론적인 것이 아닙니다. 이는 매일 FEC 이전 BER 카운터에 표시됩니다.
400G 모듈 내부의 DSP는 이를 보상하는 엄청난 작업을 수행합니다. 피드-순방향 이퀄라이제이션, 결정 피드백 이퀄라이제이션, 클록 및 데이터 복구-모두 레인당 53.125GBaud로 실행됩니다. 작동하면 보이지 않습니다. 작동하지 않으면 수정 가능한 오류가 가끔씩 수정 불가능한 오류로 인해 발생하며 문제가 모듈, 광섬유, 호스트 또는 우주 배경 복사인지 파악하는 행운을 빕니다.

나는 작년에 주변 온도가 31도를 초과할 때만 나타나는 DSP 펌웨어 버그로 밝혀진 DR4 링크의 간헐적인 오류 조건을 추적하는 데 2주를 보냈습니다. 공급업체는 케이스를 개시한 지 3개월 후에 문제를 인정했습니다. 이 문제를 해결한 펌웨어 업데이트로 인해 이전 스위치 플랫폼 중 하나와의 상호 운용성이 중단되었습니다.
FEC 상황은 이를 더욱 복잡하게 만듭니다. KP4 FEC-표준 표준용 RS(544,514)는-코드워드당 최대 15개의 기호 오류를 수정할 수 있으며, 이는 얼마나 자주 필요한지 깨닫기 전까지는 넉넉한 것 같습니다. FEC 없이 400G를 실행하는 것은 바람직하지 않습니다. 대부분의 사용 사례에서는 불가능합니다. 코딩 이득은 약 7dB의 마진을 구입하며 PAM4는 즉시 소비합니다.
파장 변형: 도달 범위 그 이상
도달 범위 사양은 이야기의 일부만을 알려줍니다.
400G-SR8은 8개의 병렬 광섬유에 걸쳐 850nm VCSEL을 사용하며 OM4보다 100미터를 목표로 합니다. 그것은 싸다. 멀티모드입니다. 8개의 TX 및 8개의 RX 파이버가 있는 MPO-16 커넥터가 필요합니다. 랙 내에서 또는 인접 랙 사이에서 이는 잘 작동합니다. 누군가가 "조금만 더" 실행해 달라고 요청하는 순간, 850nm에서의 모달 분산은 협상되지 않는다는 점을 상기시켜 주십시오.
400G-DR4는 500미터 정격의 4개의 병렬 단일{4}}모드 광섬유를 통해 1310nm에서 작동합니다. MPO-12 커넥터는 외부 8개 광섬유를 사용하고 4개는 사용되지 않은 상태로 남겨둡니다. 이는 배포당 대략 한 번씩 케이블 설치자를 혼란스럽게 만드는 사실입니다. DR4는 500미터가 여유 공간이 있는 대부분의 데이터 센터 형상을 포괄하므로 단일 모드 플랜트에서 리프 스파인 연결을 위한 주력 장치가 되었습니다.
400G-FR4는 이중 LC를 통해 단일 광섬유 쌍에 다중화되는 CWDM4 파장(1271, 1291, 1311, 1331nm)을 사용합니다. 2km에 도달합니다. 건물 간에 8개의 -파이버 MPO 트렁크를 가져오지 않기 때문에 400G가 캠퍼스 상호 연결에 경제적이라고 느끼기 시작하는 지점입니다.
400G-LR4는 더 높은 발사력과 더 나은 수신기를 통해 동일한 CWDM4 접근 방식을 10km까지 확장합니다. FR4에서 LR4로의 가격 급등은 100G-LR4 가격 책정에서 정신 모델을 업데이트하지 않은 조달 부서를 여전히 놀라게 합니다.
일관된 코끼리
400G-ZR은 동일한 폼 팩터에 근본적으로 다른 기술을 나타내기 때문에 별도의 섹션을 가질 가치가 있습니다.
지금까지 설명한 모든 것은 직접-감지 광학 장치를 사용합니다. 빛이 들어오면 포토다이오드가 이를 변환하고 DSP가 이를 정리합니다. 코히어런트 광학은 두 편파에 걸쳐 동시에 진폭과 위상의 정보를 인코딩한 다음 국부 발진기와 정교한 디지털 신호 처리를 사용하여 수신기에서 모든 것을 복구합니다. 결과: 플러그형 모듈에서 증폭되지 않은 광섬유의 120+킬로미터에 걸쳐 400Gbps입니다.
OIF 400ZR 표준은 이중 편파를 사용하여 60GBaud에서 16QAM 변조를 지정합니다. 연결된 FEC(소프트-내부 해밍 결정, 하드-결정 외부 계단)는 약 10.8dB의 순 코딩 이득을 제공합니다. 전체가 15-20와트를 소비하고 QSFP-DD 모듈을 울릴 정도의 열을 발생시킵니다.
해당 열 부하용으로 설계되지 않은 스위치에 ZR 모듈이 설치된 것을 본 적이 있습니다. 흡기 센서가 차가운 공기를 측정했기 때문에 스위치 섀시가 정상 온도를 보고했습니다. 모듈은 공기 흐름이 부적절한 두 개의 다른 ZR 모듈 사이에 끼어 있었기 때문에 73도를 보고했습니다. 링크는 FEC 수정이 거의-거의-작동하지 않았으나, 이전-FEC BER 추세가 임계값을 넘어 패킷이 떨어지기 시작할 때까지 아무도 눈치채지 못했습니다.
ZR+ 및 MZR 변형은 상호 운용성을 희생하면서 더 많은 범위를 확장합니다. 공급업체{2}}발사력, 수신기 감도 및 FEC 알고리즘에 대한 특정 개선 사항을 통해 링크를 400km 이상으로 확장할 수 있지만 귀하는 상품이 아닌 솔루션을 구매하게 됩니다.

제3자-질문
나는 이 대화를 대략 600번 정도 했습니다.
"타사-광학 장치를 사용할 수 있나요?"
기술적으로 그렇습니다. MSA 사양은 다중 공급업체 상호 운용성을 구현하기 위해 존재합니다.- 제조업체 X의 호환 QSFP-DD는 제조업체 Y의 것과 동일하게 작동해야 합니다. IEEE 표준은 광학 및 전기 매개변수를 정의합니다. CMIS(공통 관리 인터페이스 사양)는 호스트가 모듈과 통신하는 방식을 표준화합니다.
실제로는 상황에 따라 다릅니다.
Cisco의 인증 메커니즘은 기존 플랫폼의 무뚝뚝한 "오류-포트 비활성화" 접근 방식에서 경고를 기록하지만 반드시 기능을 비활성화하지는 않는 보다 정교한 공급업체 확인으로 발전했습니다. 지원되지 않는 서비스-트랜시버 명령은 탈출 해치로 남아 있습니다. Arista는 더 관대한 경향이 있지만 타사 모듈에서 발생할 수 있는 문제에 대한 지원은 거부합니다-. 주니퍼의 입장은 호환성 매트릭스를 참조해야 하는 방식으로 플랫폼과 소프트웨어 버전에 따라 다릅니다.
저는 주저 없이 연구실 환경에서 타사 광학 기기를 사용합니다.- 무언가 실패할 때 오전 2시에 수익 트래픽을 전달하는 생산 경로의 경우? 나는 즉시 "지원되는 트랜시버로 교체"하는 대신 TAC에 전화하여 실제로 도움을 받을 수 있기를 원합니다.
비용 수학은 모듈을 수만 개로 구매하고 공급업체를 독립적으로 특성화하고 자격을 부여할 수 있는 광학 엔지니어를 고용하는 하이퍼스케일러의 경우 이 계산을 변경합니다. 제한된 기술 리소스를 사용하여 유통 채널을 통해 수백 개의 모듈을 구매하는 기업의 경우 수학이 다릅니다.
열 현실
400G QSFP-DD 모듈은 변형 및 공급업체에 따라 10~15와트 사이의 전력을 소비합니다. 400G 코히어런트 ZR 모듈은 15-20와트를 소비합니다. AI 클러스터에 이미 배포된 800G QSFP-DD800 모듈-은 18~25와트를 소비합니다.
이 중 64개를 2RU 스위치에 넣으면 스위치 ASIC, 메모리, 팬 및 전원 공급 장치를 고려하기 전에 광학 장치에서만 640와트를 얻을 수 있습니다. 단일 세대에서 열 설계 문제는 "적절함"에서 "중요"로 이동했습니다.
자격 테스트 중에 열화상 카메라가 완전히 로드된-400G 스파인 스위치를 스윕하는 것을 보았습니다. 가장 인기 있는 모듈은 예상했던 모듈이 아니었습니다. ASIC 배기구의 바람이 불어오는 방향에 있는 코너 위치는 신선한 공기를 공급받는 전면판 중앙 모듈보다 더 뜨거워졌습니다. 표준 DDM 온도 판독값은 동일하다고 추정되는 포트 전반에 걸쳐 17도 확산된 것으로 나타났습니다.
모듈 사양은 0도에서 70도까지 작동을 약속하지만 성능 곡선은 70도와 25도에서 동일하게 보이지 않습니다. 레이저 임계값 전류가 증가합니다. 슬로프 효율성이 감소합니다. 파장 드리프트-CWDM4 및 DWDM 시스템의 경우 파장 드리프트는 인접 채널과의 혼선을 의미합니다.
공{0}}냉각식 시스템이 한계에 도달하고 있습니다. 스위치용 액체 냉각은 여전히 이색적이지만 GPU와 광학 장치가 동일한 열 예산을 놓고 경쟁하는 AI/ML 클러스터에는 점점 더 필요해지고 있습니다.

현실 테스트
IEEE 표준은 준수 사항을 정의합니다. 특정 링크의 작동을 보장하지는 않습니다.
TDECQ(Transmitter and Dispersion Eye Closure Quaternary)는 OMA(Optical Modulation Amplitude)와 동일한 PAM4이지만 더 복잡합니다. 이는 수신기 성능을 예측하는 방식으로 송신기 품질을 특성화하려고 시도합니다. 측정에는 끝없는 표준 위원회 논쟁을 일으키는 방식으로 테스트 장비 공급업체에 따라 달라지는 참조 수신기와 수학적 변환이 필요합니다.
사전{0}}FEC BER 테스트는 그 어느 때보다 중요합니다. 비트 오류의 "지문"-특정 PAM4 기호에 무작위 대 버스트, 균일하게 분포 대 집중-을 통해 FEC가 실제로 오류를 수정할 수 있는지 여부를 결정합니다. 실제 무작위 오류는 Reed-Solomon 코드에서 잘 작동합니다. 클록 복구 문제 또는 DSP 오작동으로 인한 버스트 오류는 원시 BER이 허용 가능한 것처럼 보일 때에도 FEC를 압도할 수 있습니다.
저는 FEC 이후뿐만 아니라 모든 400G 링크에서 -사전 FEC 통계를 요구하는 방법을 배웠습니다.- 0.00 post-pre를 실행하는 동안 FEC BER을 표시하는 링크-2×10⁻⁴의 FEC BER은 마진이 거의 남지 않는다는 사실을 깨닫기 전까지는 훌륭해 보입니다. 약간 더러워진 커넥터나 오래된 레이저를 추가하면 해당 링크는 경고 없이 FEC 절벽 위로 넘어갈 것입니다.
커넥터 오염
400G에서는 오염 문제가 심각해집니다. 변조된 눈은 마진이 적습니다. 낮은 속도에서는 보이지 않았던 입자가 이제는 중요해질 정도로 감쇠됩니다.
단일-모드 파이버 코어의 너비는 9마이크로미터입니다. MTP/MPO-12 커넥터는 8개의 활성 파이버 경로(TX 4개, RX 4개)와 미사용 4개를 전달합니다. 매 결합 주기마다 오염 위험이 있습니다. 모든 오염된 종단면은 링크 예산을 잠식하는 삽입 손실의 위험이 있습니다.
필요한 청소 규율은 협상할 수 없지만 일관되게 따르는 경우는 거의 없습니다.- 원클릭 세척제, 정전기가 걱정되는 건식 물티슈, 증발하지 않고 즉시 닦아내야 하는 이소프로필 알코올을 사용한 습식 세척-모든 방법에는 지지자와 비판자가 있습니다. 모두가 동의하는 것: 연결하기 전에 광섬유 스코프로 검사하고, 더러워지면 청소하고 다시 검사하십시오.
저는 배포 팀이 간헐적으로 발생하는 400G-DR4 링크 문제를 해결하는 데 오후 내내 시간을 낭비하는 것을 지켜보았습니다. 다중 모듈 교환. 구성 검토. 마침내 검사 범위를 벗어나 아무도 확인하지 못한 격벽 어댑터에서 건설 잔해를 발견했습니다. 4시간 동안 문제를 해결하지 못한 문제를 청소 도구를 사용하여 20초 만에 해결했습니다.

이것이 계획에 미치는 영향
지금 새로운 데이터 센터 패브릭을 배포하는 경우 400G는 스파인 레이어의 기준이 되며 리프-스파인 업링크의 기준이 점점 더 많아지고 있습니다. 비트당 비용은 400G 모듈의 4×100G 브레이크아웃이 개별 100G 모듈보다 저렴한 경우가 많을 정도로 떨어졌습니다. 건물 내부 30미터가 넘는 모든 것에 대한 DR4. 캠퍼스 상호 연결을 위한 FR4. 사이트 간에 연결하는 경우 LR4 또는 ZR.
처음으로 400G 배포를 고려 중인 기업이라면 스위칭 플랫폼이 성숙해지고 모듈 공급망이 안정화되었으며 가격 책정에 대해 더 이상 각 구매 주문에 대한 임원 승인이 필요하지 않습니다.- 리프-스파인 새로 고침으로 시작하고, 케이블링 인프라가 더 엄격한 오염 허용치를 처리할 수 있음을 입증하고, 관리 도구가 실제로 필요하기 전에 FEC 통계 수집을 시작해야 한다는 점을 이해하세요.
이 글을 읽는 하이퍼스케일러라면 이미 GPU 클러스터의 400G를 넘었고 1.6T가 실제로 어떻게 배포될지 궁금할 것입니다. 열 문제에 행운을 빕니다. 나는 2년 후에 당신의 논문을 읽을 것입니다.
모듈 자체는 놀라울 정도로 신뢰성이 높아졌습니다. 문제는 오염된 커넥터, 잘못 구성된 FEC 모드, 어제의 전력 한계를 가정한 열 설계, PAM4 신호 무결성 문제를 해결하는 방법을 여전히 학습 중인 지원 조직 등 다른 모든 곳에 존재합니다. 눈에 띄지 않는 기본 사항은-커넥터 청소, 온도 측정, FEC 예산 이해-사양 시트 논쟁보다 더 중요합니다.


