GPU는 많이 사용하면 마모됩니까?

GPU는 많이 사용하면 마모됩니까?

집약적인 게임, GPU 컴퓨팅, 그래픽 렌더링, Folding@home 또는 GPU에서 암호화 마이닝을 계획하는 경우 GPU를 과도하게 사용하여 마모되는 것에 대해 걱정할 수 있습니다. 하지만 그럴까요? 조사하겠습니다.

네, 하지만 어렵습니다.

그래픽 카드의 수명에 대해 인터넷에서 찾은 정보의 대부분은 일화이며, 그 숫자는 누구에게 묻는지에 따라 크게 다를 수 있습니다. 지난 10년 동안 수백 가지의 서로 다른 그래픽 카드 모델이 출시됨에 따라 이처럼 엄청나게 다른 카드의 데이터를 단순한 일반화로 좁히기는 어렵습니다.

우리가 지금까지 알고 있는 것은 다음과 같습니다. 독일 소매업체의 2020년 보고서 에 따르면 최신 그래픽 카드의 전체 고장률은 약 2-5%입니다(소매업체에 대한 반품으로 측정). 그리고 2021년에 Nvidia 는 여전히 약 9-10년 된 카드(예: GTX 600 시리즈)에 대한 드라이버 업데이트 를 출시하고 있었기 때문에 10년 동안 잘 만들어진 GPU 카드를 기대할 수 있습니다. 더 멀리 보자.

숫자에 관계없이 무거운 물리학이 여기에서 작동합니다. GPU 카드에 사용되는 재료와 구성 요소는 마법이 아닙니다. 더 많이 사용할수록 더 빨리 마모되고 완전히 고장날 가능성이 높아집니다. 따라서 집중적인 사용은 기대 수명에 영향을 미칩니다.

GPU 카드에 결함이 있는지 여부는 GPU 사용량, 회로의 온도 변동 특성 및 정도, 카드를 껐다 켰다 하는 횟수, 청소 상태 등 완전히 다른 변수에 따라 다릅니다. 운영환경 다.

GPU 카드는 많은 부품으로 구성된 복잡한 장치이기 때문에 각각의 부품이 고장나거나 성능이 저하될 수 있습니다. GPU 카드의 몇 가지 주요 부분을 살펴보고 시간이 지남에 따라 과도하게 사용하면 어떻게 마모될 수 있는지 알아보겠습니다.

가장 먼저 해야 할 일: 냉각 팬

먼저 고장날 수 있는 그래픽 카드의 모든 부품 중에서 물리적으로 움직이는 부품인 냉각 팬(또는 팬)을 가리켜야 합니다. 팬은 GPU 칩(방열판 포함)에서 뜨거운 공기를 빼내어 GPU를 냉각시켜 GPU가 계속 작동할 수 있도록 합니다.

열이 나쁜 이유는? 열이 충분 하면 트랜지스터가 제대로 작동하지 않아 GPU 카드가 작동하지 않습니다. 더 많은 열로 인해 카드의 미세 회로에 있는 트랜지스터가 복구할 수 없을 정도로 손상 될 수 있습니다 .

시간이 지남에 따라 냉각 팬은 종종 먼지로 막혀 공기를 효율적으로 이동시키는 능력이 감소합니다. 또는 내부 윤활이 실패하면 팬이 완전히 고장날 수 있습니다. 모든 스크립트는 GPU의 온도를 높입니다.

각 GPU는 열 조절로 과열로부터 자신을 보호하여 GPU 속도를 낮추어 작동 온도를 낮춥니다. 이것은 성능을 심각하게 제한합니다. 따라서 GPU가 정상보다 갑자기 시끄럽거나(팬 회전 속도가 더 빠름) 성능이 저하되는 경우 압축 공기로 GPU 냉각 팬과 방열판을 철저히 청소하십시오.

GPU 냉각 팬이 완전히 고장난 경우 컴퓨터 부품 공급업체에서 유사한 팬을 찾을 수 있으면 일반적으로 교체할 수 있습니다.

또 다른 용의자: 열 페이스트 결함

각 방열판과 GPU 칩 사이에는 퍼티 또는 페이스트와 같은 열전도성 재료 층이 있어 GPU 칩에서 방열판으로 열을 전달하는 데 도움이 됩니다.

시간이 지남에 따라 써멀 페이스트가 갈라지거나 효과가 떨어질 수 있습니다. 이런 일이 발생하면 방열판이 효율적으로 냉각되지 않고 GPU의 온도가 상승합니다. 위의 팬 섹션에서 보았듯이 GPU 온도가 높으면 열 조절이 발생하여 GPU 속도가 느려집니다.

이 경우 가장 좋은 해결책은 서멀 페이스트를 직접 교체하는 것입니다. 컴퓨터 하드웨어 공급업체에서 열 페이스트를 구입할 수 있습니다.

다른 부품의 결함, 땜납

GPU 칩 외에도 그래픽 카드에는 커패시터, 저항기, 메모리 칩 등과 ​​같은 수십 개의 다른 전자 부품이 포함될 것입니다. 이들 중 하나는 과도하게 사용하거나 너무 많은 열에 노출되어 잠재적으로 실패할 수 있습니다. 일부는 다른 것보다 실패할 가능성이 더 큽니다.

특히 커패시터 는 시간이 지남에 따라 고장 납니다. 빈번한 온도 변화에 민감하며 일부는 첫 생산에 결함이 있습니다. 커패시터 문제를 해결할 수 있을 만큼 잘 알고 있다면 동등한 교체 부품을 찾을 수 있다면 GPU 카드에서 결함이 있는 커패시터를 잠재적으로 교체 할 수 있습니다.

또한 칩과 구성 요소를 GPU 카드 회로 기판에 연결하는 솔더는 잦은 온도 변화, 거친 취급, 부적절한 보관 또는 과열로 인해 시간이 지남에 따라 노후화되고 금이 갈 수 있습니다 . 예, GPU를 많이 사용하면 솔더 조인트 고장의 위험이 증가할 수 있습니다. 불량 솔더 조인트를 수리하는 것은 기술적으로 어려울 수 있지만 불가능한 것은 아닙니다 .

GPU 칩 자체의 오류

따라서 문제는 남아 있습니다. GPU 칩을 과도하게 사용하면 시간이 지남에 따라 마모될 수 있습니까? 대답은 이론적으로 극단적인 상황에서 예입니다. 그러나 그보다 훨씬 전에 그래픽 카드의 다른 구성 요소가 고장나는 것을 보게 될 가능성이 큽니다.

비디오 카드의 GPU 칩에는 실리콘 조각에 에칭된 수백만 또는 수십억 개의 트랜지스터가 있습니다. 트랜지스터 는 시간이 지남 에 따라 노화되어 성능에 영향을 미칩니다. 충분한 트랜지스터가 잘못되면 칩이 실패합니다.

Semiconductor Engineering 에 따르면 트랜지스터가 노후화( 그 중 하나는 열 ) 로 인해 시간이 지남에 따라 고장나는 데에는 몇 가지 주요 이유 가 있으며 칩의 요소가 작을수록 오류가 발생할 가능성이 더 큽니다. 전문가들은 오늘날 만들어진 컴퓨터 칩이 1990년대에 만들어진 칩만큼 오래 가지 못할 것이라고 생각하지만 , 기술이 너무 새롭기 때문에 정확한 수명을 예측하는 것은 여전히 ​​추측 입니다.

NVIDIA는 현재 소비자용 그래픽 카드에 대한 MTBF (Mean Time Between Failures) 등급을  게시 하지 않지만 일부 산업 및 비즈니스 그래픽 가속기에 대해서는 이를 게시합니다. 예를 들어 Tesla K20X GPU 가속기의 데이터시트에 따르면 카드의 MTBF(35°C/95F)는 “통제되지 않은 환경”의 경우 14.7년이고 “통제된 환경”의 경우 23.8년입니다. (일반적으로 산업용 그래픽 하드웨어는 소비자용 그래픽 하드웨어보다 더 안정적이고 과도한 사용을 견딜 수 있는 것으로 간주됩니다.)

흥미롭게도 우리는 이 이론적인 수치를 현장에서 얻은 정확한 데이터와 비교할 수 있습니다. GPU 수명에 대한 몇 안 되는 경험적 연구 중 하나는 Oak Ridge 국립 연구소에서 저술한 ” Titan Supercomputer의 GPU 수명: 생존 및 신뢰성 분석 ” 이라는 제목의 2020년 논문에서 나온 것 입니다. 이 논문 은 거의 7년(2012-2019) 동안 현재 사용이 중단된 Cray XK7 Titan 슈퍼컴퓨터 에 사용된 18,688 Nvidia K20X Kepler GPU 카드의 안정성을 보고합니다 .

연결 문제로 인해 초기에 몇 가지 오류가 발생한 후 XK7 그래픽 카드가 2016년(약 3-4년)까지 비교적 높은 안정성을 보였다는 사실을 알게 되었고, 그 때 많은 제품이 실패하기 시작했습니다. 하지만 뭔지 알아? 그들은 첫 번째 카드 배치(교체 전)에서 대부분의 오류를 GPU 칩 자체가 아니라 그래픽 카드 PCB의 결함 있는 저항으로 추적했습니다. 전반적으로, 이 연구의 저자는 많이 사용되는 K20X 그래픽 카드의 MTBF가 약 3년(Nvidia의 데이터시트에 명시된 14-23년이 아님)이며, 코어에서 가장 인기 있는 카드 중 일부가 가장 먼저 고장나는 것으로 나타났습니다. 그들은 “GPU 신뢰성은 방열에 달려있다”고 결론지었습니다.

따라서 그래픽 카드를 세계에서 가장 큰 슈퍼컴퓨터 중 하나(당시)만큼 세게 사용하면 더 빨리 마모되고 GPU 칩 자체가 고장나기 훨씬 전에 팬 및 저항기와 같은 다른 구성 요소가 고장날 가능성이 높습니다. 우리가 예측할 수 없는 요인에 따라 시간이 달라집니다.

결국 더위는 적이다.

결국, 우리가 읽은 모든 출처에서 GPU 카드가 얼마나 오래 지속되는지를 결정하는 가장 중요한 요소는 얼마나 뜨거운지입니다. 카드가 뜨거울수록 모든 구성 요소가 더 빨리 저하됩니다. 또한 카드가 뜨거울수록 치명적인 오류를 방지하기 위해 성능이 저하됩니다. 냉각이 잘되면 카드의 수명이 연장되고 성능이 향상됩니다.

따라서 암호 화폐를 사용하든 게임을 하든 깨끗하게 작동하는 팬과 효과적인 써멀 페이스트로 그래픽 카드를 충분히 차갑게 유지하는 한 운이 좋다면 오랫동안 사용할 수 있는 고성능 카드를 갖게 될 것입니다. 구식으로 업데이트합니다.

중고 GPU 구매를 고려하고 있다면 소유자가 GPU를 어떻게 처리하고 사용했는지를 포함하여 사용 이력을 반드시 고려해야 합니다. 더 많이 사용되는 카드(지금 작동하는 카드)는 단기적으로는 잘 작동하지만 장기적으로는 실패할 가능성이 더 높습니다. 카드의 수명을 정확히 알 수는 없지만 과도하게 사용하면 확실히 그래픽 카드가 더 빨리 마모됩니다.

행운을 빕니다!

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다