Windows용 OpenAI의 Whisper를 사용하여 음성을 텍스트로 변환하는 방법
OpenAI의 Whisper는 음성을 텍스트로 변환할 수 있는 새로운 AI 기반 솔루션입니다. 무엇보다 비용이 전혀 들지 않습니다.
그러나 문제가 있습니다. 일반 Windows 유틸리티보다 설치 및 사용이 더 어렵습니다. 특히 Nvidia GPU의 Tensor 코어를 사용하여 멋진 부스트를 제공하려는 경우.
하지만 초조해하지 마세요. 그것이 우리가 여기 있는 이유입니다! 설치 및 사용 방법을 알아보고 Whisper가 Nvidia GPU를 활용하도록 하려면 계속 읽어보세요.
OpenAI의 속삭임이란?
ChatGPT는 요즘 대세이며 OpenAI에서 ChatGPT를 사용하는 방법을 이미 살펴봤습니다. 그러나 OpenAI의 유일한 흥미로운 프로젝트는 아닙니다.
딥 러닝과 신경망으로 구동되는 Whisper는 음성을 “이해”하고 이를 텍스트로 변환할 수 있는 자연어 처리 시스템입니다. 그러나 그것은 또한 모든 유사한 솔루션 사이에서 바로 자리에 앉아 그 자체입니다.
- Whisper는 자연어에 대해 “훈련”된 AI 솔루션입니다. 따라서 이전 솔루션보다 “정상적인” 인간의 말을 더 잘 이해합니다.
- Whisper는 인터페이스와 함께 제공되지 않으며 오디오를 녹음할 수도 없습니다. 기존 오디오 파일과 출력 텍스트 파일만 가져올 수 있습니다.
- Whisper는 “언어 이해하기”에 능하기 때문에 한 번에 자동 번역하는 초강력 기능도 갖추고 있습니다.
- Whisper는 온라인 서비스가 아니며 완전히 오프라인으로 작동할 수 있습니다.
- 비교적 최신 Nvidia GPU(GTX970 이상)가 있는 경우 Whisper는 “하드웨어 가속 모드”에서 실행하여 속도를 높일 수 있습니다.
- 등록, 라이센스 구매 또는 구독 구매에 대한 요구 사항은 없습니다.
AMD GPU가 지원되지 않는 이유는 무엇입니까?
GPU가 그래픽 이상의 용도로 유용하려면 완전히 프로그래밍 가능한 프로세서로 작동해야 합니다. 이것이 Nvidia가 공식적으로 “병렬 컴퓨팅 플랫폼 및 프로그래밍 모델”로 간주되는 CUDA를 만든 이유입니다. CUDA 및 관련 하드웨어(“CUDA 코어”)에 대해 자세히 알아보려면 CUDA 코어란 무엇이며 PC 게임을 개선하는 방법에 대한 기사를 읽어보십시오.
CUDA는 독점 Nvidia 기술이며 Nvidia GPU와만 호환됩니다. AMD 하드웨어의 가장 가까운 대안은 OpenCL 및 Radeon Compute Platform입니다. 각 회사의 솔루션을 비교하는 방법에 대해 자세히 알아보려면 AMD 컴퓨팅 장치와 Nvidia CUDA 코어에 대한 기사를 확인하십시오.
대안에 비해 CUDA는 더 성숙하고 성능이 뛰어나며 사용하기 쉬운 것으로 간주됩니다. 따라서 대부분의 개발자는 CUDA만 대상으로 하며, 이는 소프트웨어가 Nvidia GPU의 하드웨어 기능만 활용한다는 것을 의미합니다. 여기에는 Whisper가 포함됩니다.
Whisper 다운로드 및 설치 방법
아쉽게도 Whisper는 다운로드, 설치 및 실행할 수 있는 독립 실행형 앱이 아닙니다. 또한 설치해야 하는 다른 소프트웨어에 의존합니다.
Windows의 경우 이 가이드를 간단하게 유지하기 위해 대부분의 필수 소프트웨어 부품을 설치하는 데 Chocolatey를 광범위하게 사용합니다. Chocolatey에 대한 자세한 내용은 Windows 소프트웨어를 설치하는 가장 빠른 방법에 대한 가이드를 확인하세요.
Linux 및 Mac의 경우 설치 프로세스(Windows 경로 변수 및 생성할 사용하기 쉬운 배치 파일 제외)는 유사해야 합니다.
- Whisper를 설치하고 사용하려면 Python 과 해당 PIP 도구가 설치되어 있고 Windows “경로” 변수에 추가되어 있어야 합니다. 이에 대한 정보는 Windows, Mac 및 Linux에 Python PIP를 설치하는 방법에 대한 기사를 확인하십시오.
- 다음 명령을 사용하여 Chocolatey를 통해 FFMPEG 를 설치합니다 . 또한 다음을 사용하여 Python 버전을 설치합니다.
choco install ffmpeg
pip3 install python-ffmpeg
- 마지막으로 다음을 사용하여 Github 페이지에서 Whisper를 설치합니다.
pip3 install git+https://github.com/openai/whisper.git
Whisper의 CUDA 지원 버전 얻기
Whisper는 Nvidia GPU를 사용하지 않지만, Whisper가 의존 하는 토치 패키지는 CUDA 가속 버전을 제공합니다. “일반” 버전 대신 이것을 사용하면 Whisper가 Nvidia GPU의 도움으로 훨씬 더 빠르게 전사를 완료하는 데 도움이 될 수 있습니다.
Whisper가 Nvidia GPU의 CUDA 코어를 사용하도록 하려면:
- “바닐라” 버전의 토치가 이미 설치되어 있는 경우 다음을 사용하여 제거하고 나머지를 제거하십시오. 완료되면 다음을 따르십시오.
pip3 uninstall torch
pip cache purge
- 다음을 사용하여 토치의 CUDA 지원 버전을 설치합니다.
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
- Whisper가 Nvidia GPU를 사용할 수 있는지 확인하려면 다음을 사용하세요. (기본값: cpu) 대신 (기본값: cuda) 가 표시되어야 합니다 .
whisper --help | findstr -i pytorch
Torch 설치에 실패할 경우 수행할 작업
Torch를 설치하는 동안 “버전을 찾을 수 없음” 오류가 발생하면 현재 버전과 병렬로 이전 버전의 Python을 설치해야 할 수 있습니다.
그렇게 하려면 다음 명령을 사용하십시오.
choco install python --version OLDER_VERSION --side-by-side
“OLDER_VERSION”을 3.10과 같은 버전으로 바꾸십시오.
그런 다음 모든 “일반” Whisper 명령에 대해 보조 버전의 경로를 사용합니다(예: “pip”가 아닌 “c:\Python310\Scripts\pip.exe”).
목소리를 녹음하는 방법
모든 녹음 앱을 사용하여 음성을 WAV 또는 MP3 파일로 변환할 수 있습니다. Windows에는 이러한 앱이 포함되어 있습니다. 이에 대한 자세한 내용은 Windows 10 음성 녹음기 앱 사용 방법을 참조하세요.
더 많은 기능을 갖춘 옵션을 보려면 Audacity 를 사용해 보십시오 . Audacity를 사용하여 Windows 및 Mac에서 오디오를 녹음하는 방법에 대한 가이드를 통해 방법을 알아보세요.
Whisper로 전사를 시작하는 방법
Whisper에는 사용자 친화적인 GUI가 제공되지 않지만 사용법은 매우 간단합니다.
c:\MyAudioFiles 폴더 에 그리스어 음성이 포함된 LatestNote.mp3 파일이 있고 이를 영어로 번역하고 텍스트 파일로 기록하려고 한다고 가정해 보겠습니다.
- 명령 프롬프트 또는 PowerShell 을 실행하여 시작 합니다 .
- 다음 명령을 사용하여 오디오 파일이 저장된 “디렉토리를 변경”합니다.
cd C:\MyAudioFiles
- 다음을 사용하여 파일에서 Whisper를 실행합니다.
whisper --model base --language gr --task translate LatestNote.mp3
처리가 완료되면 텍스트 파일(“LatestNote.mp3.txt”)이 같은 폴더에 나타납니다. 번역된 텍스트를 보려면 메모장 과 같은 텍스트 편집기에서 엽니다 .
우리는 번역 예를 사용했습니다. 영어 표기가 훨씬 더 간단하기 때문입니다. “-언어” 및 “-작업” 플래그만 “잃어버리면” 됩니다. 따라서 일반 전사의 경우 위의 명령은 다음과 같습니다.
whisper --model base LatestNote.mp3
Whisper는 다양한 옵션 중 하나를 사용하기 때문에 “모델” 플래그가 필요합니다. 필요에 가장 적합한 것을 선택하는 데 도움이 되도록 확장해 보겠습니다.
어떤 모델을 선택해야 합니까?
Whisper는 다양한 언어 모델을 제공합니다. 모델이 클수록 정확도가 향상되지만 하드웨어 요구 사항도 높아집니다. 그들은:
- 매우 작은.
- 베이스.
- 작은.
- 중간.
- 크기가 큰.
대부분의 영어 원어민은 작 거나 기본 모델에 적합합니다. 영어가 모국어가 아닌 사용자는 small 및 medium 과 같은 더 큰 모델에서 더 나은 결과를 볼 수 있습니다 .
그러나 중형 및 대형 모델에는 8GB 이상의 VRAM(즉, “GPU 메모리”)이 필요합니다.
그 중 하나를 선택하려면 명령에서 “–model” 스위치 다음에 모델을 지정하십시오.
whisper --model tiny/small/medium/large [file]
예를 들어:
whisper --model small My_Voice_Note.mp3
전사를 간소화하는 방법
일부 오디오를 녹음할 때마다 전체 Whisper 명령을 입력해야 하는 것은 금방 지루해질 수 있습니다. 프로세스를 간소화하기 위해 전역에서 액세스할 수 있는 배치 파일을 만들어 보겠습니다.
- Windows 탐색기 를 실행 하고 C: 드라이브를 방문하십시오.
- 스크립트용 폴더를 만들고 해당 경로를 클립보드에 복사합니다.
- Windows 시작 메뉴에서 “경로”를 검색 하고 시스템 환경 변수 편집 을 선택합니다 .
- YOUR_USERNAME에 대한 사용자 변수 에서 경로 변수 를 찾으십시오 . 편집하려면 두 번 클릭하십시오. 새로 만들기 를 클릭하고 스크립트 폴더의 경로를 붙여넣습니다. 확인 을 클릭 하여 변경 사항을 수락합니다.
- Windows 탐색기에서 스크립트 폴더로 돌아갑니다. “wht.bat”라는 새 배치 파일을 만듭니다. “내부”에 다음 명령을 입력합니다.
whisper --model tiny --language en %1
- 배치 파일 “whs” 및 “whm”을 두 개 더 만듭니다.
- 이것을 첫 번째 스크립트 안에 넣으십시오.
whisper --model small --language en %1
- 이것을 두 번째 안에 넣으십시오.
whisper --model medium --language en %1
축하합니다. 이제 Whisper의 소형, 소형 및 중형 모델을 오디오 파일과 함께 쉽게 사용할 수 있는 세 가지 스크립트가 생겼습니다! 오디오 파일을 텍스트로 변환하려면:
- Windows 파일 탐색기 로 파일을 찾습니다 .
- 빈 곳을 마우스 오른쪽 버튼으로 클릭 하고 터미널에서 열기를 선택합니다 .
- 중소형 언어 모델을 사용하려면 “wht”를 “whs” 또는 “whm”으로 대체하여 이 명령을 입력합니다.
wht YOUR_AUDIO_FILE.mp3
속삭임으로 소리의 속도로 타이핑
가장 빠른 터치 타이피스트조차도 우리가 말하는 속도를 따라갈 수 없습니다. 그러나 최근까지 타이핑 대신 말하는 것이 문서 작성에 적합하지 않았습니다.
대부분의 음성-텍스트 솔루션은 평범한 결과를 낳았습니다. 시도해 볼 가치가 있는 몇 가지 솔루션을 찾을 수 있지만 사용하기 복잡하거나 비용이 많이 듭니다. 고맙게도 Whisper는 모든 것을 바꿨습니다.
위의 단계를 완료하면 단일 명령만 사용하여 음성을 매우 정확하게 전사하거나 번역할 수 있습니다.
답글 남기기