Ik heb een paar bedenkingen bij de OpenAI API: Voor een Linux-gebruiker kun je zo'n systeem al vrij triviaal zelf bouwen door een 4xH100 box aan te schaffen, deze thuis te installeren, CUDA en vLLM lokaal te installeren en GLM, Kimi of een vergelijkbaar open-source model te draaien. Met typische consumentenwerkbelastingen kun je hogere TPS verwachten voor een fractie van de kosten.