CAD-Bench

An open benchmark for AI CAD agents. 70 tasks across 20 categories, evaluated on 20 agents.

data source: live (9 runs · 1 agents × 9 tasks) · synthetic baseline for the rest

#	Agent	Score	Pass@1	Latency	$/task
1	Human Baseline (Mech-E) n=4 senior engineers	86.0	46%	728.3s	$6.064
2	Zoo Text-to-CAD Zoo (KittyCAD)	71.8	7%	6.1s	$0.178
3	OpenAI o4 (reasoning) → CadQuery OpenAI + CadQuery 2.4	70.0	9%	110.0s	$1.106
4	Adam (CADcrush) CADcrush	64.4	1%	9.7s	$0.272
5	GPT-5 → CadQuery OpenAI + CadQuery 2.4	64.1	4%	39.8s	$0.205
6	Claude Sonnet 4.6 → CadQuery Anthropic + CadQuery 2.4	62.5	0%	18.3s	$0.069
7	Claude Opus 4.7 → CadQuery Anthropic + CadQuery 2.4	62.1	10%	34.9s	$0.309
8	CAD-Coder R1 CAD-Coder Labs (research)	57.6	0%	6.0s	$0.005
9	DeepSeek R1 (reasoning) → CadQuery DeepSeek + CadQuery 2.4	57.4	0%	93.8s	$0.040
10	Gemini 2.5 Flash → CadQuery Google + CadQuery 2.4	56.2	0%	12.3s	$0.020
11	Qwen3 Coder → CadQuery Alibaba + CadQuery 2.4	55.0	0%	17.3s	$0.031
12	Claude Opus 4.7 → OpenSCAD Anthropic + OpenSCAD 2024.06	54.5	0%	31.3s	$0.311
13	Gemini 2.5 Pro → OpenSCAD Google + OpenSCAD 2024.06	50.2	0%	29.5s	$0.091
14	Claude Haiku 4.5 → CadQuery Anthropic + CadQuery 2.4	46.0	0%	8.0s	$0.020
15	GPT-5 Mini → OpenSCAD OpenAI + OpenSCAD 2024.06	45.8	0%	14.0s	$0.010
16	DeepCAD Wu et al. 2021 (research)	44.3	0%	4.8s	$0.020
17	Llama 3.3 70B → OpenSCAD Meta + OpenSCAD 2024.06	41.9	0%	21.2s	$0.020
18	Trellis 3D Microsoft Research	21.9	0%	11.9s	$0.049
19	Hunyuan3D-2 Tencent	19.0	0%	34.0s	$0.070
20	Spline AI Spline.design	16.3	0%	8.2s	$0.040