CTIBench (Average) ctibench Leaderboard

#	Model	Average Score	Paper
1	GPT-4	69.60	—
2	GPT-3.5-Turbo	62.60	—
3	Mistral-7B-v0.1	58.10	—
4	Zephyr-7B-beta	57.70	—
5	Vicuna-13B-v1.5	57.30	—
6	Mistral-7B-Instruct-v0.1	55.00	—
7	Llama-2-13B	54.10	—
8	Vicuna-7B-v1.5	53.00	—
9	Llama-2-7B	50.60	—
10	Llama-2-13B-Chat	45.00	—
11	Llama-2-7B-Chat	44.60	—
12	Falcon-7B	39.40	—
13	Falcon-7B-Instruct	37.50	—

CTIBench (Average) ctibench Leaderboard