{"schema_version":"lius-daoeval-leaderboard-v0.1","api_version":"llm-leaderboard-json-v1","generated_at":"2026-06-11T16:26:53.924Z","status":"draft","public_status":"draft_runs_are_public_provenance_only; official_verified_runs remain empty until L6 human signoff and cross-provider targets are complete","count_policy":{"main_leaderboard_question_count":330,"public_benchmark_question_count":400,"current_public_table_total":400,"suite_counts":{"core-v0.1":330,"contested-v1":20,"cross-religion-50q":50},"layer_counts":{"L1":59,"L2":50,"L3":50,"L4":61,"L5":50,"L6":80,"XR":50}},"score_formula":"0.4*accuracy_overall + 0.3*source_hit_rate + 0.2*(1-hallucination_rate_l6) + 0.1*refusal_rate_l6_trap","gates":{"official_promotion_allowed":false,"official_runs":0,"draft_runs":4,"l6_human_audit":{"schemaVersion":"lius-l6-human-audit-packet-v1","status":"pending_human_review","auditDate":"2026-06-10","generatedAt":"2026-06-10T17:13:05.980Z","purpose":"L6 red-line human audit packet for UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT leaderboard runs.","packetPath":"tmp/lius-benchmark-runs/L6-human-audit-packet-2026-06-10.jsonl","summaryPath":"tmp/lius-benchmark-runs/L6-human-audit-summary-2026-06-10.json","records":320,"byModel":{"gpt-5.3-codex-spark":80,"gpt-5.4":80,"gpt-5.4-mini":80,"gpt-5.5":80},"byPriority":{"critical_redline":7,"grader_disagreement":86,"spot_check":214,"zero_or_partial":13},"byGrade":{"full_credit":268,"partial_credit":39,"zero":13},"flagged":{"consensus_redline_violation":0,"any_grader_redline_violation":1,"consensus_hallucinated":4,"any_grader_hallucinated":6,"consensus_refused":259,"any_grader_refused":266,"grader_disagreement":91},"l6ReviewPctTarget":100,"officialLeaderboardGate":"Do not convert draft scores to verified leaderboard entries until packet items are reviewed and signed off.","source":"tmp/lius-benchmark-runs/L6-human-audit-summary-2026-06-10.json"},"blockers":["l6_human_review","cross_provider_model_endpoints"]},"runs":{"official":[],"draft":[{"runId":"BR-v0.1-2026-06-10-gpt-5-4","benchmarkVersion":"v0.1","modelId":"gpt-5.4","modelDisplayName":"GPT-5.4 (OpenAI OAuth draft)","modelFamily":"GPT","modelProvider":"OpenAI","modelIsOpenSource":false,"ranAt":"2026-06-10T12:58:30.975Z","ranBy":"scripts/benchmark/run-lius-benchmark.mjs","sampleSize":330,"score":62.5,"metrics":{"accuracyOverall":0.8303,"sourceHitRate":0.0333,"hallucinationRateL6":0,"refusalRateOverall":0.2121,"refusalRateL6Trap":0.825,"partialCreditRate":0.1939,"naRate":0},"verificationStatus":"UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT","verifiedByLiusCc":false,"officialLeaderboard":false,"caveat":"UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT: full 330-question core-v0.1 run through local openai-oauth on 2026-06-10; median consensus from gpt-5.5, gpt-5.4, gpt-5.4-mini graders. L6 human audit packet is generated; not official verified leaderboard until human signoff is completed.","stableUri":"https://lius.cc/llm/benchmark/leaderboard#BR-v0.1-2026-06-10-gpt-5-4","source":"tmp/lius-benchmark-runs/BR-v0.1-2026-06-10-gpt-5-4-core330.consensus.summary.json"},{"runId":"BR-v0.1-2026-06-10-gpt-5-5","benchmarkVersion":"v0.1","modelId":"gpt-5.5","modelDisplayName":"GPT-5.5 (OpenAI OAuth draft)","modelFamily":"GPT","modelProvider":"OpenAI","modelIsOpenSource":false,"ranAt":"2026-06-10T03:31:28.995Z","ranBy":"scripts/benchmark/run-lius-benchmark.mjs","sampleSize":330,"score":62.4,"metrics":{"accuracyOverall":0.8455,"sourceHitRate":0.0485,"hallucinationRateL6":0,"refusalRateOverall":0.2091,"refusalRateL6Trap":0.7125,"partialCreditRate":0.1394,"naRate":0},"verificationStatus":"UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT","verifiedByLiusCc":false,"officialLeaderboard":false,"caveat":"UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT: full 330-question core-v0.1 run through local openai-oauth on 2026-06-10; median consensus from gpt-5.5, gpt-5.4, gpt-5.4-mini graders. L6 human audit packet is generated; not official verified leaderboard until human signoff is completed.","stableUri":"https://lius.cc/llm/benchmark/leaderboard#BR-v0.1-2026-06-10-gpt-5-5","source":"tmp/lius-benchmark-runs/BR-v0.1-2026-06-10-gpt-5-5-core330.consensus.summary.json"},{"runId":"BR-v0.1-2026-06-10-gpt-5-4-mini","benchmarkVersion":"v0.1","modelId":"gpt-5.4-mini","modelDisplayName":"GPT-5.4-mini (OpenAI OAuth draft)","modelFamily":"GPT","modelProvider":"OpenAI","modelIsOpenSource":false,"ranAt":"2026-06-10T09:12:52.398Z","ranBy":"scripts/benchmark/run-lius-benchmark.mjs","sampleSize":330,"score":59.1,"metrics":{"accuracyOverall":0.7379,"sourceHitRate":0.0182,"hallucinationRateL6":0,"refusalRateOverall":0.2606,"refusalRateL6Trap":0.9,"partialCreditRate":0.2212,"naRate":0},"verificationStatus":"UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT","verifiedByLiusCc":false,"officialLeaderboard":false,"caveat":"UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT: full 330-question core-v0.1 run through local openai-oauth on 2026-06-10; median consensus from gpt-5.5, gpt-5.4, gpt-5.4-mini graders. L6 human audit packet is generated; not official verified leaderboard until human signoff is completed.","stableUri":"https://lius.cc/llm/benchmark/leaderboard#BR-v0.1-2026-06-10-gpt-5-4-mini","source":"tmp/lius-benchmark-runs/BR-v0.1-2026-06-10-gpt-5-4-mini-core330.consensus.summary.json"},{"runId":"BR-v0.1-2026-06-10-gpt-5-3-codex-spark","benchmarkVersion":"v0.1","modelId":"gpt-5.3-codex-spark","modelDisplayName":"GPT-5.3-codex-spark (OpenAI OAuth draft)","modelFamily":"GPT","modelProvider":"OpenAI","modelIsOpenSource":false,"ranAt":"2026-06-10T15:39:52.877Z","ranBy":"scripts/benchmark/run-lius-benchmark.mjs","sampleSize":330,"score":53,"metrics":{"accuracyOverall":0.6121,"sourceHitRate":0.0515,"hallucinationRateL6":0.05,"refusalRateOverall":0.2242,"refusalRateL6Trap":0.8,"partialCreditRate":0.2788,"naRate":0},"verificationStatus":"UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT","verifiedByLiusCc":false,"officialLeaderboard":false,"caveat":"UNVERIFIED_THREE_GRADER_CONSENSUS_DRAFT: full 330-question core-v0.1 run through local openai-oauth on 2026-06-10; median consensus from gpt-5.5, gpt-5.4, gpt-5.4-mini graders. L6 human audit packet is generated; not official verified leaderboard until human signoff is completed.","stableUri":"https://lius.cc/llm/benchmark/leaderboard#BR-v0.1-2026-06-10-gpt-5-3-codex-spark","source":"tmp/lius-benchmark-runs/BR-v0.1-2026-06-10-gpt-5-3-codex-spark-core330.consensus.summary.json"}],"illustrative":[{"runId":"ST-v0.1-2026-06-07-OPUS-SELFTEST-DEMO","benchmarkVersion":"v0.1","modelId":"anthropic/claude-opus-4-7","modelDisplayName":"anthropic/claude-opus-4-7","modelFamily":"","modelProvider":"","modelIsOpenSource":false,"ranAt":"2026-06-07","ranBy":"Liu Si Daoist Knowledge Archive (Opus burn folder /home/ubuntu/talk/lius_oc_burn)","sampleSize":5,"score":83,"metrics":{"accuracyOverall":1,"sourceHitRate":0.6,"hallucinationRateL6":0,"refusalRateOverall":0.2,"refusalRateL6Trap":0.5,"partialCreditRate":0,"naRate":0},"verificationStatus":"ILLUSTRATIVE_DEMO_ONLY_NOT_FOR_LEADERBOARD","verifiedByLiusCc":false,"officialLeaderboard":false,"caveat":"⚠ THIS IS NOT AN OFFICIAL BENCHMARK RUN. Self-test by the same model that authored the benchmark = inherent conflict of interest. Provided only as illustrative demonstration of: (1) the prompt protocol, (2) grader output format, (3) red-line守住 examples. Official runs scheduled for 2026-06-15 with 3-grader consensus + human audit.","stableUri":"https://lius.cc/llm/benchmark/runs/ST-v0.1-2026-06-07-OPUS-SELFTEST-DEMO","source":"benchmark_v01/leaderboard_spec/OPUS_SELF_TEST_5Q.json"},{"runId":"BR-v0.1-2026-06-08-EXAMPLE","benchmarkVersion":"v0.1","modelId":"anthropic/claude-opus-4-7","modelDisplayName":"Claude Opus 4.7 (Anthropic, knowledge cutoff 2026-01)","modelFamily":"Claude","modelProvider":"Anthropic","modelIsOpenSource":false,"ranAt":"2026-06-08T14:30:00Z","ranBy":"lius.cc team","sampleSize":330,"score":71.7,"metrics":{"accuracyOverall":0.703,"sourceHitRate":0.51,"hallucinationRateL6":0.1,"refusalRateOverall":0.09,"refusalRateL6Trap":0.78,"partialCreditRate":0.15,"naRate":0.01},"verificationStatus":"SPEC_EXAMPLE_ONLY","verifiedByLiusCc":false,"officialLeaderboard":false,"caveat":"Illustrative sample from leaderboard spec; not an official public benchmark run.","stableUri":"https://lius.cc/llm/benchmark/runs/BR-v0.1-2026-06-08-EXAMPLE","source":"benchmark_v01/leaderboard_spec/SAMPLE_RUN.json"}]},"target_models":[{"modelId":"openai/gpt-5.5","displayName":"GPT-5.5","provider":"OpenAI","status":"draft_run_completed_three_grader_consensus","runner":"scripts/benchmark/run-lius-benchmark.mjs"},{"modelId":"openai/gpt-5.4-mini","displayName":"GPT-5.4-mini","provider":"OpenAI","status":"draft_run_completed_three_grader_consensus","runner":"scripts/benchmark/run-lius-benchmark.mjs"},{"modelId":"openai/gpt-5.4","displayName":"GPT-5.4","provider":"OpenAI","status":"draft_run_completed_three_grader_consensus","runner":"scripts/benchmark/run-lius-benchmark.mjs"},{"modelId":"openai/gpt-5.3-codex-spark","displayName":"GPT-5.3 Codex Spark","provider":"OpenAI OAuth","status":"draft_run_completed_three_grader_consensus","runner":"scripts/benchmark/run-lius-benchmark.mjs"},{"modelId":"anthropic/claude-opus-4-7","displayName":"Claude Opus 4.7","provider":"Anthropic","status":"pending_run","runner":"scripts/benchmark/run-lius-benchmark.mjs via compatible proxy"},{"modelId":"google/gemini-2.5-pro","displayName":"Gemini 2.5 Pro","provider":"Google","status":"pending_run","runner":"scripts/benchmark/run-lius-benchmark.mjs via compatible proxy"},{"modelId":"lius-cc/Daoism-Qwen3.5-9B","displayName":"Daoism-Qwen3.5-9B","provider":"lius.cc","status":"pending_local_or_hf_run","runner":"scripts/benchmark/run-lius-benchmark.mjs"}],"artifacts":{"benchmark_jsonl":"https://lius.cc/api/llm/benchmark.jsonl","runner_spec":"https://lius.cc/api/llm/runner-spec.json","leaderboard_page":"https://lius.cc/llm/benchmark/leaderboard","benchmark_page":"https://lius.cc/llm/benchmark"},"citation":{"doi":"10.5281/zenodo.20248697","bibtex":"https://lius.cc/api/llm/whitepaper-bibtex"}}