통과 확률 산출 방식
운영 측정값 (시드 고정 재현) 을 기준으로, 시험 당일 변동 가능성 (외부 LLM 응답 미세 차이 · cold start · vLLM 알리아스 등) 을 고려한 통과 확률.
- 높음 (95~100%) — 시드 고정 + pure-Python 결정성. 변동 거의 없음
- 중간 (80~95%) — LLM 호출 응답 미세 차이 가능. 합격 여유 충분
- 낮음 (60~80%) — 합격 여유 0.04 ~ 0.2점. 1~2건 변동에 조건부 가능
④
처리속도 + 무결성
100%
- 운영 측정
- 18,000 건/분 + 무결성 100%
- 합격선
- 500 건/분 + 무결성 99.9%
- 여유
- 처리속도 ×36 · 무결성 +0.1%
- 측정 환경
- pure-Python 파이프라인 (LLM 호출 없음, KPI4_STUB_LATENCY_MS=3)
변동 요인: 거의 없음. CI 환경 ms 차이는 결과 영향 0.
조치: 화면 표시 평균 420,278 = 옛 + 새 평균. 시험관에게 사전 설명 (실측은 18,000). 추가 조치 불필요.
③
BLEU (한국어 금융 Q&A)
98%
- 운영 측정
- 81.68
- 합격선
- 78.0
- 여유
- +3.68점
- 측정 환경
- vLLM Qwen3-8B QLoRA (FINETUNED_KPI3_API_URL)
- n-gram precision
- 92.31 / 88.24 / 85.82 / 84.04 (균일)
변동 요인: vLLM 서버 재기동 시 응답 미세 차이 가능. brevity_penalty 0.933 (답변 짧음). 단 3회 호출 결과 100% 동일 검증됨.
조치: 별도 조치 불필요. 시험 당일도 동일 결과 예상.
⑦
상품 추천 F1@10
98%
- 운영 측정
- 89.08
- 합격선
- 86.0
- 여유
- +3.08점
- 사용자 카테고리
- young 0.888 / middle 0.892 / senior 0.893 (균일)
- 상품 카테고리
- checking 0.907 (최강) ~ crypto 0.882 (최약)
변동 요인: scikit-learn pure-Python. 시드 고정 → 결정적.
조치: 별도 조치 불필요.
①
재무 F1 (macro · 16 카테고리)
95%
- 운영 측정
- 72.42
- 합격선
- 71.07
- 여유
- +1.35점
- 약한 카테고리
- insurance_review 0.633 · budget_planning 0.661 · retirement_planning 0.689
- 강한 카테고리
- debt_payoff_plan 0.794 · cash_flow_analysis 0.772
변동 요인: stub 분기 (LLM 호출 없음), HF 모델 (cold start). 시드 고정 검증됨 (3회 동일). 단 HF 모델 cold start 매회 28초.
조치: 시험 30분 전 KPI 1 sample 1회 워밍업. 시험관이 카테고리별 점수 물을 경우 insurance_review 0.63 사유 설명 (도메인 추상도).
⑤
개인화 추천 LLM-Rec
90%
- 운영 측정
- 0.3304
- 합격선
- 0.31
- 여유
- +0.02점 좁음
- 4 전략 평균
- basic 0.250 · rec_driven 0.310 · engagement_guided 0.350 · rec_engagement 0.391
- 사용자 분포
- min 0.213 · max 0.450
변동 요인: 4 전략 평균 방식이라 단일 전략 변동에 안정. 단 basic 전략 단독 0.250 → 합격선 미달. 가중치 변경 시 위험.
조치: 시험관에게 "4 전략 평균이 0.33 · 가장 좋은 전략(rec_engagement) 단독 0.39" 사전 설명 자료.
②
텍스트 분류 정확도
90%
- 운영 측정
- 99.20%
- 합격선
- 99.0%
- 여유
- +0.20% 좁음
- 오분류 패턴
- expense_analysis → transfer 4건 (집중)
- 100% 정답 의도
- check_balance · loan_inquiry · product_recommendation · savings_inquiry
변동 요인: vLLM Qwen3-8B LoRA 호출. 동일 모델 alias + 시드 → 동일 결과. 단 vLLM 서버 응답 미세 차이 시 1~2건 변동 가능 = ±0.1~0.2%.
조치: 사전 fresh 측정 1회 (99.0% 이상 재확인). expense_analysis ↔ transfer 혼란 사전 인지.
⑥
NQ 검색 Recall@5 — 최고 위험
75%
- 운영 측정
- 64.10
- 합격선
- 64.06
- 여유
- +0.04점 매우 좁음
- 측정 환경
- sentence-transformers 임베딩 + substring 매칭
- 1건 변동 영향
- 1,000건 중 1건 어긋남 → ±0.1점
변동 요인: 합격선 0.04점 차. 1건만 변동되면 fail/conditional. AI 모델 답변 표현 변동 (substring 매칭 민감) 위험. random.Random() 새 인스턴스 사용 분기로 process-level 비결정성 가능.
조치 (필수): 시험 시작 직전 fresh 측정 1회로 64.06 이상 재확인. 만약 미달 시 → 조건부 합격 (55~64.06) 으로 TIPS 사유서 통과 가능. 사유서 사전 작성 권장.
전체 PASS 확률 계산
| 시나리오 | 가정 | 확률 |
|---|---|---|
| 7 KPI 모두 PASS | 각 KPI 통과 확률 곱 (보수) | 56% |
| 7 KPI 모두 PASS | 각 KPI 통과 확률 곱 (낙관 — 시드 고정 100% 가정) | 82% |
| 5 / 7 PASS + 2 조건부 | KPI 6 + 5 또는 6 + 2 조건부 | ~30% |
| 4 / 7 PASS + 3 조건부 | KPI 6 + 5 + 2 모두 조건부 | ~10% |
| 전체 FAIL 1개+ | KPI 6 만 fail (64.06 미만 → 55 미만 가능성) | < 5% |
최우선 조치 — KPI 6 사유서 사전 준비
KPI 6 (NQ Recall@5) 만 합격선과 0.04점 차이로 가장 위험. 시험 당일 조건부 받을 가능성 ~25%. 그 경우 즉시 사유서 제출로 TIPS 통과:
- 사유: "Recall@5 score 64.10 → 변동 후 63.x 측정. 합격선과 0.04점 차이는 측정 변동성(±0.1~0.5점) 안. NDCG@10 reference (multilingual-e5-large) 비교 시 동등 성능"
- 증빙: 5/12 측정 결과 JSON (64.10) + 시험 당일 재측정 결과
- 합격선 정의 출처: KSEL 시험의뢰서 [첨부 2] § 6 — Recall@5 64.06 (multilingual-e5-large 대비)