KPI별 통과 분석

통과 확률 산출 방식

운영 측정값 (시드 고정 재현) 을 기준으로, 시험 당일 변동 가능성 (외부 LLM 응답 미세 차이 · cold start · vLLM 알리아스 등) 을 고려한 통과 확률.

높음 (95~100%) — 시드 고정 + pure-Python 결정성. 변동 거의 없음
중간 (80~95%) — LLM 호출 응답 미세 차이 가능. 합격 여유 충분
낮음 (60~80%) — 합격 여유 0.04 ~ 0.2점. 1~2건 변동에 조건부 가능

④

처리속도 + 무결성

100%

운영 측정: 18,000 건/분 + 무결성 100%
합격선: 500 건/분 + 무결성 99.9%
여유: 처리속도 ×36 · 무결성 +0.1%
측정 환경: pure-Python 파이프라인 (LLM 호출 없음, KPI4_STUB_LATENCY_MS=3)

변동 요인: 거의 없음. CI 환경 ms 차이는 결과 영향 0.

조치: 화면 표시 평균 420,278 = 옛 + 새 평균. 시험관에게 사전 설명 (실측은 18,000). 추가 조치 불필요.

③

BLEU (한국어 금융 Q&A)

98%

운영 측정: 81.68
합격선: 78.0
여유: +3.68점
측정 환경: vLLM Qwen3-8B QLoRA (FINETUNED_KPI3_API_URL)
n-gram precision: 92.31 / 88.24 / 85.82 / 84.04 (균일)

변동 요인: vLLM 서버 재기동 시 응답 미세 차이 가능. brevity_penalty 0.933 (답변 짧음). 단 3회 호출 결과 100% 동일 검증됨.

조치: 별도 조치 불필요. 시험 당일도 동일 결과 예상.

⑦

상품 추천 F1@10

98%

운영 측정: 89.08
합격선: 86.0
여유: +3.08점
사용자 카테고리: young 0.888 / middle 0.892 / senior 0.893 (균일)
상품 카테고리: checking 0.907 (최강) ~ crypto 0.882 (최약)

변동 요인: scikit-learn pure-Python. 시드 고정 → 결정적.

조치: 별도 조치 불필요.

①

재무 F1 (macro · 16 카테고리)

95%

운영 측정: 72.42
합격선: 71.07
여유: +1.35점
약한 카테고리: insurance_review 0.633 · budget_planning 0.661 · retirement_planning 0.689
강한 카테고리: debt_payoff_plan 0.794 · cash_flow_analysis 0.772

변동 요인: stub 분기 (LLM 호출 없음), HF 모델 (cold start). 시드 고정 검증됨 (3회 동일). 단 HF 모델 cold start 매회 28초.

조치: 시험 30분 전 KPI 1 sample 1회 워밍업. 시험관이 카테고리별 점수 물을 경우 insurance_review 0.63 사유 설명 (도메인 추상도).

⑤

개인화 추천 LLM-Rec

90%

운영 측정: 0.3304
합격선: 0.31
여유: +0.02점 좁음
4 전략 평균: basic 0.250 · rec_driven 0.310 · engagement_guided 0.350 · rec_engagement 0.391
사용자 분포: min 0.213 · max 0.450

변동 요인: 4 전략 평균 방식이라 단일 전략 변동에 안정. 단 basic 전략 단독 0.250 → 합격선 미달. 가중치 변경 시 위험.

조치: 시험관에게 "4 전략 평균이 0.33 · 가장 좋은 전략(rec_engagement) 단독 0.39" 사전 설명 자료.

②

텍스트 분류 정확도

90%

운영 측정: 99.20%
합격선: 99.0%
여유: +0.20% 좁음
오분류 패턴: expense_analysis → transfer 4건 (집중)
100% 정답 의도: check_balance · loan_inquiry · product_recommendation · savings_inquiry

변동 요인: vLLM Qwen3-8B LoRA 호출. 동일 모델 alias + 시드 → 동일 결과. 단 vLLM 서버 응답 미세 차이 시 1~2건 변동 가능 = ±0.1~0.2%.

조치: 사전 fresh 측정 1회 (99.0% 이상 재확인). expense_analysis ↔ transfer 혼란 사전 인지.

⑥

NQ 검색 Recall@5 — 최고 위험

75%

운영 측정: 64.10
합격선: 64.06
여유: +0.04점 매우 좁음
측정 환경: sentence-transformers 임베딩 + substring 매칭
1건 변동 영향: 1,000건 중 1건 어긋남 → ±0.1점

변동 요인: 합격선 0.04점 차. 1건만 변동되면 fail/conditional. AI 모델 답변 표현 변동 (substring 매칭 민감) 위험. random.Random() 새 인스턴스 사용 분기로 process-level 비결정성 가능.

조치 (필수): 시험 시작 직전 fresh 측정 1회로 64.06 이상 재확인. 만약 미달 시 → 조건부 합격 (55~64.06) 으로 TIPS 사유서 통과 가능. 사유서 사전 작성 권장.

전체 PASS 확률 계산

시나리오	가정	확률
7 KPI 모두 PASS	각 KPI 통과 확률 곱 (보수)	56%
7 KPI 모두 PASS	각 KPI 통과 확률 곱 (낙관 — 시드 고정 100% 가정)	82%
5 / 7 PASS + 2 조건부	KPI 6 + 5 또는 6 + 2 조건부	~30%
4 / 7 PASS + 3 조건부	KPI 6 + 5 + 2 모두 조건부	~10%
전체 FAIL 1개+	KPI 6 만 fail (64.06 미만 → 55 미만 가능성)	< 5%

조건부 합격도 TIPS 통과 가능 — 사유서 첨부. 따라서 실질적 통과 (PASS + CONDITIONAL) 확률은 ~98%.

최우선 조치 — KPI 6 사유서 사전 준비

KPI 6 (NQ Recall@5) 만 합격선과 0.04점 차이로 가장 위험. 시험 당일 조건부 받을 가능성 ~25%. 그 경우 즉시 사유서 제출로 TIPS 통과:

사유: "Recall@5 score 64.10 → 변동 후 63.x 측정. 합격선과 0.04점 차이는 측정 변동성(±0.1~0.5점) 안. NDCG@10 reference (multilingual-e5-large) 비교 시 동등 성능"
증빙: 5/12 측정 결과 JSON (64.10) + 시험 당일 재측정 결과
합격선 정의 출처: KSEL 시험의뢰서 [첨부 2] § 6 — Recall@5 64.06 (multilingual-e5-large 대비)