3. KSEL 심사 과정 — 비개발자용 가이드
TL;DR
KSEL 시험은 "우리가 자체 측정한 7개 AI 성능 점수를 공인기관이 직접 같은 데이터로 다시 측정해서 진짜인지 확인해 주는 자리"입니다. 시험관(윤여종 센터장)이 우리 사무실에 와서 약 3~4시간 동안 ① 서버 사양 확인 → ② 데이터셋 확인 → ③ 로그 확인 → ④ 코드 확인 → ⑤ 단건 시연 → ⑥ 본 측정 순으로 진행. 결과서는 6월 2일 또는 4일에 도착하며 TIPS 최종보고에 첨부.
3.1 KSEL 심사가 뭔가요
KSEL (한국아이티평가원)은 정부가 인정한 공인 시험기관 중 하나로, "이 소프트웨어의 성능이 진짜로 광고대로 나오는가"를 객관적으로 확인해 주고 공인성적서를 발급합니다. 우리는 TIPS 정부 R&D 사업 종료 보고에 "AI 성능 7개가 목표 달성"을 자체 주장이 아닌 공인 도장으로 증명해야 합니다.
| 구분 | 일반 검수 | KSEL 공인 시험 |
|---|---|---|
| 주체 | 고객·발주처 | 국가 공인 기관 |
| 결과물 | 회의록·이메일 | 공인성적서 (PDF, 도장) |
| 법적 효력 | 당사자 간 | 대정부 제출 가능 |
| 측정 환경 | 고객 환경 | 우리 측 환경 (시험관 현장 방문) |
3.2 일정 / 장소 / 인원
- 시험 일자
- 2026년 5월 20일 (수) 13:30
- 예상 소요
- 약 3~4시간
- 장소
- 그린다에이아이 · 대전광역시 유성구 대학로 99, 대전 팁스타운 510호
- 시험 기관
- 한국아이티평가원 (KSEL) · 시험관 윤여종 센터장
- 녹화 의무
- 시험 PC 화면 녹화 필수
- 결과서 수령
- 2026년 6월 2일(화) 또는 6월 4일(목)
- TIPS 최종 마감
- 6월 5일 (당초 5/20 → 연기 합의)
3.3 시험 6단계 흐름
1사양 확인 — 시험 환경이 적정한가
시험관이 시험 PC(MacBook M2 Pro 32GB)와 운영 서버(AWS EC2 t4g.xlarge / AL2023 / 50GB)가 측정에 적합한지 확인.
준비 상태: 완료 — curl …/api/health 1줄로 사양·배포 ID 즉시 확인 가능. 1. 인프라 페이지 참조.
2데이터셋 확인 — 측정에 쓸 시험지가 진짜인가
KPI 7개를 평가할 데이터(15,050건)가 정말 존재하는지, 사전 조작 없는지 시험관이 직접 엑셀 확인.
준비 상태: 완료 — JSONL + CSV 쌍 / 각 데이터셋 옆 _source.md 메타 (출처·라이선스·생성 명령).
3실시간 로그 확인 — 시험 중 거짓말은 없는가
시험관이 별도 노트북에서 우리 서버 로그를 실시간으로 보면서, 측정이 진짜로 일어나는지 확인.
준비 상태: 완료 — /admin/logs 브라우저 페이지 (토큰 보호) + SSH docker logs -f 두 채널. PII 자동 마스킹.
4소스코드 확인 — 진짜 AI 모델을 쓰는가
measure 결과가 실제로 AI 모델을 호출해서 나온 것인지 코드에서 확인. pip freeze 로 라이브러리 버전 (torch 2.11 / transformers 5.8 / sentence-transformers 5.4.1 등) 검증.
준비 상태: 완료 — ENABLE_REAL_PIPELINE=true 운영 헬스체크에서 확인됨.
5단건 시연 — 한 번 눌러서 정상 동작하는가
시험관이 fingu.grinda.ai에 직접 접속해서 채팅·추천 1건씩 정상 동작 확인.
/chat— 채팅 1줄 → 우측 패널에 KPI ①②③⑤⑥ 5개 점수 즉시/recommend— 페르소나 선택 → Top-10 + KPI ⑦ F1/analysis— KPI ④ 처리속도 1분 1회
준비 상태: 완료 — 6 페르소나 (jiyu/minjae/eunyoung/soyeon/junho/jaesung) 시연용 데이터 준비.
6본 측정 — 데이터셋 전체로 7 KPI 일괄
준비된 데이터셋 전체(약 15,000건)로 7 KPI 한 번에 측정. 시험관은 진행률 바를 보면서 결과 누적 관찰.
- KPI ①②③⑤⑥ — 채팅 화면 우측 "성능 대량측정 모드" CSV 업로드 → 5건 병렬
- KPI ⑦ — 추천 화면 우측 측정 모드 CSV 업로드
- KPI ④ — 처리속도 1분 × 5회 (App 레벨 백그라운드 보존)
준비 상태: 완료 — 결과 JSON 자동 저장 + 시험 후 다운로드 가능.
3.4 7 지표 의미 (비전공자용)
뭘 측정: AI가 금융 시나리오 질문에 얼마나 정확히 답하는가 (정답률·놓친답률 균형 점수, 최대 100).
뭘 측정: 사용자 발화 의도(내역조회/지출분석/추천/계획)를 얼마나 잘 분류하는가.
뭘 측정: 추가 학습시킨 LLM이 정답 답변과 얼마나 비슷한가 (단어 일치 자동 채점).
뭘 측정: 1분에 영수증 500장 정리하면서 한 장도 빠뜨리거나 잘못 옮기지 않는가.
뭘 측정: 25살 사회초년생에게 "비상금 만들기"를 제안하는 적절성 (LLM-Rec score).
뭘 측정: 금융 질문 1,000건에 대해 추천 받은 5권 중에 정답 책이 있는 비율.
뭘 측정: 추천한 카드 10장 중 사용자가 실제로 신청한 카드 비율.
3.5 판정 (PASS / CONDITIONAL / FAIL)
| 판정 | 의미 | 예시 (KPI ①: 71.07) |
|---|---|---|
| PASS | 목표 이상 | 71.07 이상 |
| CONDITIONAL | 약간 미달 — 사유서로 TIPS 통과 가능 | 65 ~ 71 |
| FAIL | 허용 미달 — 재시험 또는 종료보고 영향 | 65 미만 |
3.6 당일 시간표 (예상)
3.7 결과 일정
- 2026-05-20 (수) — 시험 종료 직후 임시 결과 7개 구두 확인
- 5-21 ~ 6-01 — KSEL 내부 검토 + 결과서 작성 (약 2주)
- 6-02 (화) 또는 6-04 (목) — 공인성적서 PDF 수령
- 6-05 (금) — TIPS 최종 종료보고 첨부 제출
3.8 FAQ
- Q. 점수가 안 나오면 어떻게 되나요?
- A. 해당 KPI만 "조건부" 또는 "불통과". 조건부는 사유서로 TIPS 평가 통과 가능, 불통과는 재시험 옵션.
- Q. 시험 당일 서버가 다운되면?
- A. (1) 모바일 핫스팟 복구, (2) Vercel 데모 임시 전환 (stub 모드라 점수 일관성 다름), (3) 부득이 시 연기 협의.
- Q. KPI ⑤ 정답 라벨 부재 — 어떻게 점수?
- A. 4 전략 (Basic / Recommendation Driven / Engagement Guided / Rec+Engagement) 비교 방식. 시험관에게 사전 설명 필요.
- Q. 측정 결과가 우리 자체 측정과 다를 수 있나요?
- A. 고정 시드(20260514) + 동일 데이터셋이라 결과 동일. AI 모델 호출 미세 변동은 1% 미만 → 합격선 영향 없음.