3. KSEL 심사 과정 — 비개발자용 가이드

한국아이티평가원(KSEL) 현장 시험 · 2026-05-20 (수) 13:30 @ 그린다에이아이

TL;DR

KSEL 시험은 "우리가 자체 측정한 7개 AI 성능 점수를 공인기관이 직접 같은 데이터로 다시 측정해서 진짜인지 확인해 주는 자리"입니다. 시험관(윤여종 센터장)이 우리 사무실에 와서 약 3~4시간 동안 ① 서버 사양 확인 → ② 데이터셋 확인 → ③ 로그 확인 → ④ 코드 확인 → ⑤ 단건 시연 → ⑥ 본 측정 순으로 진행. 결과서는 6월 2일 또는 4일에 도착하며 TIPS 최종보고에 첨부.

3.1 KSEL 심사가 뭔가요

KSEL (한국아이티평가원)은 정부가 인정한 공인 시험기관 중 하나로, "이 소프트웨어의 성능이 진짜로 광고대로 나오는가"를 객관적으로 확인해 주고 공인성적서를 발급합니다. 우리는 TIPS 정부 R&D 사업 종료 보고에 "AI 성능 7개가 목표 달성"을 자체 주장이 아닌 공인 도장으로 증명해야 합니다.

구분	일반 검수	KSEL 공인 시험
주체	고객·발주처	국가 공인 기관
결과물	회의록·이메일	공인성적서 (PDF, 도장)
법적 효력	당사자 간	대정부 제출 가능
측정 환경	고객 환경	우리 측 환경 (시험관 현장 방문)

핵심 포인트 — 시험관은 "우리가 자체 측정한 점수를 같은 데이터·같은 코드로 자기 눈앞에서 재현 가능한가"만 확인합니다. 새로운 알고리즘을 만들거나 우리 시스템을 평가하는 게 아닙니다.

3.2 일정 / 장소 / 인원

시험 일자: 2026년 5월 20일 (수) 13:30
예상 소요: 약 3~4시간
장소: 그린다에이아이 · 대전광역시 유성구 대학로 99, 대전 팁스타운 510호
시험 기관: 한국아이티평가원 (KSEL) · 시험관 윤여종 센터장
녹화 의무: 시험 PC 화면 녹화 필수
결과서 수령: 2026년 6월 2일(화) 또는 6월 4일(목)
TIPS 최종 마감: 6월 5일 (당초 5/20 → 연기 합의)

3.3 시험 6단계 흐름

1사양 확인 — 시험 환경이 적정한가

시험관이 시험 PC(MacBook M2 Pro 32GB)와 운영 서버(AWS EC2 t4g.xlarge / AL2023 / 50GB)가 측정에 적합한지 확인.

준비 상태: 완료 — curl …/api/health 1줄로 사양·배포 ID 즉시 확인 가능. 1. 인프라 페이지 참조.

2데이터셋 확인 — 측정에 쓸 시험지가 진짜인가

KPI 7개를 평가할 데이터(15,050건)가 정말 존재하는지, 사전 조작 없는지 시험관이 직접 엑셀 확인.

준비 상태: 완료 — JSONL + CSV 쌍 / 각 데이터셋 옆 _source.md 메타 (출처·라이선스·생성 명령).

주의 — KPI ⑤(개인화 추천)는 정답 라벨 부재. 4가지 추천 전략 비교 방식 → 시험관에게 사전 설명 필요.

3실시간 로그 확인 — 시험 중 거짓말은 없는가

시험관이 별도 노트북에서 우리 서버 로그를 실시간으로 보면서, 측정이 진짜로 일어나는지 확인.

준비 상태: 완료 — /admin/logs 브라우저 페이지 (토큰 보호) + SSH docker logs -f 두 채널. PII 자동 마스킹.

4소스코드 확인 — 진짜 AI 모델을 쓰는가

measure 결과가 실제로 AI 모델을 호출해서 나온 것인지 코드에서 확인. pip freeze 로 라이브러리 버전 (torch 2.11 / transformers 5.8 / sentence-transformers 5.4.1 등) 검증.

준비 상태: 완료 — ENABLE_REAL_PIPELINE=true 운영 헬스체크에서 확인됨.

5단건 시연 — 한 번 눌러서 정상 동작하는가

시험관이 fingu.grinda.ai에 직접 접속해서 채팅·추천 1건씩 정상 동작 확인.

/chat — 채팅 1줄 → 우측 패널에 KPI ①②③⑤⑥ 5개 점수 즉시
/recommend — 페르소나 선택 → Top-10 + KPI ⑦ F1
/analysis — KPI ④ 처리속도 1분 1회

준비 상태: 완료 — 6 페르소나 (jiyu/minjae/eunyoung/soyeon/junho/jaesung) 시연용 데이터 준비.

6본 측정 — 데이터셋 전체로 7 KPI 일괄

준비된 데이터셋 전체(약 15,000건)로 7 KPI 한 번에 측정. 시험관은 진행률 바를 보면서 결과 누적 관찰.

KPI ①②③⑤⑥ — 채팅 화면 우측 "성능 대량측정 모드" CSV 업로드 → 5건 병렬
KPI ⑦ — 추천 화면 우측 측정 모드 CSV 업로드
KPI ④ — 처리속도 1분 × 5회 (App 레벨 백그라운드 보존)

준비 상태: 완료 — 결과 JSON 자동 저장 + 시험 후 다운로드 가능.

3.4 7 지표 의미 (비전공자용)

① 재무 F1목표 71.07

뭘 측정: AI가 금융 시나리오 질문에 얼마나 정확히 답하는가 (정답률·놓친답률 균형 점수, 최대 100).

② 텍스트 분류목표 99.0%

뭘 측정: 사용자 발화 의도(내역조회/지출분석/추천/계획)를 얼마나 잘 분류하는가.

③ BLEU (FT)목표 78

뭘 측정: 추가 학습시킨 LLM이 정답 답변과 얼마나 비슷한가 (단어 일치 자동 채점).

④ 처리속도 + 무결성목표 500건/분 + 99.9%

뭘 측정: 1분에 영수증 500장 정리하면서 한 장도 빠뜨리거나 잘못 옮기지 않는가.

⑤ 개인화 추천목표 0.31

뭘 측정: 25살 사회초년생에게 "비상금 만들기"를 제안하는 적절성 (LLM-Rec score).

⑥ 금융 검색 Recall@5목표 64.06

뭘 측정: 금융 질문 1,000건에 대해 추천 받은 5권 중에 정답 책이 있는 비율.

⑦ 상품 추천 F1목표 86

뭘 측정: 추천한 카드 10장 중 사용자가 실제로 신청한 카드 비율.

3.5 판정 (PASS / CONDITIONAL / FAIL)

판정	의미	예시 (KPI ①: 71.07)
PASS	목표 이상	71.07 이상
CONDITIONAL	약간 미달 — 사유서로 TIPS 통과 가능	65 ~ 71
FAIL	허용 미달 — 재시험 또는 종료보고 영향	65 미만

3.6 당일 시간표 (예상)

13:00 — 시험관 도착 · 시험 PC 준비 · 녹화 시작 · LAN 점검

13:30 — 공식 개시 · 사양 확인 30분 (1단계)

14:00 — 데이터셋 + 로그 확인 60분 (2~3단계)

15:00 — 소스코드 + 단건 시연 60분 (4~5단계)

16:00 — 본 측정 시작 (6단계) · 약 1~1.5시간 · KPI ④ 5분 가장 오래

17:30 — 결과 종합 · 캡처 · 녹화 종료 · 시험 종료

당일 준비물 — 녹화 가능한 시험용 PC, 모바일 핫스팟(LAN 백업), 별도 노트북 1대(로그 스트리밍), 사업자등록증 사본

3.7 결과 일정

2026-05-20 (수) — 시험 종료 직후 임시 결과 7개 구두 확인
5-21 ~ 6-01 — KSEL 내부 검토 + 결과서 작성 (약 2주)
6-02 (화) 또는 6-04 (목) — 공인성적서 PDF 수령
6-05 (금) — TIPS 최종 종료보고 첨부 제출

3.8 FAQ

Q. 점수가 안 나오면 어떻게 되나요?: A. 해당 KPI만 "조건부" 또는 "불통과". 조건부는 사유서로 TIPS 평가 통과 가능, 불통과는 재시험 옵션.
Q. 시험 당일 서버가 다운되면?: A. (1) 모바일 핫스팟 복구, (2) Vercel 데모 임시 전환 (stub 모드라 점수 일관성 다름), (3) 부득이 시 연기 협의.
Q. KPI ⑤ 정답 라벨 부재 — 어떻게 점수?: A. 4 전략 (Basic / Recommendation Driven / Engagement Guided / Rec+Engagement) 비교 방식. 시험관에게 사전 설명 필요.
Q. 측정 결과가 우리 자체 측정과 다를 수 있나요?: A. 고정 시드(20260514) + 동일 데이터셋이라 결과 동일. AI 모델 호출 미세 변동은 1% 미만 → 합격선 영향 없음.