1. LLM 모델의 종류
- LLM 모델은 보통 고성능 모델 vs 저성능 모델의 분화
- Gemini Pro: 고성능 모델, 복잡한 코딩과 추론이 가능하며 비쌈
- Gemini Flash: 저성능 모델, 간단한 코딩, 이미지 생성에 장점
LLM 모델에서 주로 확인할 내용
| 항목 | 의미 (Meaning) | 고려사항 (Dev Considerations) |
| 토큰 수 (Token Count) | 모델이 텍스트를 처리하는 최소 단위. (한글은 보통 1자당 1~2토큰) | 입력(Prompt)과 출력(Completion) 토큰의 합이 모델의 제한을 넘지 않도록 관리해야 함. |
| 100만 토큰당 비용 (Cost per 1M) | API 사용료 산정의 기준점. 보통 입력(Input)과 출력(Output) 단가가 다름. | 출력 토큰이 입력보다 보통 3~10배 비싸므로, 답변 길이를 조절하는 프롬프트 엔지니어링이 비용 절감의 핵심. |
| 컨텍스트 윈도우 (Context Window) | 모델이 한 번에 기억/처리할 수 있는 최대 토큰 양. (현재 128K~1M+ 수준) | RAG(검색 증강 생성) 구현 시, 너무 많은 참고 문서를 넣으면 비용이 급증하고 응답 품질이 떨어질 수 있음. |
| 지연 시간 (Latency: TTFT/TPS) | 첫 토큰 생성까지의 시간(TTFT)과 초당 생성되는 토큰 수(TPS). | 실시간 채팅 서비스라면 TTFT가 짧은 모델을, 대량 문서 요약이라면 TPS가 높은 모델을 선택. |
| 속도 제한 (Rate Limits) | 분당 요청 수(RPM, Request Per Minute) 및 분당 토큰 수(TPM, Token Per Minutes) 제한. | 트래픽이 몰릴 때 429 Error(Too Many Requests) 처리를 위한 재시도(Retry) 로직과 큐잉 시스템 필요. |
| 프롬프트 캐싱* (Prompt Caching) | 반복되는 긴 프롬프트(시스템 프롬프트 등)에 대해 비용을 할인해주는 기능. | 동일한 배경 지식을 자주 사용하는 서비스라면 캐싱을 지원하는 API를 선택해 비용을 최대 90%까지 절감 가능. |
- 모델 선택하기
- 우측 상단 [Gemini 3 Pro Preview]이 현재 활성화 된 모델
- 클릭하여 다양한 모델로 변경 가능함


- Temperature(0-2): 높을수록 창의성, 낮을수록 보수적인 결과
- Top P(0-1): 높을수록 다양성, 낮을수록 재현성있는 결과(T와 비슷)
2. 실습
① 유즈케이스 : 문서 요약하기
프롬프트
더보기
"이 문서는 '2025년 가계금융복지조사 결과' 보고서야. 이 내용을 모르는 사람들에게 핵심만 전달하기 위해 인포그래픽을 만든다고 가정하고 내용을 정리해줘.
주요 수치 TOP 5: 가장 중요한 통계치 5개를 뽑고, 각각 왜 중요한지 짧게 설명해줘.
연령대별 상황: 청년층, 중장년층, 노년층의 경제적 특징을 한눈에 들어오게 비교해줘.
부의 양극화: 소득 불평등 지표를 '피자 한 판을 나누어 먹는 모습'에 비유해서 설명해줘.
결론: 이 보고서가 우리 사회에 주는 메시지는 무엇인지 요약해줘."
② 유즈케이스 : 영상 요약하기
더보기
다음 영상 내용을 요약해줘 https://www.youtube.com/watch?v=RvF2q1nKJx0
③ 유즈케이스 : 이미지 변경하기
④ 유즈케이스 : 이미지 생성하기
⑤ 유즈케이스 : 비디오 생성하기
3. 느낀점
대충 LLM 모델을 통해 뭘 할수있는지 알수 있었습니다.
실제로 따라해보면서 실습을 할 수 있다면 더 좋을 것 같은데 그러지 못해서 아쉬운것 같습니다.