생성형 AI를 활용한 실전 리포팅 및 AI 서비스 개발

카테고리 없음

생성형 AI를 활용한 실전 리포팅 및 AI 서비스 개발_2회차

iron-min 2025. 12. 22. 17:08

1. LLM 모델의 종류

LLM 모델은 보통 고성능 모델 vs 저성능 모델의 분화
- Gemini Pro: 고성능 모델, 복잡한 코딩과 추론이 가능하며 비쌈
- Gemini Flash: 저성능 모델, 간단한 코딩, 이미지 생성에 장점

LLM 모델에서 주로 확인할 내용

항목	의미 (Meaning)	고려사항 (Dev Considerations)
토큰 수 (Token Count)	모델이 텍스트를 처리하는 최소 단위. (한글은 보통 1자당 1~2토큰)	입력(Prompt)과 출력(Completion) 토큰의 합이 모델의 제한을 넘지 않도록 관리해야 함.
100만 토큰당 비용 (Cost per 1M)	API 사용료 산정의 기준점. 보통 입력(Input)과 출력(Output) 단가가 다름.	출력 토큰이 입력보다 보통 3~10배 비싸므로, 답변 길이를 조절하는 프롬프트 엔지니어링이 비용 절감의 핵심.
컨텍스트 윈도우 (Context Window)	모델이 한 번에 기억/처리할 수 있는 최대 토큰 양. (현재 128K~1M+ 수준)	RAG(검색 증강 생성) 구현 시, 너무 많은 참고 문서를 넣으면 비용이 급증하고 응답 품질이 떨어질 수 있음.
지연 시간 (Latency: TTFT/TPS)	첫 토큰 생성까지의 시간(TTFT)과 초당 생성되는 토큰 수(TPS).	실시간 채팅 서비스라면 TTFT가 짧은 모델을, 대량 문서 요약이라면 TPS가 높은 모델을 선택.
속도 제한 (Rate Limits)	분당 요청 수(RPM, Request Per Minute) 및 분당 토큰 수(TPM, Token Per Minutes) 제한.	트래픽이 몰릴 때 429 Error(Too Many Requests) 처리를 위한 재시도(Retry) 로직과 큐잉 시스템 필요.
*프롬프트 캐싱 (Prompt Caching)**	반복되는 긴 프롬프트(시스템 프롬프트 등)에 대해 비용을 할인해주는 기능.	동일한 배경 지식을 자주 사용하는 서비스라면 캐싱을 지원하는 API를 선택해 비용을 최대 90%까지 절감 가능.

모델 선택하기
- 우측 상단 [Gemini 3 Pro Preview]이 현재 활성화 된 모델
- 클릭하여 다양한 모델로 변경 가능함

Temperature(0-2): 높을수록 창의성, 낮을수록 보수적인 결과
Top P(0-1): 높을수록 다양성, 낮을수록 재현성있는 결과(T와 비슷)

2. 실습

① 유즈케이스 : 문서 요약하기

프롬프트

"이 문서는 '2025년 가계금융복지조사 결과' 보고서야. 이 내용을 모르는 사람들에게 핵심만 전달하기 위해 인포그래픽을 만든다고 가정하고 내용을 정리해줘.
주요 수치 TOP 5: 가장 중요한 통계치 5개를 뽑고, 각각 왜 중요한지 짧게 설명해줘.
연령대별 상황: 청년층, 중장년층, 노년층의 경제적 특징을 한눈에 들어오게 비교해줘.
부의 양극화: 소득 불평등 지표를 '피자 한 판을 나누어 먹는 모습'에 비유해서 설명해줘.
결론: 이 보고서가 우리 사회에 주는 메시지는 무엇인지 요약해줘."

② 유즈케이스 : 영상 요약하기

다음 영상 내용을 요약해줘 https://www.youtube.com/watch?v=RvF2q1nKJx0

③ 유즈케이스 : 이미지 변경하기

④ 유즈케이스 : 이미지 생성하기

⑤ 유즈케이스 : 비디오 생성하기