1. AI 모델 설계 및 구현
- 뉴스 요약 및 콘텐츠 생성 모델 개발
- LangChain을 사용한 뉴스 요약 모델 설계 및 구현
- 뉴스 요약 및 콘텐츠 생성을 위한 데이터셋 수집 및 전처리
- 모델 훈련 및 성능 평가
- 모델의 하이퍼파라미터 튜닝 및 최적화
- 모델 검증 및 테스트
- 임베딩 모델 테스트
- Upstage/solar-embedding-1-large 테스트 및 성능 평가
- OpenAI/text-embedding-3-small 테스트 및 성능 평가
- intfloat/multilingual-e5-large-instruct 테스트 및 성능 평가
- 사전 모델 테스트
- Upstage/Solar 모델 테스트 및 성능 평가
- OpenAI/gpt-4o-mini 모델 테스트 및 성능 평가
- Groundedness 모델 테스트
- Upstage/solar-1-mini-groundedness-check 테스트 및 성능 평가
- 테스트 결과를 바탕으로 최적의 모델 선택 및 통합
- 임베딩 모델 테스트
2. 텍스트 음성 변환 (TTS) 구현
- TTS 모델 개발 및 통합
- Google TTS, Amazon Polly 등의 TTS 엔진 조사 및 선택
- TTS 엔진을 사용해 팟캐스트 스크립트를 음성으로 변환하는 기능 구현
- TTS 결과의 품질 평가 (음성의 자연스러움, 발음 정확성 등)
- TTS 변환 속도 최적화
3. 데이터 크롤링 및 전처리
- 데이터 크롤링 파이프라인 구축
- 다양한 뉴스 소스에서 데이터를 수집할 크롤러 개발
- 수집된 데이터의 품질 관리 및 저장
- 데이터 전처리
- 수집된 데이터의 전처리 및 클렌징
- AI 모델에 적합한 데이터 구조로 변환
- 전처리된 데이터를 사용해 모델 훈련 데이터셋 생성
4. 개인화 추천 시스템 개발
- 개인화 알고리즘 설계
- 사용자의 브라우징 히스토리 및 관심사 분석을 위한 알고리즘 설계
- RAG (Retrieval-Augmented Generation) 기술을 활용한 개인화 콘텐츠 추천 시스템 개발
- 추천 시스템 성능 개선
- 개인화 추천 알고리즘의 성능 평가 및 개선
- 사용자 피드백을 바탕으로 추천 정확도 향상
5. Vectordb 설정 및 통합
- Faiss 설정 및 통합
- Faiss를 사용하여 벡터 데이터베이스 설정
- 임베딩된 데이터를 Faiss에 저장하고 검색할 수 있도록 통합
- Faiss 기반의 빠르고 효율적인 검색 기능 구현
- 모델에서 생성된 임베딩을 효율적으로 관리 및 검색할 수 있도록 최적화
6. 모델 통합 및 API 연동
- AI 모델과 백엔드 통합
- Fast-API와 AI 모델의 통합 및 연동
- 실시간 데이터 처리 및 개인화된 콘텐츠 제공을 위한 API 구현
- 모델 최적화 및 배포
- 최적화된 모델의 배포 준비
- 모델 배포 및 운영 중 성능 모니터링