Home Podly 개발보고서
Post
Cancel

Podly 개발보고서

Ⅰ 참가 개요

  • 참가자(팀)명: Podly(포들리)
  • 참가작 주제:
    • AI 기반 맞춤형 음성 뉴스 및 관심사 정보 제공 서비스
  • 참가작 주요 내용 요약:
    • 문제 정의:
      • 최근 연구들에 따르면, 이동 중 터치스크린 사용의 불편함과 정보 과잉이 사용자 경험에 부정적인 영향을 미치고 있다는 점이 강조되고 있습니다. Jenny et al.의 연구에서는 이동 중 터치스크린 상호작용이 75%의 응답자에게 매우 불편하게 느껴지며, 특히 대중교통 이용 시 이러한 불편함이 더욱 두드러진다고 보고했습니다. 또한, Knight Foundation의 연구는 현대 사회에서 정보 과잉으로 인해 사용자들이 자신에게 맞는 정보를 신속하게 찾기 어려워하며, 특히 출퇴근 시간과 같은 이동 중에는 이 문제가 더욱 심각해진다는 점을 지적하고 있습니다. 이러한 요소들이 결합되어 사용자 경험에 부정적인 영향을 미치고 있는 것으로 나타났습니다.
    • 프로젝트 목적:
      • Podly는 이러한 문제를 해결하기 위해 음성 명령을 통해 손쉽게 정보를 검색하고, AI 기반으로 개인화된 뉴스를 제공하는 서비스를 개발하였습니다. 사용자는 터치 없이도 음성만으로 원하는 정보를 얻을 수 있으며, 맞춤형 뉴스 큐레이션을 통해 이동 중에도 최적화된 정보를 편리하게 청취할 수 있습니다.
    • 주요 기능 및 서비스:
      • 맞춤형 뉴스 큐레이션: AI가 사용자의 관심사와 이전 검색 기록을 분석하여 맞춤형 뉴스를 제공합니다.
      • 팟캐스트 형식의 자동 생성: TTS 기술을 활용해 텍스트 기반 정보를 자연스러운 음성으로 변환하여 청취할 수 있게 합니다.
      • 대화형 뉴스 안내: 사용자가 음성이나 텍스트로 뉴스에 대한 상세 질문을 할 수 있어, 더 깊이 있는 정보 탐색이 가능합니다.
    • 기대 효과:
      • Podly는 사용자들이 출퇴근 시간 동안 효율적으로 최신 정보를 소비할 수 있게 하여 정보 접근성을 크게 향상시킵니다. 또한, 음성 기반의 인터페이스를 통해 이동 중의 안전성과 편리성을 높이고, 맞춤형 정보를 제공함으로써 개인화된 사용자 경험을 제공합니다.

Ⅱ 기업가 정신

1. 인적역량 (팀구성 및 역량)

포들리(Podly) 프로젝트 팀은 각 분야에서 탁월한 전문성을 가진 구성원들로 이루어져 있으며, AI 기술, 앱 개발, 콘텐츠 제작 등 다양한 영역에서 강력한 역량을 보유하고 있습니다.

  • 신승엽(팀장): AI 및 백엔드 개발

    프로젝트 총괄 및 백엔드 개발 책임자로서, 전체 프로젝트의 방향성을 설정하고 백엔드 시스템의 설계와 구현을 주도적으로 담당합니다. AI와 데이터 분석 분야의 다양한 경진대회에서 우수한 성과를 거둔 경험이 있으며, 특수 도메인에 특화된 RAG(Retrieval-Augmented Generation) 프로젝트 참여를 통해 실무 역량을 크게 강화했습니다.

  • 김지현: AI 개발

    AI 개발자로서, LLM RAG 기법을 활용해 포들리의 맞춤형 콘텐츠 추천 시스템과 자연어 처리 기능을 개발하고 있습니다. 인공지능, 자연어 처리 및 빅데이터 분석에서의 전문성을 바탕으로 포들리의 핵심 기술을 강화하는 역할을 맡고 있습니다.

  • 김선민: 앱 개발

    모바일 앱 개발을 담당하며, 사용자 인터페이스(UI)와 사용자 경험(UX) 설계 및 구현을 맡고 있습니다. Flutter와 같은 최신 프레임워크를 사용해 크로스플랫폼 환경에서 일관된 사용자 경험을 제공합니다.

  • 이영권: 콘텐츠 기획 및 디자인

    콘텐츠 기획 및 제작을 담당하며, 사회적 이슈, 경제, 문화, 기술 등 다양한 주제에 대한 콘텐츠를 기획하고 제작합니다. 아이디어 및 기획 분야 경진대회에서 우수한 성과를 거두었으며, 과거에 헬스케어 LLM 챗봇 관련 프로젝트 참여를 통해 실무 역량을 강화한 바 있습니다.

2. 팀 구성 및 전문역량 확보

포들리 팀은 인공지능, 자연어 처리, 앱 개발, 콘텐츠 제작 등 각 분야에서 전문성을 갖춘 구성원들로 이루어져 있습니다. 팀원들은 다양한 실무 경험과 기술적 역량을 통해 포들리 프로젝트를 성공적으로 이끌고 있습니다.

3. 내부 인력 및 역량 보완 계획

현재 포들리 팀은 기술적 역량에서 강점을 보유하고 있지만, 향후 사업 확장과 시장 진입을 위해 마케팅 및 비즈니스 개발 분야에서 추가적인 인력 보강이 필요합니다. 이를 위한 계획은 다음과 같습니다:

  • 마케팅 및 비즈니스 개발 인력 채용

    전문 인력을 채용해 포들리의 시장 진입 전략을 강화하고, 브랜드 인지도를 높일 계획입니다.

  • 내부 교육 프로그램

    기존 팀원들의 마케팅 및 비즈니스 역량을 강화하기 위한 내부 교육 프로그램을 운영해 다각적인 성장을 지원할 것입니다.

  • 외부 협력 강화

    외부 협력 기관과의 파트너십을 통해 최신 기술과 시장 동향을 지속적으로 파악하고, 이를 바탕으로 전략을 업데이트해 팀의 역량을 강화할 예정입니다.

Ⅲ 추진 활동

[시장성 - 시장 니즈 파악 및 경쟁 모델 분석]

2. 추진 활동

2.1 시장성

  • 2.1.1 시장 규모
    • 전 세계 음성 인식 시장은 2023년에 126억 2천만 달러로 평가되었으며, 2024년에는 154억 6천만 달러, 2032년에는 849억 7천만 달러에 이를 것으로 예상되며, 연평균 성장률(CAGR) 23.7%로 빠르게 성장하고 있습니다. 이처럼 음성 인식 기술의 발전과 수요 증가에 따라, Podly의 음성 기반 서비스는 향후 큰 성장 가능성을 지니고 있습니다.
    • 또한, 대규모 언어 모델(LLM) 시장은 2022년에 105억 달러에서 연평균 21.4%로 성장해 2029년에는 408억 달러에 이를 것으로 예측됩니다. Podly는 이러한 LLM 기술을 활용하여 더욱 정교한 개인화된 콘텐츠 추천과 음성 인식 서비스를 제공함으로써, 이 급성장하는 시장에서 경쟁력을 확보하고자 합니다.

  • 2.1.2 시장 니즈 파악 및 경쟁 모델 분석
    • 시장 니즈 파악: 현대 사회에서 정보 과잉은 사용자들에게 중요한 문제로 부각되고 있습니다. 특히 출퇴근 시간과 같은 이동 중의 상황에서는 뉴스나 관심사 정보를 손쉽게 접근하고 소비할 수 있는 수단이 제한적입니다. Podly는 음성 명령을 통해 사용자들이 터치 없이도 필요한 정보를 빠르고 편리하게 얻을 수 있는 방법을 제공함으로써 이러한 니즈를 해결합니다. 이 서비스는 특히 운전자나 대중교통 이용자들 사이에서 높은 수요가 예상됩니다.
    • 경쟁 모델 분석:
      • 기존 뉴스 제공 서비스: 구글 뉴스, 애플 뉴스 등의 기존 뉴스 제공 서비스들은 사용자에게 다양한 뉴스를 제공하지만, 주로 텍스트 기반의 콘텐츠를 터치 인터페이스로 소비하게 되어 있습니다. 이들 서비스는 사용자가 원하는 뉴스를 찾기 위해 직접 검색하거나 스크롤해야 하며, 실시간으로 업데이트되는 맞춤형 콘텐츠 큐레이션 기능이 제한적입니다.
      • 팟캐스트 플랫폼: Spotify, Apple Podcasts와 같은 팟캐스트 플랫폼은 다양한 주제의 오디오 콘텐츠를 제공하지만, 사용자가 직접 검색하고 청취할 에피소드를 선택해야 하며, 뉴스나 관심사와 관련된 최신 정보를 실시간으로 큐레이션해주는 기능이 없습니다. 또한, 이들 플랫폼은 대개 맞춤형 뉴스 제공보다는 정해진 방송 콘텐츠를 제공하는 데 중점을 둡니다.
      • 음성 비서 서비스: Amazon Alexa, Google Assistant 등 음성 비서 서비스는 음성 명령을 통해 간단한 질문에 대한 답변이나 특정 기능(예: 알람 설정, 날씨 확인 등)을 수행할 수 있으나, 사용자 맞춤형으로 뉴스를 큐레이션하고 이를 자동으로 팟캐스트 형식으로 제공하는 기능은 미비합니다.
  • 2.1.3 Podly의 차별점 및 시장 내 차별성
    • Podly의 차별점: Podly는 음성 명령을 통해 실시간 맞춤형 뉴스를 팟캐스트 형식으로 자동 생성해, 사용자가 개인화된 최신 정보를 이동 중에도 효율적으로 청취할 수 있게 합니다. 또한, 음성 인식 기반의 챗봇을 활용해 실시간 질의응답 기능을 제공하여, 사용자가 정보를 즉시 상호작용하며 얻을 수 있습니다.

    • 기존 뉴스 제공 서비스와의 차별성: 구글 뉴스, 애플 뉴스 등의 기존 뉴스 제공 서비스들은 주로 텍스트 기반의 콘텐츠를 터치 인터페이스로 소비하게 되어 있습니다. Podly는 이러한 기존 서비스들과 달리, 음성 명령과 TTS를 활용해 사용자 맞춤형 뉴스를 음성으로 제공함으로써 더 나은 사용자 경험을 제공합니다.
    • 팟캐스트 플랫폼과의 차별성: Spotify, Apple Podcasts와 같은 팟캐스트 플랫폼은 사용자가 직접 검색하고 청취할 에피소드를 선택해야 하는 반면, Podly는 실시간으로 큐레이션된 맞춤형 콘텐츠를 자동으로 생성하여 제공합니다. 이로 인해 사용자들은 별도의 조작 없이 개인화된 최신 정보를 바로 청취할 수 있습니다.
    • 음성 비서 서비스와의 차별성: Amazon Alexa, Google Assistant 등 음성 비서 서비스는 간단한 질문에 대한 답변이나 특정 기능을 수행하는 데 주로 사용되지만, Podly는 개인화된 뉴스와 관심사 정보를 실시간으로 큐레이션하고 음성 콘텐츠로 제공하는 고유한 기능을 갖추고 있습니다.

3. 실현 가능성

3.1 사업 추진 목표 및 계획

  • 1차 목표 (0~6개월): MVP 개발 및 출시
    • MVP 개발 및 출시:
      • Podly는 사용자 계정 관리, 개인화된 뉴스 제공, 맞춤형 팟캐스트 생성, 실시간 챗봇 기능, 개인화된 날씨 정보 및 일정 관리 등의 핵심 기능을 중심으로 MVP를 개발합니다. 특히, 챗봇 기능은 사용자가 청취 중 궁금한 점을 실시간으로 질문하고, 즉각적인 답변을 받을 수 있는 중요한 요소로, 사용자 경험을 크게 향상시킬 것입니다.
      • 사용자의 위치 기반으로 날씨 정보를 제공하고, 개인 일정을 반영한 맞춤형 콘텐츠 추천 기능을 통해 더욱 개인화된 서비스를 제공합니다. 이 MVP는 빠른 서비스 출시를 목표로 하며, 사용자 피드백을 반영하여 초기 시장에서의 검증을 진행합니다.
    • 기술 스택 활용:
      • Podly는 Flutter, React, FastAPI, LangChain, RAG 등의 기술 스택을 활용하여 사용자 인터페이스(UI)와 백엔드 시스템을 구축합니다.
      • 특히, 챗봇 기능을 구현하기 위해 자연어 처리(NLP) 기술을 최적화하고, 날씨 정보와 개인 일정을 연동하여 사용자 맞춤형 경험을 강화할 계획입니다. 각 기술의 특성을 분석하여 프로젝트에 적합한 방식으로 구현할 것입니다.
    • 사용자 경험(UX) 개선:
      • 직관적인 인터페이스와 간단한 정보 제공 방식을 구현하여 사용자가 서비스를 쉽게 이용할 수 있도록 하며, 정보 습득 시간을 단축하는 것을 목표로 합니다.
      • 챗봇 기능을 통해 사용자와의 상호작용을 강화하고, 개인화된 날씨 및 일정 정보를 반영하여 더 나은 사용자 경험을 제공합니다.
  • 중기 목표 (6~12개월): 다국어 지원 및 글로벌 시장 진출
    • 다국어 지원 및 글로벌 시장 진출:
      • Podly는 글로벌 시장 진출을 위해 다국어 지원 기능을 추가하고, 다양한 지역에서의 사용성을 높이기 위한 로컬라이제이션 작업을 진행합니다. 챗봇 기능도 다국어 지원을 통해 전 세계 사용자와의 원활한 소통을 목표로 하며, 지역별 날씨 정보와 일정 관리 기능도 통합하여 더욱 개인화된 서비스를 제공합니다.
    • B2B 파트너십 구축:
      • Podly는 기업과의 협력을 통해 맞춤형 팟캐스트를 제공하는 B2B 서비스 확장을 목표로 하며, 이를 통해 추가적인 수익 모델을 확보할 계획입니다. 이 파트너십을 통해 기업 고객에게 특화된 콘텐츠를 제공하고, B2B 시장에서의 입지를 강화할 것입니다.
    • 광고 수익 창출:
      • Podly는 광고 없는 프리미엄 버전과 맞춤형 광고 삽입을 통한 수익 모델을 구축하여 안정적인 수익원을 확보합니다. 특히, 챗봇을 활용한 맞춤형 광고를 고려하여, 사용자에게 더 개인화된 광고 경험을 제공합니다. 이를 통해 광고 수익을 극대화하고, 서비스의 지속 가능성을 확보할 계획입니다.

3.2 리스크 관리 및 대응 계획

  • 1. 주요 리스크
    • 데이터 프라이버시 문제: 사용자 브라우징 데이터를 수집하는 과정에서 발생할 수 있는 프라이버시 위험
    • 기술적 리스크: AI 모델의 성능 저하, 실시간 정보 검색의 정확도 저하, 기술적 구현 과정에서의 장애 발생 가능성
    • 시장 및 경쟁 리스크: 대형 테크 기업의 시장 진입, 유사 서비스의 출현으로 인한 시장 점유율 하락 가능성
    • 규제 리스크: 데이터 보호법 강화, AI 윤리 규제 등 법적 환경 변화에 따른 리스크
    • 운영 리스크: 서비스 중단, 데이터 손실, 인적 오류 등으로 인한 운영상의 문제
  • 2. 대응 계획
    • 프라이버시 보호:
      • 데이터 암호화(SHA256) 및 익명화 절차를 통해 사용자 데이터를 보호합니다.
      • 사용자 동의에 기반한 데이터 수집을 철저히 준수하고, 프라이버시 관련 법규(개인정보 보호법, 정보통신망법)를 엄격히 따릅니다.
    • 기술적 대응:
      • AI 모델 성능 최적화 작업을 지속적으로 수행하며, 성능 저하가 발생할 경우 신속한 모델 재훈련을 통해 문제를 해결합니다.
      • 클라우드 인프라를 확장하여 성능 및 안정성을 유지하고, 시스템 장애를 사전에 예방할 수 있도록 모니터링 시스템을 강화합니다.
    • 시장 및 경쟁 대응:
      • 독점 알고리즘 개발 및 특허 출원을 통해 기술적 우위를 확보합니다.
      • 실시간 개인화 콘텐츠 제공을 통해 경쟁 서비스와의 차별성을 유지합니다.
      • 독점 콘텐츠 확보 및 사용자 맞춤형 서비스 강화로 사용자 충성도를 높이고, 경쟁사와의 차별화를 유지합니다.
      • 오픈 이노베이션 전략을 통해 외부 전문가 및 기관과의 협력을 강화합니다.
      • A/B 테스팅을 통한 지속적인 사용자 경험 최적화로 서비스 품질을 향상시킵니다.
    • 규제 대응:
    • 운영 리스크 관리:
      • 자동화된 백업 및 복구 시스템을 구축하여 데이터 손실 리스크를 최소화합니다.
      • DevOps 문화와 CI/CD 파이프라인을 구축하여 신속하고 안정적인 서비스 업데이트를 보장합니다.

3.3 재원 조달 계획

  • 1. 초기 자금 조달 계획 (0~6개월)
    • 필요 자금: 총 7,000만 원
      • 개발 장비 및 서버 비용: 2,500만 원
        • 고성능 개발용 PC 4대: 1,200만 원
        • 클라우드 서버 비용 (AWS): 1,300만 원
      • 마케팅 비용: 1,500만 원
        • SNS 광고 집행: 800만 원
        • 인플루언서 마케팅: 500만 원
        • 온라인 이벤트 진행: 200만 원
      • 외주 인건비: 2,000만 원
        • 개발자 2명 (6개월): 1,500만 원
        • 마케팅 담당자 1명 (6개월): 500만 원
      • 법률 및 회계 비용: 500만 원
      • 예비 비용: 500만 원
    • 자금 조달 방법:
      • 정부 지원 프로그램: 5,000만 원
        • 중소벤처기업부 ‘예비창업패키지’: 5,000만 원
        • 과학기술정보통신부 ‘AI 바우처 지원 사업’: 2,000만 원
  • 2. 중기 자금 조달 계획 (6~12개월)
    • 필요 자금: 총 4억 5천만 원
      • 인건비: 2억 원
        • 개발자 추가 채용 3명: 1억 2천만 원
        • 마케팅 및 운영 인력 2명: 8천만 원
      • 서버 확장 비용: 5천만 원
      • 마케팅 및 사용자 확보 비용: 1억 원
        • 온라인 광고: 5천만 원
        • 오프라인 이벤트 및 PR: 3천만 원
        • 파트너십 구축: 2천만 원
      • 사무실 임대 및 운영 비용: 3천만 원
      • 연구개발 비용: 5천만 원
      • 예비 비용: 2천만 원
    • 자금 조달 방법:
      • 시리즈 A 투자 유치: 3억 5천만 원
        • 국내 VC 2곳으로부터 각 1억 5천만 원, 7천 5백만 원 유치
        • 해외 투자자로부터 1억 2천 5백만 원 유치
      • 매출을 통한 재투자: 1억 원
        • 프리미엄 구독 서비스 매출: 7천만 원
        • B2B 서비스 제공 매출: 3천만 원
  • 3. 장기 자금 운용 계획 (12개월 이후)
    • 시리즈 B 투자 유치를 통해 20억 원 규모의 추가 자금 조달 계획
    • 해외 시장 진출을 위한 글로벌 투자자 유치 전략 수립
    • 수익성 확보 후 IPO를 통한 대규모 자금 조달 검토

1. 초기 자금 조달 계획 (0~6개월)

| 항목 | 세부 항목 | 필요 자금 (KRW) | | — | — | — | | 총 필요 자금 | | 7,000만 원 | | 개발 장비 및 서버 비용 | - 고성능 개발용 PC 4대 | 1,200만 원 | | | - 클라우드 서버 비용 (AWS) | 1,300만 원 | | 마케팅 비용 | - SNS 광고 집행 | 800만 원 | | | - 인플루언서 마케팅 | 500만 원 | | | - 온라인 이벤트 진행 | 200만 원 | | 인건비 | - 개발자 2명 (6개월) | 1,500만 원 | | | - 마케팅 담당자 1명 (6개월) | 500만 원 | | 법률 및 회계 비용 | | 500만 원 | | 예비 비용 | | 500만 원 |

  • 초기 자금 조달 방법:
    • 정부 지원 프로그램: 7,000만 원
      • 중소벤처기업부 ‘예비창업패키지’: 5,000만 원
      • 과학기술정보통신부 ‘AI 바우처 지원 사업’: 2,000만 원

2. 중기 자금 조달 계획 (6~12개월)

| 항목 | 세부 항목 | 필요 자금 (KRW) | | — | — | — | | 총 필요 자금 | | 4억 5천만 원 | | 인건비 | - 개발자 추가 채용 3명 | 1억 2천만 원 | | | - 마케팅 및 운영 인력 2명 | 8천만 원 | | 서버 확장 비용 | | 5천만 원 | | 마케팅 및 사용자 확보 비용 | - 온라인 광고 | 5천만 원 | | | - 오프라인 이벤트 및 PR | 3천만 원 | | | - 파트너십 구축 | 2천만 원 | | 사무실 임대 및 운영 비용 | | 3천만 원 | | 연구개발 비용 | | 5천만 원 | | 예비 비용 | | 2천만 원 |

  • 중기 자금 조달 방법:
    • 시리즈 A 투자 유치: 3억 5천만 원
    • 매출을 통한 재투자: 1억 원

3. 장기 자금 운용 계획 (12개월 이후)

  • 시리즈 B 투자 유치를 통해 20억 원 규모의 추가 자금 조달 계획
  • 해외 시장 진출을 위한 글로벌 투자자 유치 전략 수립
  • 수익성 확보 후 IPO를 통한 대규모 자금 조달 검토

4. 기술성

4.1 사업 모델 구현 방안 및 기술력

4.1.1 사업 모델 구현 방안

포들리(Podly)는 최신 인공지능(AI) 기술과 고급 텍스트-음성 변환(TTS) 기술을 활용하여 개인화된 오디오 콘텐츠를 제공하는 사업모델을 구현합니다. 이 모델은 AI 기반의 음성 인식, 자연어 처리(NLP), TTS, 목소리 변환 기술, 그리고 다양한 웹 기반 데이터 중심으로 개발됩니다.

  • AI 기반 음성 인식 및 자연어 처리(NLP)
    • 음성 인식 기술: 포들리는 OpenAI의 Whisper와 같은 고성능 음성 인식 모델을 사용하여 사용자의 음성을 텍스트로 변환합니다. Whisper는 다양한 언어와 악센트를 정확하게 인식하며, 포들리의 음성 기반 상호작용 기능을 지원하는 핵심 기술입니다.
    • 자연어 처리(NLP): 포들리는 OpenAI의 LLM 모델(OpenAI’s GPT 시리즈)뿐만 아니라 Upstage의 Solar, Google의 Gemma2, Microsoft의 Phi 3.5, Meta의 Llama 3.1 등 다양한 open-source LLM 모델을 테스트하여 최적의 성능을 제공하는 모델을 선택할 예정입니다. 이 NLP 모델들은 사용자의 자연어 질문에 대한 실시간 답변 제공, 콘텐츠 생성, 그리고 개인화된 추천 시스템을 구현하는 데 사용됩니다.
  • 텍스트-음성 변환(TTS) 및 목소리 변환 기술
    • 텍스트-음성 변환(TTS): 포들리는 ElevenLabs, TypeCast등의 고급 TTS 기술을 활용하여 자연스럽고 감정이 담긴 음성을 생성합니다. 텍스트를 다양한 스타일의 음성으로 변환할 수 있으며, 사용자에게 맞춤형 음성 경험을 제공합니다.
    • 목소리 변환: 포들리는 사용자에게 다양한 목소리 옵션을 제공하기 위해 목소리 변환 기술을 고려하고 있습니다. 사용자는 선호하는 성우나 유명인의 목소리로 콘텐츠를 들을 수 있으며, 자신만의 맞춤형 음성을 선택할 수 있습니다. 이를 통해 콘텐츠의 몰입감과 사용자 경험을 크게 향상시킬 수 있습니다.
  • 공공데이터 활용
    • 데이터 수집 및 처리: 포들리는 정부 및 공공기관의 데이터를 활용하여 경제, 환경, 교육, 건강, 교통, 문화 등 다양한 주제의 콘텐츠를 제작합니다. 예를 들어, 공공데이터포털과 Data.gov, AIHUB와 같은 플랫폼을 통해 데이터를 수집합니다.
    • 데이터 분석 및 통합: 수집된 데이터는 Python의 Pandas, NumPy 라이브러리를 사용해 정제 및 분석됩니다. 또한, 데이터 시각화 도구인 Tableau나 Power BI를 사용해 인사이트를 도출합니다. 이를 통해 신뢰성 높은 정보와 함께 개인화된 콘텐츠를 제작할 수 있습니다.
    • 콘텐츠 개인화: 공공데이터와 사용자의 청취 기록, 개인 일정, 위치 정보를 결합하여 개인화된 콘텐츠를 제공합니다. 예를 들어, 사용자의 위치를 기반으로 한 날씨 정보와 교통 정보를 결합해 출퇴근 시간에 맞춘 맞춤형 팟캐스트를 제작할 수 있고, 앱 내 사용자 행동을 분석하여 추천 알고리즘을 통해 각 사용자에게 가장 관련성 높고 흥미로운 맞춤형 뉴스와 콘텐츠를 제공합니다.

1
<Podly의 데이터 수집부터 배포까지의 종합 프로세스>

4.1.2 기술력

포들리의 기술적 역량은 최신 인공지능 및 TTS 기술을 기반으로 하며, 이를 통해 고품질의 개인화된 오디오 콘텐츠를 제공하는 데 중점을 두고 있습니다.

  • 음성 인식 및 NLP 기술
    • 포들리는 OpenAI의 Whisper를 사용하여 음성을 텍스트로 변환하고, 다양한 LLM 모델(OpenAI, Solar, Gemma2, Phi 3.5, Llama 3.1 등)을 테스트해 최적의 NLP 모델을 선택하여 사용합니다. 이를 통해 실시간 음성 인식, 자연어 처리, 그리고 사용자의 질의응답 및 콘텐츠 추천 기능을 구현합니다.
  • LLM과 RAG 기법을 활용한 지능형 뉴스 큐레이션
    • 포들리는 사전 학습된 대규모 언어 모델(LLM)에 RAG(Retrieval-Augmented Generation) 기법을 활용하여 문서를 기반으로 텍스트를 생성합니다. RAG 기법을 사용해 외부 문서에서 관련 정보를 검색하고 이를 바탕으로 응답을 생성하여, 사전 학습된 지식에 최신 정보를 결합해 더 정확한 결과를 제공합니다.
      1. 주요 뉴스 요약: 실시간 주요 뉴스를 간략히 요약하여 제공합니다.
      2. 맞춤형 뉴스 큐레이션: 사용자의 관심사에 맞춰 뉴스를 검색하고 선별합니다.
      3. 심층 질의응답(Q&A): 뉴스 원문을 바탕으로 사용자의 질문에 답변합니다.
      4. 확장된 정보 제공: 원문에 없는 관련 정보도 웹 검색을 통해 찾아 제공합니다.

  • 텍스트-음성 변환 및 목소리 변환 기술
    • 포들리는 ElevenLabs의 TTS 기술을 활용해 고품질의 음성을 생성하며, 다양한 목소리 옵션을 제공하여 사용자에게 더욱 몰입감 있는 청취 경험을 제공합니다. 목소리 변환 기술은 개인화된 음성 경험을 통해 사용자 만족도를 높이는 데 중요한 역할을 합니다.
  • 데이터 분석 및 개인화
    • 포들리는 다양한 공공데이터를 분석해 신뢰성 높은 콘텐츠를 제작하고, 이를 사용자 맞춤형 경험과 결합하여 고도로 개인화된 서비스를 제공합니다. 데이터 분석 도구를 통해 데이터 정제와 통합을 수행하며, 결과를 바탕으로 청취자에게 최적화된 콘텐츠를 제공합니다.
  • 소프트웨어 아키텍처

  • 화면 예시
    • Flutter 기반 앱 화면(작업중)

4.2 공공데이터 활용 예시

포들리는 다양한 공공데이터를 활용하여 맞춤형 콘텐츠를 제작합니다. 아래는 공공데이터 활용의 구체적인 예시입니다:

데이터 출처활용 방법기대 효과
정부 경제 데이터경제 관련 팟캐스트 제작청취자에게 최신 경제 정보 제공
교육 데이터교육 관련 팟캐스트 제작교육 정보 제공 및 학습 지원
문화 및 예술 데이터문화 행사, 예술 전시 등 관련 팟캐스트 제작문화적 이해 증진 및 다양한 문화 콘텐츠 접근성 향상
사회적 이슈 데이터사회적 이슈(예: 고령화, 빈곤) 관련 팟캐스트 제작사회적 인식 개선 및 사회 문제 해결에 기여
범죄 및 안전 데이터범죄 예방, 안전 정책 관련 팟캐스트 제작지역 사회의 안전 인식 제고 및 범죄 예방에 기여
기상 데이터날씨 정보를 반영한 팟캐스트 콘텐츠 제작사용자의 일상에 직접적인 영향을 주는 맞춤형 정보 제공

4.3.1 기술적 리스크

  • 음성 인식 정확도 저하: 음성 인식 기술이 특정 환경(예: 배경 소음이 많은 곳)에서 정확도가 낮아질 가능성이 있습니다. 또한, 다양한 언어와 악센트, 억양에 대한 인식 능력이 충분하지 않으면 사용자 경험에 부정적인 영향을 미칠 수 있습니다.
  • NLP 모델의 응답 정확도 문제: 자연어 처리(NLP) 모델이 사용자 질문에 대한 부정확한 답변을 제공하거나, 콘텐츠 큐레이션에서 사용자 의도를 제대로 반영하지 못할 경우, 사용자 만족도가 크게 저하될 수 있습니다.
  • TTS 음성 품질 저하: 텍스트-음성 변환(TTS) 기술이 다양한 콘텐츠를 처리하는 과정에서 음성의 자연스러움이나 감정 전달에 실패할 가능성이 있습니다. 이는 사용자 경험을 저해하고 서비스 신뢰성을 떨어뜨릴 수 있습니다.
  • 데이터 처리 및 통합의 복잡성: 다양한 공공데이터를 통합하고 이를 분석하여 개인화된 콘텐츠를 제공하는 과정에서 데이터의 정확성과 일관성을 유지하는 것이 어려울 수 있습니다. 또한, 대규모 데이터를 실시간으로 처리하는 데 있어 성능 저하가 발생할 수 있습니다.

4.3.2 대응 방안

  • 음성 인식 기술 최적화: OpenAI Whisper와 같은 고성능 음성 인식 모델을 지속적으로 업데이트하고, 다양한 환경에서의 성능을 개선하기 위한 테스트를 진행합니다. 또한, 사용자의 피드백을 수집하여 특정 언어, 악센트, 억양에 대한 인식 정확도를 높이기 위한 맞춤형 모델 튜닝을 실시합니다.
  • NLP 모델 개선 및 학습: Podly는 다양한 LLM 모델을 지속적으로 테스트하고, 최적의 모델을 선택하여 사용자의 질의에 대해 더 정확한 답변을 제공하도록 모델을 개선합니다. 또한, 사용자 피드백과 실시간 데이터를 활용한 지속적인 모델 재훈련을 통해 응답 정확도를 높이고, 콘텐츠 큐레이션의 품질을 보장합니다.
  • TTS 품질 향상: ElevenLabs의 TTS 기술을 정기적으로 업데이트하고, 다양한 음성 스타일과 감정 표현을 지원하는 모델을 사용하여 사용자 경험을 개선합니다. 또한, 사용자 피드백을 반영해 TTS 모델의 음성 품질을 지속적으로 개선하여 자연스러운 음성 출력을 보장합니다.
  • 데이터 관리 및 처리 최적화: 공공데이터의 수집, 처리, 통합 과정에서 데이터 정확성과 일관성을 유지하기 위해, Python의 Pandas, NumPy 등 강력한 데이터 처리 라이브러리를 활용합니다. 실시간 데이터 처리 성능을 향상시키기 위해 클라우드 기반의 확장 가능한 데이터 인프라를 구축하며, 성능 저하를 방지하기 위한 모니터링 시스템을 도입합니다.
  • 클라우드 인프라 확장성 확보: AWS, Google Cloud, Microsoft Azure와 같은 클라우드 서비스를 활용하여 확장성 있는 인프라를 구축합니다. 이로써 서비스 트래픽이 급증할 경우에도 안정적인 성능을 유지하며, 필요 시 자동으로 자원을 확장하여 실시간 데이터 처리 능력을 보장합니다.

경영 성과

5.1 지식재산권 확보 현황 및 계획

  • 지식재산권 확보 계획
    • 추가 특허 출원: Podly는 향후 개발되는 기술에 대해서도 지속적으로 특허를 출원할 계획입니다. 특히, 고유한 데이터 처리 기술이나 AI 모델 최적화 기술 등에 대해 특허를 출원하여 기술적 우위를 확보할 것입니다.
    • 글로벌 지식재산권 확보: 국내뿐만 아니라 주요 해외 시장에서도 지식재산권을 확보하여, 글로벌 시장 진출 시에도 Podly의 기술과 브랜드를 보호할 계획입니다.

5.2 사회적 가치 기여

Podly의 혁신적인 기술은 단순한 편의성을 넘어 사회적 가치 창출을 목표로 합니다. 음성 AI와 맞춤형 콘텐츠 추천 시스템은 정보 접근성을 높이고 디지털 격차를 해소합니다. 고령층과 시각장애인을 위한 음성 기반 인터페이스, 그리고 개인화된 뉴스 추천 알고리즘을 통해 Podly는 모든 사용자에게 효과적이고 의미 있는 정보 소비 경험을 제공합니다. 이를 바탕으로 Podly는 다음과 같은 사회적 가치를 창출합니다:

  • 정보 접근성 향상과 디지털 격차 해소
    • Podly는 기존에 뉴스나 시사 정보에 관심이 적었던 사람들에게도 쉽고 편리한 정보 접근 방법을 제공합니다. 음성 기반 인터페이스와 개인화된 콘텐츠 추천을 통해, 사용자들은 일상 속에서 자연스럽게 중요한 사회 이슈와 뉴스를 접할 수 있게 됩니다. 이는 시민들의 사회 참여와 정보 리터러시를 높이는 데 기여하며, 더 나아가 민주주의의 건강한 발전을 위한 토대를 마련합니다. Podly는 이를 통해 정보 격차를 줄이고 사회적 연결성을 강화하는 중요한 역할을 수행합니다.
  • 노인의 디지털 격차 해소 및 정보 접근성 향상
    • Podly는 고령층 사용자를 위해 설계된 음성 기반 서비스로, 노인들이 최신 정보를 손쉽게 접근하고 소비할 수 있도록 지원합니다. 많은 고령층이 스마트폰이나 컴퓨터 사용에 어려움을 겪고 있으며, 이러한 디지털 격차는 정보 접근성을 제한하여 사회적 고립을 초래할 수 있습니다. Podly는 음성 명령을 통해 뉴스, 건강 정보, 지역사회 소식 등을 손쉽게 청취할 수 있도록 제공함으로써, 노인들이 디지털 환경에서도 사회와 적극적으로 소통하고 참여할 수 있도록 돕습니다. 이를 통해 정보 소외 계층이었던 노인들에게도 디지털 혜택을 확대하고, 그들의 삶의 질을 향상시키는 데 기여합니다.
  • 시각장애인을 위한 교육 콘텐츠 제공
    • Podly는 시각장애인들이 접근할 수 있는 맞춤형 교육 콘텐츠를 제공함으로써, 교육 기회를 확대하고 정보 접근성을 높입니다. 시각장애인들은 텍스트 기반의 콘텐츠에 접근하는 데 어려움을 겪을 수 있지만, Podly의 음성 기반 서비스는 이들에게 쉽게 접근할 수 있는 학습 환경을 제공합니다. 예를 들어, 공공 교육 데이터를 활용해 제작된 오디오 강의나 학습 콘텐츠를 제공함으로써, 시각장애인들이 자기주도적으로 학습할 수 있는 기회를 제공합니다. 이는 교육의 평등성을 높이고, 장애인들이 사회적, 경제적으로 더 큰 역할을 수행할 수 있도록 지원합니다.
  • 문화콘텐츠 지원 및 접근성 향상
    • Podly는 다양한 문화콘텐츠를 음성으로 제공하여, 시각장애인과 고령층을 포함한 다양한 사용자들이 문화적 경험을 확장할 수 있도록 돕습니다. 예를 들어, 박물관 전시, 공연, 예술 작품에 대한 설명을 오디오 콘텐츠로 제공하여, 문화 행사에 직접 참여하지 못하는 사용자들도 문화적 콘텐츠를 즐길 수 있도록 지원합니다. 이러한 서비스는 문화적 접근성을 높이고, 모든 사람들이 동등하게 문화적 경험을 누릴 수 있는 환경을 조성하는 데 기여합니다.
  • 맞춤형 건강 정보 제공을 통한 건강 관리 지원
    • Podly는 서울올림픽기념국민체육진흥공단이 제공하는 전국 체육시설 강좌목록 데이터를 활용하여, 고령층 사용자를 위한 맞춤형 건강 관리 오디오 콘텐츠를 제공합니다. 예를 들어, 노인들에게 적합한 운동 프로그램이나 체육 시설 정보를 음성으로 제공하여, 그들이 보다 쉽게 건강을 관리할 수 있도록 돕습니다. 이 서비스는 고령층의 건강 증진과 운동 참여를 촉진하여, 만성 질환 예방과 삶의 질 향상에 기여할 수 있습니다.
  • 사회적 고립 해소 및 지역사회 참여 촉진
    • Podly는 공공데이터를 활용하여 노인들에게 지역사회에서 진행되는 다양한 활동과 이벤트에 대한 정보를 제공합니다. 이를 통해 노인들이 지역사회에 더 적극적으로 참여할 수 있게 돕고, 사회적 고립을 예방합니다. 예를 들어, 지역사랑상품권 정보를 음성으로 제공함으로써 노인들이 지역 상권을 이용하고, 지역사회와의 연계를 강화할 수 있도록 지원합니다. 이러한 서비스는 노인의 사회적 참여를 촉진하고, 지역 경제 활성화에도 기여할 수 있습니다.





첨부자료

Knight Foundation의 최근 연구에 따르면, 사람들이 출퇴근 시간 등 이동 중에 스마트폰을 통해 뉴스를 접하는 비율이 증가하고 있으며, 모바일 뉴스 사용 시간 중 상당 부분이 중요한 뉴스(예: 시사, 국제 뉴스) 소비에 사용되고 있습니다. 그러나 이동 중 터치스크린을 사용하여 정보를 검색하는 것은 불편하고 위험할 수 있어 음성 인식 기반의 대안이 필요하다는 점이 부각되고 있습니다.

The future of voice and the implications for news

  • 저자: N Newman
  • 이 연구는 음성 인식 기술이 뉴스 소비에 미치는 영향을 다루며, 이동 중 터치스크린 대안으로서의 음성 인식의 중요성을 분석합니다.

Designing textile-based wearable on-body electronic interfaces utilizing vibro-tactile proprioceptive display

  • 이 논문에서는 터치 기반 인터페이스를 사용하는 대신 착용 가능한 진동 촉각 피드백 인터페이스를 제안합니다. 설문조사에 따르면, 참가자들은 이동 중 터치 기반 인터페이스 사용의 불편함을 다음과 같이 보고했습니다:
    • 주요 불편함: 작은 화면에서 정확하게 터치하기 어려움, 화면을 보지 않고 조작하기 어려움.
    • 설문 결과: 응답자의 70%가 이동 중 터치 인터페이스 사용을 불편하다고 느꼈으며, 60%는 대안적인 인터페이스가 필요하다고 응답했습니다.

Touch Interfaces from a Usability Perspective: Effective Information Presentation for User Interaction on a Touch Screen

  • 이 연구에서는 터치 기반 인터페이스의 사용성을 평가하기 위해 설문조사를 실시했습니다. 특히 이동 중 터치 기반 인터페이스의 사용성과 관련된 내용을 다루고 있습니다:
    • 주요 불편함: 터치 스크린이 작은 경우 정확하게 입력하는 데 어려움이 있으며, 이동 중 안정적으로 터치하기 어렵다고 보고됨.
    • 설문 결과: 75%의 응답자가 이동 중 터치 기반 상호작용을 매우 불편하다고 응답했으며, 특히 대중교통을 이용할 때 이러한 불편함이 더욱 두드러졌습니다.

Development of Voice User Interfaces and their Impact on the User Experience of Mobile Applications

  • 설문조사 결과: 사용자들이 터치 기반 시스템 대신 음성 인터페이스를 사용할 때, 75% 이상의 응답자가 음성 인터페이스가 더 편리하다고 느꼈으며, 특히 이동 중에 안전성과 편리성이 개선된다고 응답했습니다.

VoiceBack: Design of Artificial Intelligence-Driven Voice-Based Feedback System for Customer-Agency Communication in Online Travel Services

  • 설문조사 결과: 응답자들은 음성 기반 상호작용을 통해 더 나은 사용자 경험을 느꼈으며, 터치 기반 인터페이스보다 효율성과 만족도가 높아졌다고 응답했습니다. 약 68%의 응답자가 음성 기반 시스템이 터치 기반 시스템보다 사용자 친화적이라고 평가했습니다.

User-centered AI-based voice-assistants for safe mobility of older people in urban context

  • 설문조사 결과: 도시 환경에서 노인들이 음성 기반 AI 어시스턴트를 사용하는 것이 터치 기반 시스템보다 훨씬 안전하다고 느꼈으며, 약 72%의 응답자가 음성 기반 인터페이스의 사용성을 높게 평가했습니다.

Source: https://www.fortunebusinessinsights.com/ko/industry-reports/speech-and-voice-recognition-market-101382

출처 : 지티티코리아(https://www.gttkorea.com)

  • 최근 Jenny et al. 연구에 따르면, 사람들이 이동 중 터치스크린을 사용하는 것이 불편하고 위험하다는 점이 부각되었습니다. 설문조사 결과에 따르면 75%의 응답자가 이동 중 터치 기반 상호작용을 매우 불편하게 느끼고 있으며, 특히 대중교통을 이용할 때 이러한 불편함이 더욱 두드러진다고 보고했습니다.
  • 또한, Knight Foundation의 연구에 따르면, 현대 사회에서 정보 과잉으로 인해 사용자가 자신에게 맞는 정보를 신속하게 찾는 것이 어려운 상황에 처해 있습니다. 특히 출퇴근 시간과 같은 이동 중에는 이러한 문제들이 더욱 두드러집니다. 많은 사람들이 이처럼 지속적으로 정보 탐색의 어려움을 겪고 있으며, 이는 사용자 경험에 부정적인 영향을 미칩니다.

  • 문제 정의:
    • 많은 사용자가 출퇴근 시간에 뉴스나 관심사 정보를 터치 기반으로 검색해야 하며, 이는 이동 중에 불편하고 위험할 수 있습니다. 특히, 정보 과잉의 시대에 사용자가 자신에게 맞는 정보를 신속하게 찾는 것이 어려운 상황입니다.

최근 연구들에 따르면, 이동 중 터치스크린 사용의 불편함과 정보 과잉이 사용자 경험에 부정적인 영향을 미치고 있다는 점이 강조되고 있습니다. Jenny et al.의 연구에서는 이동 중 터치스크린 상호작용이 75%의 응답자에게 매우 불편하게 느껴지며, 특히 대중교통 이용 시 이러한 불편함이 더욱 두드러진다고 보고했습니다. 또한, Knight Foundation의 연구는 현대 사회에서 정보 과잉으로 인해 사용자들이 자신에게 맞는 정보를 신속하게 찾기 어려워하며, 특히 출퇴근 시간과 같은 이동 중에는 이 문제가 더욱 심각해진다는 점을 지적하고 있습니다. 이러한 요소들이 결합되어 사용자 경험에 부정적인 영향을 미치고 있는 것으로 나타났습니다.

Podly에 오신 것을 환영합니다! 🎧✨

안녕하세요! 👋 Podly 팀에 합류하게 되어 정말 반갑습니다. Podly는 AI 기반의 맞춤형 음성 뉴스 및 관심사 정보를 제공하여 사용자 경험을 혁신하는 서비스를 목표로 하고 있습니다.

Podly의 핵심 기능

  • 개인화된 뉴스 제공: 사용자의 관심사에 맞춘 최신 뉴스 및 정보를 음성으로 제공하여 편리한 정보 접근성을 제공합니다.
  • AI 기반 추천 시스템: 사용자의 청취 기록과 선호도를 분석하여, 더욱 개인화된 콘텐츠를 추천합니다.
  • 다양한 주제: 경제, 기술, 스포츠 등 다양한 주제의 뉴스와 정보들을 쉽게 청취할 수 있습니다.

Podly와 함께 사용자들에게 더 나은 정보 전달 경험을 제공할 수 있기를 기대합니다. 앞으로의 개발 여정이 즐겁고 의미 있는 시간이 되길 바랍니다! 💻😊

This post is licensed under CC BY 4.0 by the author.

Visual Zettelkasten

Podly_Authentication 과정