콘텐츠로 이동

search_metadata

비디오 캡션 메타데이터 검색


개요

다양한 필터(UUID, 모델, 설정, 날짜)를 기반으로 비디오 분석 메타데이터를 검색합니다.

주요 사용 사례:

  • 특정 모델로 처리된 비디오 찾기
  • UUID, config, 시간 범위로 필터링
  • 등록된 비디오 목록 확인
  • get_captions_batch의 입력 데이터 준비

Function Signature

def search_metadata(
    feature_view: str,
    uuids: Optional[List[str]] = None,
    models: Optional[List[str]] = None,
    configs: Optional[List[str]] = None,
    time_after: Optional[str] = None,
    time_before: Optional[str] = None
) -> pd.DataFrame

Description

Metadata 파일에서 다양한 조건으로 비디오 메타데이터를 검색합니다.

공통 파라미터

모든 API는 feature_view 파라미터를 입력받습니다 (문서상 생략됨).
- 'video_description': 비디오 캡션
- 'audio_transcript': ASR 결과
- 'caption_summary': 캡션+ASR 요약


Parameters

Parameter Type Default Description
uuids List[str] or None None 검색할 비디오 UUID 리스트
None이면 모든 UUID 조회
models List[str] or None None 필터링할 모델 이름 리스트
예: ["gpt-4o", "claude-3.5"]
None이면 모든 모델 조회
configs List[str] or None None Config 파일 경로 리스트
예: ["config_fine.yaml"]
None이면 모든 config_source 포함
time_after str or None None 이 시점 이후 데이터만 조회 (ISO format)
예: "2024-12-01T00:00:00"
None이면 시작 시점 제한 없음
time_before str or None None 이 시점 이전 데이터만 조회 (ISO format)
예: "2024-12-31T23:59:59"
None이면 종료 시점 제한 없음

Returns

Type: pd.DataFrame

Columns:

  • uuid (str): 비디오 고유 식별자
  • model (str): 캡션 생성 모델 이름
  • config_source (str): Config 파일 경로
  • timestamp (datetime): 데이터 생성 시점
  • segment_ids (List[str]): Segment ID 리스트
  • segment_count (int): 총 segment 개수

예시

전체 조회

# 모든 메타데이터 조회
metadata = search_metadata(
    feature_view='caption_summary'
)

print(f"Total videos: {len(metadata)}")
print(metadata.head())

출력:

Total videos: 140
   uuid                                    model           config_source        segment_count
0  f2c99e03-8415-4926-bf3d-60ec8c2ddab4    gpt-4o          None                 28
1  f2c99e03-8415-4926-bf3d-60ec8c2ddab4    claude-3.5      None                 30
2  1d0f4f13-f79b-448b-b176-cbcc4f38e911    vila-1.5        config_X.yaml        27


특정 모델만 조회

# GPT-4 결과만 조회
metadata = search_metadata(
    feature_view='caption_summary',
    models=['gpt-4o']
)

print(f"GPT-4 videos: {len(metadata)}")

출력:

GPT-4 videos: 52


복합 조건 검색

# GPT-4 + Claude + 12월 데이터
metadata = search_metadata(
    feature_view='caption_summary',
    models=['gpt-4o', 'claude-3.5-sonnet'],
    time_after='2024-12-01',
    time_before='2024-12-31'
)

print(f"Results: {len(metadata)}")

출력:

Results: 12


특정 UUID 검색

# 특정 비디오들만 조회
metadata = search_metadata(
    feature_view='caption_summary',
    uuids=[
        'f2c99e03-8415-4926-bf3d-60ec8c2ddab4',
        '1d0f4f13-f79b-448b-b176-cbcc4f38e911'
    ]
)

print(f"Found {len(metadata)} versions")

출력:

Found 2 versions


관련 API