yt-dlp/yt_dlp/extractor/zype.py

import re

from .common import InfoExtractor
from ..networking.exceptions import HTTPError
from ..utils import (
    ExtractorError,
    dict_get,
    int_or_none,
    js_to_json,
    parse_iso8601,
)


class ZypeIE(InfoExtractor):
    _ID_RE = r'[\da-fA-F]+'
    _COMMON_RE = r'//player\.zype\.com/embed/%s\.(?:js|json|html)\?.*?(?:access_token|(?:ap[ip]|player)_key)='
    _VALID_URL = r'https?:%s[^&]+' % (_COMMON_RE % (f'(?P<id>{_ID_RE})'))
    _EMBED_REGEX = [fr'<script[^>]+\bsrc=(["\'])(?P<url>(?:https?:)?{_COMMON_RE % _ID_RE}.+?)\1']
    _TEST = {
        'url': 'https://player.zype.com/embed/5b400b834b32992a310622b9.js?api_key=jZ9GUhRmxcPvX7M3SlfejB6Hle9jyHTdk2jVxG7wOHPLODgncEKVdPYBhuz9iWXQ&autoplay=false&controls=true&da=false',
        'md5': 'eaee31d474c76a955bdaba02a505c595',
        'info_dict': {
            'id': '5b400b834b32992a310622b9',
            'ext': 'mp4',
            'title': 'Smoky Barbecue Favorites',
            'thumbnail': r're:^https?://.*\.jpe?g',
            'description': 'md5:5ff01e76316bd8d46508af26dc86023b',
            'timestamp': 1504915200,
            'upload_date': '20170909',
        },
    }

    def _real_extract(self, url):
        video_id = self._match_id(url)

        try:
            response = self._download_json(re.sub(
                r'\.(?:js|html)\?', '.json?', url), video_id)['response']
        except ExtractorError as e:
            if isinstance(e.cause, HTTPError) and e.cause.status in (400, 401, 403):
                raise ExtractorError(self._parse_json(
                    e.cause.response.read().decode(), video_id)['message'], expected=True)
            raise

        body = response['body']
        video = response['video']
        title = video['title']

        subtitles = {}

        if isinstance(body, dict):
            formats = []
            for output in body.get('outputs', []):
                output_url = output.get('url')
                if not output_url:
                    continue
                name = output.get('name')
                if name == 'm3u8':
                    formats, subtitles = self._extract_m3u8_formats_and_subtitles(
                        output_url, video_id, 'mp4',
                        'm3u8_native', m3u8_id='hls', fatal=False)
                else:
                    f = {
                        'format_id': name,
                        'tbr': int_or_none(output.get('bitrate')),
                        'url': output_url,
                    }
                    if name in ('m4a', 'mp3'):
                        f['vcodec'] = 'none'
                    else:
                        f.update({
                            'height': int_or_none(output.get('height')),
                            'width': int_or_none(output.get('width')),
                        })
                    formats.append(f)
            text_tracks = body.get('subtitles') or []
        else:
            m3u8_url = self._search_regex(
                r'(["\'])(?P<url>(?:(?!\1).)+\.m3u8(?:(?!\1).)*)\1',
                body, 'm3u8 url', group='url', default=None)
            if not m3u8_url:
                source = self._search_regex(
                    r'(?s)sources\s*:\s*\[\s*({.+?})\s*\]', body, 'source')

                def get_attr(key):
                    return self._search_regex(
                        rf'\b{key}\s*:\s*([\'"])(?P<val>(?:(?!\1).)+)\1',
                        source, key, group='val')

                if get_attr('integration') == 'verizon-media':
                    m3u8_url = 'https://content.uplynk.com/{}.m3u8'.format(get_attr('id'))
            formats, subtitles = self._extract_m3u8_formats_and_subtitles(
                m3u8_url, video_id, 'mp4', 'm3u8_native', m3u8_id='hls')
            text_tracks = self._search_regex(
                r'textTracks\s*:\s*(\[[^]]+\])',
                body, 'text tracks', default=None)
            if text_tracks:
                text_tracks = self._parse_json(
                    text_tracks, video_id, js_to_json, False)

        if text_tracks:
            for text_track in text_tracks:
                tt_url = dict_get(text_track, ('file', 'src'))
                if not tt_url:
                    continue
                subtitles.setdefault(text_track.get('label') or 'English', []).append({
                    'url': tt_url,
                })

        thumbnails = []
        for thumbnail in video.get('thumbnails', []):
            thumbnail_url = thumbnail.get('url')
            if not thumbnail_url:
                continue
            thumbnails.append({
                'url': thumbnail_url,
                'width': int_or_none(thumbnail.get('width')),
                'height': int_or_none(thumbnail.get('height')),
            })

        return {
            'id': video_id,
            'display_id': video.get('friendly_title'),
            'title': title,
            'thumbnails': thumbnails,
            'description': dict_get(video, ('description', 'ott_description', 'short_description')),
            'timestamp': parse_iso8601(video.get('published_at')),
            'duration': int_or_none(video.get('duration')),
            'view_count': int_or_none(video.get('request_count')),
            'average_rating': int_or_none(video.get('rating')),
            'season_number': int_or_none(video.get('season')),
            'episode_number': int_or_none(video.get('episode')),
            'formats': formats,
            'subtitles': subtitles,
        }
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00			`import re`

			`from .common import InfoExtractor`
[compat, networking] Deprecate old functions (#2861) Authored by: coletdjnz, pukkandan 2023-07-09 03:53:02 -04:00			`from ..networking.exceptions import HTTPError`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`from ..utils import (`
			`ExtractorError,`
[misc] Add `hatch`, `ruff`, `pre-commit` and improve dev docs (#7409) Authored by: bashonly, seproDev, Grub4K Co-authored-by: bashonly <88596187+bashonly@users.noreply.github.com> Co-authored-by: sepro <4618135+seproDev@users.noreply.github.com> 2024-05-26 15:27:21 -04:00			`dict_get,`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`int_or_none,`
			`js_to_json,`
			`parse_iso8601,`
			`)`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00

			`class ZypeIE(InfoExtractor):`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`_ID_RE = r'[\da-fA-F]+'`
			`_COMMON_RE = r'//player\.zype\.com/embed/%s\.(?:js\|json\|html)\?.*?(?:access_token\|(?:ap[ip]\|player)_key)='`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 2024-06-11 19:09:58 -04:00			`_VALID_URL = r'https?:%s[^&]+' % (_COMMON_RE % (f'(?P<id>{_ID_RE})'))`
[extractors] Use new framework for existing embeds (#4307) `Brightcove` is difficult to migrate because it's subclasses may depend on the signature of the current functions. So it is left as-is for now Note: Tests have not been migrated 2022-07-31 21:23:25 -04:00			`_EMBED_REGEX = [fr'<script[^>]+\bsrc=(["\'])(?P<url>(?:https?:)?{_COMMON_RE % _ID_RE}.+?)\1']`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00			`_TEST = {`
			`'url': 'https://player.zype.com/embed/5b400b834b32992a310622b9.js?api_key=jZ9GUhRmxcPvX7M3SlfejB6Hle9jyHTdk2jVxG7wOHPLODgncEKVdPYBhuz9iWXQ&autoplay=false&controls=true&da=false',`
			`'md5': 'eaee31d474c76a955bdaba02a505c595',`
			`'info_dict': {`
			`'id': '5b400b834b32992a310622b9',`
			`'ext': 'mp4',`
			`'title': 'Smoky Barbecue Favorites',`
			`'thumbnail': r're:^https?://.*\.jpe?g',`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`'description': 'md5:5ff01e76316bd8d46508af26dc86023b',`
			`'timestamp': 1504915200,`
			`'upload_date': '20170909',`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00			`},`
			`}`

			`def _real_extract(self, url):`
			`video_id = self._match_id(url)`

[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`try:`
			`response = self._download_json(re.sub(`
			`r'\.(?:js\|html)\?', '.json?', url), video_id)['response']`
			`except ExtractorError as e:`
[compat, networking] Deprecate old functions (#2861) Authored by: coletdjnz, pukkandan 2023-07-09 03:53:02 -04:00			`if isinstance(e.cause, HTTPError) and e.cause.status in (400, 401, 403):`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`raise ExtractorError(self._parse_json(`
[compat, networking] Deprecate old functions (#2861) Authored by: coletdjnz, pukkandan 2023-07-09 03:53:02 -04:00			`e.cause.response.read().decode(), video_id)['message'], expected=True)`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`raise`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`body = response['body']`
			`video = response['video']`
			`title = video['title']`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00
[zype] Extract subtitles from the m3u8 manifest (#948) Closes #929 Authored by: fstirlitz 2021-09-11 06:16:03 -04:00			`subtitles = {}`

[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`if isinstance(body, dict):`
			`formats = []`
			`for output in body.get('outputs', []):`
			`output_url = output.get('url')`
			`if not output_url:`
			`continue`
			`name = output.get('name')`
			`if name == 'm3u8':`
[zype] Extract subtitles from the m3u8 manifest (#948) Closes #929 Authored by: fstirlitz 2021-09-11 06:16:03 -04:00			`formats, subtitles = self._extract_m3u8_formats_and_subtitles(`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`output_url, video_id, 'mp4',`
			`'m3u8_native', m3u8_id='hls', fatal=False)`
			`else:`
			`f = {`
			`'format_id': name,`
			`'tbr': int_or_none(output.get('bitrate')),`
			`'url': output_url,`
			`}`
			`if name in ('m4a', 'mp3'):`
			`f['vcodec'] = 'none'`
			`else:`
			`f.update({`
			`'height': int_or_none(output.get('height')),`
			`'width': int_or_none(output.get('width')),`
			`})`
			`formats.append(f)`
			`text_tracks = body.get('subtitles') or []`
			`else:`
			`m3u8_url = self._search_regex(`
			`r'(["\'])(?P<url>(?:(?!\1).)+\.m3u8(?:(?!\1).)*)\1',`
Update to ytdl-2021.01.03 2021-01-01 07:26:37 -05:00			`body, 'm3u8 url', group='url', default=None)`
			`if not m3u8_url:`
Update to ytdl-2021.02.04.1 except youtube 2021-02-04 02:56:01 -05:00			`source = self._search_regex(`
			`r'(?s)sources\s:\s\[\s({.+?})\s\]', body, 'source')`

			`def get_attr(key):`
			`return self._search_regex(`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 2024-06-11 19:09:58 -04:00			`rf'\b{key}\s:\s([\'"])(?P<val>(?:(?!\1).)+)\1',`
Update to ytdl-2021.02.04.1 except youtube 2021-02-04 02:56:01 -05:00			`source, key, group='val')`

			`if get_attr('integration') == 'verizon-media':`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 2024-06-11 19:09:58 -04:00			`m3u8_url = 'https://content.uplynk.com/{}.m3u8'.format(get_attr('id'))`
[zype] Extract subtitles from the m3u8 manifest (#948) Closes #929 Authored by: fstirlitz 2021-09-11 06:16:03 -04:00			`formats, subtitles = self._extract_m3u8_formats_and_subtitles(`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`m3u8_url, video_id, 'mp4', 'm3u8_native', m3u8_id='hls')`
			`text_tracks = self._search_regex(`
			`r'textTracks\s:\s(\[[^]]+\])',`
			`body, 'text tracks', default=None)`
			`if text_tracks:`
			`text_tracks = self._parse_json(`
			`text_tracks, video_id, js_to_json, False)`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`if text_tracks:`
			`for text_track in text_tracks:`
			`tt_url = dict_get(text_track, ('file', 'src'))`
			`if not tt_url:`
			`continue`
			`subtitles.setdefault(text_track.get('label') or 'English', []).append({`
			`'url': tt_url,`
			`})`

			`thumbnails = []`
			`for thumbnail in video.get('thumbnails', []):`
			`thumbnail_url = thumbnail.get('url')`
			`if not thumbnail_url:`
			`continue`
			`thumbnails.append({`
			`'url': thumbnail_url,`
			`'width': int_or_none(thumbnail.get('width')),`
			`'height': int_or_none(thumbnail.get('height')),`
			`})`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00
			`return {`
			`'id': video_id,`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`'display_id': video.get('friendly_title'),`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00			`'title': title,`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`'thumbnails': thumbnails,`
			`'description': dict_get(video, ('description', 'ott_description', 'short_description')),`
			`'timestamp': parse_iso8601(video.get('published_at')),`
			`'duration': int_or_none(video.get('duration')),`
			`'view_count': int_or_none(video.get('request_count')),`
			`'average_rating': int_or_none(video.get('rating')),`
			`'season_number': int_or_none(video.get('season')),`
			`'episode_number': int_or_none(video.get('episode')),`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00			`'formats': formats,`
[zype] improve extraction - extract subtitles(closes #21258) - support URLs with alternative keys/tokens(#21258) - extract more metadata 2020-01-15 08:02:57 -05:00			`'subtitles': subtitles,`
[zype] Add extractor (closes #18143) 2018-11-10 12:44:49 -05:00			`}`