[ie/cda] Support folders (#10786)

Closes #5429 Authored by: pktiuk
2024-11-14 20:38:11 -05:00 · 2024-10-20 23:16:22 +02:00 · 2024-10-20 23:16:22 +02:00 · c4d95f67dd
commit c4d95f67dd
parent 5af774d7a3
2 changed files with 52 additions and 1 deletions
--- a/yt_dlp/extractor/_extractors.py
+++ b/yt_dlp/extractor/_extractors.py
@ -363,7 +363,10 @@
 )
 from .ccma import CCMAIE
 from .cctv import CCTVIE
-from .cda import CDAIE
+from .cda import (
    CDAIE,
    CDAFolderIE,
 )
 from .cellebrite import CellebriteIE
 from .ceskatelevize import CeskaTelevizeIE
 from .cgtn import CGTNIE
--- a/yt_dlp/extractor/cda.py
+++ b/yt_dlp/extractor/cda.py
@ -12,6 +12,7 @@
 from ..compat import compat_ord
 from ..utils import (
    ExtractorError,
    OnDemandPagedList,
    float_or_none,
    int_or_none,
    merge_dicts,
@ -351,3 +352,50 @@ def extract_format(page, version):
            extract_format(webpage, resolution)
        return merge_dicts(info_dict, info)
 class CDAFolderIE(InfoExtractor):
    _MAX_PAGE_SIZE = 36
    _VALID_URL = r'https?://(?:www\.)?cda\.pl/(?P<channel>\w+)/folder/(?P<id>\d+)'
    _TESTS = [
        {
            'url': 'https://www.cda.pl/domino264/folder/31188385',
            'info_dict': {
                'id': '31188385',
                'title': 'SERIA DRUGA',
            },
            'playlist_mincount': 13,
        },
        {
            'url': 'https://www.cda.pl/smiechawaTV/folder/2664592/vfilm',
            'info_dict': {
                'id': '2664592',
                'title': 'VideoDowcipy - wszystkie odcinki',
            },
            'playlist_mincount': 71,
        },
        {
            'url': 'https://www.cda.pl/DeliciousBeauty/folder/19129979/vfilm',
            'info_dict': {
                'id': '19129979',
                'title': 'TESTY KOSMETYKÓW',
            },
            'playlist_mincount': 139,
        }]
    def _real_extract(self, url):
        folder_id, channel = self._match_valid_url(url).group('id', 'channel')
        webpage = self._download_webpage(url, folder_id)
        def extract_page_entries(page):
            webpage = self._download_webpage(
                f'https://www.cda.pl/{channel}/folder/{folder_id}/vfilm/{page + 1}', folder_id,
                f'Downloading page {page + 1}', expected_status=404)
            items = re.findall(r'<a[^>]+href="/video/([0-9a-z]+)"', webpage)
            for video_id in items:
                yield self.url_result(f'https://www.cda.pl/video/{video_id}', CDAIE, video_id)
        return self.playlist_result(
            OnDemandPagedList(extract_page_entries, self._MAX_PAGE_SIZE),
            folder_id, self._og_search_title(webpage))