от
У меня есть список около 100 веб-страниц в формате HTML (все они имеют различные структуры, такие как ДИВС, якоря, классов и т. д.) и я пытаюсь наскрести на заголовок каждой страницы (где заголовок находится под определенным div и класс). Для этого я использовал GET-запросы и Beautifulsoup, однако этот способ долго (10 минут каждый раз, когда я хочу это сделать)! Я использовал таймер, чтобы увидеть, что занимает больше всего времени: это запросы GET. Видимо, на Python (3.7) выполняет код, один за другим, и после каждого запроса занимает около 5-6 секунд, это занимает примерно 500-600 секунд, чтобы завершить ~100 запросов. Я искал способы, чтобы сделать эти запросы работают быстрее и наткнулась на много разных решений. Однако, общие темы, казалось, что делает мои запросы асинхронно (так что все запросы начинаются одновременно) позволит решить проблемы (делая это быстрее). Существует множество решений для этого, что я прочитала в интернете, в том числе: многопоточность, используя grequest, используя Scrapy, парсинг помощью lxml и т. д. Однако, я новичок в программировании и я не достаточно опытным, чтобы учиться и экспериментировать с каждым образом (на самом деле, я пробовал следующие ответы на похожие вопросы на так, но не удалась), поэтому я не уверен, что это лучший путь для меня, чтобы взять. Мне не нужно ничего фантазии, все, что я хочу сделать, это извлечь заголовки из HTML-документов, как текст и затем распечатать их. Мне не нужно загружать любые файлы CSS, изображения, СМИ и т. д. Также, я надеюсь, чтобы сохранить код как простой/голые, как это возможно. Как я могу сделать это как можно быстрее в Python? Я был бы признателен, если кто-то может предложить лучший путь, чтобы взять (т. е. с помощью Scrapy), и дать краткое объяснение того, что я должен делать, используя этот инструмент, чтобы получить результаты, которые я надеялся. Вам не придется писать весь код за меня. Спасибо!

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
Анти-спам проверка:
Чтобы избежать проверки в будущем, пожалуйста войдите или зарегистрируйтесь.
...