от
Я думал о попытке красивый суп, пакет python для HTML выскабливание. Есть любые другие HTML выскабливание пакеты я должен быть глядя на? Python-это не требование, я действительно заинтересован в судебное заседание также о других языках. История до сих пор: Питон Красивый Суп библиотека lxml HTQL Scrapy Механизировать Рубиновый Nokogiri по Hpricot Механизировать scrAPI scRUBYt! вомбат Watir .Чистая В HTML Ловкость Обновления WatiN На Perl Сайт www::механизируют Веб-Скребок Ява Тэг Суп HtmlUnit Веб-Сбора Урожая jARVEST jsoup Парсер HTML в Иерихоне В JavaScript запрос Чирио арту узел-джигит помощи PhantomJS В PHP Гут htmlSQL В PHP простые HTML DOM анализатор Соскоб на PHP с curl ScarletsQuery Большинство из них Экран-Скребок

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
Анти-спам проверка:
Чтобы избежать проверки в будущем, пожалуйста войдите или зарегистрируйтесь.

31 Ответы

0 голосов
от
Я думал о попытке красивый суп, пакет python для HTML выскабливание. Есть любые другие HTML выскабливание пакеты я должен быть глядя на? Python-это не требование, я действительно заинтересован в судебное заседание также о других языках. История до сих пор: Питон Красивый Суп библиотека lxml HTQL Scrapy Механизировать Рубиновый Nokogiri по Hpricot Механизировать scrAPI scRUBYt! вомбат Watir .Чистая В HTML Ловкость Обновления WatiN На Perl Сайт www::механизируют Веб-Скребок Ява Тэг Суп HtmlUnit Веб-Сбора Урожая jARVEST jsoup Парсер HTML в Иерихоне В JavaScript запрос Чирио арту узел-джигит помощи PhantomJS В PHP Гут htmlSQL В PHP простые HTML DOM анализатор Соскоб на PHP с curl ScarletsQuery Большинство из них Экран-Скребок
0 голосов
от
Эквивалент Рубин в мире прекрасного супа Hpricot why_the_lucky_stiff по.
0 голосов
от
В .Чистый мир, я рекомендую в HTML ловкость обновления. Не так просто, как некоторые из вышеперечисленных вариантов (как HTMLSQL), но очень гибкий. Это позволяет maniuplate плохо сформированный HTML-код, как если бы это были хорошо сформированный XML, так что вы можете использовать XPath или просто itereate за узлы. http://www.codeplex.com/htmlagilitypack
0 голосов
от
BeautifulSoup-это отличный способ перейти на HTML выскабливание. Моя предыдущая работа была мне делать большое выскабливание, и я хочу знать о BeautifulSoup, когда я начал. Это как дом с большим количеством полезных опций и гораздо более подходящие для Python. Если вы хотите попробовать Руби они портировали BeautifulSoup назвав его RubyfulSoup но он не был обновлен в некоторое время. Другие полезные инструменты HTMLParser или sgmllib.SGMLParser, которые являются частью стандартной библиотеки Python. Эти работы путем вызова методов каждый раз при входе/выходе тег и столкнуться с HTML-текстом. Они как экспат, если вы знакомы с этим. Эти библиотеки будут особенно полезны, если вы собираетесь парсить очень большие файлы и создания DOM-дерево будет долго и дорого. Регулярные выражения не очень нужно. BeautifulSoup обрабатывает регулярные выражения таким образом, если вам нужна их сила вы можете использовать его там. Я говорю иди с BeautifulSoup, если вам нужна скорость и меньший объем памяти. Если вы найдете лучше HTML парсер на Python, дайте мне знать.
0 голосов
от
Я нашел HTMLSQL быть до смешного простой способ screenscrape. Это занимает буквально минуты, чтобы получить результаты с ним. Запросы супер-интуитивный - как:
SELECT title from img WHERE $class == 'userpic'
Есть несколько других альтернатив, которые применяют тот же подход.
0 голосов
от
Библиотека библиотека lxml в Python выступает в качестве обновления привязка к библиотеке libxml2 и библиотек для libxslt. Мне нравится, особенно его поддержка XPath и печати в памяти XML-структуру. Он также поддерживает извлечение сломанной HTML. И я не думаю, что можно найти и другие библиотеки Python/привязку, которая анализирует XML быстрее, чем с помощью lxml.
0 голосов
от
Для Perl есть на www::механизируют.
0 голосов
от
Python имеет несколько вариантов для HTML выскабливание в дополнение к красивый суп. Вот некоторые другие: механизировать: похож на
WWW:Mechanize
на Perl. Дает вам браузер, как объект ineract с веб-страниц библиотека lxml: питон привязки к
libwww
. Поддерживает различные варианты траверс и выберите элементы (например, XPath и CSS на выбор) scrapemark: высокая библиотека уровень с помощью шаблонов для извлечения информации из HTML. pyquery: позволяет сделать на jQuery, как запросы к XML-документам. scrapy: высокий уровень соскоб и по web рамок. Он может быть использован для написания пауков, для интеллектуального анализа данных и мониторинга и автоматизированного тестирования
0 голосов
от
Простой парсер HTML дом-это хороший вариант для PHP, если ваш знакомый с jQuery селекторы или на JavaScript, то вы окажетесь дома. Найти его здесь Также в блоге об этом здесь.
0 голосов
от
Почему никто не упомянул JSOUP, но для Java? http://jsoup.org/
...