初级网络爬虫练习代码
.
├── wswp-code
│ ├── README.md
│ ├── code
│ │ ├── __init__.py
│ │ ├── chp1
│ │ │ ├── __init__.py
│ │ │ ├── advanced_link_crawler.py
│ │ │ ├── advanced_link_crawler_using_requests.py
│ │ │ ├── downloading_a_page.py
│ │ │ ├── id_iteration_crawler.py
│ │ │ ├── link_crawler.py
│ │ │ ├── retrying_downloads.py
│ │ │ ├── setting_user_agent.py
│ │ │ ├── sitemap_crawler.py
│ │ │ └── throttle.py
│ │ ├── chp2
│ │ │ ├── __init__.py
│ │ │ ├── advanced_link_crawler.py
│ │ │ ├── all_scrapers.py
│ │ │ ├── beautifulsoup.py
│ │ │ ├── beautifulsoup_brokenhtml.py
│ │ │ ├── csv_callback.py
│ │ │ ├── family_trees.py
│ │ │ ├── lxml_brokenhtml.py
│ │ │ ├── lxml_scraper.py
│ │ │ ├── regex.py
│ │ │ ├── test_scrapers.py
│ │ │ └── xpath_scraper.py
│ │ ├── chp3
│ │ │ ├── __init__.py
│ │ │ ├── advanced_link_crawler.py
│ │ │ ├── diskcache.py
│ │ │ ├── downloader.py
│ │ │ ├── downloader_requests_cache.py
│ │ │ ├── rediscache.py
│ │ │ ├── requests_cache_link_crawler.py
│ │ │ └── url_parsing.py
│ │ ├── chp4
│ │ │ ├── advanced_link_crawler.py
│ │ │ ├── alexa_callback.py
│ │ │ ├── extract_list.py
│ │ │ ├── redis_queue.py
│ │ │ ├── threaded_crawler.py
│ │ │ └── threaded_crawler_with_queue.py
│ │ ├── chp5
│ │ │ ├── browser_render.py
│ │ │ ├── json_one_req.py
│ │ │ ├── json_scraper.py
│ │ │ ├── lxml_attempt.py
│ │ │ ├── pyqt_search.py
│ │ │ ├── pyqt_search_browser_render.py
│ │ │ ├── pyqt_webkit.py
│ │ │ └── selenium_search.py
│ │ ├── chp6
│ │ │ ├── __init__.py
│ │ │ ├── edit.py
│ │ │ ├── firefox_sessions.py
│ │ │ ├── login.py
│ │ │ ├── login_form_requests.py
│ │ │ ├── mechanize_form.py
│ │ │ ├── selenium_forms.py
│ │ │ └── submit_login_form.py
│ │ ├── chp7
│ │ │ ├── __init__.py
│ │ │ ├── captcha_api.py
│ │ │ ├── image_processing.py
│ │ │ ├── investigate_form.py
│ │ │ ├── register_with_api.py
│ │ │ ├── register_with_ocr.py
│ │ │ ├── test_samples.py
│ │ │ └── using_captcha_api.py
│ │ ├── chp8
│ │ │ ├── __init__.py
│ │ │ └── example
│ │ │ ├── example
│ │ │ │ ├── __init__.py
│ │ │ │ ├── items.py
│ │ │ │ ├── middlewares.py
│ │ │ │ ├── pipelines.py
│ │ │ │ ├── settings.py
│ │ │ │ └── spiders
│ │ │ │ ├── __init__.py
│ │ │ │ └── country.py
│ │ │ └── scrapy.cfg
│ │ ├── chp9
│ │ │ ├── __init__.py
│ │ │ ├── bmw_scraper.py
│ │ │ ├── facebook_graph.py
│ │ │ ├── facebook_selenium.py
│ │ │ ├── gap_scraper_callback.py
│ │ │ └── scrape_google.py
│ │ └── example_config.cfg
│ └── data
│ └── captcha_samples
│ ├── Thumbs.db
│ ├── sample1.png
│ ├── sample10.png
│ ├── sample100.png
│ ├── sample11.png
│ ├── sample12.png
│ ├── sample13.png
│ ├── sample14.png
│ ├── sample15.png
│ ├── sample16.png
│ ├── sample17.png
│ ├── sample18.png
│ ├── sample19.png
│ ├── sample2.png
│ ├── sample20.png
│ ├── sample21.png
│ ├── sample22.png
│ ├── sample23.png
│ ├── sample24.png
│ ├── sample25.png
│ ├── sample26.png
│ ├── sample27.png
│ ├── sample28.png
│ ├── sample29.png
│ ├── sample3.png
│ ├── sample30.png
│ ├── sample31.png
│ ├── sample32.png
│ ├── sample33.png
│ ├── sample34.png
│ ├── sample35.png
│ ├── sample36.png
│ ├── sample37.png
│ ├── sample38.png
│ ├── sample39.png
│ ├── sample4.png
│ ├── sample40.png
│ ├── sample41.png
│ ├── sample42.png
│ ├── sample43.png
│ ├── sample44.png
│ ├── sample45.png
│ ├── sample46.png
│ ├── sample47.png
│ ├── sample48.png
│ ├── sample49.png
│ ├── sample5.png
│ ├── sample50.png
│ ├── sample51.png
│ ├── sample52.png
│ ├── sample53.png
│ ├── sample54.png
│ ├── sample55.png
│ ├── sample56.png
│ ├── sample57.png
│ ├── sample58.png
│ ├── sample59.png
│ ├── sample6.png
│ ├── sample60.png
│ ├── sample61.png
│ ├── sample62.png
│ ├── sample63.png
│ ├── sample64.png
│ ├── sample65.png
│ ├── sample66.png
│ ├── sample67.png
│ ├── sample68.png
│ ├── sample69.png
│ ├── sample7.png
│ ├── sample70.png
│ ├── sample71.png
│ ├── sample72.png
│ ├── sample73.png
│ ├── sample74.png
│ ├── sample75.png
│ ├── sample76.png
│ ├── sample77.png
│ ├── sample78.png
│ ├── sample79.png
│ ├── sample8.png
│ ├── sample80.png
│ ├── sample81.png
│ ├── sample82.png
│ ├── sample83.png
│ ├── sample84.png
│ ├── sample85.png
│ ├── sample86.png
│ ├── sample87.png
│ ├── sample88.png
│ ├── sample89.png
│ ├── sample9.png
│ ├── sample90.png
│ ├── sample91.png
│ ├── sample92.png
│ ├── sample93.png
│ ├── sample94.png
│ ├── sample95.png
│ ├── sample96.png
│ ├── sample97.png
│ ├── sample98.png
│ ├── sample99.png
│ └── samples.csv
└── 找例子网_初级爬虫练习代码.zip
16 directories, 181 files
评论