Перевірка багатопоточних посилань

Давайте використаємо наші нові знання, щоб створити багатопотоковий засіб перевірки лінків. Він має початися з веб-сторінки та перевірити, чи лінкі на сторінці дійсні. Він повинен рекурсивно перевіряти інші сторінки в тому самому домені та продовжувати робити це, доки всі сторінки не будуть перевірені.

Для цього вам знадобиться HTTP-клієнт, наприклад, reqwest. Вам також знадобиться спосіб пошуку лінків, ми можемо використати scraper. Нарешті, нам знадобиться спосіб обробки помилок, ми скористаємося thiserror.

Створіть новий проект Cargo та додайте reqwest як залежность з:

cargo new link-checker cd link-checker cargo add --features blocking,rustls-tls reqwest cargo add scraper cargo add thiserror

Якщо cargo add завершується помилкою error: no such subcommand, будь ласка, відредагуйте файл Cargo.toml вручну. Додайте перелічені нижче залежності.

Виклики cargo add оновлять файл Cargo.toml таким чином:

[package] name = "link-checker" version = "0.1.0" edition = "2021" publish = false [dependencies] reqwest = { version = "0.11.12", features = ["blocking", "rustls-tls"] } scraper = "0.13.0" thiserror = "1.0.37"

Тепер ви можете завантажити стартову сторінку. Спробуйте з невеликим сайтом, наприклад https://www.google.org/.

Ваш файл src/main.rs має виглядати приблизно так:

use reqwest::blocking::Client; use reqwest::Url; use scraper::{Html, Selector}; use thiserror::Error; #[derive(Error, Debug)] enum Error { #[error("помилка запиту: {0}")] ReqwestError(#[from] reqwest::Error), #[error("погана http відповідь: {0}")] BadResponse(String), } #[derive(Debug)] struct CrawlCommand { url: Url, extract_links: bool, } fn visit_page(client: &Client, command: &CrawlCommand) -> Result<Vec<Url>, Error> { println!("Перевіряємо {:#}", command.url); let response = client.get(command.url.clone()).send()?; if !response.status().is_success() { return Err(Error::BadResponse(response.status().to_string())); } let mut link_urls = Vec::new(); if !command.extract_links { return Ok(link_urls); } let base_url = response.url().to_owned(); let body_text = response.text()?; let document = Html::parse_document(&body_text); let selector = Selector::parse("a").unwrap(); let href_values = document .select(&selector) .filter_map(|element| element.value().attr("href")); for href in href_values { match base_url.join(href) { Ok(link_url) => { link_urls.push(link_url); } Err(err) => { println!("На {base_url:#}: проігноровано нерозбірливий {href:?}: {err}"); } } } Ok(link_urls) } fn main() { let client = Client::new(); let start_url = Url::parse("https://www.google.org").unwrap(); let crawl_command = CrawlCommand{ url: start_url, extract_links: true }; match visit_page(&client, &crawl_command) { Ok(links) => println!("Лінкі: {links:#?}"), Err(err) => println!("Не вдалося витягти лінки: {err:#}"), } }

Запустіть код у src/main.rs за допомогою

cargo run

Завдання

  • Використовуйте потоки для паралельної перевірки лінків: надішліть URL-адреси для перевірки на канал і дозвольте кільком потокам перевіряти URL-адреси паралельно.
  • Розширте це, щоб рекурсивно отримувати лінкі з усіх сторінок домену www.google.org. Встановіть верхню межу приблизно в 100 сторінок, щоб вас не заблокував сайт.