Bien sûr ! Voici un programme Python sympa pour scraper des sites web sur le sujet des GAN (Generative Adversarial Networks) et extraire des données. Ce programme utilise les bibliothèques `requests` pour le scraping et `BeautifulSoup` pour l’extraction des données.
« `python
import requests
from bs4 import BeautifulSoup
def scrape_gan_info(url):
# Envoyer une requête GET au site web
response = requests.get(url)
# Vérifier si la requête a été réussie
if response.status_code == 200:
# Extraire le contenu HTML de la page
html_content = response.text
# Utiliser BeautifulSoup pour analyser le contenu HTML
soup = BeautifulSoup(html_content, ‘html.parser’)
# Trouver et extraire les paragraphes (ou tout autre élément de texte pertinent)
paragraphs = soup.find_all(‘p’)
extracted_text = »
for p in paragraphs:
extracted_text += p.get_text() + ‘\n’
# Imprimer le texte extrait
print(« Texte extrait :\n », extracted_text)
else:
print(« Impossible de récupérer le site web. Code d’état : », response.status_code)
# Liste d’URLs de sites web sur le sujet des GAN
url_list = [
« https://www.example.com/gan-article »,
« https://www.example.com/gan-tutorial »,
« https://www.example.com/gan-research »,
# Ajoutez d’autres URLs ici
]
# Scraper chaque site web dans la liste
for url in url_list:
print(f »Scraping {url}…\n »)
scrape_gan_info(url)
print(« \n » + « -« *50 + « \n »)
print(« Scraping terminé ! »)
« `
### Explications :
1. Importation des bibliothèques :
– `requests` pour envoyer des requêtes HTTP.
– `BeautifulSoup` pour analyser le contenu HTML.
2. Fonction `scrape_gan_info` :
– Cette fonction prend une URL en argument.
– Elle envoie une requête GET à l’URL.
– Si la requête est réussie (statut 200), elle analyse le contenu HTML avec `BeautifulSoup`.
– Elle trouve tous les paragraphes (`
`) et extrait leur texte.
– Le texte extrait est imprimé.
3. Liste d’URLs :
– Une liste d’URLs de sites web pertinents sur le sujet des GAN.
4. Boucle de scraping :
– Pour chaque URL dans la liste, le programme appelle la fonction `scrape_gan_info`.
### Remarques :
– Assurez-vous de vérifier les politiques de scraping des sites web que vous souhaitez scraper.
– Vous pouvez ajouter des fonctionnalités supplémentaires pour gérer les erreurs, extraire des données spécifiques, etc.
Bonne chance avec votre programme de scraping ! 😊