成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用C#+Selenium+ChromeDriver 爬取網頁,模擬真實的用戶瀏覽行為

開發 后端
Selenium是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。而對于爬蟲來說,使用Selenium操控瀏覽器來爬取網上的數據那么肯定是爬蟲中的殺手武器。

[[381769]]

本文轉載自微信公眾號「UP技術控」,可以通過以下二維碼關注。轉載本文請聯系UP技術控公眾號。

背景

Selenium是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。而對于爬蟲來說,使用Selenium操控瀏覽器來爬取網上的數據那么肯定是爬蟲中的殺手武器。這里,我將介紹selenium + 谷歌瀏覽器的一般使用。

需求

在平常的爬蟲開發中,有時候網頁是一堆js堆起來的代碼,涉及很多異步計算,如果是普通的http 控制臺請求,那么得到的源文件是一堆js ,需要自己在去組裝數據,很費力;但是采用Selenium+ChromeDriver可以達到所見即所得的完美效果。

實現方式

項目結構:為了方便使用,用的winform程序,附nuget包

 

以下是form1.cs的代碼,這里就只放關鍵方法代碼了。需要安裝最新的chrome瀏覽器+代碼中使用的chromedriver是 v2.9.248315

  1. private void crawlingWebFunc() 
  2.         { 
  3.             SetText("\r\n開始嘗試..."); 
  4.             List<testfold> surls = new List<testfold>(); 
  5.             string path = System.Environment.CurrentDirectory + "\\圖片url\\"
  6.             DirectoryInfo root = new DirectoryInfo(path); 
  7.             DirectoryInfo[] dics = root.GetDirectories(); 
  8.             foreach (var itemdic in dics) 
  9.             { 
  10.                 string txt = ""
  11.                 StreamReader sr = new StreamReader(itemdic.FullName + "\\data.txt"); 
  12.                 while (!sr.EndOfStream) 
  13.                 { 
  14.                     string str = sr.ReadLine(); 
  15.                     txt += str;// + "\n"
  16.                 } 
  17.                 sr.Close(); 
  18.                 surls.Add(new testfold() { key = itemdic.FullName, picurl = txt }); 
  19.             } 
  20.  
  21.             ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory); 
  22.             //  service.HideCommandPromptWindow = true
  23.  
  24.             ChromeOptions options = new ChromeOptions(); 
  25.             options.AddArguments("--test-type""--ignore-certificate-errors"); 
  26.             options.AddArgument("enable-automation"); 
  27.             //   options.AddArgument("headless"); 
  28.             //  options.AddArguments("--proxy-server=http://user:password@yourProxyServer.com:8080"); 
  29.  
  30.             using (IWebDriver driver = new OpenQA.Selenium.Chrome.ChromeDriver(service, options, TimeSpan.FromSeconds(120))) 
  31.             { 
  32.                 driver.Url = "https://www.1688.com/"
  33.                 Thread.Sleep(200); 
  34.                 try 
  35.                 { 
  36.                     int a = 1; 
  37.                     foreach (var itemsurls in surls) 
  38.                     { 
  39.                         SetText("\r\n第" + a.ToString() + "個"); 
  40.                         driver.Navigate().GoToUrl(itemsurls.picurl); 
  41.                         //登錄 
  42.                         if (driver.Url.Contains("login.1688.com")) 
  43.                         { 
  44.                             SetText("\r\n需要登錄,開始嘗試..."); 
  45.                             trylogin(driver); //嘗試登錄完成 
  46.                                               //再試試 
  47.                             driver.Navigate().GoToUrl("https://s.1688.com/youyuan/index.htm?tab=imageSearch&imageType=oss&imageAddress=cbuimgsearch/eWXC7XHHPN1607529600000&spm="); 
  48.  
  49.                             if (driver.Url.Contains("login.1688.com")) 
  50.                             { 
  51.                                 //沒辦法退出 
  52.                                 SetText("\r\n退出,換ip重試..."); 
  53.                                 return
  54.                             } 
  55.                         } 
  56.  
  57.                         //鼠標放上去的內容因為頁面自帶只能顯示一個的原因 沒辦法做到全部顯示 然后在下載 只能是其他方式下載 
  58.                         //  var elements = document.getElementsByClassName('hover-container'); 
  59.                         //  Array.prototype.forEach.call(elements, function(element) { 
  60.                         //  element.style.display = "block"
  61.                         //   console.log(element); 
  62.                         //  }); 
  63.  
  64.                         //   IJavaScriptExecutor js = (IJavaScriptExecutor)driver; 
  65.  
  66.                         //    var sss = js.ExecuteScript(" var elements = document.getElementsByClassName('hover-container');  Array.prototype.forEach.call(elements, function(element) {  console.log(element); element.setAttribute(\"class\", \"測試title\");  element.style.display = \"block\";  console.log(element); });"); 
  67.  
  68.                         Thread.Sleep(500); 
  69.                         var responseModel = Write(itemsurls.key, driver.PageSource, Pagetypeenum.列表); 
  70.                         Thread.Sleep(500); 
  71.                         int i = 1; 
  72.                         foreach (var offer in responseModel?.data?.offerList ?? new List<OfferItemModel>()) 
  73.                         { 
  74.                             driver.Navigate().GoToUrl(offer.information.detailUrl); 
  75.                             string responseDatadetail = driver.PageSource; 
  76.                             Write(itemsurls.key, driver.PageSource, Pagetypeenum.詳情); 
  77.                             SetText("\r\n第" + a.ToString() + "-" + i.ToString() + "個"); 
  78.                             Thread.Sleep(500); 
  79.                             i++; 
  80.                         } 
  81.                     } 
  82.                 } 
  83.                 catch (Exception ex) 
  84.                 { 
  85.                     CloseChromeDriver(driver); 
  86.                     throw; 
  87.                 } 
  88.             } 
  89.         } 

  1. #region 異常  退出chromedriver 
  2.  
  3.         [DllImport("user32.dll", EntryPoint = "FindWindow")] 
  4.         private extern static IntPtr FindWindow(string lpClassName, string lpWindowName); 
  5.  
  6.         [DllImport("user32.dll", EntryPoint = "SendMessage")] 
  7.         public static extern int SendMessage(IntPtr hWnd, int Msg, int wParam, int lParam); 
  8.  
  9.         public const int SW_HIDE = 0; 
  10.         public const int SW_SHOW = 5; 
  11.  
  12.         [DllImport("user32.dll", EntryPoint = "ShowWindow")] 
  13.         public static extern int ShowWindow(IntPtr hwnd, int nCmdShow); 
  14.  
  15.         /// <summary> 
  16.         /// 獲取窗口句柄 
  17.         /// </summary> 
  18.         /// <returns></returns
  19.         public IntPtr GetWindowHandle() 
  20.         { 
  21.             string name = (Environment.CurrentDirectory + "\\chromedriver.exe"); 
  22.             IntPtr hwd = FindWindow(nullname); 
  23.             return hwd; 
  24.         } 
  25.  
  26.         /// <summary> 
  27.         /// 關閉chromedriver窗口 
  28.         /// </summary> 
  29.         public void CloseWindow() 
  30.         { 
  31.             try 
  32.             { 
  33.                 IntPtr hwd = GetWindowHandle(); 
  34.                 SendMessage(hwd, 0x10, 0, 0); 
  35.             } 
  36.             catch { } 
  37.         } 
  38.  
  39.         /// <summary> 
  40.         /// 退出chromedriver 
  41.         /// </summary> 
  42.         /// <param name="driver"></param> 
  43.         public void CloseChromeDriver(IWebDriver driver) 
  44.         { 
  45.             try 
  46.             { 
  47.                 driver.Quit(); 
  48.                 driver.Dispose(); 
  49.             } 
  50.             catch { } 
  51.             CloseWindow(); 
  52.         } 
  53.  
  54.         #endregion 異常  退出chromedriver 

效果

 

總結

說一下思路:

1.跳轉到指定的網頁driver.Navigate().GoToUrl

2.確定數據源,從driver.PageSource讀取數據

3.對html數據進行解析

 

責任編輯:武曉燕 來源: UP技術控
相關推薦

2022-07-12 09:55:34

Selenium爬取數據

2021-11-24 17:22:06

網絡抓取網絡爬蟲數據收集

2023-05-19 07:43:11

2009-08-11 08:58:19

linux命令瀏覽網頁linux命令行參數linux命令行

2024-03-18 08:38:57

瀏覽器爬蟲直聘

2023-11-15 13:18:50

2009-06-24 17:39:07

TeamDefine

2015-04-01 14:14:38

Safari谷歌瀏覽器安全

2020-11-03 14:10:45

Python爬取天氣爬蟲

2019-01-02 12:23:30

Python金融數據爬取

2022-12-30 14:21:54

2011-11-15 08:53:52

用戶

2015-10-29 13:22:09

php數據分析爬蟲

2022-09-28 11:34:27

用戶行為數據業務

2013-07-15 15:47:35

App用戶行為

2024-10-08 10:44:32

2024-12-02 09:37:51

2017-11-08 10:05:17

2019-07-31 16:44:40

Python網絡爬蟲瀏覽器

2021-06-11 00:09:20

C#爬蟲版本
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 自拍第1页| 欧美国产视频 | 久久国产精品亚洲 | 欧美一级黄色网 | 久久久精品国产 | 午夜一区二区三区视频 | 欧美视频三区 | 九九精品影院 | 在线观看www| yiren22 亚洲综合 | 91视视频在线观看入口直接观看 | 日本免费一区二区三区四区 | 午夜精品一区二区三区在线观看 | 狠狠亚洲| av 一区二区三区 | 综合色播| 国产成人a亚洲精品 | 视频一二三区 | 国产精品揄拍一区二区 | 久久国产精品一区二区三区 | 亚洲成av人片在线观看 | www.天天干.com| 国产精品夜间视频香蕉 | wwwsihu| 国产成人免费视频网站视频社区 | 久久精品视频一区二区三区 | 国产精品久久二区 | av影片在线 | 91日韩| 欧美在线网站 | 中文字幕 亚洲一区 | 亚洲精品视频免费 | 日韩a在线 | 午夜精品久久久久久久久久久久 | 亚洲电影一区 | 国产高清区| 精品国产乱码久久久久久果冻传媒 | 日本黄色不卡视频 | 欧美日韩在线播放 | 一区二区三区小视频 | 亚洲人在线|