中文字幕免费精品_亚洲视频自拍_亚洲综合国产激情另类一区_色综合咪咪久久

Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享
來源:易賢網 閱讀:1218 次 日期:2016-07-20 15:57:45
溫馨提示:易賢網小編為您整理了“Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享”,方便廣大網友查閱!

這篇文章主要介紹了Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享,其中作者提到了需要特別注意GBK轉碼的轉碼問題,需要的朋友可以參考下

其實寫爬蟲的思路十分簡單:

1.按照一定的規律發送 HTTP 請求獲得頁面 HTML 源碼(必要時需要加上一定的 HTTP 頭信息,比如 cookie 或 referer 之類)

2.利用正則匹配或第三方模塊解析 HTML 代碼,提取有效數據

3.將數據持久化到數據庫中

但是真正寫起這個爬蟲來,我還是遇到了很多的問題(和自己的基礎不扎實也有很大的關系,node.js 并沒有怎么認真的學過)。主要還是 node.js 的異步和回調知識沒有完全掌握,導致在寫代碼的過程中走了很多彎路。

模塊化

模塊化對于 node.js 程序是至關重要的,不能像原來寫 PHP 那樣所有的代碼都扔到一個文件里(當然這只是我個人的惡習),所以一開始就要分析這個爬蟲需要實現的功能,并大致的劃分了三個模塊。

主程序,調用爬蟲模塊和持久化模塊實現完整的爬蟲功能

爬蟲模塊,根據傳來的數據發送請求,解析 HTML 并提取有用數據,返回一個對象

持久化模塊,接受一個對象,將其中的內容儲存到數據庫中

模塊化也帶來了困擾了我一個下午的問題:模塊之間的異步調用導致數據錯誤。其實我至今都不太明白問題到底出在哪兒,鑒于腳本語言不那么方便的調試功能,暫時還沒有深入研究。

另外一點需要注意的是,模塊化時盡量慎用全局對象來儲存數據,因為可能你這個模塊的一個功能還沒有結束,這個全局變量已經被修改了。

Control Flow

這個東西很難翻譯,直譯叫控制流(嗎)。眾所周知,node.js 的核心思想就是異步,但是異步多了就會產生好幾層嵌套,代碼實在難看。這個時候,你需要借助一些 Control Flow 模塊來重新整理你的邏輯。在這里就要推薦開發社區十分活躍,用起來也很順手的 async.js(https://github.com/caolan/async/)。

async 提供了很多實用的方法,我在寫爬蟲時主要用到了

1.async.eachSeries(arr, fn, callback)  依次把 arr 中的每一個元素傳給 fn,若 fn 回調沒有返回錯誤對象就繼續傳下一個,否則把錯誤對象傳給 callback,循環結束

2.async.parallel(fn[, fn] , callback)  當所有的 fn 都執行完成后執行 callback

這些控制流方法給爬蟲的開發工作帶來了很大的方便。考慮這么一個應用場景,你需要把若干條數據插入數據庫(屬于同一個學生),你需要在所有數據都插入完成后才能返回結果,那么如何保證所有的插入操作都結束了呢?只能是層層回調保證,如果用 async.parallel 就方便多了。

這里再多提一句,本來保證所有的插入都完成這個操作可以在 SQL 層實現,即 transaction,但是 node-mysql 截止我使用的時候還是沒有很好的支持 transaction,所以只有自己手動用代碼保證了。

解析 HTML

在解析過程中也遇到一些問題,這里一并記錄下來。

最基本的發送 HTTP 請求獲得 HTML 代碼,使用 node 自帶的 http.request 功能即可。如果是爬簡單的內容,比如獲得某個指定 id 元素中的內容(常見于抓去商品價格),那么正則足以完成任務。但是對于復雜的頁面,尤其是數據項較多的頁面,使用 DOM 會更加方便高效。

而 node.js 最好的 DOM 實現非 cheerio(https://github.com/MatthewMueller/cheerio) 莫屬了。其實 cheerio 應該算是 jQuery 的一個針對 DOM 操作優化和精簡的子集,包含了 DOM 操作的大部分內容,去除了其它不必要的內容。使用 cheerio 你就可以像用普通 jQuery 選擇器那樣選擇你需要的內容。

下載圖片

在爬數據時,我們可能還需要下載圖片。其實下載圖片的方式和普通的網頁沒有太大的區別,但是有一點讓我吃了苦頭。

注意下面代碼中言辭激烈的注釋,那就是我年輕時犯下的錯誤……

var req = http.request(options, function(res){

  //初始化數據!!!

  var binImage = '';

  res.setEncoding('binary');

  res.on('data', function(chunk){

   binImage += chunk;

  });

  res.on('end', function(){

   if (!binImage) {

    console.log('image data is null');

    return null;

   }

   fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){

    if (err) {

     console.log('image writing error:' + err.message);

     return null;

    }

    else{

     console.log('image ' + filename + ' saved');

     return filename;

    }

   });

  });

  res.on('error', function(e){

   console.log('image downloading response error:' + e.message);

   return null;

  });

 });

 req.end();

GBK 轉碼

另外一個值得說明的問題就是 node.js 爬蟲在爬 GBK 編碼內容時轉碼的問題,其實這個問題很好解決,但是新手可能會繞彎路。這里就把源碼全部奉上:

var req = http.request(options, function(res) {

  res.setEncoding('binary');

  res.on('data', function (chunk) {

  html += chunk;

  });

  res.on('end', function(){

  //轉換編碼

  html = iconv.decode(html, 'gbk');

  });

 });

 req.end();

這里我使用的轉碼庫是 iconv-lite(https://github.com/ashtuchkin/iconv-lite),完美支持 GBK 和 GB2312 等雙字節編碼。

實例:爬蟲批量下載百度圖片

var fs = require('fs'), 

 path = require('path'), 

 util = require('util'), // 以上為Nodejs自帶依賴包 

 request = require('request'); // 需要npm install的包 

// main函數,使用 node main執行即可 

patchPreImg(); 

// 批量處理圖片 

function patchPreImg() { 

 var tag1 = '攝影', tag2 = '國家地理', 

  url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=', 

  url = util.format(url, 0, tag1, tag2), 

  url = encodeURI(url), 

  dir = 'D:/downloads/images/', 

  dir = path.join(dir, tag1, tag2), 

  dir = mkdirSync(dir); 

 request(url, function(error, response, html) { 

  var data = JSON.parse(html); 

  if (data && Array.isArray(data.imgs)) { 

   var imgs = data.imgs; 

   imgs.forEach(function(img) { 

    if (Object.getOwnPropertyNames(img).length > 0) { 

     var desc = img.desc || ((img.owner && img.owner.userName) + img.column); 

     desc += '(' + img.id + ')'; 

     var downloadUrl = img.downloadUrl || img.objUrl; 

     downloadImg(downloadUrl, dir, desc); 

    } 

   }); 

  } 

 }); 

// 循環創建目錄 

function mkdirSync(dir) { 

 var parts = dir.split(path.sep); 

 for (var i = 1; i <= parts.length; i++) { 

  dir = path.join.apply(null, parts.slice(0, i)); 

  fs.existsSync(dir) || fs.mkdirSync(dir); 

 } 

 return dir; 

var index = 1; 

// 開始下載圖片,并log統計日志 

function downloadImg(url, dir, desc) { 

 var fileType = 'jpg'; 

 if (url.match(/\.(\w+)$/)) fileType = RegExp.$1; 

 desc += '.' + fileType; 

 var options = { 

  url: url, 

  headers: { 

   Host: 'f.hiphotos.baidu.com', 

   Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;'

  } 

 }; 

 var startTime = new Date().getTime(); 

 request(options) 

  .on('response', function() { 

   var endTime = new Date().getTime(); 

   console.log('Downloading...%s.. %s, 耗時: %ss', index++, desc, (endTime - startTime) / 1000); 

  }) 

  .pipe(fs.createWriteStream(path.join(dir, desc))); 

}

更多信息請查看網絡編程
由于各方面情況的不斷調整與變化,易賢網提供的所有考試信息和咨詢回復僅供參考,敬請考生以權威部門公布的正式信息和咨詢為準!

2026上岸·考公考編培訓報班

  • 報班類型
  • 姓名
  • 手機號
  • 驗證碼
關于我們 | 聯系我們 | 人才招聘 | 網站聲明 | 網站幫助 | 非正式的簡要咨詢 | 簡要咨詢須知 | 新媒體/短視頻平臺 | 手機站點 | 投訴建議
工業和信息化部備案號:滇ICP備2023014141號-1 云南省教育廳備案號:云教ICP備0901021 滇公網安備53010202001879號 人力資源服務許可證:(云)人服證字(2023)第0102001523號
云南網警備案專用圖標
聯系電話:0871-65099533/13759567129 獲取招聘考試信息及咨詢關注公眾號:hfpxwx
咨詢QQ:1093837350(9:00—18:00)版權所有:易賢網
云南網警報警專用圖標
中文字幕免费精品_亚洲视频自拍_亚洲综合国产激情另类一区_色综合咪咪久久
在线一区视频| 久久成人精品视频| 欧美日韩国产精品成人| 亚洲国产精品一区二区www| 欧美另类久久久品| 午夜精品亚洲| 在线免费高清一区二区三区| 久久躁狠狠躁夜夜爽| 亚洲精品资源| 国产小视频国产精品| 久久中文字幕一区| 日韩午夜av电影| 国产有码一区二区| 国产精品一区二区久久精品 | 国产一区二区三区久久久久久久久 | 日韩小视频在线观看| 国产精品高清一区二区三区| 久久精品视频免费播放| 亚洲午夜高清视频| 亚洲国产精品123| 国产欧美日本一区二区三区| 欧美高清一区| 另类综合日韩欧美亚洲| 亚洲午夜成aⅴ人片| 亚洲欧洲一区二区三区| 国产精品美女久久久| 欧美日韩综合视频| 欧美日韩国产探花| 欧美经典一区二区三区| 模特精品裸拍一区| 欧美精品aa| 欧美激情综合色综合啪啪| 久久久国产91| 久久国产福利| 久久亚洲欧美| 欧美精品一区在线发布| 久久久久久久久久码影片| 欧美影院成年免费版| 久久全球大尺度高清视频| 欧美成人综合在线| 欧美视频日韩视频在线观看| 欧美日韩国产123区| 欧美日本精品| 国产日韩精品久久久| 国产女主播一区二区| 尤物九九久久国产精品的特点 | 欧美影院视频| 亚洲欧美日韩一区在线观看| 亚洲欧美另类综合偷拍| 久久se精品一区精品二区| 欧美成人视屏| 国产欧美日韩激情| 国产视频一区在线| 夜夜嗨一区二区| 欧美呦呦网站| 国产精品视频yy9099| 亚洲福利视频专区| 欧美在线视频观看| 久久久久久有精品国产| 欧美日韩国内| 亚洲一区不卡| 亚洲精品国产精品国产自| 亚洲第一中文字幕| 一区二区三区高清视频在线观看| 国产精品99久久久久久久女警| 99ri日韩精品视频| 欧美亚洲免费| 欧美视频亚洲视频| 一区二区视频在线观看| 99精品欧美| 美女精品在线| 欧美性做爰猛烈叫床潮| 亚洲国产欧美一区| 亚洲欧美日韩中文播放| 老色鬼精品视频在线观看播放| 欧美日韩国产一级片| 国内视频一区| 欧美一区三区三区高中清蜜桃| 欧美精品在线免费| 国内免费精品永久在线视频| 99精品视频免费全部在线| 欧美有码视频| 国产精品男女猛烈高潮激情| 99re66热这里只有精品4| 欧美一级专区| 国产精品xxxav免费视频| 亚洲区国产区| 免费日韩精品中文字幕视频在线| 国产一区二区三区在线观看精品 | 久久激情久久| 欧美国产激情二区三区| 国产精品日本一区二区| 国产精品99久久久久久久vr | 欧美亚洲一区二区三区| 国产精品推荐精品| 亚洲欧美三级伦理| 国产精品高清网站| a4yy欧美一区二区三区| 欧美日韩视频第一区| 亚洲六月丁香色婷婷综合久久| 另类春色校园亚洲| 在线不卡a资源高清| 久久久久久97三级| 亚洲丁香婷深爱综合| 欧美日韩亚洲一区二区| 99国产精品久久久久老师| 欧美人妖另类| 99视频一区二区三区| 欧美天天在线| 久久精品亚洲乱码伦伦中文| 亚洲成色777777女色窝| 欧美性猛交xxxx乱大交蜜桃| 亚洲欧美国产精品专区久久| 狠狠色噜噜狠狠狠狠色吗综合| 午夜免费日韩视频| 国产一区观看| 欧美午夜宅男影院| 久久国产婷婷国产香蕉| 亚洲美女淫视频| 国产自产v一区二区三区c| 久久免费视频一区| 亚洲欧美在线高清| 99re亚洲国产精品| 亚洲二区在线| 国产精品夜色7777狼人| 欧美日韩精品二区第二页| 久久亚洲私人国产精品va媚药| 亚洲精品影视在线观看| 亚洲精品资源美女情侣酒店| 久久不见久久见免费视频1| 国产精品视频久久| 免费在线播放第一区高清av| 伊人春色精品| 亚洲国内自拍| 性刺激综合网| 欧美三级欧美一级| 亚洲国产视频一区二区| 亚洲黄色天堂| 一本色道久久综合狠狠躁篇的优点 | 久久久国产91| 久久精品国产综合精品| 欧美激情一区二区三区高清视频| 亚洲精品乱码久久久久久按摩观| 久久人人爽人人| 亚洲电影观看| 国产精品中文字幕欧美| 亚洲日本理论电影| 国产伦理一区| 久久资源av| 午夜精品一区二区三区四区| 亚洲欧洲日产国产综合网| 亚洲国产日韩在线一区模特| 亚洲精品男同| 日韩视频中文字幕| 久久精品国产99精品国产亚洲性色| 欧美一级片一区| 免费不卡中文字幕视频| 国产精品黄视频| 在线看片欧美| 欧美在线啊v一区| 欧美午夜宅男影院在线观看| 国模精品一区二区三区| 午夜精品剧场| 欧美午夜片在线观看| 亚洲激情成人网| 久久综合精品国产一区二区三区| 欧美日韩一区二区三区在线视频| 免费试看一区| 亚洲成人影音| 午夜精品久久99蜜桃的功能介绍| 亚洲影视综合| 亚洲一品av免费观看| 一区二区三区国产盗摄| 亚洲激情一区| 亚洲永久精品大片| 亚洲愉拍自拍另类高清精品| 亚洲日本中文字幕| 亚洲黄色尤物视频| 国产亚洲欧洲997久久综合| 欧美日韩国产亚洲一区| 欧美人成网站| 欧美少妇一区| 国产精品久久久久aaaa九色| 久久在精品线影院精品国产| 亚洲综合色在线| 欧美91精品| 91久久久久久久久| 欧美激情视频在线播放| 亚洲成色777777女色窝| 午夜视频在线观看一区二区| 欧美一级理论片| 久久99在线观看| 欧美精品一区三区| 狠狠爱www人成狠狠爱综合网| 国产午夜精品美女毛片视频| 国产亚洲欧美日韩日本| 在线成人免费视频| 99视频一区二区三区| 欧美sm视频| 国产视频久久久久久久|