中文字幕免费精品_亚洲视频自拍_亚洲综合国产激情另类一区_色综合咪咪久久

php提取網頁正文內容的例子
來源:易賢網 閱讀:1166 次 日期:2014-12-10 13:52:38
溫馨提示:易賢網小編為您整理了“php提取網頁正文內容的例子”,方便廣大網友查閱!

因為難點在于如何去識別并保留網頁中的文章部分,而且刪除其它無用的信息,并且要做到通用化,不能像火車頭那樣根據目標站來制定采集規則,因為搜索引擎結果中有各種的網頁。

抓回一個頁面的數據,如何匹配出正文部分,鄭曉在下班路上想了個思路是:

1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內不含中文的)–>獲取結果。

2. 直接匹配出非鏈接的、 符合在div、p、h標簽中的中文部分???

還是會有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?

這個類是從網上找到的一個php實現的提取網頁正文部分的算法,鄭曉在本地也測試了下,準確率非常高。

代碼如下 

<?php

class Readability {

// 保存判定結果的標記位名稱

const ATTR_CONTENT_SCORE = "contentScore";

// DOM 解析類目前只支持 UTF-8 編碼

const DOM_DEFAULT_CHARSET = "utf-8";

// 當判定失敗時顯示的內容

const MESSAGE_CAN_NOT_GET = "Readability was unable to parse this page for content.";

// DOM 解析類(PHP5 已內置)

protected $DOM = null;

// 需要解析的源代碼

protected $source = "";

// 章節的父元素列表

private $parentNodes = array();

// 需要刪除的標簽

// Note: added extra tags from

private $junkTags = Array("style", "form", "iframe", "script", "button", "input", "textarea",

"noscript", "select", "option", "object", "applet", "basefont",

"bgsound", "blink", "canvas", "command", "menu", "nav", "datalist",

"embed", "frame", "frameset", "keygen", "label", "marquee", "link");

// 需要刪除的屬性

private $junkAttrs = Array("style", "class", "onclick", "onmouseover", "align", "border", "margin");

/**

* 構造函數

* @param $input_char 字符串的編碼。默認 utf-8,可以省略

*/

function __construct($source, $input_char = "utf-8") {

$this->source = $source;

// DOM 解析類只能處理 UTF-8 格式的字符

$source = mb_convert_encoding($source, 'HTML-ENTITIES', $input_char);

// 預處理 HTML 標簽,剔除冗余的標簽等

$source = $this->preparSource($source);

// 生成 DOM 解析類

$this->DOM = new DOMDocument('1.0', $input_char);

try {

//libxml_use_internal_errors(true);

// 會有些錯誤信息,不過不要緊 :^)

if (encoding="'.Readability::DOM_DEFAULT_CHARSET.'">'.$source)) {

throw new Exception("Parse HTML Error!");

}

foreach ($this->DOM->childNodes as $item) {

if ($item->nodeType == XML_PI_NODE) {

$this->DOM->removeChild($item); // remove hack

}

}

// insert proper

$this->DOM->encoding = Readability::DOM_DEFAULT_CHARSET;

} catch (Exception $e) {

// ...

}

}

/**

* 預處理 HTML 標簽,使其能夠準確被 DOM 解析類處理

*

* @return String

*/

private function preparSource($string) {

// 剔除多余的 HTML 編碼標記,避免解析出錯

preg_match("/charset=([\w|\-]+);?/", $string, $match);

if (isset($match[1])) {

$string = preg_replace("/charset=([\w|\-]+);?/", "", $string, 1);

}

// Replace all doubled-up <BR> tags with <P> tags, and remove fonts.

$string = preg_replace("/<br\/?>[ \r\n\s]*<br\/?>/i", "</p><p>", $string);

$string = preg_replace("/<\/?font[^>]*>/i", "", $string);

// @see

// - from

$string = preg_replace("#<script(.*?)>(.*?)</script>#is", "", $string);

return trim($string);

}

/**

* 刪除 DOM 元素中所有的 $TagName 標簽

*

* @return DOMDocument

*/

private function removeJunkTag($RootNode, $TagName) {

$Tags = $RootNode->getElementsByTagName($TagName);

//Note: always index 0, because removing a tag removes it from the results as well.

while($Tag = $Tags->item(0)){

$parentNode = $Tag->parentNode;

$parentNode->removeChild($Tag);

}

return $RootNode;

}

/**

* 刪除元素中所有不需要的屬性

*/

private function removeJunkAttr($RootNode, $Attr) {

$Tags = $RootNode->getElementsByTagName("*");

$i = 0;

while($Tag = $Tags->item($i++)) {

$Tag->removeAttribute($Attr);

}

return $RootNode;

}

/**

* 根據評分獲取頁面主要內容的盒模型

* 判定算法來自:

* 這里由鄭曉博客轉發

* @return DOMNode

*/

private function getTopBox() {

// 獲得頁面所有的章節

$allParagraphs = $this->DOM->getElementsByTagName("p");

// Study all the paragraphs and find the chunk that has the best score.

// A score is determined by things like: Number of <p>'s, commas, special classes, etc.

$i = 0;

while($paragraph = $allParagraphs->item($i++)) {

$parentNode = $paragraph->parentNode;

$contentScore = intval($parentNode->getAttribute(Readability::ATTR_CONTENT_SCORE));

$className = $parentNode->getAttribute("class");

$id = $parentNode->getAttribute("id");

// Look for a special classname

if (preg_match("/(comment|meta|footer|footnote)/i", $className)) {

$contentScore -= 50;

} else if(preg_match(

"/((^|\\s)(post|hentry|entry[-]?(content|text|body)?|article[-]?(content|text|body)?)(\\s|$))/i",

$className)) {

$contentScore += 25;

}

// Look for a special ID

if (preg_match("/(comment|meta|footer|footnote)/i", $id)) {

$contentScore -= 50;

} else if (preg_match(

"/^(post|hentry|entry[-]?(content|text|body)?|article[-]?(content|text|body)?)$/i",

$id)) {

$contentScore += 25;

}

// Add a point for the paragraph found

// Add points for any commas within this paragraph

if (strlen($paragraph->nodeValue) > 10) {

$contentScore += strlen($paragraph->nodeValue);

}

// 保存父元素的判定得分

$parentNode->setAttribute(Readability::ATTR_CONTENT_SCORE, $contentScore);

// 保存章節的父元素,以便下次快速獲取

array_push($this->parentNodes, $parentNode);

}

$topBox = null;

// Assignment from index for performance.

// See

for ($i = 0, $len = sizeof($this->parentNodes); $i < $len; $i++) {

$parentNode = $this->parentNodes[$i];

$contentScore = intval($parentNode->getAttribute(Readability::ATTR_CONTENT_SCORE));

$orgContentScore = intval($topBox ? $topBox->getAttribute(Readability::ATTR_CONTENT_SCORE) : 0);

if ($contentScore && $contentScore > $orgContentScore) {

$topBox = $parentNode;

}

}

// 此時,$topBox 應為已經判定后的頁面內容主元素

return $topBox;

}

/**

* 獲取 HTML 頁面標題

*

* @return String

*/

public function getTitle() {

$split_point = ' - ';

$titleNodes = $this->DOM->getElementsByTagName("title");

if ($titleNodes->length

&& $titleNode = $titleNodes->item(0)) {

// @see

$title = trim($titleNode->nodeValue);

$result = array_map('strrev', explode($split_point, strrev($title)));

return sizeof($result) > 1 ? array_pop($result) : $title;

}

return null;

}

/**

* Get Leading Image Url

*

* @return String

*/

public function getLeadImageUrl($node) {

$images = $node->getElementsByTagName("img");

if ($images->length && $leadImage = $images->item(0)) {

return $leadImage->getAttribute("src");

}

return null;

}

/**

* 獲取頁面的主要內容(Readability 以后的內容)

*

* @return Array

*/

public function getContent() {

if (!$this->DOM) return false;

// 獲取頁面標題

$ContentTitle = $this->getTitle();

// 獲取頁面主內容

$ContentBox = $this->getTopBox();

//Check if we found a suitable top-box.

if($ContentBox === null)

throw new RuntimeException(Readability::MESSAGE_CAN_NOT_GET);

// 復制內容到新的 DOMDocument

$Target = new DOMDocument;

$Target->appendChild($Target->importNode($ContentBox, true));

// 刪除不需要的標簽

foreach ($this->junkTags as $tag) {

$Target = $this->removeJunkTag($Target, $tag);

}

// 刪除不需要的屬性

foreach ($this->junkAttrs as $attr) {

$Target = $this->removeJunkAttr($Target, $attr);

}

$content = mb_convert_encoding($Target->saveHTML(), Readability::DOM_DEFAULT_CHARSET, "HTML-ENTITIES");

// 多個數據,以數組的形式返回

return Array(

'lead_image_url' => $this->getLeadImageUrl($Target),

'word_count' => mb_strlen(strip_tags($content), Readability::DOM_DEFAULT_CHARSET),

'title' => $ContentTitle ? $ContentTitle : null,

'content' => $content

);

}

function __destruct() { }

}

使用起來也非常簡單,實例化時傳入網頁的html源碼和相應的編碼,然后直接調用其getContent方法即可返回提取到的正文部分,提取出的文章中可能還會含有少部分鏈接,可以自己后期再修改

更多信息請查看IT技術專欄

更多信息請查看網絡編程
易賢網手機網站地址:php提取網頁正文內容的例子
由于各方面情況的不斷調整與變化,易賢網提供的所有考試信息和咨詢回復僅供參考,敬請考生以權威部門公布的正式信息和咨詢為準!

2026上岸·考公考編培訓報班

  • 報班類型
  • 姓名
  • 手機號
  • 驗證碼
關于我們 | 聯系我們 | 人才招聘 | 網站聲明 | 網站幫助 | 非正式的簡要咨詢 | 簡要咨詢須知 | 新媒體/短視頻平臺 | 手機站點 | 投訴建議
工業和信息化部備案號:滇ICP備2023014141號-1 云南省教育廳備案號:云教ICP備0901021 滇公網安備53010202001879號 人力資源服務許可證:(云)人服證字(2023)第0102001523號
云南網警備案專用圖標
聯系電話:0871-65099533/13759567129 獲取招聘考試信息及咨詢關注公眾號:hfpxwx
咨詢QQ:1093837350(9:00—18:00)版權所有:易賢網
云南網警報警專用圖標
中文字幕免费精品_亚洲视频自拍_亚洲综合国产激情另类一区_色综合咪咪久久
亚洲精品视频在线看| 午夜精品久久| 99视频国产精品免费观看| 久久裸体艺术| 亚洲第一黄网| 欧美高清视频在线播放| 伊人久久婷婷| 另类人畜视频在线| 亚洲国产成人av好男人在线观看| 久久亚洲精品一区| 亚洲国产成人91精品| 欧美激情aⅴ一区二区三区| 亚洲毛片视频| 国产色综合天天综合网| 欧美1区3d| 亚洲欧美国产精品专区久久| 黄色在线成人| 欧美韩日亚洲| 欧美一区二区福利在线| 亚洲高清自拍| 国产精品亚洲不卡a| 乱人伦精品视频在线观看| 一区二区免费看| 激情小说亚洲一区| 欧美老女人xx| 久久久久久电影| 夜夜爽av福利精品导航| 国产欧美一区二区视频| 欧美va亚洲va国产综合| 亚洲在线观看视频| 亚洲国产清纯| 国语自产精品视频在线看8查询8| 欧美激情视频一区二区三区免费 | 日韩亚洲欧美综合| 国产色产综合色产在线视频| 伊人久久大香线蕉综合热线 | 激情综合在线| 欧美久久99| 亚洲最黄网站| 国产麻豆一精品一av一免费| 欧美精品亚洲二区| 午夜精品久久久| 亚洲国产精品va在线看黑人| 国产精品男人爽免费视频1| 麻豆国产精品777777在线| 亚洲午夜电影在线观看| 一区二区三区在线视频免费观看 | 性做久久久久久| 亚洲韩国精品一区| 国产一区二区三区av电影| 欧美三级不卡| 欧美国产在线视频| 久久青青草综合| 永久555www成人免费| 国产欧美va欧美不卡在线| 欧美日韩国产一区二区三区地区 | 中文有码久久| 亚洲精品乱码久久久久| 一区一区视频| 国语对白精品一区二区| 国产精品一区二区在线观看| 欧美日韩国产综合网| 欧美精品九九99久久| 免费不卡在线观看av| 久久久久九九视频| 亚洲永久精品大片| 一区二区三区高清视频在线观看 | 亚洲国产天堂网精品网站| 国产欧美一区二区在线观看| 国产精品久久一卡二卡| 欧美日韩亚洲一区二区| 久久久最新网址| 久久爱www.| 欧美在线不卡视频| 午夜在线播放视频欧美| 亚洲影音一区| 亚洲视频在线观看免费| 99re视频这里只有精品| 欧美久久久久免费| 欧美国产日韩xxxxx| 欧美一区二区三区四区高清| 国产精品免费观看在线| 欧美三日本三级少妇三2023| 欧美精品国产精品| 男男成人高潮片免费网站| 久久久久国内| 久久av一区二区三区漫画| 午夜视频精品| 亚洲欧美亚洲| 欧美一区二区黄色| 久久精品国产精品 | 国产精品欧美风情| 国产精品av一区二区| 国产精品黄视频| 国产精品免费福利| 国产精品中文在线| 国产无一区二区| 红桃视频成人| 在线一区二区日韩| 久久高清国产| 国产精品高精视频免费| 亚洲免费视频成人| 亚洲精品日韩精品| 亚洲人成7777| 一本综合久久| 欧美激情视频一区二区三区免费| 农村妇女精品| 欧美日韩激情小视频| 欧美巨乳在线| 国产精品va在线播放| 国产欧美精品日韩区二区麻豆天美| 国产裸体写真av一区二区| 亚洲精品护士| 国产日韩在线不卡| 久久久精品免费视频| 久久中文字幕导航| 欧美日韩成人| 国产精品欧美一区喷水| 亚洲欧美激情视频在线观看一区二区三区 | 在线不卡免费欧美| 亚洲精品1区2区| 亚洲欧美经典视频| 蜜臀av国产精品久久久久| 欧美网站在线| 在线播放精品| 亚洲新中文字幕| 欧美一区二区三区在线看| 久久免费精品视频| 欧美新色视频| 亚洲精品1区2区| 亚洲综合欧美| 男人的天堂成人在线| 欧美色偷偷大香| 国产有码一区二区| 亚洲免费观看高清完整版在线观看熊 | 亚洲一区二区三区国产| 久久久久在线观看| 欧美午夜精品久久久久久浪潮| 国产亚洲精品久| 一区二区高清在线| 久久香蕉国产线看观看av| 久久欧美肥婆一二区| 激情小说亚洲一区| 欧美精品激情在线观看| 亚洲高清不卡在线| 国产精品免费电影| 亚洲国产第一页| 欧美影院视频| 欧美天堂亚洲电影院在线观看| 韩国v欧美v日本v亚洲v| 一区二区三区视频在线 | 国产一在线精品一区在线观看| 亚洲电影在线播放| 亚洲欧美日韩综合aⅴ视频| 欧美激情亚洲视频| 黄色精品免费| 欧美一区二区三区视频在线 | 鲁大师成人一区二区三区| 国产伦一区二区三区色一情| 99riav1国产精品视频| 美国成人毛片| 亚洲福利在线看| 国产精品狠色婷| 欧美色精品天天在线观看视频| 亚洲午夜av电影| 亚洲第一精品在线| 日韩视频免费观看| 久久久久久高潮国产精品视| 国产精品夫妻自拍| 91久久夜色精品国产九色| 亚洲欧美一区二区原创| 欧美精品久久一区| 国内精品久久久久久久果冻传媒 | 一区二区三区高清视频在线观看| 久久久久久69| 国产欧美日韩综合一区在线播放 | 国产精品qvod| 999亚洲国产精| 免费日韩成人| 在线播放亚洲| 久久亚洲二区| 久久精品国产一区二区三区免费看| 亚洲第一色中文字幕| 欧美精品自拍| 久久免费精品视频| 国产伦理精品不卡| 久久亚洲精选| 亚洲人成小说网站色在线| 国产精品区一区| 久久久久国产精品一区三寸| 日韩视频第一页| 亚洲高清成人| 国产日韩亚洲欧美综合| 久久久午夜精品| 午夜精品一区二区三区电影天堂| 欧美午夜电影在线| 亚洲桃花岛网站| 欧美午夜精品久久久久久久| 一区二区三区四区五区视频| 欧美日韩免费精品|