濮阳杆衣贸易有限公司

主頁(yè) > 知識(shí)庫(kù) > batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方法參數(shù)詳解第1/2頁(yè)

batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方法參數(shù)詳解第1/2頁(yè)

熱門標(biāo)簽:強(qiáng)訊外呼系統(tǒng) 愛巢地圖標(biāo)注 crm外呼系統(tǒng)好不好 重慶人工智能電銷機(jī)器人報(bào)價(jià) 貴陽(yáng)ai外呼系統(tǒng) 智能電銷機(jī)器人廣告語(yǔ) 長(zhǎng)春極信防封電銷卡公司 電銷外呼線路改不外呼線路 電話機(jī)器人批發(fā)
前言

要實(shí)現(xiàn)采集,默認(rèn)方式是根據(jù)配置好的采集規(guī)則,在瀏覽器提交相應(yīng)的參數(shù)即可完成后面的采集入庫(kù)全部動(dòng)作。
而實(shí)現(xiàn)定時(shí)采集,與人工在瀏覽器提交有些區(qū)別,主要分兩大步驟:
一、編寫采集的url和相關(guān)參數(shù),訪問(wèn)這個(gè)url即可實(shí)現(xiàn)想要的采集模式。(這個(gè)url直接在瀏覽器提交同樣可以實(shí)現(xiàn)采集)
二、把定時(shí)訪問(wèn)這個(gè)url的功能加到系統(tǒng)的定時(shí)任務(wù)里面,實(shí)現(xiàn)無(wú)人值守的定時(shí)采集。

具體實(shí)現(xiàn)方法請(qǐng)參考下面內(nèi)容:

1、對(duì)采集配置文件的解釋

任何一個(gè)采集都會(huì)用到兩個(gè)采集配置文件(跟后臺(tái)采集規(guī)則配置對(duì)應(yīng)),都可以用文本編輯器打開查看。
其中 /configs/article/collectsite.php 是對(duì)總的采集站點(diǎn)配置,記錄了一共允許采集哪幾個(gè)站點(diǎn)。
里面包含類似這樣的內(nèi)容:

$jieqiCollectsite['1']['name'] = '采集站點(diǎn)一'; 
$jieqiCollectsite['1']['config'] = 'abc_com'; 
$jieqiCollectsite['1']['url'] = 'http://www.abc.com'; 
$jieqiCollectsite['1']['subarticleid'] = 'floor($articleid/1000)';
$jieqiCollectsite['1']['enable'] = '1';

$jieqiCollectsite['2']['name'] = '采集站點(diǎn)二';
$jieqiCollectsite['2']['config'] = 'def_net';
$jieqiCollectsite['2']['url'] = 'http://www.def.net';
$jieqiCollectsite['2']['subarticleid'] = '';
$jieqiCollectsite['2']['enable'] = '1';

參數(shù)含義解釋如下:
['1'] - 這里的 1 表示采集網(wǎng)站的數(shù)字序號(hào),不同的采集站序號(hào)不能重復(fù)。
['name'] - 采集網(wǎng)站名稱。
['config'] - 網(wǎng)站英文標(biāo)識(shí),這個(gè)網(wǎng)站采集規(guī)則配置文件有關(guān),比如這個(gè)值是 abc_com ,那么采集規(guī)則配置文件就是 /configs/article/site_abc_com.php。
['url'] - 采集網(wǎng)站網(wǎng)址。
['subarticleid'] - 采集網(wǎng)站,文章子序號(hào)運(yùn)算方式,本項(xiàng)目主要為了兼容以前程序,新版本里面文章子序號(hào)可以通過(guò)采集獲得。
['enable'] - 是否允許采集,1 表示允許,0 表示禁止,默認(rèn)為 1。

如前面所說(shuō),每個(gè)采集網(wǎng)站有個(gè)專門的采集規(guī)則配置文件,/configs/article/ 目錄下以 site_ 開頭的php文件,如 /configs/article/site_abc_com.php。

里面內(nèi)容都與后臺(tái)采集規(guī)則設(shè)置相對(duì)應(yīng),具體細(xì)節(jié)不一一解釋。需要了解的是本文件里面內(nèi)容分兩大部分,前面內(nèi)容都是對(duì)網(wǎng)站內(nèi)容采集規(guī)則的配置,而最后面 $jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1'] 這樣的設(shè)置是對(duì)網(wǎng)站"批量采集規(guī)則"的配置,比如按最近更新采集、按排行榜采集,可以設(shè)置多個(gè)。['0'] 這里的數(shù)字 0 表示批量采集類別的數(shù)字序號(hào),同一個(gè)網(wǎng)站也不能重復(fù)。

2、編寫采集內(nèi)容的url及參數(shù)

這里的采集是針對(duì)多篇文章批量采集,分兩種模式:
一、按頁(yè)面批量采集,比如采集最新更新列表或者排行榜列表,每個(gè)鏈接采集一頁(yè)。
鏈接格式如下:

https://www.jb51.net/modules/article/admin/pagecollect.php?action=collect&siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234

參數(shù)含義解釋如下:
www.jb51.net - 是指您的網(wǎng)址。
action - 字符串,程序執(zhí)行的動(dòng)作命令,固定值為 collect。
siteid - 數(shù)字類型,要采集的網(wǎng)站序號(hào),具體哪個(gè)網(wǎng)站對(duì)應(yīng)什么序號(hào)見配置文件collectsite.php。
collectname - 數(shù)字類型,按頁(yè)面批量采集的類別序號(hào),見配置文件site_xxxx.php里面下面的。$jieqiCollect['listcollect']['0'] 這樣配置的數(shù)字。
startpageid -- 頁(yè)碼標(biāo)志,表示從列表的第幾頁(yè)開始采集。一般是數(shù)字類型,有些網(wǎng)站也可能是字符串。
maxpagenum -- 數(shù)字類型,表示表示一共采集幾頁(yè)。(默認(rèn)為 1 ,如果要采集多頁(yè),是需要瀏覽器跳轉(zhuǎn)的,只有在windows環(huán)境下調(diào)用瀏覽器時(shí)候有效,linux下調(diào)用wget時(shí)候最多只能采集一頁(yè),需要采集多頁(yè)可設(shè)置多個(gè)采集命令。)
notaddnew -- 數(shù)字類型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username - 字符串,用戶名(這個(gè)用戶必須是本站有權(quán)限采集的用戶)。
jieqi_userpassword - 字符串,用戶密碼。


二、按照文章序號(hào)批量采集
鏈接格式如下:
https://www.jb51.net/modules/article/admin/batchcollect.php?action=bcollect&siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234

參數(shù)含義解釋如下:
www.jb51.net - 是指您的網(wǎng)址。
action - 字符串,程序執(zhí)行的動(dòng)作命令,固定值為 bcollect。
siteid - 數(shù)字類型,要采集的網(wǎng)站序號(hào),具體哪個(gè)網(wǎng)站對(duì)應(yīng)什么序號(hào)見配置文件collectsite.php。
batchids - 要采集的對(duì)方網(wǎng)站文章序號(hào)(不是本地的文章序號(hào)),采集多個(gè)文章,序號(hào)用英文逗號(hào)分開,如 123,234,345。
jieqi_username - 字符串,用戶名(這個(gè)用戶必須是本站有權(quán)限采集的用戶)。
jieqi_userpassword - 字符串,用戶密碼。

注:一個(gè)url需要放到IE瀏覽器里面提交的時(shí)候,整個(gè)url最大長(zhǎng)度度不要超過(guò)2083字節(jié),所以一般建議這里的url不要設(shè)置成太長(zhǎng),文章多的可以拆分成多個(gè)url。


3、利用系統(tǒng)任務(wù)實(shí)現(xiàn)定時(shí)采集

一、windows環(huán)境下做法

windows里面可以用系統(tǒng)的任務(wù)計(jì)劃來(lái)實(shí)現(xiàn)定時(shí)執(zhí)行程序,不過(guò)首先需要制作一個(gè)批處理文件,在這個(gè)文件里面用命令來(lái)調(diào)用瀏覽器來(lái)執(zhí)行采集url。需要注意的是命令只能打開瀏覽器而不會(huì)采集好之后自動(dòng)關(guān)閉,要實(shí)現(xiàn)采集完自動(dòng)關(guān)閉可以通過(guò)javascript實(shí)現(xiàn)。自動(dòng)關(guān)閉本窗口的js代碼為:

<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>

這里的參數(shù) 3000 是指延遲關(guān)閉時(shí)間,單位是毫秒,3000表示延遲3秒關(guān)閉。
這段代碼可以在兩個(gè)地方加入:

一個(gè)是加入到提示信息模板 /themes/風(fēng)格名稱/msgwin.html 里面,<body>和</body>之間加入上面那段js。這樣的效果是整個(gè)系統(tǒng)任何提示信息頁(yè)面都會(huì)在3秒鐘后自動(dòng)關(guān)閉。

如果您希望僅僅自動(dòng)關(guān)閉采集成功后的提示頁(yè)面,可以在采集提示信息的語(yǔ)言包里面加入以上javascript,這個(gè)配置文件是 /modules/article/lang/lang_collect.php, 里面 $jieqiLang['article']['batch_collect_success'] 是采集成功的提示信息,這個(gè)值原來(lái)是:

'恭喜您,全部文章采集完成!';

改成下面這樣即可自動(dòng)關(guān)閉

'恭喜您,全部文章采集完成!<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>';
12下一頁(yè)閱讀全文

標(biāo)簽:吳忠 山南 上海 陜西 內(nèi)蒙古 廣安 清遠(yuǎn) 保定

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方法參數(shù)詳解第1/2頁(yè)》,本文關(guān)鍵詞  batchcollect,pagecollect,來(lái)自,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方法參數(shù)詳解第1/2頁(yè)》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方法參數(shù)詳解第1/2頁(yè)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    苗栗县| 措勤县| 九龙坡区| 高要市| 宣威市| 夏河县| 绍兴县| 革吉县| 本溪| 东乡县| 长海县| 方城县| 林周县| 鄂托克前旗| 台江县| 会同县| 崇信县| 宝清县| 桃江县| 湘乡市| 淮安市| 井冈山市| 从江县| 宁安市| 泰州市| 麻江县| 庆安县| 皋兰县| 景谷| 洮南市| 丽江市| 铁力市| 商水县| 南陵县| 三明市| 韶关市| 桐城市| 石渠县| 汝城县| 常熟市| 大理市|