Scrapy框架進階篇

1 Scrapy框架進階篇

1.1 Request

Scrapy 使用 Request和 Request 對象爬取 web 站點。

一般來說,Request 對象在 spider 中被生成並且最終傳遞到下載器(Downloader),下載器對其進行處理並返回一個 Response 對象,Response 對象還會返回到生成 request 的 spider 中。

22.1.1 Request 對象

一個 Request 對象代表一個 HTTP 請求,一般來講,HTTP請求是由 Spider 產生並被 Downloader處理進而生成一個 Response。

22.1.2 Request 模塊的位置

C:\\Python34\\Lib\\site-packages\\scrapy\\http\\request

Scrapy框架進階篇

22.1.3 Request 源碼

class Request(object_ref):

def __init__(self, url, callback=None, method='GET', headers=None, body=None,

cookies=None, meta=None, encoding='utf-8', priority=0,

dont_filter=False, errback=None, flags=None):

self._encoding = encoding # this one has to be set first

self.method = str(method).upper()

self._set_url(url)

self._set_body(body)

assert isinstance(priority, int), "Request priority not an integer: %r" % priority

self.priority = priority

if callback is not None and not callable(callback):

raise TypeError('callback must be a callable, got %s' % type(callback).__name__)

if errback is not None and not callable(errback):

raise TypeError('errback must be a callable, got %s' % type(errback).__name__)

assert callback or not errback, "Cannot use errback without a callback"

self.callback = callback

self.errback = errback

self.cookies = cookies or {}

self.headers = Headers(headers or {}, encoding=encoding)

self.dont_filter = dont_filter

self._meta = dict(meta) if meta else None

self.flags = [] if flags is None else list(flags)

@property

def meta(self):

if self._meta is None:

self._meta = {}

return self._meta

def _get_url(self):

return self._url

def _set_url(self, url):

if not isinstance(url, six.string_types):

raise TypeError('Request url must be str or unicode, got %s:' % type(url).__name__)

s = safe_url_string(url, self.encoding)

self._url = escape_ajax(s)

if ':' not in self._url:

raise ValueError('Missing scheme in request url: %s' % self._url)

url = property(_get_url, obsolete_setter(_set_url, 'url'))

def _get_body(self):

return self._body

def _set_body(self, body):

if body is None:

self._body = b''

else:

self._body = to_bytes(body, self.encoding)

body = property(_get_body, obsolete_setter(_set_body, 'body'))

@property

def encoding(self):

return self._encoding

def __str__(self):

return "" % (self.method, self.url)

__repr__ = __str__

def copy(self):

"""Return a copy of this Request"""

return self.replace()

def replace(self, *args, **kwargs):

"""Create a new Request with the same attributes except for those

given new values.

"""

for x in ['url', 'method', 'headers', 'body', 'cookies', 'meta',

'encoding', 'priority', 'dont_filter', 'callback', 'errback']:

kwargs.setdefault(x, getattr(self, x))

cls = kwargs.pop('cls', self.__class__)

return cls(*args, **kwargs)

22.1.4 Request的初始化構造方法

def __init__(self, url, callback=None, method='GET', headers=None, body=None,

cookies=None, meta=None, encoding='utf-8', priority=0,

dont_filter=False, errback=None, flags=None)

項目中使用的例子:

scrapy.Request(self.url + str(self.offset), callback = self.parse)

Scrapy框架進階篇

常用的參數:

【url】: 參數類型 string,請求的 url。

【callback】 :處理響應數據的回調方法(指定該請求返回的 Response,由那個函數來處理),用來解析響應數據,如果沒有指定,則 spider 的 parse 方法。如果在處理期間引發異常,則會調用 errback。

【method】: 參數類型 string ,HTTP 的請求方法,請求一般不需要指定,默認 GET 方法,可設置為"GET", "POST", "PUT"等,且保證字符串大寫

【headers】: 參數類型 dict,請求時,包含的頭文件。一般不需要。內容一般如下:

Host: media.readthedocs.org

User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0

Accept: text/css,*/*;q=0.1

Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3

Accept-Encoding: gzip, deflate

Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/

Cookie: _ga=GA1.2.1612165614.1415584110;

Connection: keep-alive

【meta】: 參數類型 dict,比較常用,在不同的請求之間傳遞數據使用的,Request.meta 是屬性的初始值。一旦此參數被設置,通過參數傳遞的字典將會被淺拷貝。

request_with_cookies = Request(

url="http://www.example.com",

cookies={'currency': 'USD', 'country': 'UY'},

meta={'dont_merge_cookies': True}

)

【encoding】: 參數類型 string,編碼方式,默認 utf-8。

【dont_filter】: 參數類型 bool,請求不應該被調度器過濾。False 表示過濾,True 表示不過濾。默認 False(當你想使用多次執行相同的請求,忽略重複的過濾器。默認為 False)。

【priority】:參數類型 int,優先級,調度程序使用優先級來定義用於處理請求的順序,具有較高優先級值的請求將會提前執行,默認0。

【errback】: 指定錯誤處理函數,如果在處理請求時引發異常,將會調用該函數。 這包括 404 HTTP 錯誤等失敗的頁面。

22.1.5 Request.meta

Request.meta 在不同的請求之間傳遞數據使用。

Request.meta 屬性可以包含任意的數據,但是 Scrapy 和它的內置擴展可以識別一些特殊的鍵。

【dont_redirect】:不重定向

【dont_retry】:不重試

【dont_merge_cookies】:不合並 cookie。

【cookiejar】:使用 cookiejar。

【redirect_urls】:重定向連接。

【bindaddress】:綁定 ip 地址。

【dont_obey_robotstxt】:不遵循反爬蟲協議。

【download_timeout】:下載超時。

22.1.5 Request 的子類 FormRequest

FormRequest是 Request 的子類,一般用作表單數據提交。

22.1.6 Request 的子類 FormRequest 模塊的位置

C:\\Python34\\Lib\\site-packages\\scrapy\\http\\request 下的 form.py文件。

Scrapy框架進階篇

22.1.7 Request 的子類 FormRequest 源碼

class FormRequest(Request):

def __init__(self, *args, **kwargs):

formdata = kwargs.pop('formdata', None)

if formdata and kwargs.get('method') is None:

kwargs['method'] = 'POST'

super(FormRequest, self).__init__(*args, **kwargs)

if formdata:

items = formdata.items() if isinstance(formdata, dict) else formdata

querystr = _urlencode(items, self.encoding)

if self.method == 'POST':

self.headers.setdefault(b'Content-Type', b'application/x-www-form-urlencoded')

self._set_body(querystr)

else:

self._set_url(self.url + ('&' if '?' in self.url else '?') + querystr)

@classmethod

def from_response(cls, response, formname=None, formid=None, formnumber=0, formdata=None,

clickdata=None, dont_click=False, formxpath=None, formcss=None, **kwargs):

kwargs.setdefault('encoding', response.encoding)

if formcss is not None:

from parsel.csstranslator import HTMLTranslator

formxpath = HTMLTranslator().css_to_xpath(formcss)

form = _get_form(response, formname, formid, formnumber, formxpath)

formdata = _get_inputs(form, formdata, dont_click, clickdata, response)

url = _get_form_url(form, kwargs.pop('url', None))

method = kwargs.pop('method', form.method)

return cls(url=url, method=method, formdata=formdata, **kwargs)

22.1.8 FormRequest 的構造

class scrapy.FormRequest(url[,formdata,...])

項目中的示例:

# 構造表單數據,發送 POST 請求登錄

scrapy.FormRequest(

url = url,

formdata = {"email" : "13554799061", "password" : "ting123hai"},

callback = self.parse

)

# 回調函數,對返回的 response進行處理請求。

def parse(self, response):

# do something

22.1.8 FormRequest的form_response()方法

FormRequest 類除了有 Request 的功能,還提供一個 form_response()方法:

form_response(response[,formname=None,formnumber=0,formdata=None,formxpath=None,clickdata=None,dont_click=False,...])

form_response 方法參數解析:

【response】:是指包含HTML表單的 Response 對象,該表單將用於預填充表單字段。

【formname】:如果給定,將使用設置為該值的 name 屬性的表單。

【formnumber】:當響應包含多個表單時,要使用的表單的數量。 Formnumber 默認是 0,表示使用第一個。

【formdata】:字段來覆蓋表單數據。如果一個字段已經存在於響應


分享到:


相關文章: