1 Scrapy框架進階篇
1.1 Request
Scrapy 使用 Request和 Request 對象爬取 web 站點。
一般來說,Request 對象在 spider 中被生成並且最終傳遞到下載器(Downloader),下載器對其進行處理並返回一個 Response 對象,Response 對象還會返回到生成 request 的 spider 中。
22.1.1 Request 對象
一個 Request 對象代表一個 HTTP 請求,一般來講,HTTP請求是由 Spider 產生並被 Downloader處理進而生成一個 Response。
22.1.2 Request 模塊的位置
C:\\Python34\\Lib\\site-packages\\scrapy\\http\\request
22.1.3 Request 源碼
class Request(object_ref):
def __init__(self, url, callback=None, method='GET', headers=None, body=None,
cookies=None, meta=None, encoding='utf-8', priority=0,
dont_filter=False, errback=None, flags=None):
self._encoding = encoding # this one has to be set first
self.method = str(method).upper()
self._set_url(url)
self._set_body(body)
assert isinstance(priority, int), "Request priority not an integer: %r" % priority
self.priority = priority
if callback is not None and not callable(callback):
raise TypeError('callback must be a callable, got %s' % type(callback).__name__)
if errback is not None and not callable(errback):
raise TypeError('errback must be a callable, got %s' % type(errback).__name__)
assert callback or not errback, "Cannot use errback without a callback"
self.callback = callback
self.errback = errback
self.cookies = cookies or {}
self.headers = Headers(headers or {}, encoding=encoding)
self.dont_filter = dont_filter
self._meta = dict(meta) if meta else None
self.flags = [] if flags is None else list(flags)
@property
def meta(self):
if self._meta is None:
self._meta = {}
return self._meta
def _get_url(self):
return self._url
def _set_url(self, url):
if not isinstance(url, six.string_types):
raise TypeError('Request url must be str or unicode, got %s:' % type(url).__name__)
s = safe_url_string(url, self.encoding)
self._url = escape_ajax(s)
if ':' not in self._url:
raise ValueError('Missing scheme in request url: %s' % self._url)
url = property(_get_url, obsolete_setter(_set_url, 'url'))
def _get_body(self):
return self._body
def _set_body(self, body):
if body is None:
self._body = b''
else:
self._body = to_bytes(body, self.encoding)
body = property(_get_body, obsolete_setter(_set_body, 'body'))
@property
def encoding(self):
return self._encoding
def __str__(self):
return "" % (self.method, self.url)
__repr__ = __str__
def copy(self):
"""Return a copy of this Request"""
return self.replace()
def replace(self, *args, **kwargs):
"""Create a new Request with the same attributes except for those
given new values.
"""
for x in ['url', 'method', 'headers', 'body', 'cookies', 'meta',
'encoding', 'priority', 'dont_filter', 'callback', 'errback']:
kwargs.setdefault(x, getattr(self, x))
cls = kwargs.pop('cls', self.__class__)
return cls(*args, **kwargs)
22.1.4 Request的初始化構造方法
def __init__(self, url, callback=None, method='GET', headers=None, body=None,
cookies=None, meta=None, encoding='utf-8', priority=0,
dont_filter=False, errback=None, flags=None)
項目中使用的例子:
scrapy.Request(self.url + str(self.offset), callback = self.parse)
常用的參數:
【url】: 參數類型 string,請求的 url。
【callback】 :處理響應數據的回調方法(指定該請求返回的 Response,由那個函數來處理),用來解析響應數據,如果沒有指定,則 spider 的 parse 方法。如果在處理期間引發異常,則會調用 errback。
【method】: 參數類型 string ,HTTP 的請求方法,請求一般不需要指定,默認 GET 方法,可設置為"GET", "POST", "PUT"等,且保證字符串大寫
【headers】: 參數類型 dict,請求時,包含的頭文件。一般不需要。內容一般如下:
Host: media.readthedocs.org
User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
Accept: text/css,*/*;q=0.1
Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/
Cookie: _ga=GA1.2.1612165614.1415584110;
Connection: keep-alive
【meta】: 參數類型 dict,比較常用,在不同的請求之間傳遞數據使用的,Request.meta 是屬性的初始值。一旦此參數被設置,通過參數傳遞的字典將會被淺拷貝。
request_with_cookies = Request(
url="http://www.example.com",
cookies={'currency': 'USD', 'country': 'UY'},
meta={'dont_merge_cookies': True}
)
【encoding】: 參數類型 string,編碼方式,默認 utf-8。
【dont_filter】: 參數類型 bool,請求不應該被調度器過濾。False 表示過濾,True 表示不過濾。默認 False(當你想使用多次執行相同的請求,忽略重複的過濾器。默認為 False)。
【priority】:參數類型 int,優先級,調度程序使用優先級來定義用於處理請求的順序,具有較高優先級值的請求將會提前執行,默認0。
【errback】: 指定錯誤處理函數,如果在處理請求時引發異常,將會調用該函數。 這包括 404 HTTP 錯誤等失敗的頁面。
22.1.5 Request.meta
Request.meta 在不同的請求之間傳遞數據使用。
Request.meta 屬性可以包含任意的數據,但是 Scrapy 和它的內置擴展可以識別一些特殊的鍵。
【dont_redirect】:不重定向
【dont_retry】:不重試
【dont_merge_cookies】:不合並 cookie。
【cookiejar】:使用 cookiejar。
【redirect_urls】:重定向連接。
【bindaddress】:綁定 ip 地址。
【dont_obey_robotstxt】:不遵循反爬蟲協議。
【download_timeout】:下載超時。
22.1.5 Request 的子類 FormRequest
FormRequest是 Request 的子類,一般用作表單數據提交。
22.1.6 Request 的子類 FormRequest 模塊的位置
C:\\Python34\\Lib\\site-packages\\scrapy\\http\\request 下的 form.py文件。
22.1.7 Request 的子類 FormRequest 源碼
class FormRequest(Request):
def __init__(self, *args, **kwargs):
formdata = kwargs.pop('formdata', None)
if formdata and kwargs.get('method') is None:
kwargs['method'] = 'POST'
super(FormRequest, self).__init__(*args, **kwargs)
if formdata:
items = formdata.items() if isinstance(formdata, dict) else formdata
querystr = _urlencode(items, self.encoding)
if self.method == 'POST':
self.headers.setdefault(b'Content-Type', b'application/x-www-form-urlencoded')
self._set_body(querystr)
else:
self._set_url(self.url + ('&' if '?' in self.url else '?') + querystr)
@classmethod
def from_response(cls, response, formname=None, formid=None, formnumber=0, formdata=None,
clickdata=None, dont_click=False, formxpath=None, formcss=None, **kwargs):
kwargs.setdefault('encoding', response.encoding)
if formcss is not None:
from parsel.csstranslator import HTMLTranslator
formxpath = HTMLTranslator().css_to_xpath(formcss)
form = _get_form(response, formname, formid, formnumber, formxpath)
formdata = _get_inputs(form, formdata, dont_click, clickdata, response)
url = _get_form_url(form, kwargs.pop('url', None))
method = kwargs.pop('method', form.method)
return cls(url=url, method=method, formdata=formdata, **kwargs)
22.1.8 FormRequest 的構造
class scrapy.FormRequest(url[,formdata,...])
項目中的示例:
# 構造表單數據,發送 POST 請求登錄
scrapy.FormRequest(
url = url,
formdata = {"email" : "13554799061", "password" : "ting123hai"},
callback = self.parse
)
# 回調函數,對返回的 response進行處理請求。
def parse(self, response):
# do something
22.1.8 FormRequest的form_response()方法
FormRequest 類除了有 Request 的功能,還提供一個 form_response()方法:
form_response(response[,formname=None,formnumber=0,formdata=None,formxpath=None,clickdata=None,dont_click=False,...])
form_response 方法參數解析:
【response】:是指包含HTML表單的 Response 對象,該表單將用於預填充表單字段。
【formname】:如果給定,將使用設置為該值的 name 屬性的表單。
【formnumber】:當響應包含多個表單時,要使用的表單的數量。 Formnumber 默認是 0,表示使用第一個。
【formdata】:字段來覆蓋表單數據。如果一個字段已經存在於響應
閱讀更多 聽海8 的文章