4.8 处理非HTTP GET请求(beta)

一般来说,爬虫只会抓取信息展示类的页面,所以基本只会处理HTTP GET方法的数据。但是对于某些场景,模拟POST等方法也是需要的。

    Request request = new Request("http://example.com/item");
    request.setMethod(HttpConstant.Method.POST);
    NameValuePair[] nameValuePair = new NameValuePair[](){
    new BasicNameValuePair("id","100"),new BasicNameValuePair("tag","2")};
    request.putExtra("nameValuePair", nameValuePair);
    spider.addRequest(request);

POST方式还有一些Bug,例如#385 中文乱码等,会在0.6.2版本中陆续修复。

POST的去重:

从0.6.2版本开始,POST默认不会去重,详情见:Issue 484。如果想要去重可以自己继承DuplicateRemovedScheduler,重写push方法。

results matching ""

    No results matching ""