1. HTTP Headers 是什么
HTTP Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息 好吧其实这有点拗口的解释看不懂也没关系,还有一个更直观的表示2. 更直观的表示 HTTP Headers 当你在浏览器地址栏里键入一个网址,你的浏览器将会类似如下的http请求:GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1Host: net.tutsplus.comUser-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8Accept-Language: en-us,en;q=0.5Accept-Encoding: gzip,deflateAccept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7Keep-Alive: 300Connection: keep-aliveCookie: PHPSESSID=r2t5uvjq435r4q7ib3vtdjq120Pragma: no-cacheCache-Control: no-cache
第一行被称为“Status Line”,它之后就是http headers,空行完了就开始输出内容了(在这个案例中是一些html输出)。
所以 headers 就是后面的Host、User-Agent、Accept 这些内容3. 我应该怎样在网页中找到header 1. 首先使用比较好用的浏览器,现在的浏览器大多数都带有查看源码的功能,我们在编写爬虫代码时,需要经常的查看页面的代码,追踪网页信息等等,所以要学会使用浏览器上的这些功能,我用的是火狐和chrome 2. 火狐和chrome的F12可以调出调试界面,就像这样子,图上的头信息里面就是网页的headers 3. 火狐浏览器安装firebug插件可以调出跟上图一样的调试界面4. headers 拓展知识的网址