我不過就是想把飯否導到 Day One 裏面嘛

心血來潮想把飯否導到 Day One 裏面。主要是因爲一直在用的「飯嘮」收錄得不全，可能是出於性能考慮沒有全部抓取下來。所以，就想着能不能導到 Day One 裏面，一方面也是擔心哪天飯否突然就宕了。

因爲記得說飯否提供了「開放接口」，加上之前有用 Python 抓漫畫的經歷，決定試試用最愛的 Ruby 來抓狀態。

啥是「開放接口」？

飯否最下面赫然寫着 API ，應該就是這玩意吧。那時對 API 的理解也就是「一鏈接，類似圖片網址那玩意」。好吧，讓我們來看看飯否的 API 長啥樣：

GET /statuses/user_timeline

尼瑪，這是啥？！

進去一看，哦，果真是個網址（黑話叫路徑）：

http://api.fanfou.com/statuses/user_timeline.[json|xml|rss]

我記得 GET 是 HTTP 裏面的東西吧！需要用到這麼底層的東西嗎？這咋整！好吧，我們還是回歸到理論上，看看「理性之光」如何指引我們。

上網搜了搜，所謂「開放接口」，開放的無非是某種 Web 服務。現在主流的有三種 Web服務： REST 是最簡單的一種。簡單地說， REST 把網上的一切都看作資源（和 UNIX 的「一切皆文件」好像），任何交互都是對資源的操作，而且僅用「創建」「讀取」「更新」「刪除」四種操作就可以實現^[1]。這正好對應了 HTTP 協議提供的 POST, GET, PUT, DELETE 四種方法。

現在，我們就要想辦法 GET 到http://api.fanfou.com/statuses/user_timeline.json?id=**usr**（記得把usr換成你自己的用戶名）。

然後呢？

怎麼才能 GET 到某個資源？

Ruby 提供了兩個跟 HTTP 打交道的庫。最簡單的是open-uri。另一個是Net::HTTP，這個庫更底層一些，也更強大。先來看看open-uri：

require 'open-uri'

# ...   
resp = open(url) {|f| f.read}

再試試Net::HTTP#get：

require 'net/http'

# ...   
resp = Net::HTTP.get(URI.parse(url))

好了，現在飯否有回聲了，但這是坨啥玩意啊？

怎麼解析回應啊？

飯否告訴我們：這是一個 JSON 序列。把這玩意丟到JSON#parse裏試試。下面就簡單了，提取感興趣的項就行了：

js = JSON.parse(resp.body)

js.each do |item|
    puts item["text"]
end

當初，選 JSON 作爲響應格式是因爲它簡單。 XML 就不說了，理論上簡單，細節上無比複雜。 RSS 則是包裝過的 XML 。

解析 XML ，最傳統的是調用REXML庫，圖省事可以用XmlSimple。REXML的好處是集成在標準庫裏頭的，壞處是難用。你必須先知道要解析的 XML 文檔的結構。在嘗試了無數次之後，終於-_-!：

require "rexml/document"

# ...
data = REXML::Document.new(resp)
data.root.each_element {|e| puts e.elements["text"].text}

XmlSimple能把 XML 轉換成一個映射(hash)。這個庫據說是從 Perl 的XML::Simple模塊轉譯過來的，就xml_in()和xml_out()來回倒：

require 'xmlsimple'

# ...
data = XmlSimple.xml_in(resp)

然後，就可以像處理映射那樣隨你搗騰了：

data["status"].each do |item|
  puts item["text"]
end

其實 RSS 因爲格式固定，解析起來倒也還簡單：

require 'rss'

# ...
data = RSS::Parser.parse(resp)
data.items.each {|e| puts e.description}

好了，現在內容抓下來了，剩下的就剩調格式了。

「時間」不是件小事

記得用上Time#strftime，至於那控制字串怎麼寫，查表吧。

可以看看阮一峯的理解RESTful架構 ↩

我不過就是想把飯否導到 Day One 裏面嘛

啥是「開放接口」？

怎麼才能 GET 到某個資源？

怎麼解析回應啊？

「時間」不是件小事

你可能感兴趣的:(我不過就是想把飯否導到 Day One 裏面嘛)