Facebook to RSS

最近在做信息聚合,由于不太会爬虫,再加上之前有整理过一些RSS的内容,因此想考虑用RSS来做信息聚合。

结果调查发现,RSS似乎已经离我们远去,似乎大部分网站都不再支持RSS,而网上很多Website转RSS,RSS转Fullt Text RSS等服务都已经纷纷关闭。

不知道像头条这些的信息聚合是如何做的。以及轻芒的应用内搜索技术聚合的信息是如何做到的。

然后,考虑的是社交平台转RSS,首先考虑的是Facebook。 (说实话,我真用不惯(其实是不好用)Facebook)

stackoverflow上给出的方案有三个:

  1. 自己搭建rss-bridge
  2. Wallflux
  3. inoreader专业版

rss-bridge, 源码在这里https://github.com/RSS-Bridge/rss-bridge
搭建也比较简单,我直接用了scalingo的一键部署。好处是服务器自己控制,可以随意修改,同时还支持其他网站以及社交平台的RSS转化。

不好的是,转化出来的RSS结果,没有我想象的那么好。


        Cambodian Idol - 首页 | Cambodian Idol · 1 小时 ·...
        https://www.facebook.com//CambodianIdol/photos/a.342448125948561.1073741829.210604342466274/756369937889709/?type=3
        https://www.facebook.com//CambodianIdol/photos/a.342448125948561.1073741829.210604342466274/756369937889709/?type=3
        Sat, 03 Feb 2018 06:29:10 +0000
        <i></i><a href="https://www.facebook.com/CambodianIdol/?ref=nf&hc_ref=ARReR_8WlbSn4dvyRBZyMlwjHxyCcYlZtPSznnlpM9rHGV-DxcZnqhf7X3jWs7UQwrY"><img src="https://scontent-ams3-1.xx.fbcdn.net/v/t1.0-1/p50x50/20994284_673048779555159_7474891650160391542_n.jpg?oh=76b86f4a6582db9954196a1c1cf18d0b&oe=5ADA3731" alt="" /></a><a href="https://www.facebook.com/CambodianIdol/?hc_ref=ARQp4l8Sxqw95EyN3XJ6hT0chknX-0zbish0u8MUnRSry3U6ILsVoMPKgYOa-8YNn30&fref=nf">Cambodian Idol</a><a href="#"></a> · <a href="https://www.facebook.com//CambodianIdol/photos/a.342448125948561.1073741829.210604342466274/756369937889709/?type=3">1 小时</a> · <a href="#"><i></i></a><p>ឥឡូវនេះលោកអ្នកគឺជាគណៈកម្មការ ជាអ្នកសម្រេចចិត្ត!!!</p><p> ដោយសារទឹកដមសំឡេងបេក្ខជនទាំង 5រូបនេះ សុទ្ធតែល្អដែលធ្វើឲ្យគណៈកម្មការពិបាកធ្វើការសម្រេចចិត្ត ។ ដូច្នេះមានតែទស្សនិកជនប៉ុណ្ណោះ ជាអ្នកសម្រេចចិត្ត ថាតើបេក្ខជន 2រូបណាដែលសាកសមទៅកាន់វគ្គ LIVE SHOW ។</p><p> ផ្ញើសារគាំទ្រពួកគេទាំង 5រូប ដើម្បីពួកគេអាចឆ្លងផុតទៅកាន់វគ្គ LIVE SHOW ។...<br /> លោកអ្នកគ្រាន់តែចុចលេខសម្គាល់របស់បេក្ខជន រួចផ្ញើទៅកាន់លេខ 2018 (Smart, Mefone & Cellcard) ឬទូរស័ព្ទទៅកាន់លេខ 2018 រួចស្តាប់ការណែនាំ (Mefone & Cellcard) ។</p><p> ប្រព័ន្ធទូរស័ព្ទចាប់ផ្តើមបើកពីពេលនេះរហូតដល់យប់ថ្ងៃសុក្រ ទី០៩ ខែកុម្ភៈ ឆ្នាំ២០១៨ ។</p><p> ផ្ញើសារគាំទ្រឥឡូវនេះ !!</p> <a href="https://www.facebook.com//CambodianIdol/posts/756374967889206">展开</a><a href="https://www.facebook.com//CambodianIdol/photos/a.342448125948561.1073741829.210604342466274/756369937889709/?type=3"><img src="https://scontent-ams3-1.xx.fbcdn.net/v/t1.0-0/p370x247/27459310_756369937889709_2257471024552824759_n.jpg?oh=a47ab10137bdd7d86044cdb5c638e87f&oe=5B13D222" alt="&#x56fe;&#x7247;&#x4e2d;&#x53ef;&#x80fd;&#x6709;&#xff1a;6 &#x4f4d;&#x7528;&#x6237;&#x3001;&#x5fae;&#x7b11;&#x7684;&#x7528;&#x6237;&#x3001;&#x6587;&#x672c;" width="450" height="245" /></a>
        Cambodian Idol - 首页
        

可以看到,得到的RSS的item,基本上就是把html的内容往description字段里放了下,而title这种几乎就是没有什么用的信息,因此肯定还需要自己做额外的解析。

Facebook-bridge似乎好一些,但我自己搭建的却解析不了,没花额外的时间查看了。

Wallflux 似乎已经倒闭?我使用的结果是没有任何Item字段生成。

inoreader正好有免费的30天专业版试用。支持100个facebook page的feed转换。

导入非常简单,直接将facebook page的地址输入左上角的搜索框


Facebook to RSS_第1张图片
屏幕快照 2018-02-03 下午4.30.25.png

然后,输出的Feeds,首先需要将这个Facebook Page Feed放入一个目录,然后导出这个目录的Feed即可。



Behind the Scense Green Miles Round Cambodian Idol 3 Green Miles www.facebook.com


https://www.facebook.com/210604342466274/posts/756382707888432


27331783_756382707888432_412383602841272
]]>

Sat, 03 Feb 2018 07:40:16 +0000
Cambodian Idol
Cambodian Idol
Cambodian Idol (Facebook)
http://www.inoreader.com/article/3a9c6e7ed20cfa0d

解析结果比rss-bridge稍微好一点,至少title的内容比较好,不过还是没有把图片单独截取出来,似乎还是需要我们自己解析description的内容。

考虑的是,输出Feed似乎和个人账户ID关联,不知道作为共有Feed,频繁request会不会出现问题。可能需要考虑将内容转存(?这似乎又存在版权问题)。

简单出demo的话,inoreader专业版不错。长久考虑,应该使用rss-bridge。

归根结底,还是需要自己解析description的内容。

你可能感兴趣的:(Facebook to RSS)