Category: Social Media

August 1, 2015 / / a crawler a day

「Let Me Take A #Selfie」自拍、自拍、人生就是不停的自拍!(誤) 受到日幣貶值的影響,台灣的民眾前仆後繼地赴日旅遊;小編的朋友也總是嚷嚷著想要去日本旅遊!好不容易等到老闆加薪狠下心買了機票成行的小編一行人卻遇上了問題:到底怎麼規劃路線才能看到最美麗的風景呢?這時候聰明的小編想到了,不是還有 Instagram 嘛!除了自拍跟自拍以外,Instagram 上的照片也最能反映出各個地方即時的生活景象,今天就讓小編帶著大家,在 Instagram 上面搜尋世界上的美景吧! 目標網站: Instagram https://instagram.com/ 目標爬取資料:…

July 29, 2015 / / a crawler a day

想必不少人都是看YAHOO新聞長大的。不過,其實YAHOO本身是沒有能力自己製作新聞,都是到處轉載的。這讓人懷疑,YAHOO是否會偏好某些媒體呢?不同新聞性質是否偏好也會不同?這似乎可以好好來觀察觀察。 目標網址:https://tw.news.yahoo.com/ 目標資料: YAHOO的新聞來源。 不同性質的新聞,其來源分布情形。 學習技巧: Xpath CSS GET 貢獻網址: https://github.com/datasci-info/ACrawlerADay  (請大家將解法貢獻至此)

July 25, 2015 / / a crawler a day

近幾年來在臉書上出現了不少新銳圖文插畫家,除了放在網路上的作品之外,他們也跟各大品牌合作推出許多聯名商品來搶大家的荷包(誤)。其中尤其以紅遍半邊天的「三角關係」組合:掰掰啾啾(ByeByeChuChu)、馬來貘(Cherng’s)、爽爽貓(Second),是最廣為人知的;而這幾位插畫家在臉書上的互動,也常常令粉絲們津津樂道。為了揭開插畫家們彼此之間糾葛纏綿(?)的關係,我們將利用在課程裏學到的 Facebook Graph API,層層剖析! 目標網站: https://www.facebook.com/ByeByeChuChu?fref=ts https://www.facebook.com/cherngs.y?fref=ts https://www.facebook.com/songsongmeow?fref=ts 目標爬取資料: 插畫家互相在彼此頁面上的發文,以及粉絲之間的互動行為。 儲存資料結構: Graph 網路結構: – 節點(node):插畫家粉絲頁…

July 24, 2015 / / a crawler a day

以開放資料來說,小編覺得目前資料使用上有展現出價值的應用,好比三秒算房價、查房價、預測房價等APP。故先掌握實價登錄不僅可以思考更好的應用,近期房價又準備走下波段,在好的相對低點入場也是需要知道關鍵時機。 而此題又是相當具有挑戰的爬蟲大魔王,有自信的同學,可以先思考此問題,在課堂中就會講到此題範例。   目標網站: 實價登錄網站: http://lvr.land.moi.gov.tw/N11/login.action 目標爬取資料: 地址 交易年月 總價 坪數 屋齡 學習技術: POST XHR…

July 21, 2015 / / a crawler a day

社群媒體的輿情分析在近年來成為顯學,舉凡各式各樣的商業活動、運動賽事,主辦單位、媒體以及粉絲們都少不了密切的關注社群媒體(同時發布各種即時訊息)。今天讓我們來試做一個推特風向球,即時的利用關鍵字把推特上的推文爬回來,並且根據不同關鍵字的出現頻率,作為議題風向的參考。 目標網站: 推特(Twitter) https://twitter.com/ https://twitter.com/hashtag/WWEBattleground?src=tren 目標爬取資料: 以 #WWEBattleground 作為搜索關鍵字,觀察 WWE 比賽中群眾的意向。 儲存資料結構: tweet – username…

July 19, 2015 / / a crawler a day

小編常常看到FB的PO文來自這與Buzzhand,這兩平台文章相當腥羶色,不是圖片就是Title相當煽動看到圖文(雖然內容都甚麼深度,不過光是騙到流量這件事情….)。這其中吸引相當大的流量,甚至還有人說賺錢可以來上面寫寫文章抽%之類的(詐騙集團?)。 所以上面文章標頭與圖是相當有影響力的,如果有機會都爬下來整理一番,就知道怎麼操縱受眾者。(開始想到一堆政治業配文了…, 真心覺得像是最近的Uniqulo相當厲害….嘖嘖)。 目標網址: http://www.teepr.com/ 學習 or 複習爬技術: GET XML 貢獻網址:https://github.com/datasci-info/ACrawlerADay  (請將大家的解法貢獻至此)  

July 14, 2015 / / a crawler a day

曾經有聽過這樣的說法:PTT八卦版偏綠,政黑版偏藍。不過,小編從來就沒有真的去看過政黑版的文章,完全不知道那邊是怎樣的情況。不如,就找找這兩個版最近一週最紅的三篇文章,來看看兩邊的輿論取向吧~~ 目標網址: https://www.ptt.cc/bbs/Gossiping/index.html https://www.ptt.cc/bbs/HatePolitics/index.html 學習 or 複習爬技術: CurlSSL config GET 貢獻網址:https://github.com/datasci-info/ACrawlerADay  (請將大家的解法貢獻至此)