Learning by Hacking Posts

August 1, 2015 / / a crawler a day

「Let Me Take A #Selfie」自拍、自拍、人生就是不停的自拍!(誤) 受到日幣貶值的影響,台灣的民眾前仆後繼地赴日旅遊;小編的朋友也總是嚷嚷著想要去日本旅遊!好不容易等到老闆加薪狠下心買了機票成行的小編一行人卻遇上了問題:到底怎麼規劃路線才能看到最美麗的風景呢?這時候聰明的小編想到了,不是還有 Instagram 嘛!除了自拍跟自拍以外,Instagram 上的照片也最能反映出各個地方即時的生活景象,今天就讓小編帶著大家,在 Instagram 上面搜尋世界上的美景吧! 目標網站: Instagram https://instagram.com/ 目標爬取資料:…

Read the Post20150801 A CRAWLER A DAY:秀才不出門,能覽天下景

July 31, 2015 / / a crawler a day

R crawler學員大家好: 工作忙碌之餘,是否想學習股神巴菲特或大鱷索羅斯的投資神技呢? 不過隨著大神們不斷改變持股,書中情報不免成為過期的參考標的,既然對投資有興趣,何不寫支爬蟲爬回第一手資料來分析研究? 目標網站: http://www.ibillionaire.me/billionaires/ 目標爬取資料(基礎題): 任選一個你想學習的大神投資人,爬下Portfolio(投資組合)。 爬完最新一季的,記得按下旁邊的齒輪圖案,爬下過去的歷史資料。 目標爬取資料(進階題): 將游標移動到圓餅圖上不同顏色的區塊,股票所屬的產業與股號才會依序顯示,並非一次全部顯示。 爬下圓餅圖的產業、比例、股號與回報率。本題稍難,屬於re的應用題。 學習技術: GET re…

Read the Post20150731 A CRAWLER A DAY:投資資料爬蟲 -> 分析 -> 策略實戰

July 30, 2015 / / a crawler a day

物價的波動有時候會反應在股價上,在股價發生改變前,物價早已改變。在2013年的春天,記憶體的價格在二月開始瘋狂上揚,隨即與記憶體相關的個股在三月開始飆漲,有觀察到此現象的強者們,紛紛都因此賺了一筆。而amozon上各商品的物價變化就是一個不錯的觀察目標,因為價格變化十分即時,藉此便可掌握先機! 目標網址:http://www.amazon.com/ 目標資料: 各家廠牌RAM的價格 自己找一個有興趣的商品來玩玩吧~~ 學習技巧: GET 貢獻網址: https://github.com/datasci-info/ACrawlerADay  (請大家將解法貢獻至此)

Read the Post20150729 A CRAWLER A DAY:amazon 商品價格與名稱

July 29, 2015 / / a crawler a day

想必不少人都是看YAHOO新聞長大的。不過,其實YAHOO本身是沒有能力自己製作新聞,都是到處轉載的。這讓人懷疑,YAHOO是否會偏好某些媒體呢?不同新聞性質是否偏好也會不同?這似乎可以好好來觀察觀察。 目標網址:https://tw.news.yahoo.com/ 目標資料: YAHOO的新聞來源。 不同性質的新聞,其來源分布情形。 學習技巧: Xpath CSS GET 貢獻網址: https://github.com/datasci-info/ACrawlerADay  (請大家將解法貢獻至此)

Read the Post20150728 A CRAWLER A DAY:YAHOO新聞大多是用抄的

July 27, 2015 / / a crawler a day
July 27, 2015 / / a crawler a day

從 2008 年開始發行的運動彩卷,至今已走過七個年頭;歷經內部舞弊、變更經營權等等風波,也在各大國際級運動賽事中扮演重要的角色。其中在推動國內運動彩卷的過程裡,佔有很重要一席之地的就是身為百年老店的香港賽馬會。在研究完樂透資料之後(http://wp.me/p6qUT7-2O),是不是也覺得躍躍欲試想要來玩玩運彩的分析呢?除了直接從運動賽事的資訊去分析(http://wp.me/p6qUT7-48),利用國際賭盤的分析資料也是不可或缺的。今天,就讓我們從香港賽馬會開始吧! 目標網站: 香港賽馬會 http://bet.hkjc.com/football/default.aspx 目標爬取資料: 各項賽事賭盤開出的賠率 儲存資料結構: 賠率更新時間 比賽時間 賽事對戰組合(主/客隊) 主勝賠率 和局賠率 客勝賠率…

Read the Post20150727 A CRAWLER A DAY:運動賽事賠率分析

July 26, 2015 / / a crawler a day

偶爾,總是有需要到ptt的Joke版讓自己開心起來的時候,但Joke版真得好笑的笑話已經越來越少了,幸好,有某些鄉民(如:HornyDragon)會po出一些好笑的圖片或影片,讓Joke版得以維持目前的榮景。老實說,小編有時候根本就是衝著這些圖片和影片去的啊XD~~不過慢慢搜尋也是會有點累的,這時候只能出動爬蟲讓自己快速找到有圖片與影片的文章啦~~~ 目標網址:https://www.ptt.cc/bbs/joke/index.html 目標資料:有圖片或影片的文章 學習技巧: GET CSS Xpath Regular expression 貢獻網址: https://github.com/datasci-info/ACrawlerADay  (請大家將解法貢獻至此)

Read the Post20150726 A CRAWLER A DAY:Joke版的有料(?)文章

July 25, 2015 / / a crawler a day

近幾年來在臉書上出現了不少新銳圖文插畫家,除了放在網路上的作品之外,他們也跟各大品牌合作推出許多聯名商品來搶大家的荷包(誤)。其中尤其以紅遍半邊天的「三角關係」組合:掰掰啾啾(ByeByeChuChu)、馬來貘(Cherng’s)、爽爽貓(Second),是最廣為人知的;而這幾位插畫家在臉書上的互動,也常常令粉絲們津津樂道。為了揭開插畫家們彼此之間糾葛纏綿(?)的關係,我們將利用在課程裏學到的 Facebook Graph API,層層剖析! 目標網站: https://www.facebook.com/ByeByeChuChu?fref=ts https://www.facebook.com/cherngs.y?fref=ts https://www.facebook.com/songsongmeow?fref=ts 目標爬取資料: 插畫家互相在彼此頁面上的發文,以及粉絲之間的互動行為。 儲存資料結構: Graph 網路結構: – 節點(node):插畫家粉絲頁…

Read the Post20150725 A CRAWLER A DAY:一窺插畫家之間的愛恨糾葛

July 24, 2015 / / a crawler a day

以開放資料來說,小編覺得目前資料使用上有展現出價值的應用,好比三秒算房價、查房價、預測房價等APP。故先掌握實價登錄不僅可以思考更好的應用,近期房價又準備走下波段,在好的相對低點入場也是需要知道關鍵時機。 而此題又是相當具有挑戰的爬蟲大魔王,有自信的同學,可以先思考此問題,在課堂中就會講到此題範例。   目標網站: 實價登錄網站: http://lvr.land.moi.gov.tw/N11/login.action 目標爬取資料: 地址 交易年月 總價 坪數 屋齡 學習技術: POST XHR…

Read the Post20150724 A CRAWLER A DAY:實價登錄網站