Category: table parser

July 27, 2015 / / a crawler a day

從 2008 年開始發行的運動彩卷,至今已走過七個年頭;歷經內部舞弊、變更經營權等等風波,也在各大國際級運動賽事中扮演重要的角色。其中在推動國內運動彩卷的過程裡,佔有很重要一席之地的就是身為百年老店的香港賽馬會。在研究完樂透資料之後(http://wp.me/p6qUT7-2O),是不是也覺得躍躍欲試想要來玩玩運彩的分析呢?除了直接從運動賽事的資訊去分析(http://wp.me/p6qUT7-48),利用國際賭盤的分析資料也是不可或缺的。今天,就讓我們從香港賽馬會開始吧! 目標網站: 香港賽馬會 http://bet.hkjc.com/football/default.aspx 目標爬取資料: 各項賽事賭盤開出的賠率 儲存資料結構: 賠率更新時間 比賽時間 賽事對戰組合(主/客隊) 主勝賠率 和局賠率 客勝賠率…

July 22, 2015 / / a crawler a day

Alexa 是會統計全球網站流量排名(amazon併購),其中可以按地區找到台灣各網站流量與關鍵字,雖然聽到許多消息說網站都可以購買排名流量,也聽到另一種說法是購買認證並非買流量排名,認證是Alexa可以得到更精確的流量計算。故目前為止至少可以透過長時間來爬此網站流量排名,來掌握確切是否透過購買行為,並可以觀察某些網站(競業網站等等)是否漸漸喪失優勢、流失客戶等等,而可以進一步較早發現問題,給予痛擊。 目標網站: alexa官網: http://www.alexa.com/topsites/countries/TW 目標爬取資料: 網站名稱 關鍵字 搜尋流量 學習技術: GET Document TABLE XPATH 貢獻網址:…

July 20, 2015 / / a crawler a day

在今年(2014 – 2015)的 NBA 賽場上,最閃亮耀眼的球星絕對非勇士隊當家主控柯瑞(Stephen Curry)莫屬;就連大帝詹姆士也得說聲「你就是沒辦法(阻擋他)」(http://www.nba.com/2015/news/05/29/lebron-james-on-stephen-curry-cant-stop-him.ap/)。假設你今天是個勇士對戰對手球隊的總管或教練,肯定對柯瑞特別頭痛。到底要怎麼防守他呢?讓數據告訴你! 目標網站: NBA 官網 http://stats.nba.com/player/#!/201939/tracking/shotslogs/?sort=CLOSEST_DEFENDER&dir=1 目標爬取資料: 從 NBA.com/Stats > Player…

July 6, 2015 / / a crawler a day

在大家的心目中,大家會 「相信」 樂透是有規律的?還是沒有規律的呢? 有時候,規律這種東西也很妙,只有在你相信有的時候,才會去尋找 … 即使,最後發現找不到,也算是 「 尋找後,發現沒有!」 但是,一旦你相信 「沒有」 的時候,通常是連驗證都不會去驗證的唷! 目標網站:http://www.nfd.com.tw/lottery/49-year/49-2015.htm 爬取資料: 樂透的歷史資料? 深入思考:…