Category: xpath selector

July 27, 2015 / / a crawler a day

從 2008 年開始發行的運動彩卷,至今已走過七個年頭;歷經內部舞弊、變更經營權等等風波,也在各大國際級運動賽事中扮演重要的角色。其中在推動國內運動彩卷的過程裡,佔有很重要一席之地的就是身為百年老店的香港賽馬會。在研究完樂透資料之後(http://wp.me/p6qUT7-2O),是不是也覺得躍躍欲試想要來玩玩運彩的分析呢?除了直接從運動賽事的資訊去分析(http://wp.me/p6qUT7-48),利用國際賭盤的分析資料也是不可或缺的。今天,就讓我們從香港賽馬會開始吧! 目標網站: 香港賽馬會 http://bet.hkjc.com/football/default.aspx 目標爬取資料: 各項賽事賭盤開出的賠率 儲存資料結構: 賠率更新時間 比賽時間 賽事對戰組合(主/客隊) 主勝賠率 和局賠率 客勝賠率…

July 22, 2015 / / a crawler a day

Alexa 是會統計全球網站流量排名(amazon併購),其中可以按地區找到台灣各網站流量與關鍵字,雖然聽到許多消息說網站都可以購買排名流量,也聽到另一種說法是購買認證並非買流量排名,認證是Alexa可以得到更精確的流量計算。故目前為止至少可以透過長時間來爬此網站流量排名,來掌握確切是否透過購買行為,並可以觀察某些網站(競業網站等等)是否漸漸喪失優勢、流失客戶等等,而可以進一步較早發現問題,給予痛擊。 目標網站: alexa官網: http://www.alexa.com/topsites/countries/TW 目標爬取資料: 網站名稱 關鍵字 搜尋流量 學習技術: GET Document TABLE XPATH 貢獻網址:…

July 20, 2015 / / a crawler a day

在今年(2014 – 2015)的 NBA 賽場上,最閃亮耀眼的球星絕對非勇士隊當家主控柯瑞(Stephen Curry)莫屬;就連大帝詹姆士也得說聲「你就是沒辦法(阻擋他)」(http://www.nba.com/2015/news/05/29/lebron-james-on-stephen-curry-cant-stop-him.ap/)。假設你今天是個勇士對戰對手球隊的總管或教練,肯定對柯瑞特別頭痛。到底要怎麼防守他呢?讓數據告訴你! 目標網站: NBA 官網 http://stats.nba.com/player/#!/201939/tracking/shotslogs/?sort=CLOSEST_DEFENDER&dir=1 目標爬取資料: 從 NBA.com/Stats > Player…

July 13, 2015 / / a crawler a day

關心體育賽事的朋友們一定不會錯過遠在韓國正在舉辦的光州世大運,為抱得獎項的台灣健兒們歡呼、為努力備戰的台灣健兒們加油;也一同見證了寫下歷史的一刻-在以往一直被主管機關以成績不佳為理由拒絕參賽的男子足球項目,就在首度參加世大運的第二場對戰加拿大的比賽中首開紀錄,拿下參賽歷史首場勝利!為了球隊未來的勝利以及進步,從這場別具意義的足球比賽中,我們能不能學到些什麼資訊呢? 目標網站: 2015光州世界大學運動會官方網站 http://www.gwangju2015.com/IRS/eng/fb/engfb_football_results_m_m400_a_05.htm 目標爬取資料: 男子足球項目台灣隊戰勝加拿大的比賽紀錄(Play by play) 儲存資料結構: Play record – 事件編號 – 事件發生時間點…

July 8, 2015 / / a crawler a day

近年來,隨著大型的 C2C 或 B2B2C 的商成崛起!

攻佔各大買場平台的 SEO 也漸漸的變成各個小電 (店) 商的功課了!

在今天的 A Crawler A Day 中,我們將試著放爬蟲去調查 Amazon 上面的 SEO 排行!

以便在操作 SEO 時,能更知道成效,並且知道自己想要的關鍵字,目前是被哪些商品攻佔!

目標網站:http://www.amazon.com/s/ref=nb_sb_noss?field-keywords=basketball+socks

July 7, 2015 / / a crawler a day