Category: GET

August 1, 2015 / / a crawler a day

「Let Me Take A #Selfie」自拍、自拍、人生就是不停的自拍!(誤) 受到日幣貶值的影響,台灣的民眾前仆後繼地赴日旅遊;小編的朋友也總是嚷嚷著想要去日本旅遊!好不容易等到老闆加薪狠下心買了機票成行的小編一行人卻遇上了問題:到底怎麼規劃路線才能看到最美麗的風景呢?這時候聰明的小編想到了,不是還有 Instagram 嘛!除了自拍跟自拍以外,Instagram 上的照片也最能反映出各個地方即時的生活景象,今天就讓小編帶著大家,在 Instagram 上面搜尋世界上的美景吧! 目標網站: Instagram https://instagram.com/ 目標爬取資料:…

Read the Post20150801 A CRAWLER A DAY:秀才不出門,能覽天下景

July 27, 2015 / / a crawler a day

從 2008 年開始發行的運動彩卷,至今已走過七個年頭;歷經內部舞弊、變更經營權等等風波,也在各大國際級運動賽事中扮演重要的角色。其中在推動國內運動彩卷的過程裡,佔有很重要一席之地的就是身為百年老店的香港賽馬會。在研究完樂透資料之後(http://wp.me/p6qUT7-2O),是不是也覺得躍躍欲試想要來玩玩運彩的分析呢?除了直接從運動賽事的資訊去分析(http://wp.me/p6qUT7-48),利用國際賭盤的分析資料也是不可或缺的。今天,就讓我們從香港賽馬會開始吧! 目標網站: 香港賽馬會 http://bet.hkjc.com/football/default.aspx 目標爬取資料: 各項賽事賭盤開出的賠率 儲存資料結構: 賠率更新時間 比賽時間 賽事對戰組合(主/客隊) 主勝賠率 和局賠率 客勝賠率…

Read the Post20150727 A CRAWLER A DAY:運動賽事賠率分析

July 22, 2015 / / a crawler a day

Alexa 是會統計全球網站流量排名(amazon併購),其中可以按地區找到台灣各網站流量與關鍵字,雖然聽到許多消息說網站都可以購買排名流量,也聽到另一種說法是購買認證並非買流量排名,認證是Alexa可以得到更精確的流量計算。故目前為止至少可以透過長時間來爬此網站流量排名,來掌握確切是否透過購買行為,並可以觀察某些網站(競業網站等等)是否漸漸喪失優勢、流失客戶等等,而可以進一步較早發現問題,給予痛擊。 目標網站: alexa官網: http://www.alexa.com/topsites/countries/TW 目標爬取資料: 網站名稱 關鍵字 搜尋流量 學習技術: GET Document TABLE XPATH 貢獻網址:…

Read the Post20150722 A CRAWLER A DAY:台灣網站流量關鍵字排名

July 20, 2015 / / a crawler a day

在今年(2014 – 2015)的 NBA 賽場上,最閃亮耀眼的球星絕對非勇士隊當家主控柯瑞(Stephen Curry)莫屬;就連大帝詹姆士也得說聲「你就是沒辦法(阻擋他)」(http://www.nba.com/2015/news/05/29/lebron-james-on-stephen-curry-cant-stop-him.ap/)。假設你今天是個勇士對戰對手球隊的總管或教練,肯定對柯瑞特別頭痛。到底要怎麼防守他呢?讓數據告訴你! 目標網站: NBA 官網 http://stats.nba.com/player/#!/201939/tracking/shotslogs/?sort=CLOSEST_DEFENDER&dir=1 目標爬取資料: 從 NBA.com/Stats > Player…

Read the Post20150720 A CRAWLER A DAY:幫個忙,誰來守住柯瑞?

July 15, 2015 / / a crawler a day

3C用品特價資訊,想必是許多人會想搶購的,而PChome又是線上最熱門的購物網站(到貨速度快)。 如果可以掌握每日特賣商品,想必可以了解此商品較佳的購買價格,可以在每天更新的時候,及時購買機會。 目標網址: http://24h.pchome.com.tw/onsale/v2/20150713/#!3c.htm (0713) http://24h.pchome.com.tw/store/DYAM07   (0713) 學習 or 複習爬技術: GET 貢獻網址:https://github.com/datasci-info/ACrawlerADay  (請將大家的解法貢獻至此)  

Read the Post20150715 A CRAWLER A DAY:PChome 24整點特賣

July 14, 2015 / / a crawler a day

曾經有聽過這樣的說法:PTT八卦版偏綠,政黑版偏藍。不過,小編從來就沒有真的去看過政黑版的文章,完全不知道那邊是怎樣的情況。不如,就找找這兩個版最近一週最紅的三篇文章,來看看兩邊的輿論取向吧~~ 目標網址: https://www.ptt.cc/bbs/Gossiping/index.html https://www.ptt.cc/bbs/HatePolitics/index.html 學習 or 複習爬技術: CurlSSL config GET 貢獻網址:https://github.com/datasci-info/ACrawlerADay  (請將大家的解法貢獻至此)

Read the Post20150714 A CRAWLER A DAY:八卦版與政黑版的差異

July 13, 2015 / / a crawler a day

關心體育賽事的朋友們一定不會錯過遠在韓國正在舉辦的光州世大運,為抱得獎項的台灣健兒們歡呼、為努力備戰的台灣健兒們加油;也一同見證了寫下歷史的一刻-在以往一直被主管機關以成績不佳為理由拒絕參賽的男子足球項目,就在首度參加世大運的第二場對戰加拿大的比賽中首開紀錄,拿下參賽歷史首場勝利!為了球隊未來的勝利以及進步,從這場別具意義的足球比賽中,我們能不能學到些什麼資訊呢? 目標網站: 2015光州世界大學運動會官方網站 http://www.gwangju2015.com/IRS/eng/fb/engfb_football_results_m_m400_a_05.htm 目標爬取資料: 男子足球項目台灣隊戰勝加拿大的比賽紀錄(Play by play) 儲存資料結構: Play record – 事件編號 – 事件發生時間點…

Read the Post20150713 A CRAWLER A DAY:記錄歷史-光州世大運男子足球歷史首勝!

July 8, 2015 / / a crawler a day

近年來,隨著大型的 C2C 或 B2B2C 的商成崛起!

攻佔各大買場平台的 SEO 也漸漸的變成各個小電 (店) 商的功課了!

在今天的 A Crawler A Day 中,我們將試著放爬蟲去調查 Amazon 上面的 SEO 排行!

以便在操作 SEO 時,能更知道成效,並且知道自己想要的關鍵字,目前是被哪些商品攻佔!

目標網站:http://www.amazon.com/s/ref=nb_sb_noss?field-keywords=basketball+socks

Read the Post 20150708 A Crawler A Day:Amazon 關鍵字商品排行

July 7, 2015 / / a crawler a day
July 6, 2015 / / a crawler a day

在大家的心目中,大家會 「相信」 樂透是有規律的?還是沒有規律的呢? 有時候,規律這種東西也很妙,只有在你相信有的時候,才會去尋找 … 即使,最後發現找不到,也算是 「 尋找後,發現沒有!」 但是,一旦你相信 「沒有」 的時候,通常是連驗證都不會去驗證的唷! 目標網站:http://www.nfd.com.tw/lottery/49-year/49-2015.htm 爬取資料: 樂透的歷史資料? 深入思考:…

Read the Post20150706 A Crawler A Day:樂透歷史資料抓取與回測