Category: RCrawler101

April 2, 2016 / / RCrawler101

最近被人資要求提供過去三個月每天的行程,這讓我有點困擾,花了頗多時間去回想,畢竟我總是四處漂泊不定啊~~~

為了讓我之後不要再為這種小事煩惱,我用R寫了一個小爬蟲來記錄自己的行蹤。

Read the Post 自動記錄自己的行蹤

January 17, 2016 / / courses

感謝我們的工作人員–呂奕,給了一篇文章介紹爬蟲用的新套件, 轉貼網址:http://leoluyi.logdown.com/posts/432582-xmlview-package 在寫爬蟲的過程中,常需要針對取得的 html 檢查內容,並用 XPath 或 CSS selector 擷取所需要的資料區塊。但在使用 IDE 撰寫腳本時,要做到這些事必須要把 html 的文本內容 print…

Read the Post在 RStudio 檢視 xml/html 的工具:xmlview Package

November 21, 2015 / / courses
October 22, 2015 / / PyCrawler 101

雖然網路上免費的課程很多,可是八成以上都是英文的,用英文去學自己不會的東西,這個困難度我曾親身體會,如果可以負擔得起,買一些中文參考書輔助學習會更有效。 所以關於學員問到有沒有Python跟爬蟲的參考書,我就自己看過跟使用中的參考書作為答覆。 一般來說,外商如歐萊禮的書都蠻貴的,但有一定的專業深度。台灣自己人寫的書較便宜,不過就比較偏入門指引。 請依照個人能力與荷包做評估。 中文參考書: R: R錦囊妙計,歐萊禮 (在資策會我看的是這本,對R新兵非常有幫助) Python Python程式設計入門,博碩 (我自己也是這行的新兵,所以最常看這本,我覺得目前最常用最好用就是這本了) Python錦囊妙計第三版,歐萊禮 (我前輩推薦這本,但內容講很多Python 3跟不少進階用法,建議有些程度再來看可能才會覺得實用) Crawler…

Read the PostR / Python / Crawler各種參考書

September 21, 2015 / / Crawler 102

有鑑於課程說明會當天,有相當多的朋友反應,對於其他課程也很有興趣,可以先來填Crawler 課程問卷讓我們了解。 Future Learning & Courses: R Crawler 101 (3 weeks) Py Crawler 102 (3…

Read the Post課程問卷調查

September 20, 2015 / / RCrawler101

近年來很流行網路爬蟲技術,可以自行捉取自己想要的資訊; 只要不是太複雜的網站,使用 R 底下的套件 httr 就可以捉取了;不過由於 httr 並沒有直接支援 CSS 與 xpath 選取,所以還要額外安裝其他的套件來輔助解析網頁資訊。 最近發現到 rvest 這個套件,直接支援…

Read the Post簡單好用的 web scraping R 套件 – rvest

July 27, 2015 / / a crawler a day
July 27, 2015 / / courses