Month: October 2015

October 30, 2015 / / Uncategorized

眾所皆知,windows系統在處理文件編碼上是非常弱勢的; 相對於 linux 與 mac 在讀寫各式不同編碼的純文件時,只需要指定好 encoding 的內容就可以正常讀取;目前經過我交叉測試,在windows中如果UTF8文件中包含了日文、韓文的UTF8文件還是無法正確讀取… 將問題與解法整理成如下2張圖: 可依情境加以使用不同解決方案,這2種方式都可以正確讀取含有日文、韓文等文字的UTF8文件…若使用原始系統搭載的 read.csv() 則執行指令時會報錯!! 備註: (1)readxl套件,請參考: http://www.r-bloggers.com/get-data-out-of-excel-and-into-r-with-readxl/…

Read the PostWindows系統讀取包含日文、韓文的UTF8 文件[R]

October 24, 2015 / / courses

感謝我們的工作人員–仲昇,給了一篇文章解釋HTTP Method 轉貼網址:http://mikuweb.blogspot.tw/2015/10/http-methodgetpost4method.html HTTP協定中定義了多種不同的method,瀏覽器或是其他程式再進行HTTP連線時,會使用這些method來進行連線並取得回復。 這些method到底有甚麼差別呢? 這裡列舉常見的六種HTTP Method分別是head,get,post,delete,put,patch。 其實還有很多其他得Method,為甚麼要特別提到這六種呢?因為這六種跟網頁的資料有非常大的關係。 先從最常見的get和post說起吧。 一個剛接觸網頁的人或是早期用PHP寫網頁的人常常混用get和post,因為兩者的功能基本上是相同的,而且以前主流是使用網址的Query String和不同的URL來區分功能(比如上傳和搜尋),但是現在愈來愈多網頁用API導向,也就是一個URL負責一個「業務」,對於上傳和瀏覽分別用不同的Method來處理。 舉例來說,我們現在有一個可以留言的留言板,我們通常會使用get來取得現在的留言,而要新增新的留言時,我們會post到這個位置(有點像是問服務生今天的菜單,然後跟同一個服務生點餐)。一些比較早期的網頁則可能混用get和post,把瀏覽留言和新增留言放在不同網址(有點像把領錢和存錢規劃在不同櫃台辦理)。 所以我們現在知道,不同的Method就是對同一件事情做不同的操作。 再來舉服務生點餐的例子, 假設現在我們要點餐,我們必須先知道菜單是甚麼(get),…

Read the Post常見的HTTP Method的不同性質分析:Get,Post和其他4種Method的差別

October 23, 2015 / / courses

感謝Adrian幫忙解題,藉由Adrian在Forum的回答,解開許多人可能還沒搞懂的lambda與map之謎…… 有相同疑問的朋友,可以看看以下連結的回覆喔~~~ GENERATOR, ITEARTOR, MAP 的寫法

Read the Postlambda & map

October 22, 2015 / / PyCrawler 101

雖然網路上免費的課程很多,可是八成以上都是英文的,用英文去學自己不會的東西,這個困難度我曾親身體會,如果可以負擔得起,買一些中文參考書輔助學習會更有效。 所以關於學員問到有沒有Python跟爬蟲的參考書,我就自己看過跟使用中的參考書作為答覆。 一般來說,外商如歐萊禮的書都蠻貴的,但有一定的專業深度。台灣自己人寫的書較便宜,不過就比較偏入門指引。 請依照個人能力與荷包做評估。 中文參考書: R: R錦囊妙計,歐萊禮 (在資策會我看的是這本,對R新兵非常有幫助) Python Python程式設計入門,博碩 (我自己也是這行的新兵,所以最常看這本,我覺得目前最常用最好用就是這本了) Python錦囊妙計第三版,歐萊禮 (我前輩推薦這本,但內容講很多Python 3跟不少進階用法,建議有些程度再來看可能才會覺得實用) Crawler…

Read the PostR / Python / Crawler各種參考書

October 18, 2015 / / PyCrawler 101

安裝pandas套件真的是一波三折,請參考以下安裝說明 開始安裝pandas套件,在命令提示字元下執行,如果不知道指令如何下的朋友,請至 Winodws上安裝Python編輯軟體Jupyter與使用Jupyter 文章了解。 pip install pandas 結果出現了 ” error: Microsoft Visual C++ 9.0 is required (Unable to…

Read the Post在Windows上安裝Python Pandas套件

October 12, 2015 / / PyCrawler 101

平時都用Fiddler找出網站資料位置,Fiddler相關使用方式可參考部落格文章,如 線上教學 : 使用Fiddler抓取網頁資料、 Fiddler 偵察瀏覽器封包與內容的工具。 今天用Chrome提供的「檢查元素」功能來找出指定資料存在位置。這裡順道介紹 木刻思 近期有開辦一些關於網頁爬蟲的課程,如Py Crawler 101、 R Crawler 101,後續還會有Py Crawler 102、R Crawler…

Read the Post網路爬蟲系列 (Crawler) (1) : 使用Chrome「檢查元素」找出 PChome購物網站 資料位置

October 4, 2015 / / PyCrawler 101

Hi! PyCralwer 101的各位朋友,大家好! 昨天的課程不知道大家是否能跟上呢?由於我們下週不上課,如果有問題要記得趕快來這裡發問,這樣就可以有兩週的時間複習。 我這裡先解答一位朋友在昨天問我的問題,她的問題是: 以義守大學攝影社為例,由於每次只能抓回一張,如果想要一次抓回所有的相片,但又不知道總共有幾張,該怎麼做? 由於這是一個好問題,所以我下課時有給她一個簡單的範本作為參考,正式解答我寫在下面,如果我哪裡寫錯的話,也請家齊跟其他夥伴幫忙糾正一下,謝謝! 這個問題要分成兩個部分來拆解, 一次抓回所有的資源(相片 / 網址 / 字串…),用 while迴圈 不知道總數是多少,用…

Read the Post如何用while跟try except去抓回未知總數的資料?