R Crawler 101

  • 如果可以確定你 column 裡面的資料每一個 cell 只有單一一筆的list,也可以針對欄位做 mutate(columnName = unlist(columnName))

  • 抱歉請教一下,

    我用了以下xpath,結果甚麼東西都抓不到,可是xpath明明黃底部分都可以看到東西,請問我該怎麼做,才能抓到程式中那張表?謝謝!!

    (R code 及結果在最下方粗體部分)

    (網址為: http://mops.twse.com.tw/mops/web/t51sb08 )

    (1) /html/body/center/table/tbody/tr/td/div[@id=’maincontent_in’]/table/tbody/tr/td/div[@id=’Pagebody’]/t…[閱讀更多]

  • 嗯 好像再加上 as.character() 就可以搞定

    自問自答….

    doc <- GET(“http://leoluyi.github.io/RCrawler101_201605_Week2/resources/data/demo.html”) %>%
    content(as = “text”, encoding = “UTF-8”) %>%
    read_html() %>%
    html_nodes(xpath = “/html/body/div[@id=’table2′]”) %>%
    as.character() %>%
    readHTMLTable(encoding = “UTF-8”) %>%
    .[[1]]
    datatable(doc)

  • 補充一下觀察的技巧
    先用的Javascript Switcher擴充套件觀察,關掉的時候資料會…[閱讀更多]

  • Alice replied to the topic 新聞網址爬蟲問題 in the forum R Crawler 101 的群組標誌R Crawler 101 3 年, 4 月前

    謝謝,我再回去觀察觀察。

  • Leo Lu replied to the topic 新聞網址爬蟲問題 in the forum R Crawler 101 的群組標誌R Crawler 101 3 年, 4 月前

    首先沒有找到資料位置的連線,所以當然沒有資料。

    library(httr)
    library(rvest)
    library(xmlview)
    url = "https://www.googleapis.com/customsearch/v1element"
    res_list = GET(url,
    query = list(
    key = "AIzaSyCVAXiUzRYsML1Pv6RwSG1gunmMikTzQqY",
    # rsz:filtered_cse
    num = "20",
    hl = "zh_TW",
    # prettyPrint:false
    # source:gcsc
    # gss:.com
    sig = "8bdfc79787aa2b2b1ac464140…
    [閱讀更多]

  • 1.全家FamilyMart (店舖查詢)
    這個範例裡:在資料清理有一段code

    jsonDataString %
    sub("^[^[]*", "",.) %>%
    sub("[^]]*$", "",.)
    

    看不懂"^[^[]*","",. 不知道這是什麼呀

    全家回傳的資料是一種叫做jsonp的格式,要把前後括號去掉,變成正規的json字串,用的是 regular expression 的取代。

    ## JSON
    {"name":"stackoverflow","id":5}
    ## JSONP
    func({"name":"stackoverflow","id":5});
    

    2.Yahoo Stock在這個範例裡:看不懂

    s…

    [閱讀更多]

  • 1.全家FamilyMart (店舖查詢)
    這個範例裡:在資料清理有一段code

    
    jsonDataString %
    sub("^[^[]*", "",.) %>%
    sub("[^]]*$", "",.)
    

    看不懂"^[^[]*","",. 不知道這是什麼呀

    全家回傳的資料是一種叫做jsonp的格式,要把前後括號去掉,變成正規的json字串,用的是 regular expression 的取代。


    ## JSON
    {"name":"stackoverflow","id":5}
    ## JSONP
    func({"name":"stackoverflow","id":5});

    2.Yahoo Stock在這個範例裡:看不懂

    [閱讀更多]

  • 1.全家FamilyMart (店舖查詢)
    這個範例裡:在資料清理有一段code

    
    jsonDataString %
    sub("^[^[]*","",.) %>%
    sub("[^]]*$","",.)
    

    看不懂"^[^[]*","",. 不知道這是什麼呀

    全家回傳的資料是一種叫做jsonp的格式,要把前後括號去掉,變成正規的json字串,用的是 regular expression 的取代。

    
    ## JSON
    {"name":"stackoverflow","id":5}
    ## JSONP
    func({"name":"stackoverflow","id":5});
    

    2.Yahoo Stock在這個範例裡:看不懂

    [閱讀更多]

  • 1.全家FamilyMart (店舖查詢)
    這個範例裡:在資料清理有一段code

    jsonDataString %
    sub("^[^[]*","",.) %>%
    sub("[^]]*$","",.)
    

    看不懂"^[^[]*","",. 不知道這是什麼呀

    全家回傳的資料是一種叫做jsonp的格式,要把前後括號去掉,變成正規的json字串,用的是 regular expression 的取代。

    
    ## JSON
    {"name":"stackoverflow","id":5}
    ## JSONP
    func({"name":"stackoverflow","id":5});
    

    2.Yahoo Stock在這個範例裡:看不懂
    stock_…

    [閱讀更多]

  • 1.全家FamilyMart (店舖查詢)
    這個範例裡:在資料清理有一段code

    jsonDataString %
    sub("^[^[]*","",.) %>%
    sub("[^]]*$","",.)

    看不懂"^[^[]*","",. 不知道這是什麼呀

    全家回傳的資料是一種叫做jsonp的格式,要把前後括號去掉,變成正規的json字串,用的是 regular expression 的取代。

    ## JSON
    {"name":"stackoverflow","id":5}
    ## JSONP
    func({"name":"stackoverflow","id":5});

    2.Yahoo Stock在這個範例裡:看不懂
    stock_tabl…

    [閱讀更多]

  • 有個問題想請教,我已經對我要抓資料的網頁觀察後,簡化了它的位置,我要抓新聞的網址,但是我下面這樣撰寫,他只顯示”character(0)”想問是哪錯了?
    另一個問題是,有些網站他檢視網頁原始碼的時候,他寫的很少,或是我找的資料位置「//div[@class=’gsc-url-top’]」,不在裡面,請問那這樣還是可以抓嗎?謝謝
    url = “http://www.thenewslens.com/search#gsc.q=%E7%AB%AF%E5%8D%88%E7%AF%80&gsc.sort=date&gsc.page=1”
    res = GET(url) %>%
    content(as = “text”) %>%
    read_html(res)

    res_href =…[閱讀更多]

  • Alice posted an update in the group R Crawler 101 的群組標誌R Crawler 101 3 年, 4 月前

    我想要抓新聞網址,已經先觀察網址的位置,參考範例程式改寫後,卻抓不到東西,為什麼?
    url = “http://www.thenewslens.com/search#gsc.q=%E7%AB%AF%E5%8D%88%E7%AF%80&gsc.sort=date&gsc.page=1”
    res = GET(url) %>%
    content(as = “text”) %>%
    read_html(res)

    res_href = res %>%
    html_nodes(xpath = “//div[@class=’gsc-url-top’]”) %>% html_text()
    res_href

  • 想跟您請教一下,
    我的程式是這樣,
    我的URL如果是
    “https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e=tse&n”
    “https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e=tse&n=50”
    都沒有問題,
    可是一但URL變成
    “https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e=tse&n=100”
    在doc <- read_html(URL)那一行就會出錯,
    請問這是什麼原因? 應該如何排除呢?

    # Yahoo Stock Rank…[閱讀更多]

  • 載入更多