PyCrawler 101 課程進度與時程安排

Screenshot from 2015-06-26 18-40-25

  • Week 1 (10/3)
    • 爬蟲爬什麼?
    • 爬完之後會產出什麼呢?
    • The Secret of Web
      • 網頁入何出現在你眼前的?
      • 如何觀看網頁的各種 connections?
      • 你想抓的 data 在頁面上的哪裡?
      • 你想抓的 data 在哪一個 connection 中?
      • 什麼是 Ajax 網頁?
    • 標出你想要的 data
      • CSS Selector
      • XPath Selector
    • 基本的爬蟲架構:connector + parser + database
    • 如何用 Python 寫出最簡單的爬蟲

Screenshot from 2015-06-27 07-52-18

  • Week 2 (10/17)
    • 如何用 Python 模仿瀏覽器的行為?
    • Connection Skills (with Python) :
      • GET / POST
      • URLencode / URLdecode (破解中文網址的祕密)
      • header & cookie
      • 如何突破使用 cookie 阻擋的網站 (如ptt 18 禁...等等)
    • Parsing Skills (with Python):
      • css selector
      • xpath selector
      • json
      • xml
    • Data Storage
      • 如何將資料輸出成 CSV
      • 如何將資料存入 SQLite

Screenshot from 2015-06-27 09-13-29

  • Week 3 (10/17)
    • Connection Skills (with Python):
      • 如何學習與使用第三方 API ?
      • 教學範例:Facebook Graph API
        • API 簡介
          • node & edge
          • metadata
          • fields & connections
        • 實做範例:
          • 當個自己的小小徵信社:尋找一下,近三個月內最喜歡按你讚的人是誰?
          • 如何自動在 FB 上 post 文章 ?
          • 如何自動幫朋友的文章按贊 ?狂讚士 ?
      • 其他常見 (用) 的第三方 API 有哪些 ?
    • Parsing Skills (with Python):
      • Regular Expression 簡介
      • 如何用 RegEx 抽取非結構化資料 (非HTML/XML/JSON)
      • 如何抓取網頁中的電話號碼?地址?
    • Python 語言
      • 如何讓自己寫的 Python code 可以再重複使用

 

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

GeorgeChao Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *