站在資訊不對稱的一端 …

一般來說,我們都希望站在資訊不對稱的一端 ...

以個人來說,你是否會想知道,最近的近三個月之中,有哪些朋友,常在你的 Facebook 上按讚與留言的呢?想要偷偷的知道一下,到底有哪些朋友在關注自己呢?

(當個自己的小小徵信社)

或是,你是否曾經使用 Facebook API 來抓取一些朋友或粉絲團的資料,想要抓取大量資料,但卻苦於 token 每兩個小時就會 expired 一次,無法自動更新呢?(覺得每次抓資料前,都要去 Graph Explorer 剪下貼上一次,很麻煩!)

面對著這個資訊量極大的年代!許多原本只能仰賴內部資料的商業決策,也開始利用大量的外部資料,更精準的定位與定義,各種市場與客群的問題。

例如,最近在美國出現的輿情炒股系統,就是利用 Twitter 上大量的使用者留言資料,來預測或投資股票市場!

這是個資料快速變化的世代 !

Amazon 的自動調價系統,可以在兩小時內自動對整體商品進行價格調整!

而身為一個資深股民,我們觀察到 DRam 和面板產業,其股價的變動往往是落後於終端市場的價格變動。 因此,監控 PCHome 和 Amazon 上的相關商品的價格資料,對於做相關的投資決策,是有非常大的幫助的!

這是個可以快速,取得大量公開資料的世代 ...

隨著網路的崛起,人們也可以更快速的取得各種資料,發揮各種創意,做出許多原本要花很多人力,或是原本根本不可能做到的事情!

例如,你可以像 WhosCall 或 WhatsTheNumber 一樣,大量的取得各種電話資訊,來協助人們解決所遇到的問題。

當然,如果你是個商業決策者,相信上面的地址資訊,也可能是,可以輔助您決策的重要資訊之一唷!

如何站在資訊不對稱的一端 ... ?

這部份的技術,大概可以分成兩大部份:

如何大量取得資料?

如何將資料轉成資訊?

由於,機器並不會自己學會東西,主要還是靠您提供的訓練資料來學習與建模。

所以,資料的來源是否有偏誤?是否完整?是否有大量關聯資訊?

都是非常非常重要的問題!

例如說,如果您只抓取八卦版,但是您想使用輿情分析來思考選情未來的發展,就是非常不明智的作法!少了對照組的資料,會讓所抽取出來的資訊,有大量的偏誤唷!

所以,一般來說,我們也會同時建議抓取政黑板的資料!

唯有大量蒐集完整的資料 ...

才能真正站在資訊不對稱的一端 ...

 

 

前往 ... R Crawler 101 課程報名頁面 ...

 

 

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

c3h3 Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *