imdb_sentiment 資料問題

木刻思專欄 討論群 Python Deep Learning Course imdb_sentiment 資料問題

標籤: 

該主題包含 1 則回覆,有 1 個參與人,並且由 garychen 的簡介相片 garychen10 月, 2 週 前 最後更新。

正在檢視 2 篇文章 - 1 至 2 (共計 2 篇)
  • 作者
    文章
  • #902
    garychen 的簡介相片
    garychen
    參與者

    Hi 諸位高手

    在課程的這個例子裡: week2/coures2/w2_nlp/2-2_rnn_sentiment.ipynb
    我發現預處裡的資料, 連test data都一起進去變成數字了, 這樣是不是有點奇怪…

    因為數字是根據出現詞數去排序後給的index… , 這個index只要母體改變…, 代表詞的index不就跟著變動了嗎?
    例如:
    the 排名第一 他的index = 1 => {0: unk, 1: the, 2: we, 3: …}
    今天加入了測試資料要讓模型預測… 結果文章裡 we 這個詞出現次數增加, 那總排名變成 {0: unk, 1: we, 2: the, 3: …}, 1不再代表 the, 代表 we
    這種狀況不會要把未知文章加到母體再做一次資料愈處理的動作吧? 或者甚至出現了之前模型訓練未出現的新詞, 難道都只能變成 unk?

    我模型訓練好了準備要去預測未知文章, 是不是至少要把未知文章的詞變成數字? 未知文章要如何變成數字? 難道沒有像sklearn裡面的transform方法?

    先感謝回答~ thanks
    Gary

    #903
    garychen 的簡介相片
    garychen
    參與者

    不過順帶一提,重run training的程式之後, 發現分數低的可憐…

    train的最後output

    test的output

正在檢視 2 篇文章 - 1 至 2 (共計 2 篇)

抱歉,回覆主題必需先登入。