imdb_sentiment 資料問題

木刻思專欄 Forums Python Deep Learning Course imdb_sentiment 資料問題

Tagged: 

This topic contains 1 reply, has 1 voice, and was last updated by Profile photo of garychen garychen 4 months, 3 weeks ago.

Viewing 2 posts - 1 through 2 (of 2 total)
  • Author
    Posts
  • #902
    Profile photo of garychen
    garychen
    Participant

    Hi 諸位高手

    在課程的這個例子裡: week2/coures2/w2_nlp/2-2_rnn_sentiment.ipynb
    我發現預處裡的資料, 連test data都一起進去變成數字了, 這樣是不是有點奇怪…

    因為數字是根據出現詞數去排序後給的index… , 這個index只要母體改變…, 代表詞的index不就跟著變動了嗎?
    例如:
    the 排名第一 他的index = 1 => {0: unk, 1: the, 2: we, 3: …}
    今天加入了測試資料要讓模型預測… 結果文章裡 we 這個詞出現次數增加, 那總排名變成 {0: unk, 1: we, 2: the, 3: …}, 1不再代表 the, 代表 we
    這種狀況不會要把未知文章加到母體再做一次資料愈處理的動作吧? 或者甚至出現了之前模型訓練未出現的新詞, 難道都只能變成 unk?

    我模型訓練好了準備要去預測未知文章, 是不是至少要把未知文章的詞變成數字? 未知文章要如何變成數字? 難道沒有像sklearn裡面的transform方法?

    先感謝回答~ thanks
    Gary

    #903
    Profile photo of garychen
    garychen
    Participant

    不過順帶一提,重run training的程式之後, 發現分數低的可憐…

    train的最後output

    test的output

Viewing 2 posts - 1 through 2 (of 2 total)

You must be logged in to reply to this topic.