從1896,西方電影引進上海徐苑,到1905,中國拍攝第壹部國產電影《定軍山》,再到2013,全國票房突破200億。
(4)有著100多年歷史的中國電影產業,無論是電影質量、影院建設還是投資規模,近年來都有了突飛猛進的發展。同時,隨著
隨著“大數據”時代的到來,觀影群體、觀影偏好和心理,以及電影信息的傳播和獲取方式也在發生著深刻的變化。
毋庸置疑,多元資本的參與是中國電影發展不可或缺的引擎。然而,電影行業以投資回報不可預測而聞名,票房預測工具的缺乏使得投資者。
由於無法有效對沖投資風險,中國著名導演吳宇森執導的《風語者》將米高梅拖入了破產境地。因此,制作和發行公司不得不考慮所有對票房有影響的因素:辣媽李姣。
魯對《私人訂制》票房的貢獻:為什麽暴風的票房遠低於其金牌制作人江誌強的預期;為什麽被吐槽為“爛片”的《富山春居》和《小時代》票房火爆?成龍達
有必要把大叔的永不服輸2013拍成3D嗎?《泰囧》的“報復性”觀影效果能否再現...這壹切其實都可以在“大數據”中找到。因為網絡上的每個人
通過瀏覽、查詢甚至點擊而聚集的群體智慧,對影片最終票房產生“蝴蝶效應”。
2013年,Google發表了壹篇名為《用Google搜索量化電影魔力》的文檔(5)。
白皮書公布了其電影票房預測模型,主要利用搜索、廣告點擊數據和影院布局來預測票房。谷歌宣布其模型預測票房與真實票房吻合良好。
已經達到94%,但是還沒有看到它對未上映電影的公開預測結果。
借助“深度思考”系統,搜狗公司建立了更復雜的模型來預測國內票房,並提前在新浪微博發布了2013 12國內電影首周票房預測結果。很高興預測的結果到目前為止非常接近真實數據。同時,我們的模型也可以用來定量分析影響票房的因素。
?
搜索查詢量的奧秘
搜狗搜索每天響應上億次搜索請求,查詢詞的分布和變化趨勢能很好地反映中國網民的興趣和關註點。類似於谷歌的研究,我們也發現電影
上映前相關查詢詞的搜索次數與票房收入有很強的相關性。這個很好理解,用戶的主動搜索行為反映了用戶對這部電影的潛在興趣。
我們選取了2013 1-11在中國上映的180部電影的票房和上映前搜索量數據作為訓練集,訓練出壹個基本的線性回歸模型。實驗發現,簡單地使用搜索
量化訓練得到的模型預測首周票房與真實票房相關性的R平方值只有68%,非常接近Google只使用搜索數據得到的70%的結果。(註:R平方的值為0。
到1,值越大,模型的預測效果越好)。這個結果也說明了中國和美國用戶的搜索行為非常相似。
用搜索量來預測票房是壹個很好的開始,但是準確率遠遠不夠。同時,很多搜索詞還是模糊的,比如《生化危機》,既是電影又是遊戲,混在壹起會有票。
住房的預測值偏高。進壹步研究表明,遊戲意向查詢量相對穩定,但電影意向查詢量在上映前有壹個峰值,也可以通過用戶點擊的網址進壹步確認用戶。
搜索意向。因此,模型需要引入查詢量的變化趨勢和用戶點擊量的分布。修正後的模型可以達到74%的準確率,此時模型已經可以對電影的票房做出壹個大致的圖景。
估計。
?
社交媒體:用戶的情感分析
社交媒體數據也會對票房預測有幫助。假設妳是某個明星的粉絲,打算去看他主演的電影,那麽妳很可能會提前把電影的相關微博轉發給好友。已經有外國了
很多預測項目都是基於Twitter的數據,這裏主要用壹些國內微博網站的數據來做預測。通過自然語言理解技術,分析用戶對未上映影片的態度。
情感傾向,從而轉化為用戶的觀看需求。可以考慮的進壹步因素包括微博的轉發深度,評論的活躍度,以及隨著電影上映日期的臨近,相關微博數量的變化趨勢。這些數據都
它可以有效地細化為特征並添加到模型中。
加上微博數據,準確率已經超過80%。
基於垂直媒體的預測
為了衡量電影發行公司的宣傳力度和用戶對宣傳的關註度,我們還引入了壹些垂直媒體數據,以增強預測能力。這裏選取壹些知名的電影網站和頻道進行統壹。
包括視頻網站(搜狐視頻、優酷土豆、愛奇藝、騰訊視頻)、娛樂網站(搜狐娛樂、新浪娛樂、騰訊娛樂、鳳凰娛樂、網易娛樂)和電影資訊網站。
(豆瓣電影,電影網m1905,時光網)。這些網站中與電影相關的新聞數量、預告片播放量、用戶評論都可以通過定向抓取獲得,這些都是影響電影票房的重要因素。
相關的因素。顯然,中小型電影因為資金有限,無法大範圍宣傳,而大型電影的宣傳會鋪天蓋地。
從統計分析來看,豆瓣電影對票房轉化率的貢獻高於其他站點,這可能與站點的用戶構成有關。引入垂直媒體數據後,準確率從80%提升到86%,提升效果顯著。
知識立方體:數據挖掘的秘密武器
Zhicube是國內搜索引擎行業第壹款知識庫搜索產品。它引入語義理解技術,整合提取互聯網碎片化信息,構建海量知識庫,囊括我們需要的所有導演、演員、演員。
編劇的各種信息。在知識立方體數據的支持下,我們引入人氣排名來衡量壹個名人的票房號召力。人氣指數完美解決了跨領問題
明星主演(導演)電影的票房號召力無法體現的問題。
比如景M .郭之前沒有執導過電影《小時代》,那麽按照傳統的方法來計算其導演的票房號召力顯然是不合理的。人氣指數考慮到了郭敬明是暢銷書。
作為編劇,他的指數值很高,可以充分體現他作為新銳導演強大的票房號召力。在這種情況下,從趙薇的《致青春》,到徐崢的《對不起》,再到李小璐從電視圈參與電影。
私人定制之類的例子就很具體了。基於知識魔方的數據,可以大致評估每個演員/導演對票房的影響,查詢每部電影的屬性,有效消除同音異義。
思想間的曖昧。
?
其他影響票房的因素。
影響壹部電影票房的因素非常復雜,從電影導演、演員、編劇的票房號召力,到制作發行公司的投資規模、宣傳成本,再到影片類型、產地、拍攝技術。
(3D、IMAX)以及是否是續集,最後上映時間、節假日、檔期、競技片、影院安排、上映前後觀眾關註度、口碑傳播效果甚至天氣都可以影響壹款電子設備。
電影的最終票房。
除了已經引入的因素,模型中實際采用的特征包括:
?時間表中的電影比賽。我們發現,在之前的開放式票房預測模型中,每部電影都是獨立預測的,沒有考慮電影之間的競爭關系,這顯然是不合理的。我們用壹種獨特的算法來估算同期其他電影對市場份額的影響。
?電影類型。有趣的是,通過對比實驗發現,科幻片最能提高票房,其次是動作片和犯罪片,而文藝片、傳記片和漫畫在模型中表現最差。
?電影制作區。好萊塢制作的電影,在其他因素與國產電影相似的情況下,票房提升了約3000萬,達到6543.8+0.2億。
?時間表。具體槽點有額外的票房加成,也符合預期。
?是否是3 d,令人驚訝的是,在其他因素都差不多的情況下,3D是否對票房有非常小的影響,並沒有顯著差異。看來“偽3D”的人可以省下壹些後期3D制作費用。
?拖車。通過視頻搜索預告片的趨勢也可以提前反映出影片的受關註程度。
我們已經成功地將上述所有技術整合到“深度思考”中。對於用於訓練的2013 1-11月的第壹周票房數據,最新的模型在交叉驗證下可以達到95.5%的準確率。
因為訓練集中的電影總數很少(180部電影),所以我們做了很多額外的工作,以確保最終的模型不會過度擬合。此時的“深度思考”已經準備好預測即將上映的電影的票房。
?
實際預測效果
在實際調研過程中,電影在65438年2月上映前,通過“深度思考”系統對第壹周(7天)的電影票房進行了預測,並將預測結果發布在壹個團隊成員的微博上。預測結果如下:已經預測的九部電影中,前四部大片的預測票房與真實票房非常接近,略好於我們的預期。
標簽
預測專家納特·西爾弗(Nat Silver)在《信號與噪聲:大數據時代預測的科學與藝術》壹書中提到,大數據時代的預測更容易失敗,而失敗的預測大多源於壹種盲目的自信,用準確的預測來假裝準確。
對此我們有清醒的認識,目前的票房預測模型仍有待改進。首先,目前模式的主要思路是通過影片上映前的用戶關註度來計算第壹周的票房,實際上並不是這樣
考慮到電影上映後口碑對票房的影響;其次,模型更依賴歷史數據,可能難以識別壹些上映後脫穎而出的小預算“黑馬”電影;再次,目前的技術只能前進10。
第壹周票房預測明天,還可以更提前。
總的來說,“深度思考”系統代表了搜狗公司在社會化預測方面的壹些新嘗試。我們努力從紛繁復雜的海量數據中篩選出真實的信號,努力穿越不確定性的迷霧,分辨未來。
畫面的哪些部分是可預測的,哪些是不可預測的。通往這個未來的路還在探索中,但目前,我們的工作已經取得了壹些良好的進展,這讓我們更有信心。