theAnswr

theAnswr

以數據拉近您與答案的距離

一個公平公開的明星榜出爐,用維基百科數據解密最紅明星 theAnswr x Kollogy

老實說,我們研究數據這麼多年,一直都希望能夠建立一個透明度高,又有公信力的演算方法。即因如此,我們和車品覺一起嘗試一個新項目,嘗試利用維基百科的數據,建立一個華人名人排名的算法,希望可以研究出一個華人影響力的指數(Historical Popularity Index)。我們也是3月尾推出「擇星榜1.0」www.kollogy.com,很多數據和算法還在調整中,歡迎大家試用和討論,讓我們不斷改進,一起合力建立一些客觀的算法,把大數據更生活化。

用維基百科數據「摘星」 (車品覺) | StartUp Beat

原文:http://startupbeat.hkej.com/?p=101160

美國《時代》周刊每年公布世界上最具影響力的100名公眾人物「時代百大人物」(TIME 100)。 在互聯網數據產業並未發達的年代,評選模式多採用讀者投票方式進行,或者由幾個德高望重的評委決定一切。隨着技術不斷進步,通過數據採集來建立模型解決問題的方式逐漸被大眾認可,例如谷歌的成名作Page Rank、Netflix劇集的人氣排行榜,都已成為人們生活一部分。

筆者在2020年身處香港疫情期間,除了完成拙作《數循環》之外,因為受到巴拉巴西(Albert-László Barabási)著作《成功竟然有公式:大數據科學揭露成功的秘訣》(The Formula: The Universal Laws of Success)的啟發,一鼓作氣也完成了一個比較科學化的演算項目。

巴拉巴西認為人的能力雖是有限,但成功可以無限;成功的定義更多來自社會對你的認同,尤其是進入二十一世紀之後,網絡影響力已經成為了成功的重要因素。作為教授,他的學生身體力行,研究出利用維基百科的數據,建立一個為名人排名的算法。筆者受到以上的啟發,希望做一個更聚焦於華人影響力的指數(Historical Popularity Index)。

巴拉巴西著作《成功竟然有公式:大數據科學揭露成功的秘訣》認為,網絡影響力已經成為了成功的重要因素。(網上圖片)
 

經過半年籌備,得到阿里巴巴商學院研究生及熱愛大數據的朋友支持,起動一個名為「擇星榜」(www.kollogy.com)的項目。

「擇星榜1.0」目的是通過維基百科的數據建立一個合理高效、穩定及可解釋的華人影響力排行榜的模型。模型包括兩部分︰漢語語系及非漢語語系對中國公眾人物影響力的不同算法,排列出一個較客觀的、綜合華人視角及全球視角的人物影響力排名。

冀為科學普及化出力

基於維基百科在谷歌搜尋的排名優勢,維基的瀏覽量與人物的被關注度有強關聯關係。「擇星榜」的算法利用了維基百科開放數據作為基礎,選擇了瀏覽量、閱讀深度和時序因素作為主要變量,同時參考了名人的出生年份、編輯次數及語言版本的多寡。因為模型中使用了不同指標,我們要對指標之間進行結構性調整,以減少模型中不同指標之間的相互影響及加強其平穩性。然而,任何的算法都需要時間去沉澱及不斷改進,「擇星榜」也不例外,必然有很多地方有待提升。

有朋友問我為什麼要浪費時間去做一些不賺錢的事情,但筆者一直秉持一個理念:未來數據將成為生活中的一部分,每個人都需要認識大數據,因此推動大數據科學普及化是有必要的。

「擇星榜」通過維基百科的數據,排列出一個較客觀的、綜合華人視角及全球視角的人物影響力排名。(擇星榜網站圖片)

數說答案》搜羅和試驗全球不同的數據分析工具,一齊討論下數據分析出來的答案能否幫助大家提高工作效率,我們還會提供試用方法,絕對不是「齋講無得試」!

想體驗更多不同的數據分析工具,請到: https://get.theanswr.com

Share this post

Share on facebook
Share on google
Share on twitter
Share on linkedin
Share on pinterest
Share on print
Share on email

▍對手網站流量分析報告

想看到不同競爭對手的網站流量,試圖贏得市場?您可以從一個網址就揭開對手的訪問流量、流量來源、付費搜尋 vs 自然搜尋的流量。只需輸入網址即可對您的行業市場進行流量分析,讓你知己知彼,好好的觀察一下競爭對手。

▍在 Google 有幾多 Keywords 能找到你, 和你的網站客流量有什麼關係?

越多 Keywords 能找到你, 代表你的網站有更多生意機會!
越多 Keywords 搜尋量, 代表你的網站越多客源!