YZUIM
工作內容與角色
工作環境
教授沒有讓我們使用Lab,也沒有特別規定我們得在哪邊coding,因此基本上都是在宿舍或是家中做專題的研究或coding。至於Meeting部分,在遠距前我是與教授約每周五的早上在61013進行Meeting,遠距後則是使用Line進行Meeting。
工作詳述
我製作的專題為利用資料探勘去分析Youtuber經營社群媒體與其成功是否有無關聯,在製作前有幾個前置行為:
01 / 閱讀文獻
由於在寒假前就有先跟教授提出想用專題內容做大專院生計畫的想法,因此在寒假時教授丟了幾個社群媒體相關的資料探勘的方向給我參考。因為是第一次接觸資料探勘以及寫計畫的關係,教授建議我可以先上《臺灣博碩士論文知識加值系統》網站看其他人的論文是如何撰寫的,也可以透過閱讀論文知道資料探勘研究是怎樣的一個流程。
02 / 撰寫計畫
閱讀完多篇論文及教授的指點後,我確立了專題的主題,並與教授開始討論要如何撰寫計畫書。在撰寫的時候也遇到多次瓶頸,像是查了很多資料卻不知道要怎麼連結邏輯上會比較順暢、研究動機不夠明確…等。每次詢問教授建議時,教授也很和善的告訴我如何修正會比較好,幫助我完成了大專院生計畫的撰寫,最後也成功在期限內繳交出去。
工作角色
因為是自己一個人做專題,因此專題的所有事情都是由我一個人自行完成,如閱讀文獻、撰寫程式碼、蒐集資料等。但教授都會協助我,因此就算一個人完成這些事項也不是很困難的事。
專題
摘要
Web2.0的出現,使得人們生活越來越方便,不論是企業還是個人都深受影響,也衝擊了現有的商業模式,崛起了一些新興職業,如網紅、直播主、YouTuber…等。由於是近年來才開始發展的經濟市場,關於這群因網路而出現的人們是如何成功以及他們與社群媒體的關係為何的相關研究還十分稀少。
因此本研究以YouTuber為例,嘗試運用傳統統計與新穎機器學習的方法,分析YouTuber的關鍵成功因素有哪些,並探討社群媒體經營成效是否對他們的成功有影響。希望能夠提供更多的資訊,作為YouTuber們在經營頻道時的參考。
研究動機
隨著科技日新月異,媒介傳遞的方式也逐漸改變。從內容為王,訊息為單向式傳播的瀏覽年代轉變為現在的社群媒體年代。根據Digital Report 2020台灣報告,台灣有近九成的人口都是網路用戶,每人平均擁有8個社群媒體帳號,且每日花近三分之一的時間在網路上,由此可知人們對網路的依賴程度相當高,社群媒體已經成為現代人不可或缺的一部分。
在這樣的環境下,也對原有的商業模式造成了衝擊,出現了許多新的行銷方式。社群經濟是重大的社會經濟轉變,動輒上百萬元的電視廣告不再是影響購買影響意願的主力,透過社群媒體介紹產品及服務的人成為了新主流(Erik Qualman,2010),單純仰賴廣告曝光的效果已不如以往。因此許多企業公司開始注重社群行銷,例如知名新加坡外商公司蝦皮,在台灣兩大電商PChome及Momo的夾擊下,蝦皮靠著團隊的創意貼文,成功吸引大家的目光,不管是時事跟風還是互動貼文,同樣是賣商品、推廣連結,蝦皮的貼文總是能獲得超高的分享數與留言數;與台灣奧美合作,創造出「全聯先生」經典廣告形象的國內超市霸主全聯,在社群時代下,也將全聯先生放上社群平台。除了經常看到的利用圖片、創意文案吸引粉絲之外,全聯也利用Facebook的影片功能設計了一系列全聯先生的形象影片,推廣全聯的「經濟美學」,吸引年輕人的全聯新品牌形象。
研究目的
從上述的探討可以得知,經營社群媒體對於企業來說已經是種趨勢,且對企業經營績效可能存在影響,因此近期開始吸引學者的關注,研究社群媒體經營成果與經營績效間的關係。經檢索目前社群媒體經營成果對經營績效影響的研究,學者們大多都是聚焦在行銷、信息傳播、政治選舉、電影票房、經濟指標、股市影響等方面(Rousidis et al.,2020;Yu & Kak,2012),卻鮮少關於YouTuber及直播主等近幾年興起的行業的研究。故此本研究將聚焦在YouTuber關鍵成功因素的分析,除了考量YouTuber本身的特性(例如,頻道類型、影片數量、上傳間隔、影片長度…等)外,另外將YouTuber所屬第三方社群媒體(例如,Facebook、Instagram)的經營成果(例如,社群媒體帳號的數量、追蹤人數、留言人數、分享次數)納入考量,分析這些因素與YouTuber成功與否(例如,YouTube上的訂閱數)間的關係,此外,也將使用人工智慧的學習方法,建立YouTuber成功程度的預測模型,提供未來想踏入此產業的人參考。
研究方法與架構
本研究目的在於討論YouTuber頻道的成功是否與經營社群媒體有關,目前台灣最多人使用的社群網站是Facebook,因此選用Facebook作為研究對象,希望藉由蒐集YouTube、Facebook網站上的相關資料,並運用資料探勘的方式,以自動學習從巨量數據中找到規則,進而做出預測。期望做出一個預測模型,判斷經營的成效結果。下圖為研究架構:
在資料進行分類及整理過後,將運用相關性統計的方式判斷哪個變數為最高度相關的變數,並利用監督式的機器學習進行預測。
研究成果
本研究使用相關性統計的方式判斷哪個變數為最高度相關的變數,並利用監督式的機器學習進行預測。相關性統計的方式採用了相關係數(CC),相關係數用在連續變數時,通常用皮爾森相關係數(Pearson correlation coefficient)來衡量變數間的線性關係強度,其值介於1和-1之間,數值越大表示相關程度越高,表示兩個變數沒有線性關係存在。相關性超過0.5以上為高度相關,0.5~0.3稱為中度相關,0.3~0為低度相關,相關性為0以下皆為不相關。
下表為本研究的相關係數結果:
由結果可看出Youtuber的Facebook的粉絲專頁點讚人數為所有變數中最為相關,但Facebook的貼文互動率卻為最不相關,意思是Youtuber的訂閱數越高,Facebook的粉絲專業按讚數也會越高,但同時也表示若Facebook粉絲專頁的點讚人數越多,則貼文互動率越低。猜測原因為擁有較少訂閱者的Youtuber在經營Facebook專頁時,較容易有新粉絲可以互動,當累積較多訂閱者後,原先的粉絲就會變成潛水粉絲,因此互動率較低。
而機器學習方面,本研究使用Weka軟體裡的4個回歸型演算法建置預測模型,並用相關係數(CC)、平均絕對誤差(MAE)、均方根誤差(RMSE)、相對絕對誤差(RAE)、相對平方根誤差(RRSE)等5項作為模型評估指標。下表為選用的變數及不同演算法的回歸分析結果。
黃底為各評估指標在各演算法中表現最好的數值,紅字則表示個評估指標在各演算法中表現最差的數值。可看出說使用不同種類的變數演算法的結果皆不同,三個變數分類中表現最好的演算法分別為M5P、隨機森林、線性回歸。最差的演算法也不同,分別為隨機森林、支援向量回歸、隨機森林。其中隨機森林演算法在兩個分類中表現最差的原因猜測是因為此種演算法由於是由多種決策樹集結而成,在本研究中樣本數較少的關係,導致資料量在演算法切割時又會更少,因此結果表現較差。
本研究以以上結果推論,Youtuber要經營Facebook粉絲專頁,藉此吸引粉絲,來幫助增加Youtube頻道上的訂閱數,又因相關係數的結果顯示,Youtube本身的社群網頁經營變數位居第二、第三名,故Youtuber經營Youtube平台上的社群及Facebook的粉絲專頁,兩者需並進才有可能獲得最佳效益。
學習
非技術面
一、如何撰寫一份研究計畫
就像前面提及過的,今年的大專院生計畫是我第一次寫完整的研究計畫,因此我對於計畫有哪些流程、需要的資料去佐證我的論點…等都不是很瞭解。所以在最初與教授討論的時候也跟教授提出了我的疑問,教授很耐心的指點我。在確立主題時,因為學姊做過以社群網站資料預測群眾募資結果的相關研究,因此教授也不吝嗇的提供學姊的論文讓我參考,可說是獲益良多。
二、規劃時間
在製作專題的期間,其實是一直很繁忙的狀態,因為我想要未來想讀研究所,所以有到外面的補習班補習,每周的二、四都要去補習班上課,加上還有其他考科的數位教材要觀看,校內的課業也不能怠惰。導致剛開始時不太知道要怎麼適當的安排時間去做事情,專題的進度也因為拖慢了許多。好在系辦在三下的期中後有讓學長姐進行實習的分享,汪文豪學長有提供了他自身時間管理法供我參考,他介紹了”Notion”這個App,可以先列出要做的所有事情,且每個月訂定一個大目標,這樣做起事來不會焦慮,更能好好的監督自己要做什麼事情。透過學習他的時間管理法,我現在比較能掌握自身的時間,也讓每件事情好好的在進度上進行了。
技術面
一、自學爬蟲
開始學習爬蟲技術,是在三下的期初開始。因為爬的網站是Youtube及Facebook,雖然兩個網頁都有提供官方的API方便需要爬蟲的使用,但由於兩邊的API都有爬取內容的限制,不太符合我所需要的資料,因此選用Python的套件幫助我爬取內容。
剛開始爬蟲時,我選用大三上時選修陸承志教授教得Beautiful Soup。Beautiful Soup是一個擷取HTML/XML內容的套件,提供了非常多友善的方法,協助開發人員可以快速搜尋及取得HTML/XML中的元素,也因此被廣泛的應用在Python網頁爬蟲的技術上。但缺點是無法單獨完整實現Python網頁爬蟲的整個流程,像是發送請求與解析下載的HTML原始碼,所以需要特性的相依性模組來協助。由於有著這樣的缺點,在最初爬蟲時我因為沒有好好觀察網頁架構,導致即使輸入了想爬取的資料路徑,仍舊沒辦法顯示出來,讓我很挫敗。後來慢慢研究才發現Youtube及Facebook網站有很多JavaScript的互動,這些互動必須要用Selenium才能解決。Selenium是一個網頁自動化測試的套件,擁有許多網頁操作的方法,像是自動化輸入資料、點擊按鈕及滾動捲軸等,同時具備網頁元素擷取與操作的功能,讓開發人員能夠輕鬆撰寫網頁的自動化測試腳本。透過結合兩者的優點,我才成功爬取了Youtube的資訊。而我自學的教材則是參考了iT邦幫忙、Medium等網站的資料,以及學校的書籍。
二、機器學習
在三下時,因專題的需求,所以選修了教授所開的「資料探勘」課程,在課程中交受了許多機器學習的知識,且因為專題製作的關係,因此我除了了解理論外,也有實作,可說是獲益良多。
自我評估與心得
在這快一年的時間內,學習到了不少知識,像是要如何撰寫一份研究計畫、研究的流程、機器學習有哪些模型、模型的適用場合…等,雖然校內實習可能沒辦法像校外實習的同學一樣,可以學習到職場上才能學到的東西,但我認為我這學期學到的東西,肯定能在未來我就讀研究所時派上用場。除了學習到學術上的知識以外,還學到了要如何分配時間才比較吃得消這麼多要做的事項。也感謝楊錦生教授在我需要幫忙的時候,總是伸出援手,提點我那些是該去注意的地方,在我爬蟲有困難時,提供了不少網路上的資源讓我參考,教授人也很好心,不會因為沒進度而催促,反而會時常關心狀態如何,真的是十分貼心的教授。希望自己能吸收這次的專題經驗,繼續精進自身的實力。