為什麼會有這系列文章
以下紀錄幾個我會寫這系列文章的理由:
- 培養長久做一件事情的能力,不因外力因素就中斷。
- 積累實力,打造履歷(學習歷程)。
- 分享、紀錄自己成長過程中,部分運用到的資源。
每日筆記
前言
今天一共有以下幾個主題:
- 質化型變量與量化型變量
- 質化型變量如何轉為量化型變量、量化工具的合理性
- 結論一個人要正常運作的要件
- Radio Commander的遊玩影片(第一、二關)
- 前天的New Question
前兩個主題比較偏技術討論、分享,後三個主題則是一些思維、心得或生活上的分享。
質化型變量與量化型變量
區分質化型變量和量化型變量,關鍵在於是否具有數值上的順序或大小關係。質化型變量只是描述不同的類別或屬性,而量化型變量則具有可測量和計算的數值特性。
質化型變量(Qualitative Variables)
也稱為類別變量或分類變量,表示觀察單位的特定屬性或類別。質化型變量沒有數值上的順序或大小關係,只是用來描述類別或屬性。
例如:性別、婚姻狀態、地區、學歷等都是質化型變量。
量化型變量(Quantitative Variables)
也稱為連續變量或數值變量,表示觀察單位的具體數值。量化型變量可以進行數值上的比較和計算。根據度量層次的不同,可以進一步分為兩類:
- 離散變量(Discrete Variables):取有限個或可數個數值的變量,通常表示計數或次數。
例如:家庭成員人數、每月用戶註冊數量等都屬於離散變量。 - 連續變量(Continuous Variables):可以取任意數值的變量,可以是整數或小數。
例如:身高、體重、年齡、收入、時間、距離等都屬於連續變量。
總結
質化型變量只是描述不同的類別或屬性,而量化型變量則具有可測量和計數的數值特性。區分質化型變量和量化型變量的關鍵,在於是否具有數值上的順序或大小關係。
質化型變量轉為量化型變量
將質化型變量轉為量化型變量最關鍵的要素,是要讓質化型變量在數值上具備順序或大小關係,而決定數值順序或大小則要套上「情境」。
直接舉例:將顧客滿意度(質化型變量)轉化為量化型變量。
顧客滿意度通常以評分或評價形式表示,例如「非常滿意」、「滿意」、「一般」、「不滿意」、「非常不滿意」等。為了進行「數值分析或比較」,我們可以將顧客滿意度轉化為數字表示。
在顧客滿意度情境中,我們將滿意視為「大、強」,不滿意視為「小、弱」,因此不同滿意度代表的數值就具有大小和順序性了。
另一個例子:教育程度
教育程度通常分為「高中以下」、「大學」、「碩士」、「博士」等。我們可以用0-3根據不同情境需求,套給他們不同的數值。
假設情境是要分析「是否具備較專業的知識」,那博士變量的數值可以給3,設為最大,高中以下可以給0,設為最低,因為情境的出現,質化型變量被套上數值後,也具備順序和大小的特性。
另一個例子:顏色
一種顏色常見的轉化方式是將顏色使用數字編碼,例如使用RGB(紅綠藍)色彩模型的數值表示。,將每個顏色分別映射到0到255的範圍內(0-255, 0-255, 0-255)。具備較多或較少「紅」、「綠」、「藍」,就成了情境。因此賦予的數值,具備了大小的特性。
小結:要將質化型變量轉為量化型變量,一定脫離不了賦予數值,而通常數值具備有無、順序或大小的特性。
轉化工具
轉化工具有很多種,在評估轉化工具的合理性上可以考慮以下幾個方面:
- 目標符合性:轉化工具是否能夠達到所設定的目標和需求。
例如,是否能夠準確地將質化型變量轉化為合適的量化型變量。 - 可靠性:轉化工具是否能產生「一致」和可靠的結果。
評估可靠性可以通過測和驗證來進行,例如使用不同的數據樣本進行評估,檢查轉化結果的一致性和穩定性。 - 適用性:轉化工具是否適用於特定的情境和目標。
不同的質化型變量可能需要不同的轉化方法和工具。
評估轉化工具的適用性時,需要考慮質化型變量的特性和應用場警,並選擇最合適的轉化方法。 - 可解釋性:轉化工具產生的量化結果是否能夠被解釋和理解。
在機器學習模型中,可解釋性是一個重要的考量因素。
評估轉化工具的可解釋性時,需要確保轉化結果能夠清晰地表達質化型變量的特點和含義。 - 相關性:轉化工具產生的量化結果是否與質化型變量具有相關性。
評估轉化工具的相關性可以通過統計分析和相關性測量來進行,確定轉化結果與原始質化型變量之間的關聯程度。
一般來說,選擇和使用轉化工具時,需要綜合考慮這些評估標準,確保轉化工具的合理性和有效性。
常見的轉化工具包括:
- 獨熱編碼(One-Hot Encoding):將每個類別轉換為一個二進制特徵,使得每個類別都有自己的特徵列。這種轉化方式常用於處理多類別分類問題。
- 數值編碼(Numeric Encoding):將類別映射為一個數值,可以使用類別的頻率、軍職、中位數等統計數據做為數值編碼的依據。
- 順序編碼(Ordinal Encoding):將類別按照一定的順序映射為整數值,這種轉化方式適用於有序的類別。
- 標籤編碼(Label Encoding):將類別映射為整數值,不同於順序編碼,標籤編碼不考慮類別的順序,只是將不同的類別映射為不同的整數。(雖然可以這麼做,但在機器學習上這種方式的實用度就會非常的低。)
- 特徵哈希(Feature Hashing):使用哈希函數將類別映射為固定長度的特徵向量,這種轉化方式可以處理高維度的類別特徵。
- 目標函數(Target Encoding):將類別按照目標變量的統計特徵進行編碼,例如平均目標值、目標變量的概率等。
這邊不深入探討這些轉化工具、方式,這就像機器學習的模型一樣,都有其適合的情境、需求。有需求的人,可以自行尋找網路上的資源學習。
撇除以上這些方法,想要舉個例子:技術能力的轉化
有幾種方式可以將技術能力轉化為量化型變量:
- 評分或評級系統:可以使用這兩種系統進行技術能力的量化。
例如,將技術能力評分為1到10的數值,表示不同程度的技術水平。 - 經驗和專業知識的度量:可以使用經驗年限或相關的專業證書數量來量化技術能力。
例如,將能力分為初級、中級和高級,根據相應的經驗和證書數量來界定每個級別。 - 專案成果和貢獻度的評估:可以根據過去的專案成果和貢獻度來量化技術能力。
例如,根據完成的專案數量、相應的成果和影響力來評估技術能力的強弱。
舉這個例子,是為了說明實際情形可以很複雜,但仍脫離不了考量「目標符合性、可靠性、適用性、可解釋性、相關性」等「合理性評估」。若擁有相同專業證書,且數量一致,但得出的結果不同,就表示這個度量方式「可靠性」有問題。
總結
無論是哪一種轉化工具,都要考量轉化的合理性,其中可以包括「目標符合性」、「可靠性」、「適用性」、「可解釋性」、「相關性」。根據情境設計、使用合適的轉化工具,綜合考量上述合理性評估,是在機器學習領域使用質化型變量前很重要的事。
一個人要正常運作的要件
要件大致可以分成幾類:
- 身體健康
- 心理健康
- 精神活力
- 社交關係
- 能力和技能
- 自我管理
- 平衡生活
- 意義和目的
和家人們(媽媽、姐姐、表哥)等討論結果,一致認為上面條列得很好。
礙於隱私,無法公布他們的日常。
他們常常運動,維持身體健康(尤其表哥,天天健身房)。
也會和各自的交友圈互動,維持社交關係、抒發心情壓力維持心理健康。
他們也會有自己一小部分的追求,無論是工作、興趣上都有,這是精神活力的部分。
能力和技能,則攸關各自經濟能力的部分。除了工作上,也會對生活上的技能有所要求(煮飯、打掃之類的)。
自我管理,則是規畫好自己每天哪個時段大概會做什麼。
生活上常常會需要平衡各種事的分配,包括工作與休息、個人與社交等,他們也都會在這方面試著找出舒適的平衡點。
關於意義和目的,每個人都不一樣,但這是我們追求自我成長、貢獻社會和實現自身價值的來源。
我自己在台南會買菜、煮飯、打掃、倒垃圾、洗衣服等,為了維持心理健康、社交關係,也會不定時和大學、國高中的朋友們連絡,分享彼此近況,又或是暑假可能有什麼打算,一起玩遊戲等。除此之外,在玩Albion online的時候也會和公會裡的人聊天、一起出門打架或農資源之類的。至於能力和技能的部分,每天都要完成秉鴻老師交代的一些任務,自己也會學一些額外的理論知識或技術,嘗試實踐。
我其實比較擔心的是女友,她除了我以外幾乎沒有在跟別人交流,這是我很擔心的部分。
Radio Commander 遊玩影片
第一關
第二關
我其實覺得滿有趣的,自己又多玩了第三關。但到第三關後,難度好高喔,摸索地道的部分花了我好長時間,最後還失敗了。
可惡阿!!!!!!!!!!!!
前天的New Question
問題回顧
秉鴻老師曾說過:【大成者,不著相,不急於學一方技能。人有陽壽,科技亦然,求科技者,如草原野兔,始量少,繁衍迅速,終無草食。】
然而,不急於學一方技能,不代表不需要。雲育鏈是一間提供服務給企業的公司,如果沒有一方技能,應該是難以提供服務給其他人的。
因此,我這麼問秉鴻老師:您是在哪個時期或者人生階段有自己一方技能的呢?
秉鴻老師希望我可以「先找類似且有生命經驗的生活案例反問自己」,這就是前天的New Question。
什麼時候需要一方技能
最直接的回答(結論)是:「有需要的時候」。我認為這答案看似無用,卻是最正確的。
以生命經驗來說:
- 當我需要走路、奔跑時,我就學會了那個技能。
- 當我需要和人溝通時,我學會了說話。
- 當我需要建立良好的互動關係時,我學會理解他人。
- 當我需要透過電腦和人交流時,我學會如何使用特定軟體。
- 當我需要利用程式滿足特定需求時,我學會寫程式。
- 當我需要完成課業時,我學會了各科的知識。
- ...
是各式各樣的需求,各式各樣的需要,使自己學會特定的技能或知識。不需要經濟相關專業的人,就不一定會具備經濟相關的理論知識。每個人的需求、每個人需要的都不一樣。
就「專業領域的一方技能」來說,我認為一種需要是「透過這項技能來維持經濟能力」,但這只是一種。
我認為另一種更重要的是當自己對某一領域「具有興趣並且希望在該領域有所成就時」。比如,我前後端的技能跟知識也是在希望成為全端工程師後習得、建立起來的。
我問過ChatGPT:「你覺得什麼時候要有自己的一方技能?」
他也認為在找到自己感興趣並希望有所成就的領域時,就可以有自己的一方技能。
因此,我的想法是「找到自己具有興趣並且希望自己所成就的領域時,就可以有一方技能」。
(不過是否真的有興趣,是件值得討論的事,之前就有針對這件事做過討論。或許,在不夠了解該領域,或見識不夠廣之前,所謂的興趣、喜歡,可能只是假議題。)
完工後的小小心得
原本想要直接開寫質化型變量轉為量化型變量轉化工具的part,突然覺得自己對於質化型變量和量化型變量的定義、理解沒有到非常清晰,因此回去補了一頓。
今天盡可能地嘗試將和家人討論關於「文章普遍太長,重點沒在一開頭寫,很浪費讀者時間」的改進方式實現出來,其中包括前言可以寫,讓讀者對整篇文章的大綱有所了解,又或是每段都盡可能開頭破題不要拖拖拉拉,然後將自己內心的獨白放置到心得處(這裡)。
前兩個主題我有盡可能的不放獨白,但後三個大量涉及到主觀的我就不知道該怎麼做了,只好盡可能達到開頭破題。
話說在討論的過程我得到了一個很重要的想法,認為應該記錄在這裡:
【架構還是可以盡可能扁平,畢竟這是讓人閱讀的文章,使人閱讀舒服為主,最好文章要有這種特性
When I take a glimpse at your article, I can easily understand what you want to express and the structure of your article. Therefore, if I am interested in any part, I know where to find the information.】
By the way,我認真開始考慮瘋狂朝AI實作走了。我沒有想過在試圖實踐一個想法或概念上,可以學習到這麼多的東西。
目前覺得可以了解如何建立的模型包括:
- 自然語言處理模型
- Albion online 市場模型
- 股票市場模型
這三個分別代表當今最夯、使用度最廣的,我自己覺得可以當作練習的(微奢侈),還有可以幫助自己投資賺錢的。
自然語言處理的部分,秉鴻老師目前正試圖帶我從語意解析開始,一步一步了解詞向量之類的概念。
而Albion Online的市場模型,則可以幫助我預測市場價格,在遊戲內有較高的收益。(這邊還是要分享,我說Albion online資訊透明化被打槍了哈哈。確實啦,我認為最重要的產出部分沒有辦法從官方取得是大傷。畢竟這樣預測市場價格的方式就無法考量產出的數據了。)
最後一個股票市場模型,可以說是集成長過程中學到的所有經濟、金融、市場概念於一身的完全體吧。這是個Huge的目標,但沒理由不追。真要說,投資概念的全盛興起根本不到一百年,其中的奧妙都脫離不了人,沒道理不學。
以上就是今天的文章內容及心得,謝謝大家的閱讀!我們明天見!