今天熱搜話題-小學生用大數據分析蘇軾 ,本着好奇心我點了進去,然後整個人懵逼了!
來看看這位小學生用大數據分析的蘇軾論文,有木有覺得自己被秒成渣渣了呢!
哇靠!小學生都這麼努力啦!你還有什麼理由沾沾自喜呢!網友的時評更是分分鐘扎到了現如今苦苦掙扎在一線城市的中產父母的心。
像是這些網友們寫道的:起跑線就輸啦!小學已經碾壓一眾叔叔阿姨啦!不敢生小孩啦,怕他小學畢不了業!等等諸如評論,無疑都深刻的揭露了中國教育的現狀,教育資源分配不均,貧富差距大的問題。很多一線城市出生的孩子們在起跑線上就贏了,隨便拎出一個孩子來,綜合素質遠遠高於二三線城市的優等生。
我們都瞭解,中產家庭主要是教育和能力發展正常的中產子女(二代或多代),部分接受了良好教育並有較強職業能力的“貧二代”,以及少數“返貧”的“富二代”,其中“貧二代”佔據了絕大部分。這類人羣理解一個小城市或者貧困家庭出身的孩子躋身於大城市生存的艱難,瞭解知識、教育對於一個人改變命運的重要性,對於未來孩子的教育更為重視,有着更強的需求。這部分家長們的普遍心思就是,讓自己的孩子不能輸在起跑線上,未來獲得更好的教育資源。赴美生子行業其實恰恰是迎合了這部分人羣的心思而誕生的。
赴美生子所展現的好處中,教育方面的優勢其實最能打動這部分家庭。三個月去美國生個寶寶,寶寶就能拿到美籍。
義務教育階段:
1、美寶可以不受學區房限制就讀好學校。
如上海市規定,只有比較優秀的150所中小學才有資格接收外籍學生。華僑子女憑租房合同,即可在區教委的安排下就近入學,進入普通班級就讀。不用買學區房,就能進好學校。這個對於我們中國學生,家長花了幾百萬去買個學區房才能進好的學校相比,優勢體現得淋漓盡致啊。
2、作為華僑子女的美寶可以享受中國的9年制義務教育,所以不一定非得國際學校。
像北京,上海,南京這些城市,美寶只要在父母户口轄區內的公立學校上學都可以免除借讀費哦。比如北京市教育局明確規定:父母一方具有北京户口,孩子是外國籍,在其父或母户口所在地街道開具關係證明,然後到户口所在地劃片學校申請入學,和北京學生同等待遇。這個對於美寶真的划算,也算是美寶的核心優勢了吧。
非義務教育階段:
1、上幼兒園,美寶和中國學生無差異化,上私校一樣的收費,一樣的待遇。
一些有知名度的幼兒園甚至只接受外國國籍的孩子,最典型的例子是著名影星董潔因為孩子不是外國國籍在找幼兒園的時候被保安拒之門外。
2、高考的時候,美寶作為華僑子女既可以參加專為華僑及港澳台考生準備的高考,不僅試卷簡單,錄取線還比中國學生低很多,學費和中國學生差別不多(教育部規定上限1.2萬/年)。
3、如果美寶在中國讀過初中後去海外讀3年高中(新加坡、美國、新西蘭、澳大利亞等等),就能以海外留學學生身份考中國名校佔盡優勢,輕輕鬆鬆考清華、北大、復旦等一流名校。這就是海外高考移民,很多人挖空心思為子女移民地圖上找不到的中南美、加勒比島國的原因之一。媽媽來看看近幾年火熱的高考移民潮吧。等孩子哪一天也面臨千軍萬馬過獨木橋的高考之爭,媽媽們估計要恨自己當初目光不夠長遠,怎麼就沒能早點給孩子搞個外國護照呢。
二、美寶去美國生活的好處
1、相對於國際生,能省下好多學費。如果美寶高中在美國讀書,上了本州的公立大學,如符合本週居民的要求,作為州內生學費僅為國際生的1/3,留學費用也大大減少。美寶在本州居住證明,諸如租房合同、水電煤氣等繳納收據都證明美寶在本州居住,即可算是本州居民,就能享受學費的優惠了。
2、免去工作簽證的煩惱,輕鬆留在美國。如果是中國學生去美國讀書,在美國優秀的大學裏首先要選擇好專業,經過幾年的刻苦學習,成績優秀;畢業以後才能找到好工作,才能解決H1簽證留在美國;經過多年的排期拿到綠卡,再等幾年才可以拿到美國國籍,這個過程相當艱苦和漫長。而對於我們的美寶,出生就是美國公民,即使成績不拔尖,上個美國的普通大學,又有美國身份,那麼他留在美國找個普通工作,也是完全沒有問題的。就不用那麼辛苦了。
自古以來,“父母之愛子,則為之計深遠”。現在就連一線城市的教育差距就這麼大了,有機會為寶寶上更高的一個平台,未來多份選擇,中產爸媽們沒理由不理智選擇一下吧!
三人行必有我師,人生是需要不斷學習的,在這裏我們相遇就是緣分,歡迎大家加羣----四六零五七零八二四----讓我們共同進步!
一、基於大數據的數據分析方法
基於大數據的數據分析方法的理論基礎是數據挖掘和分佈式計算原理。大數據具有海量、快速、多樣化和有價值四個方面的重要特徵,其海量特性使得數據分析是不可能用單台機器完成而是需要多台機器同時運算,也就是所謂的分佈式運算。在大數據時代,大數據技術需要解決兩個難題:一是海量數據在多台機器上的存儲;二是解決如何對多台機器上存儲的數據進行計算分析。大數據技術的基本原理還是聚類、分類、主題推薦等數據挖掘算法的內容,在基於大數據的數據分析方法中,有很多方法都是對原有算法的改進,將原來單機實現的算法改成多台機器的分佈式計算。簡單地説,基於大數據的數據分析方法就是分析工具不一樣的數據分析方法,有的也加入了數理統計的思想。
二、大數據分析常用工具一覽
1.Hadoop大數據生態平台
Hadoop 是一個能夠對大量數據進行分佈式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務器,因此它的成本比較低,任何人都可以使用。
2.Spark,大數據分析的“瑞士軍刀”
Spark 也是 Apache 基金會的開源項目,它由加州大學伯克利分校的實驗室開發,是另外一種重要的分佈式計算系統。它在 Hadoop 的基礎上進行了一些架構上的改良。Spark 與 Hadoop 最大的不同點在於,Hadoop 使用硬盤來存儲數據,而 Spark 使用內存來存儲數據,因此 Spark 可以提供超過Hadoop100 倍的運算速度。但是,由於內存斷電後數據會丟失,Spark 不能用於處理需要長期保存的數據。目前 Spark 完成了大部分的數據挖掘算法由單機到分佈式的改造,並提供了較方便的數據分析可視化界面。
3.Storm,實時大數據處理工具
Storm 是 Twitter 主推的分佈式計算系統,它由 BackType 團隊開發,是 Apache 基金會的孵化項目。它在 Hadoop 的基礎上提供了實時運算的特性,可以實時地處理大數據流。不同於 Hadoop 和Spark,Storm 不進行數據的收集和存儲工作,它直接通過網絡實時地接收數據並且實時地處理數據,然後直接通過網絡實時地傳回結果。
最後,如果想有一羣“臭味相投”的朋友來一起交流學習的話,歡迎大家搜索羣號:460570824,讓我們共同進步!
(2017-09-29)
圖片來源/http://www.51bdtime.com/uploads/allimg/140814
利用數據運營wish店鋪往往能達到事半功倍的效果。Wish店鋪數據如果持續飄紅,店鋪很容易被封店。同時,數據健康與否是考核誠信店鋪的重要依據。因此,賣家要根據實際情況的變化準確把握數據,運籌帷幄,掌控店鋪發展。那麼如何讀懂wish店鋪數據,吉易wish楊莉老師同賣家朋友,細數店鋪爆款各項數據指標。
一、店鋪健康指標
關乎店鋪健康的幾大店鋪指標主要為:仿品率、有效跟蹤率、延遲發貨率、30天平均評分、63-93天退款率。
首先,申報發貨時間也就是填寫物流單號所用的憑據時間,48小時之內必須填寫。
其次,平均確認訂單履行用時,物流單號上網所用的平均時間,一般為48小時之內,物流單號要上網,但是以wish後台抓取的時間為準。產品有效跟蹤比例較容易做到,只要有國內段物流信息就為一個有效的跟蹤單號。
另外,延遲發貨率=延遲發貨的訂單數量/考核周總訂單數,平台的要求為<5%,大於10%,將會被警告。延遲發貨率與申報時長、確認訂單履行用時是環環相扣的。一般而言,訂單產生——訂單審核(大約8小時)——距訂單產生48小時內填寫物流單號——距訂單產生4天內可以查到物流信息。如果訂單產生後,所發貨的物流單號4天之內沒有上網,那就是一個延遲發貨的訂單。
延遲發貨率是賣家要重點關注的數據,因為這項數據被封店的賣家尤其多。已經上上網的訂單號,切記不能亂用,因為已經上網的單號,將來是改不了的。
同時,Wish平台對仿品率的標準為<0.5%,店鋪出現仿品後,誠信店鋪將會被取消。一般在48小時後,賣家需要重新申請仿品審核。仿品率增高,店鋪會被判為非信任店鋪,會嚴重影響店鋪流量。店鋪若多次侵權某個品牌,將有被封店的危險。
再次,Wish平台能接受的評分表現為≧4.5分,若低於4分,平台將會發出警告。當然,低分訂單數超過15%也將會被警告或者暫停。同時,賣家要切記,在wish平台數據評分表現是不可逆的。因此,訂單越少,數據越要做到完美。
最後,退款率=每週收到的退款訂單數/每週收到的訂單總數量。最好低於5%,若大於10%,將會被平台警告。
二、店鋪活躍度指標
關乎店鋪活躍度指標主要方面有:賬號登錄頻繁度,回覆客户問題的速度,是否持續上新,產品優化狀況,訂單處理情況。
就上新而言,賣家在保證選品、編輯質量的前提下,保持自己的節奏持續上新。優化產品方面,賣家要對店鋪數據更新做適時關注,根據需要相應優化數據和標籤。但楊莉老師,建議賣家朋友先做少量優化,觀察一段時間,再重新確定優化方案。對沒有任何表現的產品,賣家可以於普通產品沒有數據的,可以通過CSV批量更新上傳、更新。
三、爆款產品指標
產品瀏覽數也即為推送次數排在越前面越好,爆款瀏覽數最好能達到100萬以上,購買按鈕點擊率≧1.15%(這個數據為吉易老師通過大量數據總結出來的),結賬轉化率≧30%,店鋪數據是否有效的前提是產品持續出單。對於偶然出單的產品,不具説服力。
爆款的成長週期一般為5至7周。產品上架後,1至3周流量表現會比較平穩,但訂單持續增長;4至6周,流量增長幅度較大,訂單相應大幅度增長,數據開始產生;5至6周,流量能夠達到百萬以上。
爆款成長過程中如有中斷,一般是因為仿品率過高,店鋪成為不健康店鋪,或者產品斷貨,另外一個明顯表現就是wish加價。
5至7週中,重點關注每週的訂單數。其中,某周訂單量必須大於上一週訂單量。
作為賣家,想要更好促成爆款,首先要完成數據積累,養成冷靜思考,仔細分析的習慣,切不可盲目跟風,通過數據分析,科學運營店鋪,不僅高效,而且省錢。
(2017-09-24)
留存分析的根本目的在於留住用户,根據分析結果制定對應的策略,以及規劃好產品迭代以更好的保證用户的穩定。
虛榮指標的假面
許多創業公司都喜歡強調自己的用户數。曾聽某個朋友説起,他的公司對外號稱有1400萬企業級註冊用户,他們的用户增長趨勢如圖所示:
然而總用户數就是一個典型的虛榮指標,這個數字只會隨着時間增長(經典的“單調遞增函數”)。它並不能傳達關於用户行為的信息:他們在做什麼?是否對你有價值?他們中的很多人可能只是註冊一下,就再沒有使用過。
一個公司真正需要關注的指標,是可付諸行動的指標。例如留存率,這個指標揭示了產品留住用户的能力,因此顯得格外關鍵。當產品做出調整時,這個指標也會相應地變化。如果調整的思路是正確的,這個比率就應該上升。這就意味着,它可以指導你試驗、學習和迭代。
如你所見,這是數據分析工具系列的第 4 篇:留存分析。
留存的“廬山真面目”
what留存?
留存,顧名思義,就是用户在你的網站/app中留下來,持續使用。一個用户,在你的產品上留存得越久,帶來的收入就越高。 反覆返工提供給
留存的價值
引用《打造 10 億美金產品的核心秘密:用户參與層級模型》中的例子:
現在有兩個公司A和B。A 公司每月新增 500 萬用户,月留存是 80%;B 公司每月新增 250 萬用户,月留存是 95%。
如果兩個產品的留存率不變,六個月之後,他們的月度活躍用户(MAU)見上圖,A 公司領先。
三年之後,B 公司擁有 4200 萬用户,超過了 A 公司的 2500 萬用户。且 B 公司的增長曲線比 A 公司漂亮得多。這就是留存率的巨大影響,複合增長的價值。
解析留存
先來看看次日留存率的計算公式:次日留存率 = 次日留存用户 / 當日新增用户。
由此,可以拆分出留存的三個核心元素:用户、時間、留存動作。
用户
用户是留存分析的對象,一般可以從這兩個角度進行分析:
(1)從用户的獲取角度分析
通過不同渠道獲取的用户的留存率是不同的。舉個栗子,一個主打奢侈品交易的電商APP,如果在今日頭條投放廣告獲取用户,恐怕用户看一眼就走人了。
在不同時段獲取的用户的留存率也是不同的。舉個栗子,一個午夜電台APP,如果用户在早上下載後收聽,很可能因為沒有找到想聽的內容而卸載APP。
(2)從用户的行為角度分析
用户能否留下來,取決於產品功能設計是否滿足了用户的核心需求。所以,我們需要了解新用户使用過哪些功能,或者説發生過什麼行為後,他們留下來了。
我們希望新用户在使用產品時能儘早產生驚喜感——這就是我想要的!希望他們能快速發現產品價值,並且留下來。值得一提的是,用户路徑圖就能幫助我們發現用户是如何一步步發現產品價值的。
時間
這裏的時間,特指用户的在產品上的使用時間。對於不同時期,我們應該有不同策略,總的來説,在振盪期和選擇期,我們應該關注新用户的留存,進入平穩期以後,着重關注產品功能留存。
留存動作
不同的用户行為對我們的價值是不一樣的,例如使用初級功能的免費用户和使用高級功能的付費用户。所以,我們需要查看不同人羣的留存情況,當一個付費用户變為免費用户,某種程度上也可以看做一種流失。
留存實戰:Airbnb,從賣盒裝麥片到13億美元
2008年,Airbnb剛剛成立,因為資金短缺不得不依靠售賣盒裝麥片獲取收入。然而副業很快失敗,到了2009年,Airbnb每週的收入僅200美元,差點破產。在生死存亡的邊緣,他們獲得硅谷創業教父保羅·格雷厄姆的投資。格雷厄姆事後承認:“這羣甚至可以靠賣麥片來掙取收入的人,他們的項目死不了。”
Airbnb曾賣過的盒裝麥片
利用競爭對手提升用户留存
Airbnb成立之初,該領域最大的競爭對手Craigslist擁有Airbnb豔羨的海量用户基數。儘管 Airbnb一直試圖靠塑造差異化的產品形態來將自己與競爭對手區隔開,但一個不可否認的事實是:對於訂房這樣的供需平台服務而言,用户數的多少是人們選擇的首要因素。因為:
供方會選擇潛在消費者最多的平台發佈信息
消費者會挑貨品足夠充足的市場來比價下單
意識到這點後,Airbnb推出了一項功能:允許用户在Airbnb發佈信息的同時,方便地將相同的信息內容複製一份同步發佈到Craigslist上。用户在Airbnb發佈信息後,就會收到一封電子郵件,告知用户:將該信息同時發佈到Craigslist可以幫助您每月增加500美元的收入,您只需要點擊這個鏈接,剩下的交給我們來為您完成。於是用户往往會不假思索地點擊鏈接,畢竟這沒什麼壞處,反倒是增加了許多房源出租信息的曝光量。
這項功能為Airbnb帶來了意想不到的效果:
來自Craigslist的迴流撐起了Airbnb的人氣,許多人紛紛加入註冊,發佈出更多出租的信息;
原本習慣去Craigslist發佈信息的用户,開始變成Airbnb的用户,因為現在只要在一處發佈就能同時出現在兩處;
原本的Airbnb用户的黏性更強了,因為他們確確實實在這裏獲得了更多的收入。
優化用户體驗提升用户留存
2009年,Airbnb發現那年夏天的成交情況並不樂觀。於是創始人開始着手調研此事,他們四處飛行,總共在24家不同的家庭旅店訂房體驗,試圖找出問題根源。
最後終於水落石出,許多在Airbnb上張貼招租信息的人,並不懂得如何在發佈內容時儘可能展現出房間最好的一面。他們拙劣的拍攝技術和糟糕的文案組織,掩蓋了房屋本身的優勢,讓遠在世界另一頭的人隔着屏幕難以做出判斷。
“好吧,這事一點也不奇怪,沒有人會為了不知道會買到的什麼玩意兒而付錢。”創始人説。
遇到這種問題,一般網站的做法是給用户羣發郵件,教會他們如何去拍照,並給他們評估打分。但Airbnb採用了一種看似低效,實則奏效的方式。他們花5000美金租借了一部高檔相機,挨家挨户免費為紐約的許多招租者的房屋拍攝照片。好賣相帶來了好的收益。紐約當地的訂房量很快上漲了兩三倍,月底時Airbnb的收入整整增加了一倍。這一做法日後被複制到了巴黎、倫敦、邁阿密等地。
受益於專業攝影師拍照的房屋,相較同類能獲得兩到三倍的訂單量,隨後Airbnb也能從屋主那裏額外得到每月約1025美金的分成。到2012年,已經有2000餘位自由攝影師受僱於 Airbnb,在六大洲拍攝了超過13000間房屋。
專業攝影師介入後Airbnb的流量增長情況
利用社交網絡提升用户留存
Airbnb這種新興模式的優勢如下:
相比專業酒店賓館,人們往往可以以便宜30%~80%的價格入住家庭旅店
能與當地人交流結識,成為朋友
然而與此同時,潛在的風險也同時出現:不法分子可能借機從事盜竊、搶劫、非法集會等犯罪活動。
Airbnb若想繼續成長,就必須解決用户之間的信任危機。於是2011年夏天,Airbnb開放了社交網絡連接功能,允許用户連接他們的Facebook賬號。當啓用社交網絡連接功能後,人們可以看到自己與房主之間的共同好友是誰,或是哪些朋友曾經租住了這間房。人們也可以根據屋主的地理位置、性別等信息進行搜索,找出感興趣的房源。
當這一產品特性上線後,創始人很快宣佈,Airbnb上已有16516967對好友關係,並且持續猛增。在通過社交網絡解決了最基本的人與人的信任問題後,人們得以方便地考察房東的背景資料,選擇合適的入住對象。來自同一座城市、同一所大學、同一個街區的好友之間的聯繫與交易也更為緊密。
寫在最後
留存分析,本質上是幫助我們瞭解自身產品留住用户的能力,指導我們去試驗、迭代和優化我們的產品。而更重要的,是大家務必理解虛榮指標與可付諸行動的指標的區別:
虛榮指標:一切無法幫助你決策下一步行動的指標
可付諸行動的指標:能揭示信息,指明方向,幫助你改進商業模式,決策下一步行動的指標
漏斗分析到這裏就結束了,下一篇,我會帶來A/B測試。歡迎關注我的數據分析工具系列,我會講述如何改善用户體驗,提升轉化,幫助你更好地運用數據驅動產品運營。
(2017-09-15)
剛開始學習數據分析的同學,會覺得不知道從那開始學習好,哪些是重要的、哪些是不怎麼重要的、哪些是選擇學習的。下面就是整理出來的結果
1. EXCEL、PPT(必須精通)
數據工作者的基本姿態,話説本人技術並不是很好,但是起碼會操作;要會大膽秀自己,和業務部門交流需求,展示分析結果。技術上回VBA和數據透視就到頂了。
2. 數據庫類(必須學)
看你自己學啥用啥,前期可以使用MYSQL。
NoSQL可以在之後和統計學啥的一起學。基本的NoSQL血MongoDB和Redis(緩存,嚴格意義上不算數據庫),然後(選學)可以瞭解各類NoSQL,基於圖的數據庫Neo4j,基於Column的數據庫BigTable,基於key-value的數據庫redis/cassendra,基於collection的數據庫MongoDB。
3. 統計學(必須學)
如果要學統計學,重要概念是會描述性統計、假設檢驗、貝葉斯、極大似然法、迴歸(特別是廣義線性迴歸)、主成分分析。這些個用的比較多。也有學時間序列、bootstrap、非參之類的,這個看自己的意願。
其他數學知識:線性代數常用(是很多後面的基礎),微積分不常用,動力系統、傅里葉分析看自己想進的行業了。
4. 機器學習(數據分析師要求會選、用、調)
常用的是幾個線性分類器、聚類、迴歸、隨機森林、貝葉斯;不常用的也稍微瞭解一下;深度學習視情況學習。
5. 大數據(選學,有公司要求的話會用即可,不要求會搭環境)
hadoop基礎,包括hdfs、map-reduce、hive之類;後面接觸spark和storm再説了。
6. 文本類(選學,有公司要求的話會用即可)
這部分不熟,基本要知道次感化、分詞、情感分析啥的。
7. 工具類
語言:非大數據類R、Python最多;大數據可能還會用到scala和java。
可視化(選學):tableau、d3.js、echarts.js,R裏面的ggplot、ggvis,Python裏的bokeh、matplotlib、seaborn都不錯
其他框架、類庫(選學):爬蟲(requests、beautifulsoup、scrapy),日誌分析(常見elk)
(2017-08-30)