Non-stationary series forecast, or how a data scientist can live in 2020

The pandemic and quarantine have changed the life and behavior of almost every inhabitant of the planet. At the same time, some changes are short-term and disappear with the lifting of quarantine measures, while others may remain with us for a long time, perhaps even forever.

, Dentsu Aegis Network, , . , 2020 , .

 

  ,   () , .        (, , )  ,  .  

,     ,   ,  .  

, , , .

.

:  

  •  —   ,      ( ,    - , , ,   ..,    , - ). 

  •   —  ,       .      , . 

  • TVR   —  ,            . 

  • Affinity   —  ,   ,  ,      (TVR  / TVR  ).

 

·        . Mediascope, . – . , (, ) . , , . : , , , ..  

 ·           .  ()   . , :  \ ,  ,    (,  ..). . 

   : 

 ·        COVID-19. : , , . - 2020 2019 , - 2020 ,   - , .

·        2020   .    100  (100+), 2020     , 100  (100-). ,   ( 100 ) , ( 100 ).    , .    ,  , ,    TVR.  

·          . “”   TVR  0.10. -  TVR 0.05 0.15 ( ),    0.05 / 0.10 = 50% 0.15 / 0.10 = 150%.    .  

·        , , .    . 

·        . 

·         

, , : MS SQL+Python+LightGBM(CPU) – , .

    :     TVR, , , . ,         .    ( ). 

,  Mediascope .  6 . , 4 ,  , ,  (12*4*[ =130] *[ -=24] = 150. )  . 

  . 40 ,   (60*24=1440),    36 . , 6 ( ). 

  2  –  .    , , , , .

, ,     .  130 .

. - , , , . , .

   . - , - . , : 

·         : PCA   .  

·        100- .    ,  100-. . 

·        Anomaly detection. \ TVR .   isolation forest -  . 

·           -. 

 



·         : , , , -, , ,   30 , (, “ ”), . ,      .

·        .     ,  :  

1.      

a.       dummy  +   “100-”, ,   dummy  . 

b.    – ,   .  

  c.     . . 

2.     .1 + dummy  +   “100-” ( ),  dummy , . 

3.      dummy  : . ,  “100-”, .  

  4.     .3 + +   «100-», , . . 

   5.     (!) : +   «100-», . 

 ·        COVID-19. 

1.             . 

2.        :

a.     2020-03-05 - “”

b.     2020-03-25 -

c.      2020-03-28 –

d.     2020-04-06 -

e.     2020-06-01 -

f.       2020-06-14 -

 

3.       .1    -  .  .

  : 

·        , 

·             , 

·          ( ) , . 

, (, ).   ,    . boxplot () 2 4 .

·          .  

1.     95     ( )    . ,     . 

2.     :   TVR         ( .1),   TVR .  

3.      TVR   , . 

·         TVR  log(TVR+1).  TVR, .           .

. , - . 

https://download.dentsuaegis.ru/index.php/s/emtvlKKdPkUCdvn

    

Machine Learning Engineer     developer.  ML Engineer      Clean Code Paradigm,      .   Data Engineer’.   ,   :    MS SQL server  . 

-,   MS SQL.    .  SQLAlchemy .   , ,    (,  MS SQL ?).  :   deadlock’,     .  ,    ,   pyodbc.   :  

1.         ( )      .   constraints,    race condition  deadlock. 

2.     ,  . , : 

a.     Insert into table(col1,col2) values (1,1);

Insert into table(col1,col2) values (1,2);

b.    Insert into table(col1,col2) values

(1,1),

(1,2);

,  )   2  , ) , . 1000  . 

3.     \   merge tables     target table (  target table). 

    .  2 10 - .   , , -  .  , , ,  MS SQL. 

-,  .  ,  : .  , ,   ,  .    .  : 

  1. ,  , \  . (, ) .

  2.      .1. 

   

, . . .      .    .   tableau.  , , ,    , .   avg[(fact – predict) / (fact +predict +epsilon)].   boxplot    .    .  :  

·         TVR  .   R_squared  – . 

·          \  \     

·          -  TVR. 

·            –  ,  . 

, 22 .   .    2 4 : , . 

  : 

 

  

·        (,    ..).  

·         -: -   , - ( ). 

·        :   TVR 2 , . 

·         - .  . 

 




All Articles